Компьютер-Информ || Архив || Рубрики || Поиск || Подписка || Работа || О "КИ" || Карта
Сети домашние и офисные
Игорь Козлов, editor@ci.ru
Проведя несколько часов в хаотических блужданиях по Всемирной паутине с помощью одного из популярных навигаторов, таких как Netscape Navigator или MS Internet Explorer, вы будете поражены обилием и разнообразием представленной там информации. Однако у вас может возникнуть вопрос: как найти в бескрайних просторах сети Интернет именно ту информацию, которая вам нужна?
Все самое интересное в Интернет находится на серверах WWW, FTP, а также на серверах электронных новостей или, как их еще называют, серверах электронных конференций. Серверы WWW наиболее популярны и содержат не только текстовую и графическую, но и мультимедийную информацию, включая звук и видео. На серверах FTP хранятся файлы. Что же касается серверов электронных новостей, то они предназначены для обмена сообщениями и произвольными файлами между всеми желающими. Любой файл, документ или другой объект имеет в Интернет свой электронный адрес. Для того чтобы найти нужный вам объект, вы должны узнать его адрес. Указав этот адрес навигатору, вы сможете просмотреть объект или переписать его на диск своего компьютера.
Одной из главных отличительных особенностей виртуального информационного массива является высокая степень его динамики. Каждую секунду в Сети появляются новые материалы, какая-то их часть по разным причинам удаляется с серверов, другая же меняет адресацию. Это постоянное обновление с одновременным ростом объема делает крайне сложным учет всех или, по крайней мере, большинства документов, существующих в Интернет. Ситуация в данном случае очень напоминает известную задачу поиска иголки в стоге сена.
Важность проблемы информационного поиска в Интернет породила целую отрасль, задача которой заключается именно в том, чтобы помочь пользователю в его навигации в киберпространстве. Составляют эту отрасль специальные поисковые инструменты. Условно их можно разделить на поисковые средства справочного типа или просто справочники (directories) и поисковые системы в чистом виде (search engines).
Крайне важно уметь точно определять вид конкретного поискового средства и не путать их, поскольку от выбора "оружия" во многом зависит стратегия поисковой деятельности и, в конечном итоге, результат.
Поисковые средства данной группы, называемые еще каталогами или рубрикаторами, представляют собой электронные справочники, имеющие привычную для информационных работников иерархическую систематическую или логико-тематическую структуру, несколько напоминающую структуру систематического каталога библиотеки: в них все расклассифицировано по рубрикам: "Спорт", "Развлечения", "Компьютеры" и т. п.
На начальной странице поискового каталога мы выбираем тему, которая нас интересует, затем в рамках темы выбираем категорию, потом подкатегорию и так далее, пока не получим конкретный список Web-ресурсов, рекомендованных для просмотра. Крупнейшим поисковым каталогом мира сегодня считается поисковая система Yahoo! (www.yahoo.com) Она предоставляет примерно 1 млн ссылок к ресурсам WWW, то есть, охватывает чуть более тысячной доли всего Web-пространства.
Работа со справочниками позволяет ориентироваться в ресурсах Интернет в пределах отдельных отраслей знания, углубляясь от общего к частному, менять иерархические ветви и т. д.
Главной отличительной особенностью, основным недостатком и, в то же время, достоинством поисковых каталогов является то, что все они сделаны "вручную". Специальные команды каталогизаторов каждого из справочников регулярно просматривают содержимое вновь появившихся серверов и следят за изменениями на уже существующих. Выявленные данные анализируются и заносятся в разделы справочника в соответствии с принятой классификацией. При этом описание сервера в целом или его раздела, если он представляется вполне самостоятельным блоком, снабжается краткой аннотацией, содержащей самые общие сведения о характере имеющейся информации.
Кроме собственных редакторов, служба использует и информацию, поставляемую Web-мастерами. Так, например, теоретически, любой владелец Web-страницы может самостоятельно заполнить положенную анкету и направить ее в адрес службы. Правда, гарантии того, что страница будет включена в каталог Yahoo!, это не дает, поскольку служба не замусоривает свои каталоги ссылками на страницы-однодневки. Клиентов службы всегда раздражают ссылки, указывающие на давно не существующие ресурсы. Чтобы не иметь особой головной боли по проверке актуальности хранящихся ссылок, служба Yahoo! предпочитает скрупулезно подходить к формированию своих каталогов. Тщательность в подборе информации обеспечивает высокую репутацию Yahoo!, несмотря на то, что совокупный объем ее ресурсов крайне мал.
Другой подход к формированию каталога демонстрирует поисковая служба Open Directory (dmoz.org). В качестве источника для своих ресурсов она привлекает пользователей WWW, которые на добровольной основе делают обзоры понравившихся им Web-страниц, каталогизируют их и размещают ссылки на них на центральном сервере службы. Поскольку число добровольных помощников может быть очень большим, у этой службы есть все шансы перекрыть успех Yahoo!. Но принцип добровольности не гарантирует качественности работы, поэтому каталоги, равные Yahoo! по качеству, по-видимому, появятся еще не скоро.
Естественно, что подобным образом можно описать лишь незначительную часть ресурсов Сети, да и то только весьма крупные объекты, такие как, например, отдельные серверы организаций и учреждений. Однако при поиске информации по какой-то достаточно общей теме, лучше всего начать именно с каталога, особенно, если вы уже умеете в нем ориентироваться.
Основными критериями качества справочников являются:
Объем справочника определяет уровень его надежности или "информационную прочность". От этого зависит степень доверия, которую пользователи питают к каждому конкретному каталогу. Поскольку материалы в Интернет появляются и изменяются ежедневно, важно знать, насколько актуально содержание справочника, как быстро появляются ссылки на новые сайты и исправляются старые. Логичность применяемой схемы классификации определяет степень легкости, с которой пользователи могут находить требуемые сведения. Система же перекрестных ссылок позволяет находить информацию, используя разные подходы (например, территориальный или отраслевой). В этом случае схема классификации должна автоматически выводить пользователя на искомый объект, какой бы путь поиска ни был выбран.
Поисковые возможности, вернее, возможности составления запроса для этого вида поисковых средств особой роли не играют, так как сложные поиски, требующие большой детализации запроса, с помощью рубрикаторов не проводятся.
Предназначены справочники для решения задач двух видов: первичная ориентация в незнакомой отрасли знания и поиск крупных объектов, каковыми являются, к примеру, серверы целых организаций или значительных проектов. Следует помнить, что, обращаясь к справочникам, мы заведомо можем рассчитывать только на получение общих сведений по тематике, и никогда - детальных данных. Понять это помогает простой пример, когда от сервера крупной корпорации, например, Delta Airlines, содержащего многие тысячи страниц, в справочнике будет представлено лишь название и несколько строк аннотации.
Каталоги Web охватывают лишь малую долю страниц, в принципе доступных во Всемирной паутине. И здесь вступают в игру поисковые серверы, наподобие AltaVista, HotBot или Lycos. В основу работы поисковых средств в чистом виде (поисковых машин) заложены совершенно иные технологические принципы. Для того чтобы индекс поисковой системы не устаревал, используются специальные программы, именуемые "пауками" (spiders) или "личинками" (bots), которые двигаются по связям от страницы к странице, фиксируя на каждой все ее содержимое или какой-то его фрагмент. В конечном счете, таким путем удается пройти значительную часть Сети.
Задача поисковых машин - вести поиск по ключевым словам из полных текстов Web-документов, то есть, проводить максимально детальное разыскание информации в электронной вселенной. В отличие от справочников, все они функционируют полностью в автоматизированном режиме, имеют одинаковый принцип деятельности и состоят из двух основных блоков.
Первый блок представляет собой программу-робот, задача которого - путешествовать с сервера на сервер, находить там новые или изменившиеся документы и передавать их на свой базовый компьютер. Чаще всего роботы просматривают серверы самостоятельно, находя новые внешние ссылки в уже обследованных документах, действуя, таким образом, по известной методике "снежного кома".
Выявленные документы обрабатываются вторым блоком поисковых машин. При этом учитывается все содержание страниц, зачастую даже не только полный текст, но и наличие иллюстраций, аудио- и видеофайлов, Java-приложений. Индексации подвергаются все слова в документе, что как раз и дает возможность использовать поисковые системы для детального поиска по самой узкой тематике. Образуемые гигантские индексные файлы, хранящие информацию о том, какое слово, сколько раз, в каком документе и на каком сервере употребляется, и составляют базу данных, к которой происходит обращение пользователей, вводящих в поисковую строку сочетания ключевых слов. Выдача результатов осуществляется с помощью специальной подсистемы, которая производит интеллектуальное ранжирование результатов, опираясь в своих расчетах на местоположение термина, частоту его повторения в тексте, процентное соотношение данного термина с остальным текстом на данной странице.
Основные параметры поисковых систем:
Первая величина, являющаяся важнейшей, устанавливает широту охвата материала и определяется числом проиндексированных документов. Сейчас эта цифра для лидеров сетевого поиска колеблется в пределах от 45 до 150 миллионов.
Учитывая тот факт, что в среднем Интернет-адрес сохраняет актуальность до полугода, после чего документ или меняет местоположение или убирается с сервера, большое значение имеет уровень оперативности обновления данных, характеризующий степень соответствия индексного файла системы реальному местонахождению документов на сайтах.
Возможности поискового механизма выражать запрос максимально точно в значительной степени предопределяют долю релевантных документов в перечне полученных результатов. Каждая машина имеет свою собственную лексику, которая по-разному позволяет детализировать поисковое предписание. Все современные поисковые машины обладают возможностью ранжировать результаты поиска в зависимости от местоположения и частоты повторения искомых понятий в документе. Например, документы, в которых искомый термин встречается в названии или заголовке страницы или же повторяется несколько раз в тексте, выдается в начале списка результатов. Не последнюю роль играет простота интерфейса, наличие дополнительных сервисных функций, как, например, возможность перевода текста документа на иностранный язык, способность выделять все документы с определенного сайта, сужение критериев в ходе поиска, нахождение документов "по образцу" и т. д.
По этим параметрам среди внушительного числа поисковых систем выделяются несколько наиболее признанных, позволяющих выявлять информацию с высокой степенью полноты и надежности.
Абсолютно все всемирно известные справочники и поисковые системы в настоящее время превратились во внушительные корпорации с ежегодными многомиллионными доходами. Заработав авторитет наиболее посещаемых мест в Сети, они предоставляют свои страницы для размещения рекламной информации, доходы от которой и составляют основу их бюджета. Постепенно поисковые серверы превращаются в образования, именуемые порталами, где поисковый сервис является главной приманкой для пользователей, но далеко не единственной из предоставляемых услуг. Помимо поиска информации, такие серверы обычно предоставляют пользователям бесплатную электронную почту, возможность размещать свои страницы, а также сведения о погоде, текущих новостях, биржевые котировки, карты местности (США и Канада) и т. д.
Приступая к информационному поиску в Интернет, следует всегда помнить несколько основных моментов. Прежде всего, никакие средства навигации - справочники или поисковые машины - не охватывают всего текущего информационного массива Интернет. По некоторым оценкам, даже такие признанные лидеры сетевого поиска как AltaVista, Northern Light или HotBot отражают не более 10-15 % содержания Сети, и цифра эта продолжает снижаться. Причина - колоссальный прирост объемов информации в сети Интернет, которая, несмотря на все усилия навигационных служб, все более и более превращается в кибернетические джунгли.
Также практически все поисковые системы имеют внутренние ограничения на отражение материалов одного сайта. Так, Alta Vista даже в идеале берет не более 60 % информации с отдельного сервера, а все остальное остается неучтенным. Роботы других поисковых механизмов не идут в глубь сервера дальше определенной директории, что также сокращает число отраженных материалов. В то же время, некоторые серверы имеют собственную систему поиска, которая покрывает весь их информационный массив. Выявив такие серверы с помощью справочников или поисковых систем, можно провести более детальное их обследование, использовав локальный поисковый механизм. Например, при поиске сведений о конкретном виде креветки, искусственно разводимой человеком, весьма рациональным будет найти и просмотреть серверы, посвященные в целом аквакультуре - отрасли, занимающейся выращиванием морепродуктов в искусственных теплых водоемах, а при выявлении данных о конкретном заболевании - серверы учреждений, ведущих исследования в данной области.
Таким образом, для достижения наиболее полных результатов следует применять справочники и поисковые системы в сочетании друг с другом.
Существует также ряд общих требований к поисковой деятельности, соблюдение которых повышает эффективность и экономит время, затрачиваемое на поиск данных.
Для поиска материалов по крайне узкой специфической тематике стоит начинать с мета-машин, дабы сразу получить представление о том, насколько богато данная проблематика представлена в Интернет.
Для получения более полных результатов по сложному запросу (например, там, где есть ограничения не только по содержанию документа, но и по дате обновления или местоположению документов), поиск рекомендуется проводить отдельно в каждой поисковой машине. Поисковые системы имеют сильный разнос в отражении документов, и их последовательное использование в значительной степени расширяет охват материала.
При поиске документов об отдельной стране или на конкретном языке следует отдать предпочтение национальным/региональным поисковым средствам. Так, например, при поиске материалов на испанском языке, стоит обращаться не к глобальным, а к испанским поисковым системам, например, Trovator (http://www.trovator.com).
Формировать запрос надо максимально точно, используя все возможности механизма составления запроса. Затраты времени на детальное составление поискового предписания окупаются при анализе результатов поиска. При точном формировании запроса процент информационного шума будет намного ниже.
Итак:
При составлении запроса на текстовый материал всегда стоит мысленно представить, каким может быть предполагаемое содержание документа. При поиске источников об А. С. Пушкине недостаточно просто ввести его фамилию (список результатов будет изобиловать адресами всевозможных учреждений, расположенных на улицах Пушкина в разных городах). Гораздо больший эффект принесет поиск по названиям произведений поэта. Для поиска же текстов произведений, наоборот, стоит ввести строки из произведений (например, для поиска поэмы "Евгений Онегин" - "Мой дядя самых честных правил" - как фраза).
Описывая поисковую систему, нельзя не сказать о том, как правильно нужно задавать запросы, чтобы получить необходимую пользователю информацию и в полном объеме.
Чем разумнее вы составите свои запросы, тем лучше будут результаты. Попытайтесь ввести несколько слов или словосочетание, относящееся к теме вашего поиска, - например, san francisco hotel, если вы ищете, где бы вам переночевать, находясь в городе у залива.
Чем конкретнее вы формулируете запрос, тем лучше. Не беспокойтесь об избыточности - синонимы помогут сузить поле вашего поиска. Отбросьте незнаменательные слова типа предлогов и артиклей (of, to, and, the и т. п.) - большинство систем поиска их все равно игнорируют.
Язык и правила запросов на большинстве поисковых серверах схожи, но, тем не менее, существуют некоторые отличия. В некоторых серверах для поиска фразы целиком необходимо в запросе между словами поставить знак "+" или служебные слова "И/ИЛИ", "AND/OR" (InfoSeek), в других достаточно просто ввести всю фразу (AltaVista). Как правило, на всех поисковых серверах существует ссылка на страницу, где приведены основные правила и советы по построению запросов.
Если число найденных страниц измеряется сотнями или тысячами, ваш запрос, вероятно, слишком широк. Не найдя того, что вам нужно, на первых двух-трех страницах результатов поиска, остановитесь. Повторите поиск снова, используя слова с более конкретными значениями или ограничив варианты поиска. Вместо простого "детектив" запросите "Эркюль Пуаро".
Не бойтесь пробовать свой запрос на разных поисковых серверах. Зачастую тот же запрос на другом сервере дает совершенно иные результаты. Приведенная ниже информация поможет вам быстрее и качественнее находить необходимые сведения.
| Правила поиска | Пример |
| Если вы набрали в запросе слово с большой буквы, будут найдены только слова с большой буквы (если это слово не первое в предложении), в противном случае будут найдены как слова с большой, так и с маленькой буквы | Например, по запросу "путина" найдется и президент, и сезон интенсивного рыболовства. А по запросу "Путина" - президент и те случаи упоминания рыболовного сезона, когда он написан с большой буквы |
| Независимо от того, в какой форме вы употребили слово в запросе, поиск учитывает все его формы по правилам русского языка | Если задан запрос "идти", то в результате поиска будут найдены ссылки на документы, содержащие слова "идти", "идет", "шел", "шла" и т. д. |
| По умолчанию поиск учитывает все формы заданного слова согласно правилам русского языка. Однако существует возможность поиска по точной словоформе, для этого перед словоформой надо поставить восклицательный знак "!" | Так, по запросу "!Лужкову" будут найдены все документы, содержащие словоформу "Лужкову", а по запросу "Лужков ~!Лужкову" - документы, в которых упоминается Лужков, кроме тех, которые были найдены по первому запросу |
| Знаки "+" и "-" помогут пользователю создать запрос, на основе которого он сможет увидеть результат, в котором обязательно будут найдены слова (если поставить знак "+") или же данные слова исключатся из запроса | Например, запрос "частные объявления продажа велосипедов", выдаст много ссылок на сайты с разнообразными частными объявлениями. А запрос с "+" "частные объявления продажа +велосипедов" покажет объявления о продаже именно велосипедов |
| Если поставить словосочетания в кавычки, то будут найдены те документы, в которых эти слова идут строго подряд | Например, по запросу "красная шапочка" будут найдены документы с этой фразой. При этом текст "а шапочка у нее была красная" найден не будет |
| Вместо одного слова в запросе можно подставить целое выражение. Для этого его надо взять в скобки | Например, запрос "(история, технология, изготовление) /+1 (сыра, творога)" задает поиск документов, которые содержат любую из фраз: "история сыра", "технология творога", "изготовление сыра", "история творога" |
| Задание уточняющего слова или выражения применяется для того, чтобы увеличить релевантность документов, содержащих уточняющее выражение. Синтаксис: <- слово или <- (уточняющее_выражение) | По запросу "компьютер < - телефон" будут найдены все документы, содержащие слово "компьютер", при этом первыми будут выданы документы, содержащие слово "телефон". Если ни в одном документе со словом "компьютер" нет слова "телефон", результат запроса будет эквивалентен запросу "компьютер" |
После того как вы просмотрели каталоги и задействовали поисковые серверы, в вашем распоряжении оказывается целый ряд Web-страниц и программных средств, которые помогут вам найти все, что нужно. Они распадаются на три группы: метапоисковые инструменты (metasearch tools), которые одновременно посылают один и тот же запрос на несколько поисковых серверов, ассистенты (search assistants), помогающие эффективнее управлять поиском, и автономные браузеры (offline browsers), которые проверяют Web-страницы и загружают их в случае появления там чего-либо нового. Например, их можно использовать для отслеживания прогноза погоды, новостей спорта, различных котировок акций и других новостей.
Среди бесплатных программных продуктов, обеспечивающих подобную периодическую загрузку выбранного спектра информации, можно указать программу FreeLoader 2.0 (http://www.freeloader.com), которая позволяет составить расписание загрузки таким образом, чтобы избежать пиковых часов Интернет (взамен придется мириться с рекламными шапками над панелью инструментов) и PointCast (http://www.pointcast.com), поставляющую новости по излюбленным темам и использующую специальный хранитель экрана в Windows для показа заголовков новостей. Коммерческие программы, безусловно, предоставляют большие возможности, но за них уже приходится платить. Цена их - от $20 и выше.
В Интернет немало интересных русских текстов, так что необходимость поискать информацию на русскоязычных страницах возникает довольно часто. Однако эффективно делать это мешают особенности, во-первых, русского алфавита, а во-вторых, русского словоизменения.
Главная проблема русского алфавита - неединственность: на одних русскоязычных узлах господствует КОИ-8, на других - кодировка Windows (1251). Не так уж мало, особенно за рубежом, и транслитерированных страниц (этот способ представления русских текстов иногда называют Ruglish), часто не продублированных ни одной из собственно русских кодировок. Добавьте к этому еще и отсутствие единого общепринятого способа транслитерации.
Поэтому, собирая в Сети информацию, скажем, о Митьках, вы получите один список узлов, задав поисковому серверу слово "Митьки" в кодировке 1251; другой - если сумеете ввести его в КОИ-8 (как это сделать, можно узнать, например, в "Совинформбюро" - http://www.siber.com/sib/russify/); третий - если наберете латиницей Mit'ki; четвертый - если Mitki. Кое-какие страницы из разных списков будут, разумеется, дублировать друг друга, но совпадений обычно меньше, чем мы склонны предполагать заранее.
Не следует также забывать, что, в отличие от латиницы, где запросы можно вводить одними строчными буквами, а сервер будет искать также слова с соответствующими заглавными, для русских букв этого, естественно, не происходит. Так что в запросе о текстовом редакторе "Лексикон" лучше написать "ЛЕКСИКОН OR Лексикон".
Другая проблема, как уже говорилось, связана с русской морфологией. Понятно, что, если слово "Митьки" интересует нас не только в именительном падеже (мы хотели бы получить все страницы, где есть что-нибудь "о Митьках", "про Митьков", "Митьковское" и т. д.), надо усечь образец для поиска до "Митьк". Если же нам требуются также страницы, на которых упомянут какой-либо отдельный представитель этой группы ("Митек"), придется либо усекать этот образец вообще до "Мит" (и налетать на "митрополита", "Митчелл" и Бог знает кого еще), либо давать запрос "Митьк OR Митек". Не очень удобно, особенно учитывая необходимость повторить это в разных кодировках; к тому же не всегда легко сообразить, какие варианты основы есть у данного слова.
Чтобы избежать хотя бы некоторых неприятностей, можно отправиться на сервер фирмы CompTek. Эта фирма разработала систему поиска (она называется Яndex - "языковой индекс"), учитывающую особенности русского языка, и в рекламных целях открыла у себя страничку для отправки через эту систему запросов к AltaVista. Слова в запросе, который вы вводите на сервере CompTek, автоматически "размножаются" и передаются на AltaVista уже во всех формах - все, что нужно, и ничего лишнего.
Еще одно очень полезное свойство сервера - переключение кодировок: чтобы отправить один и тот же запрос в разных кодировках, не нужно вводить его дважды. Введенный один раз запрос будет автоматически перекодирован при выборе новой кодировки (вам останется только поменять шрифт для просмотра результата). Кодировок на сервере две - КОИ-8 и 1251. Этого хватает: хотя некоторые узлы имеют страницы в других кодировках, все такие страницы продублированы в кодировке КОИ-8 или 1251 (а часто и в обеих).
С транслитерацией Яndex, увы, не работает - слишком много существует разных ее форм, иногда непоследовательных (одно и то же слово на одной и той же странице может быть написано по-разному). Поиск на подобных страницах очень труден в любом случае, поэтому будем надеяться, что их авторы рано или поздно (лучше, конечно, раньше, чем позже) перейдут с латиницы на кириллицу. А в кириллице работать с поисковой страницей CompTek - одно удовольствие. Так что, наслаждайтесь: http://www.cti.ru/alta.html.
В настоящее время среди отечественных поисковых машин выделяется тройка лидеров - Яndex, "Апорт" и Rambler. Все они имеют схожий интерфейс, основным элементом которого является строка поиска, куда вводится поисковый запрос и кнопка "Найти", нажатие которой активизирует поиск по запросу.
Каждая из вышеперечисленных поисковых машин имеет свои достоинства и недостатки, обусловленные реализацией алгоритмов поиска и внутренней программной реализацией, но на текущий момент определенная часть аналитиков и пользователей ставят поисковую систему Rambler первое место среди аналогичных поисковиков. В связи с этим для знакомства с поисковыми машинами мы будем использовать именно Rambler.
Поисковый запрос может состоять из одного или нескольких слов, в нем могут присутствовать знаки препинания. Составлять простые запросы можно и не вдаваясь в тонкости языка запросов. Так, если ввести в поисковую строку несколько слов без знаков препинания и логических операторов, будут найдены документы, содержащие все эти слова (причем на ограниченном расстоянии друг от друга). Однако знание и правильное применение языка запросов поисковой машины поможет сделать ваш поиск быстрым и эффективным.
В общем случае, регистр написания поисковых слов и операторов значения не имеет, то есть "дом" и "ДОМ", "Not" и "nOt" воспринимаются одинаково. И лишь иногда, в целях повышения качества поиска, регистр слов поискового запроса принимается во внимание.
Например, если запрос состоит из двух, трех или четырех слов, каждое из которых написано с большой буквы, то предполагается поиск по имени собственному, и автоматически производится изменение ограничения расстояния между словами запроса со значения по умолчанию на величину (n-1)*2, где n - количество слов запроса. Это позволяет находить группу слов запроса, внутри которой есть не более одного "лишнего" слова или знака препинания, например, "Баден-Баден", "А. Пушкин", "Федор Михайлович Достоевский".
Запрос, состоящий из нескольких слов, может содержать операторы. Поиск операторов в документе не производится, они служат лишь инструкцией поисковой машине. Все операторы поисковой машины бинарные, то есть, имеют левую и правую часть, каждая из которых также является запросом (по умолчанию состоящим из одного слова). Для изменения сферы действия операторов (группировки нескольких слов запроса в аргумент оператора) применяются скобки и кавычки.
Два запроса, соединенные оператором AND (логическое "И") образуют сложный запрос, которому удовлетворяют только те документы, которые одновременно удовлетворяют обоим этим запросам. Иными словами, по запросу "собака AND кошка" найдутся только те документы, которые содержат и слово "собака", и слово "кошка".
Сложному запросу, состоящему из двух запросов, соединенных оператором OR (логическое "ИЛИ") удовлетворяют все документы, удовлетворяющие хотя бы одному из этих двух запросов. По запросу "собака OR кошка" найдутся документы, в которых есть хотя бы одно из слов "собака" или "кошка" (либо оба эти слова вместе).
Оператор NOT (логическое "И-НЕ") образует запрос, которому отвечают документы, удовлетворяющие левой части запроса и не удовлетворяющие правой. Так, результатом поиска по запросу "собака NOT кошка" будут все документы, в которых есть слово "собака" и нет слова "кошка".
Если оператор явно не указан, используется оператор по умолчанию AND: находятся только документы, содержащие все слова запроса. Так, запрос "информация технологии кредит" будет истолкован как "информация AND технологии AND кредит". На странице расширенного поиска оператор по умолчанию можно заменить на OR (искать слова запроса: хотя бы одно). Каждый из операторов имеет сокращенное обозначение:
AND <=> &
Or <=> |
NOT <=>!
Запрос из нескольких слов, перемежающихся операторами, будет истолкован в соответствии с их приоритетом. Операторы AND и NOT традиционно имеют более высокий приоритет, поэтому запрос из нескольких слов при обработке сначала группируется по операторам AND и NOT, и лишь потом по операторам OR. Изменить порядок группировки можно использованием скобок.
Для поиска цитат можно использовать двойные кавычки. Слова запроса, заключенного в двойные кавычки, ищутся в документах именно в том порядке и в тех формах, в которых они встретились в запросе.
Таким образом, двойные кавычки можно использовать и просто для поиска слова в заданной форме (по умолчанию слова находятся во всех формах). Например, запросу "самолет "заправился" посадка" удовлетворяет документ, содержащий текст "... самолет совершил посадку и заправился...", и не удовлетворяет документ, содержащий ".. самолет совершил посадку, чтобы заправиться...".
При построении запросов иногда возникает необходимость объединения слов запроса в группы, которые будут аргументами некоторого оператора. Такие группы заключаются в скобки.
Часть запроса, заключенная в скобки, сама является запросом, и на нее распространяются правила языка построения запросов. Использование скобок позволяет строить вложенные запросы и передавать их операторам в качестве аргументов, а также перекрывать приоритеты операторов, принятые по умолчанию.
Если запрос без скобок "машина самолет | аэродром" эквивалентен запросу "машина AND самолет OR аэродром" и, в соответствии с приоритетами операторов, означает "найти документы, содержащие либо слова "машина" и "самолет", либо слово "аэродром", то запрос со скобками "машина (самолет | аэродром)" равносилен запросу "машина AND (самолет OR аэродром)", что означает "найти документы, содержащие слово "машина" и одно из слов "самолет" или "аэродром".
Каждый запрос, адресованный поисковой машине Rambler, обрабатывается в соответствии с правилами языка запросов. Некоторые слова и символы трактуются как операторы языка запросов и обрабатываются специальным образом. Фактически, языком запросов описывается некая формула, которая используется при поиске: каждый из документов сопоставляется с ней, и результатом поиска являются только те документы, которые ей удовлетворяют.
Например, запросу "самолет" удовлетворяют все документы, в которых хотя бы раз встретилось слово "самолет" в любой форме. Запросу, состоящему из нескольких слов, удовлетворяют документы, содержащие каждое из этих слов в любой форме (при некоторых условиях). Вопрос соответствия документа более сложному запросу определяется логикой операторов и конструкций языка запросов.
По каждому слову запроса поиск ведется с учетом правил словоизменения соответствующего языка. Rambler понимает и различает слова русского и английского языков - по умолчанию поиск ведется по всем формам слова.
Например, при поиске по слову "человек" будут также найдены документы, содержащие слова "человеку", "человеком", "человека" и даже "люди". Чтобы провести поиск только по одной определенной форме слова, нужно взять его в двойные кавычки или воспользоваться поиском точной фразы в расширенном поиске.
Некоторые слова и символы по умолчанию исключаются из запроса в связи с их малой информативностью. Это так называемые стоп-слова - самые частотные слова русского и английского языков, например, предлоги, частицы и артикли. Присутствие этих слов может замедлить поиск и негативно повлиять на полноту результатов. Есть возможность обозначить необходимость этих слов в запросе, взяв запрос в двойные кавычки или воспользовавшись поиском точной фразы в расширенном поиске.
Если запрос составлен из одного или нескольких слов без применения операторов и конструкций языка запросов, то будут найдены документы, в которых встречаются все слова запроса. При этом для каждого запроса всегда существует так называемое ограничение контекста - положительное число, по умолчанию равное расстоянию в 40 слов. Документ, в котором встретились все слова запроса, будет выдан только в том случае, если расстояние в словах между вхождениями слов запроса будет меньше этого числа. Например, по запросу "красная армия" будут найдены те документы, в которых слова "красная" и "армия" хотя бы один раз встретятся менее чем в 40 словах друг от друга.
Значение ограничения контекста можно изменять конструкцией "(число, запрос)", где число - любое положительное число, запрос - любой корректный с точки зрения поисковой машины запрос, состоящий более чем из одного слова (очевидно, ограничение расстояния между словами в случае однословного запроса не имеет смысла). Таким образом, по запросу "(2, красная армия)" найдутся только те документы, в которых между словами "красная" и "армия" хотя бы раз не стоит ни одного слова (поскольку лишь в случае их непосредственного соседства разница в порядковых номерах слов меньше 2, т. е. равна 1).
Если запрос состоит из нескольких слов, и при этом некоторые из них вообще не удалось найти в Интернет, то выдаются результаты поиска по частичному запросу, из которого отсутствующие в Интернет слова исключены. При этом на странице результатов поиска выдается соответствующая диагностика.
Рубрики || Работа
|| Услуги || Поиск
|| Архив || Дни
рождения
О "КИ" || График
выхода || Карта сайта || Подписка
Рассылка анонсов газеты по электронной почте
Сайт газеты "Компьютер-Информ" является зарегистрированным электронным СМИ.
Свидетельство Эл 77-4461 от 2 апреля 2001 г.
Перепечатка материалов
без письменного согласия редакции запрещена.
При использовании материалов газеты в Интернет гиперссылка обязательна.
Телефон редакции (812) 718-6666, 718-6555.
Адрес: 196084, СПб, ул.Заставская, д.23, БЦ "Авиатор", 3-й этаж, офис 307
e-mail: editor@ci.ru
Для пресс-релизов и новостей news@ci.ru