Технология поиска информации в Интернете

Сегодня Интернет объединяет множество разных сетей, миллионы компьютеров, около 300 миллионов пользователей (данные от Robert Orenstein) всех континентов, и, по разным оценкам, число таких пользователей увеличивается на 15-80% ежегодно. Можно выделить два основных направления использования Интернета в бизнесе. Это оперативный доступ к поистине необозримым кладезям информации по любой тематике (на сотнях тысяч информационных серверов), поиск и интерактивное общение с партнерами, практически в любой специализации и географическом расположении. Как сориентироваться в столь масштабном информационном пространстве? Для этого существуют специализированные поисковые серверы. Их можно разделить на тематические каталоги, роботы индексов (поисковые машины), системы метапоиска. Также для поиска необходимой информации в Интернете весьма полезны системы поиска в конференциях Usenet и службы поиска людей.


Тематические каталоги

Наиболее популярным во всем мире признан тематический каталог Yahoo! (www.yahoo.com). Он представляет собой огромную базу данных URL-адресов сайтов самой различной тематики. Yahoo! предлагает вам воспользоваться иерархическим деревом при поиске информации. Т.е. вы выбираете сначала общую тематику, удовлетворяющую вашему запросу, и далее конкретизируете, следуя подсказкам каталога. В конечном итоге вы получаете список сайтов, содержащих информацию, соответствующую вашему запросу. На Yahoo! вы также можете пойти и по другому пути. Проанализируйте предполагаемое содержание запрашиваемой информации и выберите ключевые слова, которые обязательно встретятся в интересующих вас материалах или их заголовках. Набираете эти слова через пробел в строке ввода на главной странице Yahoo! и нажимаете Enter. Система попытается сама подобрать интересующую вас информацию. Так как Yahoo! - система англоязычная, то достаточно удобно использовать Интернет-переводчик, такой, как "Сократ Интернет" (www.arsenal.ru).

Если же вы ищете информацию заведомо русскоязычную, то имеет смысл использовать российские и местные белорусские каталоги. Принцип работы с ними идентичен тому, который мы рассмотрели на примере с Yahoo!. Здесь стоит отметить первый российский каталог Russia on the Net (www.ru) - один из крупнейших русскоязычных каталогов List.RU (www.list.ru), российский вариант Yahoo! (www.yahoo.ru). Имеет место также каталог "Созвездие Интернет", содержащий только избранные (заявлено как самые интересные) ресурсы. Среди белорусских каталогов стоит отметить наш национальный Yahoo! (unclesam.hypermart.net), новый быстроразвивающийся сервис 09 (www.09.open.by), сервер Unibel (www.unibel.by) и небольшую базу данных без возможности поиска Data (www.data.minsk.by). Говоря о базах данных, нельзя не вспомнить замечательный российский проект "Желтые страницы Интернета" (www.piter-press.ru/yp), где, как и в одноименной книге, представлена детальная информация о самых разных ресурсах Интернета.

В бизнесе также понадобятся каталоги предприятий и каталоги товаров и услуг. Пожалуй, самый крупный каталог предприятий СНГ Партнер (trifle.net/cis). В Интернете представлен и популярный белорусский каталог ТелеМедиа - "Бизнес Беларусь 99" (www.telemedia.minsk.by). Есть и другие белорусские каталоги "Каталог белорусских товаров и услуг" (www.open.by/abase), "Информационно-поисковая система товаров и производителей РБ на сервере Могилевской области" (enterprises.res.mogilev.by/EnterLogin.asp?Lang=R) и другие.

 


Роботы индексов или поисковые машины

Поисковые машины устроены несколько иначе. По сути, это сервер с огромной базой данных URL-адресов, который автоматически обращается к страницам WWW по всем этим адресам, изучает содержимое этих страниц, формирует и прописывает ключевые слова со страниц в свою базу данных (индексирует страницы). Более того, этот сервер обращается по всем встречаемым на страницах ссылкам, и переходя к новым страницам, проделывает с ними то же самое. Так как почти любая страница WWW имеет множество ссылок на другие страницы, то при подобной работе поисковая машина в конечном результате теоретически может обойти все сайты в Интернете. Самая популярная поисковая машина AltaVista (www.altavista.com) содержит 11 миллиардов слов, извлеченных из 30 миллионов WWW-страниц. Как пользоваться этим сервисом? Необходимо продумать строку запроса информации (не более чем 5 слов), как в случае с Yahoo!, и также набрать ее в поле ввода. Над кнопкой Search (Поиск) находится ниспадающее меню с выбором языка. Перед нажатием Enter или кнопки Search необходимо выбрать язык представления информации. Кроме того, в запрос информации можно включать специальный символ "*", расширяющий диапазон поиска. Скажем, чтобы AltaVista могла найти не только все вхождения слова "легкая", но слова "легкую", "легкой" и т.д., в запросе надо писать "легк**". Т.е. изменяющиеся буквы в окончании заменяем на символ "*".

Как и предыдущем случае, для поиска в русскоязычном Интернете AltaVista не очень подходит. Если на запрос "Light industry" AltaVista формирует список из 2917 URL-адресов, то по запросу "Легкая промышленность" появляется список ссылок всего на 9 сайтов. Наиболее развитый сервис поиска русскоязычной информации предоставляет сервер Яndex (www.yandex.ru). В Яndex можно просто написать по-русски фразу, описывающую то, что вы хотите найти. Система самостоятельно проанализирует и обработает ваш запрос, а затем постарается найти все, что относится к заданной теме. Ну а в том случае, если нужных документов не обнаружится, можно продолжить поиск через AltaVista, куда автоматически передается уже обработанный системой запрос. Но до передачи запроса AltaVista вряд ли дойдет, так как база Яndex содержит порядка 2 000 000 документов и постоянно обновляется. Проблема больше состоит в том, что поисковая машина в результате вашего запроса генерирует гигантский список адресов URL с короткими описаниями. Яndex позволяет конкретизировать ваш запрос для сокращения этого списка до разумных пределов. Вы можете на запрос либо набрать фразу по аналогии с предыдущими системами, либо, используя специальные операторы, составить строку, поясняющую Яndex, каким требованиям должна отвечать интересующая вас информация. На врезке приведены некоторые из операторов языка запросов Яndex.

Подробней о языке запросов Яndex можно прочесть в статье "Подробное описание языка запросов поисковой системы Яndex" (bforum.virtualave.net/yandex-request.htm).

Стоит вспомнить об еще одной популярной российской поисковой машине Rambler (www.rambler.ru). У этого сервера еще более полная база данных адресов URL, чем у Яndex. Отличительной чертой Rambler является то, что этот сервер ведет статистику посещаемости ссылок из собственной базы данных. Вы всегда можете зайти в раздел "Рейтинг" на главной странице Rambler и увидеть содержимое тематического каталога, отсортированного по убыванию числа посещений сайтов и, следовательно, их популярности. Тем самым отсекаются явные аутсайдеры, и вы не тратите на них свое время. Rambler так же, как и Yandex, позволяет, кроме простого запроса, запрос с языком запросов. Поддерживаются те же логические операторы И, ИЛИ, НЕ, метасимвол "*" (аналогично расширяющему диапазон запроса символу "*" в AltaVista), коэффициентные символы "+" и "-" для увеличения или уменьшения значимости вводимых в запрос слов.

Стоит также отметить прочие русскоязычные поисковые машины Апорт (www.aport.ru) и АУ (www.au.ru).

Поисковые машины и тематические каталоги сегодня имеют много общего. У каталогов присутствует возможность поиска информации по строке запроса с использованием логических операторов, а поисковые машины содержат свои собственные тематические каталоги. И тем не менее, лучше всего эти поисковые сервисы проявляют себя в своей первоначальной категории.


Системы метапоиска

Читая обо всех перечисленных поисковых службах, поневоле задумаешься: "А если для поиска необходимой мне информации не достаточно одной поисковой службы? Неужели мне придется входить на все здесь перечисленные серверы и каждый раз повторять один и тот же запрос?!". Наиболее качественный результат как раз будет именно при таком подходе. Но можно, исходя из экономии времени и денег, воспользоваться системами метапоиска. Наиболее популярная в мире система такого класса Search.com (www.search.com), но если мы работаем преимущественно с русскоязычными документами, то можно использовать Savvy Search (guaraldi.cs.colostate.edu:2000/form?lang=russian). Это достаточно мощная система, отсылающая ваш запрос на 13 крупнейших поисковых машин (в том числе и российских) и возвращающая вам их отчеты. Другая российская система метапоиска - "Следопыт" (www.medialingua.ru/www/Wwwsearc.htm) - работает только с пятью англоязычными поисковыми машинами и одной русскоязычной, но интересна тем, что переводит ваш русскоязычный запрос на английский язык для англоязычных поисковых машин.

Также существуют так называемые мультипоисковые страницы:

"Все в одном" (www.tpi.ac.ru/~mike/search/index.htm);

Search (www.informika.ru/windows/intern/poisk/main.html);

БКФ Поиск (bforum.virtualave.net/index09.htm) и другие.

Эти серверы не умеют посылать запросы и получать отчеты от поисковых служб как системы метапоиска. Мультипоисковые страницы загружают во множестве окон поисковые службы и передают им ваш запрос. К тому же такие системы работают не стабильно.


Системы поиска в конференциях Usenet

Во всем мире считается самым лучшим сервисом для поиска информации в конференциях Usenet сервер DejaNews (www.dejanews.com). Среди русскоязычных выделяется сервер RusNews (news.corvis.ru), являющийся также новостным сервером, содержащим более 2000 новостных групп. Точно так же, как и в других поисковых службах, мы набираем строку запроса, а сервер нам формирует список конференций, содержащих наши ключевые слова. Далее надо подписаться на отобранные нами конференции в нашей программе работы с новостями. Также имеет место аналогичный российский сервер ТЕЛА-поиск (tela.dux.ru/news.html).


Службы поиска людей

У вас появилась возможность работать с электронной почтой, но вы не знаете адресов электронной почты партнеров вашей организации. Благодаря так называемым службам поиска людей в Интернете вы можете указав ФИО вашего оппонента, теоретически вы можете получить его адрес электронной почты и URL-адрес. Почему теоретически? Дело в том, что системы поиска людей, в основном, берут информацию об электронных адресах из открытых источников, таких, как конференции Usenet. Где гарантия, что ваши партнеры участвуют в этих конференциях? И тем не менее, рассмотрим некоторые службы поиска людей. В первую очередь, традиционно, о самой популярной англоязычной системе Four 11 (www.four11.com). Это действительно большой сервер - его база данных содержит порядка 6 000 000 адресов. Среди русскоязычных служб можно выделить Э-Рос (www.dubna.ru/eros) и Интермап (www.botik.ru/intermap/welcome.win0-abs.html).


Итоги

Подводя итог, можно сказать, что единой оптимальной схемы поиска в Интернете не существует. В зависимости от специфики необходимой вам информации, для ее поиска вы должны использовать соответствующие поисковые службы. В принципе, конечно, можно всегда пользоваться какой-нибудь одной поисковой системой, например, Rambler, но чем грамотнее подобраны поисковые службы и составлен запрос на поиск информации, тем качественнее будут результаты поиска. А в бизнесе качество информации играет далеко не последнюю роль.

Дмитрий ШЕЙКО,
Бобруйский Компьютерный Форум,
bforum.virtualave.net,
office@amber.belhard.com,
bcf@mail.ru,
ICQ: 35325827


Синтаксис запроса Яndex

пробел или & логическое И (краткое - в пределах одного абзаца)

Пример: легкая промышленность

Результат: все документы, где в пределах одного абзаца встречаются слова "легкая" и "промышленность".

&& логическое И (в пределах документа)

Пример: легкая&&промышленность

Результат: все документы, где встречаются слова "легкая" и "промышленность"

, или | логическое ИЛИ

Пример: легкая, промышленность

Результат: все документы, где встречается либо слово "легкая", либо слово "промышленность"

~ бинарный оператор И НЕ (в пределах одного абзаца)

Пример: производство~газета

Результат: все документы, где в пределах одного абзаца встречается слово "производство", но не в словосочетании "газета производство"

~~ бинарный оператор И НЕ (в пределах документа)

Пример: производство~~газета

Результат: все документы, где встречается слово "производство", но не в словосочетании "газета производство"

() группирование слов

Пример: (швейное&&производство)~газета

Результат: все документы, где встречаются слова "швейное" и "производство", но не в словосочетании со словом "газета"

/(число) расстояние в словах, где "число" - число слов между словами в запросе плюс единица.

Пример: швейное/1 производство

Результат: все документы, где встречается словосочетание "швейное производство"

Версия для печатиВерсия для печати

Номер: 

20 за 1999 год

Рубрика: 

Internet
Заметили ошибку? Выделите ее мышкой и нажмите Ctrl+Enter!