Поиск в Internet: новые методики

(Окончание, начало в №27)


CLEVER

Client-Side Eigenvector Enhanced Retrieval - столь замысловато расшифровывается емкая, но сложно переводимая аббревиатура-название поискового механизма, разрабатываемого уже в течение года в недрах исследовательского центра Almaden корпорации IBM. Родоначальником этой технологии является Джон Клейнберг (Jon Kleinberg) - профессор из Корнелла, автор алгоритма Hypertext-Induced Topic Search (HITS). CLEVER, как, собственно, и Google, в своей работе основывается на ссылках и рейтингах, но подходит к задаче несколько иначе. Если детище воспитанников Стэнфордского университета сначала вычисляет коэффициенты PageRank для всех индексированных документов, а затем просто учитывает их при сортировке результатов, то поисковая система IBM оценивает страницы "на ходу" - сначала выполняет стандартный поиск по ключевым словам заданного запроса, затем просматривает отобранные документы и по их ссылкам выделяет новую порцию web-страниц, которых далее точно так же просматривает на "предмет связи". И так далее - цикл за циклом. После того, как Clever таким образом выявляет определенную часть структуры ответа на запрос, он начинает высчитывать рейтинг для каждой из найденных страниц на основании количества ссылающихся на нее "собратьев". Система различает два типа сайтов: "первоисточники" (authorities) и "хабы" (hubs). Ценность первых - контент, вторых - ссылки на все те же многочисленные "первоисточники". По мнению Клейнберга, сайты-хабы часто оказываются более полезными, чем непосредственно поставщики контента, поскольку зачастую предлагают более широкий выбор по теме поиска. Действительно, сегодня пользователь находится в "тисках" своего собственного запроса: обобщенные термины дают слишком много порой совершенно бесполезных результатов, а узкоспециализированные - наоборот, слишком мало полезных.

В отличие от ориентированного именно на узлы-"первоисточники" Google, CLEVER отдает должное "хабам". Благодаря разветвлению поиска "вширь" удается выявлять тематические сообщества сайтов, число которых, по разным оценкам, достигает 100 тыс. Здесь просматриваются интересные аналогии с Internet-каталогами, редактируемыми людьми. Ни один из них не может справиться с неожиданно высоким ростом "паутины", и даже крупнейший каталог Yahoo! (www.yahoo.com) индексирует "всего" около 1 миллиона страниц. Таким образом, CLEVER сочетает преимущества традиционных поисковых машин и каталогов - плюсы технологии очевидны, однако в любой бочке меда не обойтись и без "ложки дегтя". Специализированный процесс подбора выполняется для каждого запроса в отдельности, поэтому по эффективности "умник" (а именно так переводится название системы СLEVER) вряд ли сможет когда-либо тягаться с Google или традиционными поисковыми механизмами. Кроме того, работа системы пока слишком сильно зависит от характера данных и особенностей конкретной тематики, а значит, ее создатели и в дальнейшем будут работать для достижения значимых результатов производительности своего "детища".


Yep.com

"Первый поисковый сервис, основанный на ранжировании сайтов по качеству и популярности" - так характеризуют свой проект сами его создатели. Yep.com представляет собой нечто среднее между службой немедленных сообщений (instant messaging) и поисковым узлом. Оценки качества содержания того или иного сайта проводятся системой на основе анализа предпочтений аудитории пользователей программы Yep Web Companion. Она позволяет оставлять на Web-страницах персональные записки, видимые только автору, общаться в чатах, организовывать коллективные Web-туры и давать оценку содержимому посещаемого сайта. Собранные голоса ложатся в основу рейтинга качества, а информация о перемещениях пользователей программы в Internet - рейтинга популярности. Последний пополняется также за счет службы HitBox, которая, как и Yep.com, принадлежит компании WebSideStory. HitBox - некий аналог нашей "Акавiты" (akavita.kryvia.net) за исключением того, что сайты-участники публично не соревнуются между собой - в любом случае, эта информация не афишируется. Поместив код счетчика на своей странице, web-мастер получает в руки мощный статистический инструмент, позволяющий отслеживать посещаемость, скорость загрузки страницы, частоту создания закладок посетителями и множество других стандартных данных о своих посетителях. Эта информация используется и для определения рейтингов качества и популярности - как видите, все достаточно просто и удобно. Вводя запрос, система предоставляет возможность выбора наиболее важной для вас характеристики отображаемых документов: 100% качества, 100% популярности или так называемая "золотая середина". Высокое качество поиска и быстрота его осуществления уже сегодня дают основание говорить о том, что будущее нового поискового портала Yep.com коренным образом изменит мнение рядовых "сетян" о поиске информации в Интернете.


Что день грядущий нам готовит?

В обзоре упомянуты только четыре службы, взявшие на вооружение наиболее любопытные и интересные технологии поиска в Сети. На самом деле наука о поиске в сложных, динамически изменяющихся гипертекстовых средах сегодня находится в начальной стадии своего развития. После появления еще в начале 90-х годов самых первых разработок наиболее "умных" поисковых механизмов наступило некоторое затишье в академических исследованиях, так как основная часть работ, к сожалению, сместилась в область коммерческих разработок. Возможно, появление новых поисковых систем в Сети Google, CLEVER, Yep.com и DirectHit предвещает новый виток развития технологий поиска в Интернете.

Удачи в мире поиска в Сети!

Виталий ФРИДМАН,
Vit_Friedman@softhome.net

(Автор выражает благодарность Сергею Митилино (www.itc.kiev.ua) за помощь в подготовке материала)

Версия для печатиВерсия для печати

Номер: 

28 за 2000 год

Рубрика: 

Internet
Заметили ошибку? Выделите ее мышкой и нажмите Ctrl+Enter!