Копия для печати
Поиск в Internet: новые методики
(Окончание, начало в №27)
CLEVER
Client-Side Eigenvector Enhanced Retrieval - столь
замысловато расшифровывается
емкая, но сложно переводимая
аббревиатура-название поискового
механизма, разрабатываемого уже в
течение года в недрах
исследовательского центра Almaden
корпорации IBM. Родоначальником этой
технологии является Джон Клейнберг
(Jon Kleinberg) - профессор из Корнелла,
автор алгоритма Hypertext-Induced Topic Search
(HITS). CLEVER, как, собственно, и Google, в
своей работе основывается на
ссылках и рейтингах, но подходит к
задаче несколько иначе. Если детище
воспитанников Стэнфордского
университета сначала вычисляет
коэффициенты PageRank для всех
индексированных документов, а
затем просто учитывает их при
сортировке результатов, то
поисковая система IBM оценивает
страницы "на ходу" - сначала
выполняет стандартный поиск по
ключевым словам заданного запроса,
затем просматривает отобранные
документы и по их ссылкам выделяет
новую порцию web-страниц, которых
далее точно так же просматривает на
"предмет связи". И так далее -
цикл за циклом. После того, как Clever
таким образом выявляет
определенную часть структуры
ответа на запрос, он начинает
высчитывать рейтинг для каждой из
найденных страниц на основании
количества ссылающихся на нее
"собратьев". Система различает
два типа сайтов:
"первоисточники" (authorities) и
"хабы" (hubs). Ценность первых -
контент, вторых - ссылки на все те же
многочисленные
"первоисточники". По мнению
Клейнберга, сайты-хабы часто
оказываются более полезными, чем
непосредственно поставщики
контента, поскольку зачастую
предлагают более широкий выбор по
теме поиска. Действительно, сегодня
пользователь находится в
"тисках" своего собственного
запроса: обобщенные термины дают
слишком много порой совершенно
бесполезных результатов, а
узкоспециализированные - наоборот,
слишком мало полезных.
В отличие от ориентированного
именно на
узлы-"первоисточники" Google, CLEVER
отдает должное "хабам".
Благодаря разветвлению поиска
"вширь" удается выявлять
тематические сообщества сайтов,
число которых, по разным оценкам,
достигает 100 тыс. Здесь
просматриваются интересные
аналогии с Internet-каталогами,
редактируемыми людьми. Ни один из
них не может справиться с
неожиданно высоким ростом
"паутины", и даже крупнейший
каталог Yahoo! (www.yahoo.com)
индексирует "всего" около 1
миллиона страниц. Таким образом,
CLEVER сочетает преимущества
традиционных поисковых машин и
каталогов - плюсы технологии
очевидны, однако в любой бочке меда
не обойтись и без "ложки
дегтя". Специализированный
процесс подбора выполняется для
каждого запроса в отдельности,
поэтому по эффективности
"умник" (а именно так
переводится название системы СLEVER)
вряд ли сможет когда-либо тягаться
с Google или традиционными поисковыми
механизмами. Кроме того, работа
системы пока слишком сильно
зависит от характера данных и
особенностей конкретной тематики,
а значит, ее создатели и в
дальнейшем будут работать для
достижения значимых результатов
производительности своего
"детища".
Yep.com
"Первый поисковый сервис,
основанный на ранжировании сайтов
по качеству и популярности" - так
характеризуют свой проект сами его
создатели. Yep.com
представляет собой нечто среднее
между службой немедленных
сообщений (instant messaging) и поисковым
узлом. Оценки качества содержания
того или иного сайта проводятся
системой на основе анализа
предпочтений аудитории
пользователей программы Yep Web Companion.
Она позволяет оставлять на
Web-страницах персональные записки,
видимые только автору, общаться в
чатах, организовывать коллективные
Web-туры и давать оценку содержимому
посещаемого сайта. Собранные
голоса ложатся в основу рейтинга
качества, а информация о
перемещениях пользователей
программы в Internet - рейтинга
популярности. Последний
пополняется также за счет службы
HitBox, которая, как и Yep.com, принадлежит
компании WebSideStory. HitBox - некий аналог
нашей "Акавiты" (akavita.kryvia.net) за
исключением того, что
сайты-участники публично не
соревнуются между собой - в любом
случае, эта информация не
афишируется. Поместив код счетчика
на своей странице, web-мастер
получает в руки мощный
статистический инструмент,
позволяющий отслеживать
посещаемость, скорость загрузки
страницы, частоту создания
закладок посетителями и множество
других стандартных данных о своих
посетителях. Эта информация
используется и для определения
рейтингов качества и популярности -
как видите, все достаточно просто и
удобно. Вводя запрос, система
предоставляет возможность выбора
наиболее важной для вас
характеристики отображаемых
документов: 100% качества, 100%
популярности или так называемая
"золотая середина". Высокое
качество поиска и быстрота его
осуществления уже сегодня дают
основание говорить о том, что
будущее нового поискового портала
Yep.com коренным образом изменит
мнение рядовых "сетян" о
поиске информации в Интернете.
Что день грядущий нам готовит?
В обзоре упомянуты только четыре
службы, взявшие на вооружение
наиболее любопытные и интересные
технологии поиска в Сети. На самом
деле наука о поиске в сложных,
динамически изменяющихся
гипертекстовых средах сегодня
находится в начальной стадии
своего развития. После появления
еще в начале 90-х годов самых первых
разработок наиболее "умных"
поисковых механизмов наступило
некоторое затишье в академических
исследованиях, так как основная
часть работ, к сожалению,
сместилась в область коммерческих
разработок. Возможно, появление
новых поисковых систем в Сети Google,
CLEVER, Yep.com и DirectHit предвещает новый
виток развития технологий поиска в
Интернете.
Удачи в мире поиска в Сети!
Виталий ФРИДМАН,
Vit_Friedman@softhome.net
(Автор выражает благодарность
Сергею Митилино (www.itc.kiev.ua)
за помощь в подготовке материала)
Обсуждение статьи (записей: 0)