DRIS - новая идеология поиска в интернете

О проблемах, связанных с поиском полезной информации в интернете, речь в газете шла уже не один раз. Но по-прежнему поиск остается сколь просто техникой, столь и искусством веб-серфера. К числу основных моментов, вызывающих неудовольствие и даже раздражение пользователей, относятся: 1) слишком большое число нерелевантных записей в результатах поиска; 2) слишком большие периоды обновления базы данных поисковых систем, что обусловливает большой процент устаревших ссылок; 3) практическая нечувствительность к контексту запроса, очень слабая настраиваемость опций поиска под специфические потребности пользователя; 4) наличие "темных уголков" интернета, связанная с тем, что ни одна поисковая система не покрывает всего веб-пространства (индексируются страницы "физического интернета", т.е. зарегистрированные на DNS-сервисах и поисковых системах, но не "информационного интернета") и ряд других. Следует принять во внимание также и "общественную" расточительность, с которой производится в настоящее время поиск: сотни конкурирующих поисковых машин постоянно "прочесывают" Сеть, многократно обращаясь к одним и тем же страницам и, тем самым, катастрофически увеличивая, по большому счету, паразитный трафик в Сети. Поэтому в настоящее время ведутся интенсивные исследования не только по улучшению топологии всей Сети, но и по изменению самой идеологии поиска информации в ней.

Одно из таких решений недавно было предложено группой китайских ученых из университета науки и технологии Вухана (WuHan). Их главная идея заключается в том, чтобы сделать систему управления информацией внутренней функцией самого интернета. И они предложили такую систему - DRIS (Domain resources integrated system, система интегрированных доменных ресурсов). Тестовый вариант системы реализован на базе CERNET (китайской научно-образовательной сети доменной зоны edu.cn). Домены в DRIS определяются не как веб-серверы, а как базовые ячейки "информационного интернета". Все странички определенного домена индексируются и перерасполагаются на центральном сервере, и на нем же создаются все необходимые поисковые приложения. Выбор доменов в качестве базовой ячейки обусловлен тем, что в интернете все веб-серверы и так ранжируются по доменам, так что, используя DNS, всегда можно знать, сколько веб-серверов находится в данном домене, и легко проиндексировать их странички.

В идеале DRIS предусматривает определенную дисциплину со стороны владельцев доменов для поддержания логически прозрачной иерархической уровневой структуры (см. схему).

Каждый уровень иерархии предусматривает наличие своих поисковых машин, выполняющих специфические для каждого уровня функции. Так, машины нижнего (третьего) уровня извлекают и индексируют страницы данной доменной зоны и используют обычные технологии. На этом уровне страницы индексируются методом рейтингования ключевых слов в соответствующих документах. Машины второго уровня работают с метаданными, полученными на основе результатов работы машин третьего уровня, т.е. прежде всего с базой данных веб-страниц третьего уровня. На этом уровне рейтинг страниц предусматривает также и анализ гиперлинков, которые ведут к данной странице. Поиск на двух нижних уровнях, таким образом, централизован и исключает многократный опрос одних и тех же страниц.

 

На верхнем уровне предусматривается распределенная поисковая система с единым поисковым интерфейсом. В качестве коммуникационного протокола на этом уровне используется не HTTP, а SOAP (о нем подробнее см.: www.w3.org/TR/SOAP), так как последний имеет ряд преимуществ, в частности, в отношении безопасности, открытости и т.д. Поисковый протокол DRIS основан на Webservice, который также использует в качестве основного коммуникационного протокола SOAP и позволяет создавать эффективную распределенную структуру. Важно то, что все машины второго уровня будут работать по одному стандарту Webservice. Поисковой машине верхнего уровня необходимо лишь индексировать все Webservice'ы более низкого уровня. Она действует как метапоисковая система, объединяющая результаты поиска машин нижнего уровня.

Как полагают разработчики, масштабированная на весь интернет система DRIS будет выполнять роль своего рода операционной системы, превращая интернет в суперкомпьютер и обеспечивая пользователя не только полным доступом к информации, но и огромными вычислительными мощностями.

Хотя это больше похоже на голубую мечту, едва ли осуществимую в современном противоречивом и слишком коммерциализованном мире.

Тексты статей китайских ученых, посвященных системе DRIS, доступны для скачивания в формате PDF в архиве электронных препринтов: xxx.lanl.gov/abs/cs.IR/0311015; xxx.lanl.gov/abs/cs.DL/0312024.

Сергей САНЬКО

Версия для печатиВерсия для печати

Номер: 

01 за 2004 год

Рубрика: 

Internet
Заметили ошибку? Выделите ее мышкой и нажмите Ctrl+Enter!