Смысловой поиск в Internet

Не так давно в "КВ" было опубликовано интервью ("Кто владеет информацией?", № 11/2000) со специалистом в области информационных технологий Матвеем Александровым, посвященное проблемам поиска и обработки информации. Сейчас мы предлагаем вашему вниманию статью М. Александрова, в которой речь идет о передовых технологиях смыслового поиска.

Как заставить программу понимать смысл слов? Кажется, простая задача, но мы совсем немного приблизились к решению этой проблемы со времен Алана Тьюринга, который предсказывал, что к концу века можно будет говорить о "думающих машинах", не встречая возражений. Он, видимо, ошибся - возражения остались.

Но прогресс налицо, причем наиболее всего он очевиден, если мы посмотрим на состояние дел в современных поисковых технологиях. В Интернете появляются механизмы поиска, которые претендуют на "понимание смысла" человеческих слов и целых текстов, на "общение с человеком на естественном языке".

Смысловой поиск (meaning-based search) - давняя мечта всех компаний, которые работают над проблемой обработки информации, весьма актуальной в наше время. Признанным лидером в данной области является компания Excalibur Technologies. В основе поисковых технологий Excalibur (они внедряются в современные системы документооборота и системы управления знаниями) лежит применение поиска с привлечением семантической сети, ориентированной на использование лингвистических ресурсов языка. Во-первых, это модуль морфологического анализа, позволяющий задавать запрос на естественном языке. Во-вторых - тезаурус (словарь), устанавливающий связи между различными значениями слов с указанием типа и силы связи. Примеры таких связей приведены в таблице.

Уровни семантического расширения слов	Сила связи	Пример
Слово-оригинал	1.00	Легкий
Точно совпадающие слова и морфологические варианты	1.00	Легкий, легкие, легок
Варианты написаний и неправильные формы слов	0.84	Лехкий
Производные слова	0.74	Легкость, облегчение, полегчать
Строгие синонимы	0.62	Элементарный, простой, нехитрый
Синонимы	0.55	Невесомый, пустяковый, эфемерный
Строгие антонимы	0.43	Тяжелый, увесистый, трудный, хитрый
Антонимы	0.27	Нетривиальный, непростой
Связанные слова	0.16	Весы, сложность
Контрастные слова	0.06	Нелегкий

В настоящее время семантическая сеть для английского языка представляет собой базу знаний из 400 тыс. значений слов и более 1,6 млн связей между ними, причем очень большой вклад дает терминология конкретных областей.

Технологии смыслового поиска первоначально разрабатывались для корпоративных систем, т.к. именно там всегда концентрировались самые большие объемы информации. Кроме того, такие технологии очень сложны в реализации. Мы сами работаем в этой сфере и создали свои алгоритмы для быстрого поиска, однако для завершения работы в этой области нам нужны грамотные специалисты.

Смысловой поиск со временем "перерос" нишу корпоративных систем, и теперь в Интернете появляются все новые службы, которые пытаются использовать элементы смыслового поиска для предоставления обычным пользователям бесплатного, но эффективного рабочего инструмента. У каждой из компаний, которые работают в этой области, свой подход к решению проблемы.

По пути разработки специфических тезаурусов, интегрированных в поисковый механизм, пошли компании Oingo и SimpliFind.

Создатели Oingo (www.oingo.com) утверждают, что изобрели технологию выявления "смысла" слов. Новый поисковый механизм предлагает пользователю самому уточнить смысл введенного запроса (например, "Genesis"): "Genesis - группа?", "Genesis - часть Библии?", "Genesis - компьютерная корпорация?". После выбора варианта следующая серия ответов, по мнению механизма, содержит уже только "Genesis" в указанном вами смысле - ну и, конечно, неизбежный шум. В целом очень напоминает мелькнувшую (и затем пропавшую) на AltaVista функцию "Уточнить поиск" (Refine Search).

SimpliFind (www.simpli.com) действует по схожему принципу. В течение нескольких лет ученые из Принстонского университета разрабатывали тезаурус, связывающий значения слов, под названием WordNet. Но SimpliFind, как и Oingo, имеет хронический недостаток - объективную неполноту базы понятий, которая не может охватить все понятия человеческого языка, не может описать все значения слов, географических названий, фамилий и прочих имен собственных, которые промелькнули за человеческую историю (и существуют сейчас). Все это объясняется ручным трудом по пополнению "базы знаний".

Сотрудники еще одной компании, Ejemoni (www.ejemoni.com), не утруждают себя составлением различных тезаурусов - они идут другим путем. За основу смысловой классификации документов или отдельных текстов принята классификация Библиотеки Конгресса США. При помощи Ejemoni можно найти "похожие документы", выделив несколько параграфов текста или весь текст - а механизм Ejemoni проанализирует их смысл (по одному ему известному алгоритму), привяжет к одной из ветвей классификатора и выдаст список "похожих документов".

По такому же принципу "видимого отсутствия ключевых слов" работает нашумевшая в последнее время программка Kenjin - ее можно бесплатно скачать на www.kenjin.com. Kenjin работает в фоновом режиме и "следит" за тем, какой текст появляется на экране (браузер, почтовый клиент, текстовый редактор), время от времени в фоновом режиме показывая список "похожих документов" в своем рабочем окошке - это могут быть документы на рабочем диске пользователя и ссылки на документы в Сети. Кроме того, можно также выделить часть документа (правда, не любую) на экране - и Kenjin мгновенно выведет такой же список "похожих документов". Проверив Kenjin в работе, однозначные выводы сделать трудно. Самое странное, что в списке "похожих" на первом месте всегда присутствует тот же самый документ, к которому мы ищем "близнецов", но процент релевантности (схожести) у него всегда меньше 100%.

В последнее время в Интернете появилось несколько поисковых механизмов "нового типа", которые умеют отвечать на вопросы пользователя на натуральном языке. Например, AskJeeves (www.ask.com) сейчас является одним из самых популярных поисковиков: он корректно выдает ответы на конкретные вопросы типа "За какую команду НХЛ играет белорус Владимир Цыплаков?". В то же время перед нестандартными или абстрактными вопросами AskJeeves пасует.

Это только краткий и поверхностный обзор новых технологий, которые появились буквально в последние месяцы. Вообще на Западе существует целая индустрия поиска сведений, чьи работники зовут себя "информационными профессионалами" (IP), и до недавнего времени Сеть не рассматривалась ими как реальный источник информации - поиск велся, в основном, по огромным платным базам вроде Dialog, Datastar или Bloomberg. Похоже, сейчас ситуация начинает развиваться в том направлении, что реальную конкуренцию этим самым IP могут составить вышеупомянутые "интеллектуальные механизмы поиска", доступные любому серферу.

Матвей АЛЕКСАНДРОВ,
[email protected]