Google как инструмент семантического анализа

Исходя из сообщений на новостных лентах, возможности Google почти безграничны. Все новые и новые применения находят ему как его собственные разработчики, так и те, кто пользуется его сервисами. Последнее многообещающее применение Google'у нашли исследователи Пол Витаньи и Руди Цилибрази из Национального института математики и вычислительной техники в Амстердаме. Они показали, что популярный поисковик может быть использован для измерения семантической близости пар слов. Это открытие если и не приведет к большому прогрессу в исследованиях по искусственному интеллекту, то, по крайней мере, позволит значительно усовершенствовать систему человеко-машинного взаимодействия, в частности, за счет разработки новых методов представления знаний в такой форме, чтобы компьютеры могли использовать их. Такое становится возможным благодаря тому, что в настоящее время в электронной форме циркулирует огромный массив текстов, проиндексированных поисковыми системами типа Google. Так, только в ней проиндексированы в настоящее время более 8 миллиардов страниц.

Витаньи и Цилибрази разработали статистический индикатор, основанный на результатах поиска по парам соотносительных слов, который задает своеобразную меру логического расстояния между ними. Они назвали его "нормированным гугловским расстоянием" ("normalised Google distance" или NGD). Чем меньше это расстояние, тем ближе стоят слова друг к другу по смыслу.

Например, английские слова "hat" ("шляпа") и "head" ("голова") встречаются в предложениях рядом примерно 9 миллионов раз, тогда как "hat" и "banana" ("банан") - всего несколько раз. Понятно, что первая пара семантически значительно более близкая.

Многократно повторяя поиск по разным парам слов, можно построить карту расстояний, а на ее основе научить компьютер делать заключение о значении слова в зависимости от контекста его появления в тексте. Это, по мнению Витаньи, один из способов научить компьютеры действовать "как бы интеллектуально" (semi-intelligently).

Подобная техника может быть использована и для обучения компьютеров оперировать с другими семиотическими системами, т.е. системами, реализуемыми посредством наборов дифференциальных признаков, например, с цветами, звуками, числами и т.д.

Результат Витаньи и Цилибрази нисколько не удивил Майкла Витброка (www.cyc.com/cyc/company/witbrock) из Остина (Техас, США), который уже около 20 лет работает над проектом Cyc - энциклопедической базы знаний для приложений в области искусственного интеллекта. Он также полагает, что именно интернет в конце концов поспособствует тому, что компьютеры смогут работать с весьма детальными базами знаний. И Cyc уже приступил к работам в этом направлении.

Электронный препринт статьи Витаньи и Цилибрази можно скачать с: arxiv.org/pdf/cs.CL/0412098.

Сергей САНЬКО