Кто владеет информацией?

Кто владеет информацией - владеет всем. Конечно, тезис уже достаточно избит, но мы зачастую не задумываемся, что стоит за этими словами. Ведь сразу возникает вопрос: что значит "владеть информацией"? Всей информацией "владеть" невозможно, так как человеческая память ограничена и действует избирательно, а Интернет напоминает, скорее, большую свалку: для того, чтобы найти что-то ценное, нужно проявить не то что терпение, а талант!

C проблемой хранения и обработки большого количества информации сегодня сталкиваются не только предприятия со своими корпоративными базами данных, но и обычные пользователи. Вся информация, которая есть на любом компьютере, представляет собой большое количество "разношерстных" данных - десятки различных форматов файлов в директориях под странными названиями, частично архивированных, частично на CD и так далее. Другими словами, получается парадоксальная ситуация: иметь информацию - мало, нужно еще получить возможность с ней эффективно работать. На эту тему со мной согласился побеседовать Матвей Александров, специалист в области информационных технологий, сфера деятельности которого - системы хранения и поиска информации:

- Тематикой поиска и хранения информации мы начали заниматься достаточно давно и имеем много наработок по этому направлению, в том числе алгоритмических. Нами разработаны оригинальные технологии, которые успешно эксплуатировались в ряде систем. Кроме того, мы достаточно серьезно проанализировали рынок поисковых, архивных систем и систем документооборота, рынок информационных систем, ориентированных на работу в Интернете. Суть проблемы в том, что информация в любую систему поступает из разных источников, образуя в итоге огромный массив разноформатных и неструктурированных данных.

На заре компьютеризации все было понятно: существовали СУБД, которые позволяли хранить и обрабатывать информацию. Но с развитием технологий, появлением нового ПО и увеличением числа форматов хранить такую информацию в СУБД становится невозможно. Переход от хранения информации в СУБД с поиском данных по полям перерастает в проблему контекстного поиска по содержимому документов.

- Что представляет собой такой поиск?

- В поисковых системах в Интернете, таких как AltaVista или русский Yandex, реализованы многие из тех функций поиска, которые вскоре станут обычным атрибутом "информационной системы" любого домашнего компьютера.

Самыми первыми "поисковыми системами" были как раз СУБД: поиска по ключевым полям было вполне достаточно для того времени. Но в последнее время происходит смещение акцентов от систем управления базами данных к системам поиска и хранения неструктурированной информации. Те же СУБД вынуждены эволюционировать, так как классифицировать по полям огромные массивы информации практически невозможно.

Самые простые виды поиска: по словам и фразам, с функциями нечеткого поиска, учетом морфологии и поддержкой многоязычности - реализованы уже практически повсеместно, полностью или частично.

Те системы, в которых реализован более продвинутый поиск, можно называть скорее "системами управления знаниями" (по крайней мере, так их называют сами разработчики) - к ним можно отнести, например, систему Excalibur. Основное их отличие - наличие ряда подробно проработанных тезаурусов, которые "понимают" не только синонимы, но и разные виды логических связей, подробнейшая система оценки релевантности, поддержка различных языков и многое другое. Приведу пример: на запрос "цена ксерокса" среди найденных документов будут документы со словами "прайс-лист на оргтехнику", причем эти документы вполне могут и не содержать слов "цена" или "ксерокс". Дело в том, что между словами "оргтехника" и "ксерокс", а также между словами "прайс-лист" и "цена" существует некая логическая связь, которая учитывается при определении соответствия запросу найденного документа. Другими словами, при помощи такого поиска можно найти документы, которые при обычном поиске без учета логических связей найти было бы просто невозможно! Подобный интеллектуальный поиск с грамотной оценкой релевантности позволяет отсеять множество документов, не соответствующих запросу. Вообще, это очень обширная тема, о которой можно долго говорить.

- Как различные поисковые технологии реализованы в конкретном ПО?

- Компании, которые разрабатывают соответствующее ПО, развиваются чрезвычайно бурно. Между прочим, их совсем немного, но не потому, что это неприбыльное дело. Совсем наоборот. Просто невозможно создавать такие технологии без оригинальных идей и нестандартных решений. К лидерам относятся американская компания Fulcrum, которую не так давно купил разработчик систем документооборота PC DOCS исключительно с целью единолично использовать их поисковые технологии; германская Verity (она пока независима), которая лицензирует другим производителям ПО свой механизм индексирования и поиска. Кстати, начальная цена на их систему - $50 тыс. Ну и, конечно, AltaVista. К числу лидеров, скорее, в технологическом плане, чем в финансовом, можно отнести еще и российскую Yandex.

Хорошая система поиска (назовем ее индексатором) должна обеспечивать полнотекстовый поиск и поиск по фразам с учетом расстояния между словами. Должен присутствовать неточный поиск и поиск по буквосочетаниям, необходимо учитывать морфологию, создать грамотный тезаурус. Такой индексатор найдет применение как в мощных системах в Интернете или корпоративных базах данных, так и на компьютерах домашних пользователей. Сейчас, конечно, в пакет MS Office входят стандартные средства поиска, но их функциональность и скорость работы, мягко говоря, оставляют желать лучшего. Необходимо реализовать целый ряд функций, например, "поиск похожих документов". К сожалению, в существующих системах эта функция не работает, а лишь декларируется. Нужно обеспечить поддержку множества форматов файлов, как это реализовано, например, в системе Excalibur. Список найденных документов должен быть корректно отсортирован по релевантности, то есть соответствию результатов поиска запросу, и множество других функций, о которых можно говорить долго. В текстовых документах в формате Word совершенно необходимо сделать подсветку найденных слов - без этого невозможен полноценный поиск. Все эти функции мы планируем реализовать в своих программных продуктах.

- Так называемый индексатор, поисковая система - это отдельный программный продукт или технология, которая предназначена для интеграции со сторонним ПО?

- Это может быть и то, и другое. Качественные функции поиска необходимы многим программным продуктам третьих фирм, и этот механизм можно продавать, как это делает, например, AltaVista. Полный пакет их технологий, одних из лучших в мире, на неограниченное число пользователей стоит $250 тыс. AltaVista не нуждается в рекламе, так как у них есть реально работающая система, которая индексирует документы в Интернете - altavista.com. Механизм может быть встроен как в массовые программные продукты, так и в корпоративные системы или отдельные базы данных, хотя называть современные хранилища информации базами данных не совсем корректно.

Индексатор можно поставлять как отдельный программный продукт, в том числе для домашнего пользователя. Тогда получится что-то вроде утилиты "Поиск файлов" MS Office или российского "Следопыта", только с качественно иными возможностями поиска и поддержкой на порядок большего числа форматов файлов.

Но самый перспективный путь - создавать на основе такого уникального механизма поиска собственные программные продукты, например, архивные системы, то есть системы для хранения документов различных форматов, их удобного структурирования и быстрого поиска нужных данных среди больших массивов текстовой информации.В отличие от простых поисковых систем, где файлы хранятся в директориях Windows, в архивных системах документы хранятся в самой системе. В архив может быть включен документ любого типа, который зарегистрирован в Windows. Система будет искать слова и фразы не только в текстовых файлах но и, например, в таблицах Excel, изображениях CorelDraw и т.д. Таким образом, домашний пользователь может без проблем добавлять в свой личный архив любую разнородную информацию: любые текстовые файлы, отсканированные статьи, понравившиеся документы из Интернета, звуковые записи, видео, графику. При этом система предоставляет возможность создавать пользовательские примечания к документам с тем, чтобы в дальнейшем проводить по ним поиск, а также ставить ссылки между документами. Заметив в документе интересное место, его можно выделить и занести в так называемый "сборный документ", то есть, фактически, создать документ, включающий в себя выдержки из нескольких различных документов. Также можно увидеть, как любой документ изменялся с течением времени и что конкретно в нем менялось. Предоставляет система и многие другие полезные возможности, но это уже тема отдельной статьи.

Резюмируя вышесказанное, можно сказать, что пользователь имеет дело с некой надстройкой над файловой системой, которая постоянно активна и облегчает работу с документами. Если пользователь встречает новый документ, она может ему "подсказать", что похожий на этот уже есть в архиве, что помогает избежать дублирования информации.

На самом деле системы, в которых хотя бы частично реализованы эти функции, стоят очень больших денег, и практически такие системы еще недоступны для домашних пользователей. Но из опыта развития рынка мы знаем, что любая технология, которая кажется слишком дорогой и ресурсоемкой и используется только на мощных корпоративных серверах, в конце концов приходит на домашние компьютеры. Так было, например, с 3D-графикой или видеомонтажом.

Сегодня рынки систем хранения и поиска информации охватывают все: от домашних архивных систем до систем управления документами в масштабах предприятия.

- В заключение хотелось бы спросить о ваших планах на будущее.

- Мы собираемся реализовать ряд тиражных продуктов, ориентированных на конкретные секторы рынка. Обо всем этом я уже говорил: это будут поисковые системы (для домашних и корпоративных пользователей), архивные системы разной тяжести, также ориентированные на различных пользователей, системы документооборота, который логически вытекает из архивных систем, и ряд программных продуктов, утилит, ориентированных на Интернет и позволяющих эффективно работать с информацией.

Это не просто планы. Наши ноу-хау уже были реализованы в конкретных программных продуктах и показали себя с лучшей стороны, наш бизнес-план развития был по достоинству оценен зарубежными компаниями и мы получили инвестиции, достаточные для окончательной доработки технологий и реализации на их основе конечных программных продуктов. Поэтому на сегодняшний день нам нужны профессионалы, умеющие работать на конечный результат (руководитель группы, системные, прикладные, Inet программисты). Я уверен, что в Беларуси - достаточно квалифицированных специалистов, которые способны работать по западным стандартам, получая за свой труд достойные премиальные. Мы принимаем резюме по адресу [email protected].

- Успехов Вам. Спасибо за интервью.

Анатолий АЛИЗАР