Корпоративные поисковые системы

Количество информации в корпоративных локальных сетях, особенно если речь идет о достаточно крупных организациях, давно уже преодолело тот рубеж, когда каждый мог самостоятельно отыскать любую нужную ему информацию без привлечения специальных поисковых программ. Поэтому использование корпоративной поисковой системы в современной организации – не дань моде, а требование времени.

В море информации

Современная локальная сеть любой организации, в которой насчитывается хотя бы два десятка подключенных к этой сети компьютеров, достаточно трудна для ручного поиска информации в ней. Проблема, конечно же, в больших объёмах этой информации – именно они приводят к тому, что пользователь, нуждающийся в каком-либо документе, нередко тратит по нескольку часов только для того, чтобы этот документ найти.

Подобный отрицательный эффект масштаба характерен, к сожалению, для организаций любой формы собственности, работающих в самых разных отраслях. И потери рабочего времени сотрудников, а значит, в конечном счете, и потери работодателей, оплачивающих бесполезную трату времени работниками, принимают угрожающие размеры: по данным компании IDC, среднестатистический офисный работник сегодня до 30% своего рабочего времени тратит именно на поиск нужной ему по работе информации. Потери времени на реконструкцию тех документов, которые найти так и не удалось, будут ещё более впечатляющими.

Решать эту проблему можно по-разному, но, как показывает практику, хорошо структурировать все имеющиеся в организации документы и, самое главное, поддерживать эту структуру в идеальном порядке по мере появления новых документов чрезвычайно сложно. Кроме того, это требует ничуть не меньших усилий, чем поиск вручную по неструктурированным данным. Таким образом, единственно рациональным с экономической точки зрения решением будет автоматизация процесса поиска с использованием специализированного программного обеспечения, которое даст своему пользователю возможность быстро искать нужную ему информации среди большого объёма неструктурированных данных. Именно такие программные  продукты, которые позволяют решать данную задачу, и принято называть корпоративными поисковыми системами.

Особенности поиска в корпоративной среде

Поиск данных в локальной сети организации имеет, с одной стороны, много общих черт с поиском во Всемирной паутине, а с другой стороны, заметно от него отличается. Обусловлены эти отличия, конечно же, отличиями самих тех сред, в которых производится поиск информации.

Во-первых, корпоративная сеть, в отличие от Web, достаточно разнородна в плане источников данных. Если во Всемирной паутине львиная доля всей информации, с которой работают поисковые системы, приходится на HTML-страницы, то в корпоративной среде наблюдается настоящий «зоопарк» из хранилищ файлов различных форматов, баз данных и других репозиториев информации. Во-вторых, если в интернете вся информация, которая доступна поисковой системе, доступна и любому из её пользователей, то в случае с корпоративным поиском показывать любые документы каждому из сотрудников будет в корне неправильным в силу политик информационной безопасности организации. То есть, корпоративная поисковая система должна, ко всему прочему, поддерживать разграничение доступа к искомым данным. В-третьих, корпоративная поисковая система должна интегрироваться с другими информационными сервисами, действующими в рамках ИТ-инфраструктуры данной организации, в то время как поисковые системы во Всемирной паутине предоставлены сами себе и никакой интеграции ни с кем обеспечивать, в общем-то, не обязаны.

В то же время технологии поиска, применяемые в корпоративных «поисковиках», уже, как правило, отработаны на поисковых системах, работающих в интернете. Интерфейсы корпоративных средств поиска тоже, как правило, выполнены по образу и подобию своих онлайновых «коллег».

Виды поиска

Несмотря на то, что большинство современных поисковых систем скрывают все сложности, связанные с реализацией внутри них различных поисковых алгоритмов, от конечного пользователя, понимание различий между разными видами поиска является необходимым условием принятия обоснованного решения о выборе той или иной корпоративной поисковой системы.

Все поисковые инструменты, которые сегодня представлены в любых поисковых системах, можно разделить на три большие группы: инструменты полнотекстового поиска, средства поиска по метаданным и инструменты мультимедийного поиска. Полнотекстовый поиск предполагает поиск по всему содержимому документа, и требует для своего применения наличия специальной базы подготовленных документов – индекса. Поиск по метаданным – это поиск по внешним атрибутам документа. Для файлов такими атрибутами могут являться размер, дата создания, имя; для сообщений электронной почты – тема, отправитель, получатель и т.д. Мультимедийный поиск – самый сложный из видов поиска, существующих на сегодняшний день. Он позволяет находить похожие по содержанию на заданный образец изображения, аудиозаписи, видеоролики. Пока что технологии мультимедийного поиска в силу своей сложности, к сожалению, не могут похвастать таким же качеством поиска, как даже полнотекстовый поиск, однако, к счастью, в случае с корпоративным поиском это не так уж и важно.

Технологии полнотекстового поиска

Полнотекстовый поиск – самый популярный и самый нужный из видов поиска в корпоративных поисковых системах. Поскольку, по сути, все документы так или иначе ищутся пользователем по содержащемуся в них тексту, поддержка максимального количества технологий полнотекстового поиска со стороны поисковой системы будет серьёзным аргументом в её пользу. А технологии сегодня большинством поставщиков поисковых систем предлагаются такие:

  • Поиск по словам с учетом морфологии и синонимов. Данный вид поиска позволяет находить документы, содержащие заданные слова, их различные формы и синонимы, вне зависимости от того, в каком месте документа они находятся. Именно этот вид поиска реализован в интернет-«поисковиках», где посетители пользуются «однострочным» интерфейсом и не настраивают дополнительных параметров поиска.
  • Поиск по фразам с учетом порядка слов и расстояния между ними. Этот вид поиска предполагает анализ документов не по отдельным словам, а по словосочетаниям. В интернете с таким поиском пользователи сталкиваются тогда, когда вводят запрос, состоящий из более чем одного слова.
  • Поиск с использованием регулярных выражений. Данный вид поиск позволяет отследить последовательности символов, характерные для  различных форм данных: к примеру, списков сотрудников; списков показателей, содержащихся в финансовых отчетах; структурированных записях в базах данных и т.п. Несмотря на то, что данный вид поиска чрезвычайно эффективен, когда нужно найти данные, соответствующие тому или иному шаблону, он достаточно сложен для неподготовленных пользователей, которые должны сами составлять описывающие шаблон регулярные выражения.
  • Поиск по «цифровым отпечаткам». Этот вид поиска предполагает определение группы документов и снятие с них так называемых «цифровых отпечатков», по которым в дальнейшем и будет осуществляться поиск. С помощью данного метода можно быстро находить документы, содержащие большие фрагменты текста из заранее заданных документов. Основным достоинством метода является высокая скорость работы, а к недостаткам можно отнести его неэффективность при внесении в документ большого числа изменений и необходимость оперативного создания цифровых отпечатков всё новых документов. Обычно такой вид поиска используется не при реализации полнотекстового поиска в корпоративных хранилищах информации, а при необходимости анализа данных «на лету» ‑ например, для выявления конфиденциальных документах в системах предотвращения утечек информации. Хотя и в традиционных корпоративных «поисковиках» вполне можно найти такую функциональность.
  • Семантический поиск. Это самый «продвинутый» вид поиска, основанный на анализе текста, позволяющий находить не просто тот текст, который содержит содержащиеся в поисковом запросе слова, но и те документы, которые соответствуют данному запросу по своему смыслу. В качестве поискового запроса при осуществлении семантического поиска используются, как правило, и фрагменты текста, и документы целиком. Несмотря на всю мощь данного вида поиска, системы, в которых он реализован действительно на достойном уровне, можно пересчитать по пальцам – связано это, в первую очередь, с технической сложностью и высокой трудоёмкостью реализации семантического поиска.

Внутри полнотекстовой поисковой системы

Для осуществления полнотекстового поиска системе требуется провести предварительную обработку базы исходных документов, по которым она после будет осуществлять поиск. Обработка эта заключается в создании индекса – специальной структуры данных, которая позволяет осуществлять поиск в быстром режиме, не «просматривая» полностью каждый из документов. Процесс составления индекса – индексация – обязателен после внедрения поисковой системы в корпоративную ИТ-инфраструктуру. В зависимости от объема информации в корпоративной сети и от скорости обработки данных «поисковиком», процесс индексации может занимать значительное время

Поисковый индекс можно рассматривать как своеобразный словарь, в котором каждому найденному в процессе индексации слову сопоставляется список документов, в котором оно найдено. Обычно учитываются также позиции найденного слова в этих самых документах - это чрезвычайно важно для поиска не по одному слову, а по целым фразам, особенно в тех случаях, когда учитывается порядок слов в фразе и расстояние между ними в тексте. То есть, поисковый индекс - это база данных, в которой вся информация записана в инвертированном виде: каждому слову соответствует набор позиций в тех документах, в которых оно встретилось «поисковику» при индексации. Таким образом, слово играет роль ключа - а если эти слова упорядочены по алфавиту, то время поиска существенно сокращается по сравнению с тем, что было раньше - теперь, фактически, много времени занимает только построение индекса, а поиск по нему уже начинает быть чрезвычайно быстрым.

Индекс, составленный по описанному выше принципу, называется инверсным - потому что с его использованием поисковая система «идет» не от документов к словам, как в безындексном поиске, а наоборот, от слов к документам. Как правило, впрочем, этот индекс сопровождается, для удобства пользователя еще вторым индексом - прямым. В нем и хранится копия всех проиндексированных документов, и используется он для того, чтобы отображать фрагменты текста, соответствующие поисковому запросу, в окне результатов поиска.

Поскольку поисковые индексы имеют достаточно большой объём, и, кроме того, поскольку он постоянно увеличивается по мере неизбежного роста числа документов в корпоративной сети, для внедрения корпоративного поиска нужно озаботиться приобретением соответствующего серверного оборудования, которое в идеале даст возможность быстро и легко увеличивать объём доступного дискового пространства за счет «горячего» подключения жестких дисков или целых их массивов. Для оценки скорости роста объема поисковых индексов имеет смысл запустить «поисковик» в режиме тестовой эксплуатации на имеющемся в распоряжении организации оборудовании в течении одной или нескольких недель, а затем на основании полученных данных уже выбирать оборудование для эксплуатации поисковой системы в регулярном режиме.

Рынок систем корпоративного поиска

Поскольку средства корпоративного поиска имеют высокую востребованность среди организаций во всем мире, то и количество решений, имеющихся на рынке, даст возможность ИТ-специалистам легко выбрать то, что соответствует потребностям и финансовым возможностям организации.

Решения для корпоративного поиска присутствуют во многих комплексных продуктах – например, в широко распространённом Microsoft Office SharePoint Server. Функционал данного программного продукта позволяет выполнять поиск в сетевых общих папках, на веб-узлах, узлах SharePoint, в общих папках Exchange и базах данных Lotus Notes; индексировать, находить и отображать данные, полученные из бизнес-приложений, реляционных баз данных и другого структурированного контента с помощью каталога бизнес-данных. Одна из ключевых возможностей поискового решения на базе SharePoint – поддержка использования функций поиска людей. Поддерживается поиск данных в бизнес-приложениях с помощью каталога бизнес-данных. Можно индексировать и получать данные и отчеты, доступные через веб-службы и ADO.NET и находящиеся в бизнес-приложениях и источниках структурированного контента. Результаты поиска можно сохранять в виде списков SharePoint. Одно из преимуществ данного решения заключается в том, что функции корпоративного поиска интегрируются со средствами совместной работы, порталами, средствами управления ифнормацией, формами и системами бизнес-аналитики SharePoint Server.

Реализация корпоративного поиска средствами Microsoft Office SharePoint Server удобна для тех организаций, которые используют возможности этого продукта. Аналогичные системы присутствуют практически во всех корпоративных порталах, включая продукты от Oracle, 1С и других производителей. Среди решений, не интегрированных с корпоративными порталами, стоит отметить, конечно же, в первую очередь продукты мирового лидера в области поиска – корпорации Google. Она предлагает корпоративным пользователям сразу программно-аппаратные решения Google Search Appliance и Google Mini. Эти серверы просматривают и индексируют содержимое корпоративного Интранета, файловых и web-серверов, а также других IT-систем предприятия, обеспечивая поддержку более 220 файловых форматов и 109 национальных языков. Google Search Appliance дополнительно позволяет включить в орбиту поиска корпоративные бизнес-приложения, например, службы каталогов, корпоративный календарь, системы CRM, ERP и BI. Работа с информационным наполнением этих систем ведется в реальном времени и с полным соблюдением требований безопасности. Преимущества решения от Google заключаются в низких по сравнению со многими другими системами затратах на внедрение, а также возможности работы совместно с другими решениями в гетерогенных средах.

Стоит также упомянуть и решения производителей из стран СНГ, изначально разрабатывавшиеся с прицелом на русскоязычные документы и на специфику работы организаций на постсоветском пространстве. Одним из признанных лидеров в этой области является компания SoftInform, предлагающая поисковое решение SoftInform Search Server. Помимо поддержки всех видов полнотекстового поиска, включая семантический поиск, называемый разработчиками «поиском похожих», продукт характеризуется такими особенностями, как высокая скорость индексации (15-30 Гб в час), возможность индексации баз данных Lotus Notes, поддержка интеграции с ABBYY Recognition Server и Lotsia PDM Plus, автоматическая рубрикация документов индекса по их тематике.

Безусловно, упомянуть всех хотя бы более-менее известных производителей систем поиска в рамках одной статьи весьма проблематично, поэтому на этом мы и остановимся. Как видите, интересных решений на рынке корпоративных поисковых систем достаточно много, нужно только определиться с требованиями, которые вы предъявляете, и найти соответствующий им продукт.

Версия для печатиВерсия для печати
  • 1
  • 2
  • 3
  • 4
  • 5
Всего голосов: 3
Заметили ошибку? Выделите ее мышкой и нажмите Ctrl+Enter!

Комментарии

Аватар пользователя mental

Ужасно. Автор, вы в каком году? Инфа устарела лет этак пять назад.

+1