Как не превратить Data lake в "болото данных"? Разбираемся с экспертом

Сегодня каждая компания — это организация данных. Они собирают, хранят и стремятся использовать их больше, чем когда-либо прежде. Если рассматривать в глобальном масштабе, мы сейчас находимся в центре взрыва данных. Общий объем корпоративной информации, по прогнозам, удвоится с 1 005 до 2 025 терабайт (2020-2022 года). Неудивительно, что многие организации играют в бесконечную «игру в догонялки», не имея знаний и инструментов для эффективного управления данными, которые они собирают.

Чтобы справиться с этим потоком, многие предприятия используют Data Lake («озеро данных») вместо стандартного хранилища. Теоретически, они дают компаниям преимущество с точки зрения масштабируемости, гибкости и интеграции с такими технологиями, как IoT. Однако вместо структурированного «озера данных» многие организации в конечном итоге получают огромный объём неконтролируемой информации, чаще всего бесполезной. О том, как решить проблему актуальности данных и получать от их использования максимум, KV.by узнал у эксперта в области анализа больших данных и разработчиком инновационных ИТ-решений — Павла Питкевича.

 

Как предотвратить образование "болота данных" и максимально эффективно использовать поступающую информацию?

Первое, и самое важное что стоит понять — перестаньте относиться ко всем данным вашей компании так, как будто они имеют одинаковый уровень важности. Поверьте мне, это не так.

Ключевым заинтересованным сторонами в компании необходимо решить, какие данные являются наиболее важными для ее целей. Необходимо понимать, что охватить всю информацию невозможно. Их неконтролируемый сброс в «озеро» — самый быстрый способ создать “болото”. Поэтому рекомендую выделить информацию, которая имеет наибольшее влияние на рост ключевых показателей компании и обеспечивают более высокую эффективность бизнеса. А именно: улучшают качество обслуживания клиентов, информируют о разработке продуктов. После этого назначьте выбранные данные своими ключевыми показателями эффективности и успеха. 

Как только вы завершите этап выделения ключевых показателей, убедитесь, что вы общаетесь с основными заинтересованными сторонами. Вот несколько вопросов, которые нужно задать:

•  Что является ключевыми показателями эффективности компании?

•  Какие показатели будут измеряться?

•  Понятны ли формулы для их расчета?

•  Какие критерии отбора необходимо создать и установить для поступающих данных?

•  В каких системах хранятся данные компании?

Подумайте о создании регламента загрузки данных, в котором четко указаны все аспекты загрузки и хранения данных, чтобы каждый мог ссылаться на него и иметь возможность обосновать стратегию компании в области хранения информации.

 

 

 

Выбрали важные данные. Что дальше?

С этого момента необходимо убедиться, что данные, которые хранятся в компании, являются точными. Компания должна проанализировать, откуда поступают важная информация, как и где она вводится в системы. Эффективная и регулярная очистка поступающих приведет к удалению или изменению неверных, неполных, неуместных или неправильно отформатированных данных. Убедитесь, что вы задали фильтры для удаления дубликатов и объединения различных наборов информации. Дедупликация, возможно, не самая привлекательная вещь, но она одна из самых важных. Если ее выполнить хорошо, компания сэкономит кучу денег и ресурсов.

Конечно же, на это уйдёт немало времени и усилий из-за разнообразия баз данных, форматов файлов, структуры, но я советую ни в коем случае не забывать об этом шаге. Крайне важно отделить действительно ценную информацию от ненужной. Без надлежащего контроля за качеством вносимых данных "озеро" компании снова превратится в болото. Организации слишком часто совершают эту ошибку.

 

Управление имеют решающее значение для данных компании?

Управление часто рассматривается как контролирующее, медленное и ограничивающее. Но на самом деле это помогает распределить полномочия и контроль над активами данных, чтобы они были согласованными, а также имели возможность использоваться во всей организации.

Давайте рассмотрим на примере одного из моих клиентов. Для их бизнеса, как и для многих компаний, успех клиентов является одним из наиболее важных ключевых показателей эффективности. Все начинается с первого контакта. Без надлежащего управления у нас могут появиться несколько данных одного и того же клиента. Это мешает нам принимать взвешенные решения, основанные на избыточной информации, что потенциально снижает качество обслуживания.

Регламент загрузки, про который я рассказывал ранее, может послужить краеугольным камнем стратегии управления данными. По мере дальнейшего процесса обработки информации легко потерять из виду первоначальные цели компании. Убедитесь, что все заинтересованные стороны регулярно обращаются к ним, чтобы данные сохраняли свою актуальность и оставались в центре внимания. В равной степени важно сохранять гибкость, поэтому, если требования организации изменятся, то соответствующим образом необходимо скорректировать регламент.

И последнее, но не менее важное — это прозрачность внутри компании. Это означает четкую коммуникацию между всеми заинтересованными сторонами, позволяющую различным отделам делиться своими знаниями. При этом обеспечивается и подотчетность за поддержание качества данных.

 

Читайте новости первыми в нашем Telegram-канале!

Подписывайтесь на наш канал в Дзен!

Версия для печатиВерсия для печати

Рубрики: 

  • 1
  • 2
  • 3
  • 4
  • 5
Всего голосов: 0
Заметили ошибку? Выделите ее мышкой и нажмите Ctrl+Enter!

Читайте также