Он знает о вас всё: интервью с гендиректором SocialDataHub Артуром Хачуяном

Наверняка на волне скандалов о «сливе» личных данных вы перестраховались и сменили пару-тройку паролей на более сложные. Но задумывались ли вы о том, как много о вас уже знают, без взлома? Всё, что вы когда-нибудь писали в социальных сетях, каждый ваш лайк, репост и комментарий говорят о вас намного больше, чем вы можете себе предположить. KV.by взял интервью у, наверно, одного из самых необычных руководителей одного из самых необычных направлений в сфере IT. Представляем Артура Хачуяна, генерального директора SocialDataHub.

— Компания существует 7 год, мы занимаемся обработкой открытых источников данных. То есть со всего открытого интернета собираем информацию: соцсети, блоги, форумы, приложения для знакомств, для продажи, госреестр и так далее. Из всего этого мы вычленяем факты, делаем выводы и эти выводы продаём.

У нас основные направления — это реклама, банки, страховые и ритейл. То есть мы повышаем эффективность компании, помогаем что-то продать, основываясь на идентификации человека, его интересах и так далее. И ещё одно направление — государство, поиск всяких террористов, насильников, педофилов, убийц, маньяков.

С чего началась работа с данными? Нужно ли знать какую-то сложную математику для работы с Big data?

— Мы начали собирать данные в 2010 году. Половина данных у нас до сих пор ещё никак не монетизирована, они бережно хранятся и мы ещё не знаем, зачем они. Рано или поздно свои плоды они принесут. Конкретно для сбора вряд ли нужно «рубить» в математике, но каждая вторая задача у нас завязана на ней. Я не говорю о распознавании лиц, я об элементарных вещах таких как корреляция… Сидишь, решаешь какие-то задачи, и понимаешь, что у тебя раз в два дня всплывает какая-то элементарная базовая математика: линейная алгебра, матрицы перемножать или какие-то разделы ТФКП.

Это проблема рынка, все data-scientist-ы сейчас не очень сильно образованные в математике. Часто это программисты, которые хорошо программировали и выучили десять библиотек машинного обучения, не особо понимая основы всего. Я сам заканчивал (но не закончил) вуз, но, тем не менее, у меня была профильная специальность. Но сейчас я не знаю ни одного университета, который бы готовил профильных специалистов. Поэтому мы сами открыли магистратуру в трёх вузах.

 

 

Как вы «докатились до такой жизни», что начали продавать людям информацию о них же самих?

— Людям мы ничего не продаём. Продаём компаниям, но надо понимать, что компаниям мы не продаём персональную информацию о конкретных пользователях. Вот пример кейса: приходит интернет-магазин, он зарабатывает, скажем, 1 млн рублей. Мы ставим счётчик на сайт, который идентифицирует входящих пользователей и показывает им определённые товары.

Когда в магазин заходит условная девушка, в тот момент, когда сайт грузится, мы уже посмотрели все её фотографии в Инстаграме, проанализировали цвет верхней и нижней одежды, как он соотносится с семантикой её постов, цветом одежды, друзьями, погодой.

И в тот момент, когда сайт загрузился, мы ей показываем идеальный товар, который ей нужен. Тем самым повышаем эффективность продаж конкретного магазина. Вот так выглядит маленький кейс в ритейле. Это я всё к тому, что ничьи персональные данные мы не продаём. Мы продаём безличные выводы, анализ кластеров либо базы клиента. Единственные персональные данные, которые продаются, продаются государству. Но и в этом случае мы разрабатываем систему, и они покупают систему. То есть мы сами ничьими данными не торгуем.

— Может ли какой-то человек обратиться, а не компания?

— Чисто теоретически да, но мы стараемся этого не делать по причине того, что есть закон, запрещающий выдавать информацию о третьих лицах. Даже если ты её получил из открытых источников, закон очень размыто это описывает.

Мы это не делаем по следующей причине: если мы неправильно человека идентифицируем, и он вдруг окажется не владельцем этой информации, решит подать в суд, а за это можно и сесть. Только в индивидуальном порядке, если это мой знакомый, например, и у него угнали машину и по номерам надо посмотреть что-нибудь.

Вы работаете с данными, с сетями, с алгоритмами. Насколько сами открыты в соцсетях? Насколько сами своим же кейсам подвержены?

— На самом деле у меня достаточно открыты соцсети, и я пользуюсь правилом не постить то, за что потом будет стыдно. Хотя сложно сказать, за что тебе не будет стыдно через 10 лет. На самом деле я спокойно отношусь, потому что у меня не очень высокий уровень паранойи в соцсетях. То что есть в открытом доступе — оно там и есть, ничего с этим не сделаешь. Дома ко мне в трусы всё равно никто не залезет.

— Если вы это не выложите в сеть.

— Да, конечно. То есть я спокоен. Но всё равно, когда я делаю какие-то посты, я всегда проверяю задний фон, вдруг там что-нибудь попадётся.

— А можете рассказать, что сложнее всего узнать о человеке из его постов?

— Например, владеет ли он квартирой. То есть квартира в собственности или он её снимает. Это достаточно сложная метрика, которую определить можно, только имея несколько лет социальной активности этого человека. Это если он не писал: «ура, я купил квартиру», а по каким-то косвенным параметрам.

Ну и процесс установления аффилированности между двумя лицами. Кто-то может «спалиться», сделав какую-то публикацию, но большинство так не поступает. Тут задача понять, как люди были связаны, как они связаны сейчас и как они могут быть связаны в будущем, — то есть спрогнозировать, как и кого пользователи могут встретить, на каком мероприятии, как будут взаимодействовать.

— Есть ли для человека, который реально параноит, который не хочет, чтобы кто-то о нём что-то знал, кроме имени-фамилии и сколько ему лет, какие-то советы?

— Надо понимать, что с высоким уровнем развития всех алгоритмов для сбора данных, точно также развиваются и всевозможные плагины для браузеров для анонимизации себя. Торы, защищённые сети, р2р-мессенджеры — есть человек хочет «не палиться», он «не палится». Он заведёт нормальный фейк, заведёт сим-карту левую. Вопрос: зачем? Если ты хочешь прятаться от Фейсбука или какого-нибудь рекламного алгоритма, чтобы не было контекстной рекламы, достаточно плагин в браузере поставить, который будет кликать на всю рекламу и портить твой цифровой след.

Если человек боится государства, то у государства есть доступ к трафику. От этого никак не скроешься, только поставив VPN, создав кусок защищённой сети. Но единственная моя социальная паранойя — я еду всегда в соседний дом заказываю. Вдруг кто-то базу доставки взломает и узнает, где я живу.

— Может ли человек целенаправленно обмануть систему? И будет ли это распознано?

— Да, большинство параметров элементарно вычисляются. Особенно когда люди указывают не свой возраст, то можно посмотреть на возраст его друзей, как правило близко к среднему всегда у всех друзей возраст совпадает. Можно и школьных друзей посмотреть. То же касается и работы, и путешествий. Конечно, есть люди, которые серьёзно заморачиваются, у них специальная симка якобы рабочая и ещё какая-нибудь.

— Это проверяется вручную?

— Нет, автоматизировано. Высчитывается зависимость между параметрами, мы видим, что человек вываливается за среднестатистическое отклонение, и понимаем, что он соврал. По поводу возраста — в том же Инстраграме люди часто делают пост о дне рождения, вроде «ура, мне сегодня 26!».

Когда-то один раз пост случайно сделал, мы его запомнили, вычленили из него факт, запомнили дату публикации и потом считаем. Или дата рождения ребёнка, если мама пишет «смотрите, я на шестом месяце».

Ага, значит через три родим, через двенадцать год и так далее, и подбираем разные товары. Ещё из подобных кейсов: часто люди, у которых нет своих фоток в Инстаграме и не знаешь, кто это, сторис снимают, которые потом удаляются. Они себя засвечивают и таким образом можно идентифицировать чей-то аккаунт.

— Какой объём занимает информация об одном человеке?

— Если не считать медиаконтент, фотографии и так далее, а только знания, то не так много, пару мегабайт на человека.

По сути, это какой-то файл расширения txt, в котором и записана информация?

— Да. В базе данных лежит файл, в нём есть всякие поля: рост, вес, пол и так далее. Всего же у нас хранилище 8 - 8,7 петабайт, там данные с соцсетей, история. Больше всего занимают лайки и социальные действия, связи между людьми.

— А ваша география?

— У нас есть вся Россия, СНГ и мы начинаем сейчас Америку и Китай индексировать. У нас там не особо много клиентов, там у нас замониторены персоны, интересные кому-то отсюда. Это какие-то ребята, которыми государство интересуется, либо публичные личности, которыми интересуются коммерческие бренды.

У нас нет пока задачи собирать контент, ещё и законодательство изменилось, и мы пока не понимаем, как в новом законодательстве работать и себя позиционировать.

— Можете ли вы назвать самый странный кейс, который вам заказывали?

— Есть у нас сервис по подбору целевой аудитории. Там бывают порой очень странные запросы, например, кто покупает какие-нибудь квантовые лазеры или ещё что-то. То есть явно случайно человек попал к нам. Но мы очень долго смеялись с одного рекламного агентства, которое занимается бьюти-индустрией. Оно просило найти девушек с распознаванием образов, которые используют нюдовую помаду (цвета тела). Мы им написали: как можно найти девушек, у которых помада цвета… ничего?

Какой из кейсов кажется вам наиболее сложным, интересным?

— Наверно, всё, что связано с правоохранением: тема раскрываемости преступлений, снижения криминогенного уровня, основываясь на данных, и так далее. Там очень много интересных задач, начиная от распознавания и идентификации людей и заканчивая алгоритмами, которые прогнозируют поведение пользователя.

— Насколько больше градус ответственности при работе с государством?

— Чувствуется интерес и ответственность к этой истории. Основная штука в том, что мы не занимаемся всякими посадками за репосты и так далее. Мы решаем конкретные задачи, и, естественно, этого никто не понимает. С государством работать проблематично, трудно, сложно, потому что они медленные, часто не идут на контакт.

С государством работать могут не все, платежи раз в год, в декабре, куча ответственности. Но, например, у военных и правоохранителей есть преимущество: у них очень чётко структурирован мозг. Они могут неправильно хотеть решить задачу, но чётко знают, какая у них задача. Если приходит рекламное агентство, то ему важен не результат, а процесс, как это всё делается, а ещё в середине задача поменяется десять тысяч раз, в итоге окажется всё совсем не так и решить вообще надо было вчера. У правоохранительных органов есть чёткая задача, чёткие сроки. Вот чемпионат мира. К этому чемпионату мира должно быть то-то, то-то и то-то, плевать, как сделаете, главное — результат. А и люблю решать задачи, когда важно результат получить, и тебя не трогают, не заставляют решать каким-то понятным способом.

— Правильно ли понимаю, что государство не афиширует, что работает с вами и открытыми источниками?

— На самом деле есть открытые мероприятия, мы с прокуратурой, например, делали хакатон. Они открыли данные, мы дали их командам, порешали задачи и сделали проекты. Редко государство открывает какие-то закупки, и, наверное, это правильно. Не по причине того, что это безумно дорого, просто не все должны знать, кто этим занимается. Это защищает и поставщика, и заказчика от всяких ненужных людей, которые всякие угрозы присылают.

— То есть и вам присылают угрозы?

— Да, присылают. Есть люди, которые считают, что мы сидим в наушниках и прослушиваем чьи-то телефоны. Бывает, что и на абонентский ящик в офис приходят всякие странные письма «придём и сожжём себя» и так далее. Поэтому у нас никто из сотрудников не пишет, где он работает, ведут себя достаточно скрытно.

Мы ещё часто работаем через третьи компании, которые имеют лицензии. Мы не очень лицеприятный для государства бренд, потому что у меня есть люди с судимостью, например, большая часть не имеет высшего образования. И лучше государству сотрудничать с какими-нибудь госучреждениями, у которого линолеум и коридоры. А они потом у нас всё закупят. Это не перепродажа и коррупция, а нормальная история с выигрышем тендера компании с лицензией, с которой потом заключается открытая покупка. То есть и нам, и им выгодно.

Версия для печатиВерсия для печати

Рубрики: 

  • 1
  • 2
  • 3
  • 4
  • 5
Всего голосов: 5
Заметили ошибку? Выделите ее мышкой и нажмите Ctrl+Enter!

Читайте также

 

Комментарии

Страницы

Но единственная моя социальная паранойя — я еду всегда в соседний дом заказываю.

А кто ел? (С)

Piton пишет:

эта фирма существует до сих пор, уже под новым юридическим названием, что нисколько не мешает ей уже минимум четверть века оставаться одним из основных игроков на рынке пластиковых окон, ведь торговая марка - "***" - остается старой.

Таких фирм полно - Philips, Bosch, Jaguar ...

У нас есть вся Россия, СНГ и мы начинаем сейчас Америку и Китай индексировать.

А не замахнуться ли нам на ... Шекспира? (С)

Но мы очень долго смеялись с одного рекламного агентства, которое занимается бьюти-индустрией. Оно просило найти девушек с распознаванием образов, которые используют нюдовую помаду (цвета тела). Мы им написали: как можно найти девушек, у которых помада цвета… ничего?

Очень просто: Если на девушке макияж, но помады "как бы нет" - то девушка использует  нюдовую помаду.

Аватар пользователя mike

А девочка на том конце провода заявляет: "Вам ставила раму фирма "*** Плюс", а мы теперь - "*** Лтд".пришлось долго разговаривать с их директором...

:)))

.... ещё раз повторюсь: вы ничего не знаете о реальной жизни. Переименование юрлица не мешает ни наработке клиентской базы...

Любопытно наблюдать, как Питон изворачивается: ему сделали одолжение, а он обобщил.

:)))

 

 

+1
Аватар пользователя Piton

mike пишет:

Любопытно наблюдать, как Питон изворачивается: ему сделали одолжение, а он обобщил.

А вы упорный. Другой бы понял, что  сморозил глупость, утёрся и пошёл дальше. Но не вы - будете до последнего отстаивать собственную "правоту".

Что ж, удачи! Мне вам объяснять прописные истины более нет желания.

Аватар пользователя savely

Да лучше б погуглили,  вместо сраться. 

Вот интересная инфа:

В 2014 году Артур Хачуян увел из рекламного агентства «Апостол» Тины Канделаки весь отдел кибернетики, которым сам и руководил: четверых программистов, двоих сисадминов и одного аналитика. Так появился SocialDataHub, который знает о вас и нас всё: любимый бар, породу кота, марку автомобиля и даже тайную мечту выучить французский.

Первая ссылка в выдаче Гугл по "Артур Хачуян":

https://incrussia.ru/fly/socialdatahub-kak-eks-reklamshchik-sdelal-biznes-na-big-data-i-prodaet-uslugi-byvshim-kollegam-i-chi/

Т.е. по смыслу в статье по ссылке все как бы да, но откуда здесь 7 лет компании (!) - мне лично неясно. То, что они в 2010-м параллельно с основной работой начали разрабатывать тему/писать софт и т.п. - да, нормально, понял. Но компания (aka свой бизнес) тут причем? 

Ну, и, судя по Гуглу, до 2016-го года про Артура Хачуяна не знал никто... 

Идем на khachuyan.com (это вторая ссылка):

Не удалось подтвердить, что это сервер khachuyan.com. Его сертификат безопасности относится к api.sdh.sexy. Возможно, сервер настроен неправильно или кто-то пытается перехватить ваши данные.

+1
Аватар пользователя savely

Выше - это не для того, чтобы сказать, что он сказочник или нет. Это отличный пример нынешних "стартапов", IMHO.

Алгоритмы, наверное, работают. Но бардак имеет место быть. Ну хочешь ты пиариться в VK (в соцсетях в целом) и Ютюбах - пиарься. Нафига тебе сайт? Но если уж сделал сайт и он выдается на второй позиции - ну, озаботься-таки, чтобы он работал. 

Аватар пользователя savely

Самый "красивый" сайт, как я понял - https://sdh.sexy/ru/

Но по запросу -  10-й результат ссылка на ВК, где в аккаунте уже ссылка на sdh.sexy. ДО этого - ссылки на статьи типа этой и т.п. 

Я отстал от жизни и чего-то не понимаю? 

Аватар пользователя savely

P.S. Из плюсов у него - пожалуй, база с 2010 (как написано на sdh.sexy). Но как минимум государству через пару лет (с учетом "закона Яровой") он будет не нужен. 

Страницы