Обезличивание данных не гарантирует вашу полную анонимность

Блог пользователя Cloud4Y

Есть мнение, что «обезличенная» информация, которую так любят собирать и использовать многие компании, на самом деле не защитит человека от деанонимизации, если данные вдруг утекут в сеть или будут использоваться в чьих-то интересах. Cloud4Y рассказывает, так ли это.

Минувшей осенью основатель Adblock Plus Владимир Палант проанализировал продукты Avast Online Security, AVG Online Security, Avast SafePrice и AVG SafePrice и сделал вывод, что компания Avast использует своё популярное антивирусное ПО для сбора и последующей продажи пользовательских данных. Поднявшаяся шумиха быстро сошла на нет, ведь исполнительный директор Avast Ондрей Влчек убедил пользователей в том, что собираемые данные были максимально обезличены, то есть лишены какой-либо привязки к личности конкретного человека.

«Наша компания не позволяет рекламодателям или третьим лицам получать доступ через Avast или любые данные, которые позволили бы третьим лицам нацеливаться на конкретного человека», — заявил он.

Однако исследование, проведённое студентами Гарвардского университета, показывает, что обезличивание собираемой информации — это далеко не гарантия защиты от «деанонимизации», то есть раскрытия личности человека по данным, имеющимся в базе. Молодые учёные создали инструмент, который прочёсывает огромные массивы наборов потребительских данных, которые попали в открытый доступ в результате небрежности, взлома или другого рода утечки.

Программе скормили все базы данных, которые утекали в сеть с 2015 года. В том числе — данные аккаунтов MyHeritage, пользовательские данные Equifax, Experian и пр. Несмотря на то, что многие из этих баз данных содержат «обезличенную» информацию, студенты говорят, что выявить реальных пользователей было не так уж и сложно.

Принцип работы довольно прост. Программа берёт список идентифицирующей личность информации (e-mail или имя человека), после чего сканирует все утёкшие базы данных на предмет информации, совпадающей с заданными параметрами. Если совпадения находятся, то студенты получают больше информации о человеке. И порой этих сведений достаточно, чтобы чётко идентифицировать его.

Собирая кусочки вашей личности

Индивидуальная утечка похожа на кусочек головоломки. Сама по себе она не особенно полезна, но когда многочисленные утечки собираются, превращаясь в единую базу данных, то можно получить удивительно четкую картину нашей личности. Люди могут забыть про эти утечки, но у хакеров есть возможность использовать эти данные и спустя много времени. Надо только собрать ещё несколько деталей головоломки.

Представьте, в то время как одна компания может хранить только имена пользователей, пароли, адреса электронной почты и другую основную информацию об учётной записи, другая компания может хранить информацию о ваших просмотрах и поисковых запросах или данные о вашем местоположении. Сама по себе эта информация не позволит идентифицировать вас, но в совокупности может раскрыть многочисленные личные подробности, о которых могут не знать даже ваши ближайшие друзья и семья.

Цель студенческого исследования — показать, что такой вот сбор данных, как бы его ни обезличивали, всё равно несёт потенциальную угрозу для пользователей. Набор данных из одного источника легко связать с другим через строчку, которая присутствует в обоих наборах. То есть не стоит думать, что ваша личная информация находится в безопасности только потому, что компания, занимающаяся сбором и хранением данных, уверяет в их полном обезличивании.

Этому есть и другие доказательства. Например, в одном британском исследовании учёные с помощью машинного обучения смогли создать программу, способную правильно идентифицировать 99,98% американцев в любом анонимном наборе данных, используя только 15 характеристик. Другое исследование, проведённое представителями Массачусетского технологического института, показало, что пользователи могут быть идентифицированы в 90% случаев, если использовать только четыре базовых параметра.

Получается, что по отдельности утечки информации довольно болезненны, но в совокупности становятся подлинным кошмаром.

Проблема – не только в компаниях

Но не стоит винить одни лишь компании. Несмотря на многочисленные скандалы, связанные с утечками конфиденциальных данных, которые стали чуть ли не еженедельным явлением, общественность сильно недооценивает влияние этих утечек и взломов на личную безопасность. А потому игнорирует базовые меры безопасности. Так, после анализа одной из выходных наборов данных программы, студенты из Гарварда установили, что из 96 000 паролей, содержащихся в базе, лишь 26 000 были уникальными.

То есть люди банально ленятся придумывать что-то сложное, используя шаблонные пароли. В лидерах — пароли «12345» и «123456». С такой защитой никакие технологии от взлома не спасут. Сложно защитить данные человека, если он сам не прикладывает никаких усилий для этого.

Есть нюанс: в России действуют "Методические рекомендации по применению приказа Роскомнадзора от 5 сентября 2013 г. N 996 «Об утверждении требований и методов по обезличиванию персональных данных» (утв. Роскомнадзором 13.12.2013). Эти рекомендации позволяют добиться действительно высокого уровня обезличивания. И если не экономить на этой процедуре, заменяя ФИО на ID (все, наверное, помнят, как чудесным образом имена детей бывшего генпрокурора России, Артёма и Игоря Чайки, в Росреестре превратились в коды ЛСДУ3 и ЙФЯУ9).

Что ещё можно добавить? Про важность использования уникальных паролей сказано уже столько, что нет смысла повторяться. А компании по-прежнему будут заниматься сбором данных, успокаивая нас обещаниями максимально всё обезличивать. Вот только, как вы видите, этим обещаниям не всегда можно доверять.

Оценка публикации