Исследование Mozilla: истории просмотров браузеров достаточно уникальны, чтобы идентифицировать пользователей

image

Сотрудники Mozilla провели новое исследование, которое подтвердило, что браузерные истории просмотров позволяют идентифицировать пользователей. Они выяснили, что большинство юзеров следуют привычным схемам просмотра веб-страниц, и это позволяет онлайн-рекламодателям создавать их точные профили.

Это исследование стало продолжением аналогичной работы, которую уже провели в 2012 году. Первое исследование было одним из крупнейших проектов по анализу конфиденциальности пользователей в то время, а его авторы собрали данные истории браузера от более чем 380 тысяч пользователей. До этого, в период с января 2009 года по май 2011 года они попросили пользователей зайти на тестовый сайт. Там использовался умный CSS-код, чтобы определить, какие сайты из заранее составленного списка на 6000 доменов посетили люди из тестовой группы.

Исследование 2012 года показало, что 97% пользователей, которые заходили на этот сайт, имели уникальный список сайтов в своей истории посещений, что делало историю браузера фактически цифровым отпечатком.

Когда пользователей попросили снова зайти на тестовый сайт, он смог идентифицировать их на основе ранее составленных профилей. Точность составляла 38%, когда исследователи рассматривали наборы данных истории просмотров 50 самых популярных доменов пользователя, и 70%, когда они анализировали наборы данных с 500 доменами.

Новый эксперимент Mozilla проходил с 16 июля по 13 августа 2019 года. В нем принимали участие пользователи Firefox, всего более 52 тысяч человек. Они согласились предоставить данные о просмотрах на анонимной основе.

Однако на этот раз, поскольку данные были собраны из самого Firefox, а не через веб-страницу, они были гораздо более точными. Они относятся к тому же типу данных, которые современные компании собирают о пользователях-либо через партнерские соглашения, либо через мобильные приложения и онлайн-рекламу.

Как и в первый раз, сбор данных проходил в два этапа, в течение двух недель. Пользователи делились историей просмотров в первую неделю, а затем еще раз — во вторую.

В общей сложности, была собрана информация о 35 млн посещений веб-сайтов в 660 000 уникальных доменах. Mozilla заявила, что 99% профилей просмотров были уникальными. Точность идентификации в этот раз была выше, чем в исследовании 2012 года. Показатель повторной идентификации вырос до более чем 80%, когда исследователи Mozilla расширили набор данных истории просмотров до 150 доменов.


В исследовании отмечается, что рекламодателям не нужны длинные списки сайтов, к которым мы обращаемся в принципе, а достаточно 50–150 любимых ресурсов пользователя. По ним и составляют профили людей.

Кроме того, эти данные можно использовать для отслеживания и повторной идентификации конкретных пользователей в различных наборах данных, содержащих даже небольшие образцы истории посещений.

См. также:

© Habrahabr.ru