Google держит вас в персональном «поисковом пузыре» даже если выйти из аккаунта
Все мы давно знаем, что Google, Яндекс и другие коммерческие поисковые системы анализируют историю посещений и поисковую историю пользователя, на основе которых хитрые алгоритмы пытаются предсказать, что «пригодится» человеку в следующий раз. Когда эта технология только зарождалась, она казалась логичной и понятной, но сейчас этот подход выглядит крайне и крайне пугающе. Потому что раньше представители Google, самой популярной поисковой системы в мире, утверждали, что достаточно выйти из аккаунта, чтобы избавиться от «предвзятости» поисковой выдачи и получить нейтральные результаты при использовании сервиса.
Парни из DuckDuckGo в своем исследовании утверждают, что даже при выходе из аккаунта и переходе в анонимный режим, Google продолжает подстраивать поисковую выдачу согласно ранее собранной о пользователе информации. То есть компания не оставляет человеку выбора и все равно манипулирует поиском, даже если действия пользователя явно говорят о том, что он хочет получить «нейтральный» результат.
Даже если учесть то, что DuckDuckGo — тоже поисковик и может быть крайне предвзят к Google и ее алгоритмам, результаты исследования заставляют задуматься. Для того, чтобы проверить работу поиска от Google, команда DuckDuckGo собрала группу из 87 добровольцев и получила выборку из 76 результатов поиска. Эти люди сначала вводили заранее оговоренные и общие для всех запросы в анонимном режиме, который по идее должен обеспечивать выборку, свободную от влияния внешних факторов типа истории поиска, а после — из под своих учетных записей. Поиск производился всеми добровольцами одновременно (эксперимент проводился 24 июня 2018 года в 21:00), сначала в приватном режиме без логина, а после — из под своих учетных записей. В исследовании принимали участие только жители США, чтобы избежать влияния фильтров по «государству».
При таких условиях ожидалось, что все пользователи +\- получат схожую поисковую выдачу, так как запросы производились примерно в одно и тоже время, из одной страны и в определенном порядке. Однако большинство добровольцев получило уникальную поисковую выдачу в приватном режиме + персональные рекламные ссылки (первые 3–4 результата). Конкретнее по цифрам на три используемых запроса:
- «Gun Control»: 62 ссылки, 52 из 76 участников (68%) получили уникальные результаты.
- «immigration»: 57 ссылок, 43 из 76 участников (57%) получили уникальные результаты.
- «vaccinations»: 73 ссылки, 70 из 76 участников (92%) получили уникальные результаты.
По логике вещей, если такая вариативность поисковой выдачи имеет место быть в «анонимном» режиме без логина, то уникальность поиска при входе в аккаунт должна просто зашкаливать. Однако в случае обычного поиска (с влиянием истории запросов) картина по уникальности выдачи почти не сдвинулась с места:
- «Gun Control»: 58 ссылок, 45 из 76 участников (59%) получили уникальные результаты.
- «immigration»: 59 ссылок, 48 из 76 участников (63%) получили уникальные результаты.
- «vaccinations»: 73 ссылки, 70 из 76 участников (92%) получили уникальные результаты.
Что это значит? Это значит, что заявления Google о том, что компания решила проблему с предвзятостью выдачи еще осенью этого года — не соответствуют действительности.
При этом команда DuckDuckGo проанализировала еще и «новостную» выдачу в инфобоксе. Некоторые источники видели все участники экасперимента, но «почему-то» периодически Google подсовывала некоторым людям индивидуальные ссылки, которые видели только они. Несколько человек вообще не видели инфобокса, что тоже «очень странно». Подробные цифры можно посмотреть в оригинальном посте.
В идеальном мире анонимного поиска каждый пользователь, который не захотел предоставлять Google свои персональные данные, должен получать один и тот же набор наиболее релевантных ссылок на свой запрос, как и любой другой пользователь из его страны. Однако Google продолжает отслеживать своих пользователей и навязывать им «умную» выдачу для того, чтобы продавать товары и услуги рекламодателей. «Большой Брат» лучше знает, что вам нужно.
Тут в XLS-файле расположены инструкции, которыми руководствовались добровольцы. С полными результатами исследования можно ознакомиться в этом XLS-файле. Python-код для анализа результатов лежит в репозитории на GitHub.