CAPTCHA сегодня: мало защиты, но много проблем

79d59fc4cd6ff8944a422e98b080df94.jpg


Источник.

CAPTCHA — технология для защиты веб-сайтов от мошенничества, атак, злоупотреблений, спама и прочих угроз. Изначальная цель — обеспечить доступ к сайту и его наполнению только реальным пользователям, а не ботам. В целом, технология работала, но с определенного момента что-то пошло не так. Обо всем этом — под катом.

История и основные затруднения CAPTCHA


В начале 2000-х использование капчи было эффективным барьером для ботов. Но с развитием ИИ эта технология стала почти бесполезной. Алгоритмы машинного обучения справляются с ней лучше, чем люди 15 лет назад. На сегодня даже самые сложные методики CAPTCHA — ресурсы для машинного обучения.

В 2019 году Google попыталась исправить это и поменяла CAPTCHA на reCAPTCHA. Но уже тогда технический руководитель команды Аарон Маленфант предупреждал о коротком сроке службы даже обновленного технологического решения. Согласно его прогнозам, он должен составить 5–10 лет.

«По мере того как люди вкладывают все больше и больше средств в машинное обучение, задачи капчи будут становиться все сложнее для людей», — сказал Маленфант. Его прогноз оказался правдивым. ИИ-боты быстро развиваются и превосходят методологию reCAPTCHA. Вредоносные программы решают тесты Тьюринга, имитируя работу человеческого мозга в сочетании со зрением. Фактически, боты не просто сравнялись с людьми по возможностям прохождения reCAPTCHA, но даже превосходят нас в некоторых аспектах.

c9f102cea693373a7760c3b24b43a224.jpg


Источник.

Вред для бизнеса


От неэффективности капчи страдает не только пользователь сайта, но и бизнес. Раздражающий и даже местами унизительный для клиента процесс прохождения верификации — совсем не то, с чем компании хотели бы ассоциировать свои товары и услуги, особенно на этапе знакомства пользователя с сайтом.

С другой стороны, нет возможности сделать CAPTCHA простой, незаметной для человека и эффективной против ботов. Сегодня тесты на роботов бесполезны в случаях автоматизированной атаки на компании. Боты без проблем крадут и парят информацию, совершают мошеннические действия, блокируют клиентскую базу и многое другое. В конечном итоге капча никак не защищает бизнес от злоумышленников, при этом разочаровывает потенциальных клиентов

«Мы точно знаем, что люди ее (CAPTCHA) очень не любят. Нам не нужно было проводить дополнительные исследования, чтобы прийти к такому выводу», — сказал Джин Цудик, исследователь из Калифорнийского университета в Ирвайне. «Общество не знает, оправдывают ли себя огромные усилия, который вкладываются в развитие CAPTCHA ежедневно, ежемесячно и ежегодно».

Докажите, что вы не робот


22 июля 2024 года была опубликована научная работа, где исследователи привлекли 1400 участников для тестирования CAPTCHA на сайтах, входящих в число 120 из 200 самых популярных интернет-ресурсов в мире. Результаты показали, что точность работы ботов варьируется от 85% до 100%, причем у большинства она превышает 96%. Для сравнения: точность выполнения задач людьми составляет от 50% до 85%. Боты также решали задачи значительно быстрее людей во всех случаях, за исключением reCAPTCHA, где время решения задач людьми составляло 18 секунд против 17,5 секунд, которые уходили у ботов. В естественной обстановке время решения задач людьми увеличивалось до 22 секунд.

Дженгиз Ачартюрк, ученый в области когнитивных наук и компьютерных технологий из Ягеллонского университета в Кракове, отмечает, что при разработке лучших вариантов CAPTCHA есть свои ограничения. «Если задача слишком сложная, люди сдаются», — объясняет Ачартюрк. Поэтому решение по добавлению капчи зависит от того, насколько важно пользователю попасть на этот сайт.

9f497f96c7797987e61c633ec308ad84.jpg


Источник.

reCAPTCHA как инструмент сбора данных?


Ученые из Калифорнийского университета в Ирвайне утверждают, что от CAPTCHA следует отказаться. По их мнению, минусов у технологии намного больше чем плюсов. Кроме уже озвученных выше недостатков, авторы исследования Эндрю Сирлз, Ренесанс Тарафдер Прапти и Джин Цудик говорят, что истинная цель reCAPTCHA — собрать информацию о пользователях и их действиях на веб-сайтах.

Как говорится в статье, еще в 2016 году при помощи автоматизированных сервисов, включая Google Reverse Image Search (GRIS), исследователи обходили reCAPTCHA v2 в 70,8% случаев. Среднее время выполнения задачи при этом составляло 19,2 секунды. Повторное исследование в 2020 году показало, что боты могли обойти reCAPTCHA v2 уже со скоростью 17,5 секунд в 85% случаев.

reCAPTCHA v3 тоже показала себя не с лучшей стороны. Авторы статьи симулировали атаку на сайты с использованием методов обучения с подкреплением, которая позволяет обходить поведенческие задачи последней версии капчи в 97% случаев.

«Эти технологии были побеждены еще до того, как они были внедрены на глобальном уровне», — говорит Эндрю Сирлз. «Проблемы с выбором изображений были решены компьютерными системами еще в 2009 году, хотя Google внедрила эту технологию только в 2014 году. Использование сторонних файлов cookie для поведенческого анализа в reCAPTCHA ввело уязвимость под названием «кликджекинг», что значительно упростило автоматический обход этих проверок».

Результаты исследования авторов основаны на изучении поведения пользователей в течение 13 месяцев в 2022 и 2023 годах. Было зафиксировано и проанализировано более 9000 сеансов reCAPTCHA v2 от ничего не подозревающих участников, а также опрошены 108 человек.

Авторы исследования подсчитали, что за 13 лет использования reCAPTCHA потрачено 819 миллионов человеко-часов, что соответствует $6,1 млрд в виде заработной платы. При этом сгенерированный трафик потребил 134 петабайта пропускной способности, что равно 7,5 млн кВтч энергии и эквивалентно 3,4 тыс тонн CO2.

b215520eab2e9c58641873093c4f8200.png


Источник.

«Это демонстрация того, как CAPTCHA создает эксплуататорскую систему, где вредоносные боты заставляют людей выполнять задачи за них», — объяснил Сирлз. «Несправедливо обязывать людей решать задачи безопасности, в то время как капча не обеспечивает никакой реальной защиты». Ученый справедливо считает, что все затраты должны нести сам Google, а не пользователи веб-сайтов. «Если сервис утверждает, что обнаруживает ботов, то он должен действительно их обнаруживать — особенно если это платный сервис», — говорит он.

В ответ на обвинение Google заявил, что данные пользователей reCAPTCHA используются исключительно для улучшения сервиса, что ясно указано в условиях использования. Но Сирлз и его команда подвергли сомнению заявление Google, предложив провести публичный аудит всех записей для подтверждения этих слов. Он отметил, что заявление компании юридически неоднозначно и не исключает возможности продажи данных пользователей. Google было предложено официально раскрыть все данные по историческим решениям reCAPTCHA для подтверждения заявлений.

А что вы думаете об этой технологии? Пишите в комментариях, обсудим.

© Habrahabr.ru