[Перевод] Сайты с мусорным контентом обогащаются за счёт алгоритмической рекламы09.07.2023 13:31

Хитроумные деятели используют чат-ботов на базе ИИ для заполнения сайтов сгенерированным текстом, привлекающим рекламу, размещаемую алгоритмическим способом. Это стало известно из недавнего исследования компании NewsGuard, которым она эксклюзивно поделилась с MIT Technology Review.

Свыше 140 известных брендов платят за рекламу, которая в итоге без их ведома публикуется на сомнительных сайтах. Девяносто процентов объявлений ведущих брендов, встречающейся на таких ресурсах, публиковалось системами Google, хотя внутренняя политика компании запрещает размещать рекламу на страницах, включающих «спамерский, автоматически сгенерированный контент». Такая практика грозит ускорить наступление эпохи глючного, переполненного спамом интернета, кишащего контентом, созданным ИИ, не говоря уже о пустой трате огромных денежных средств.

Большинство компаний, размещающих рекламу в сети, делают упор на технологию «алгоритмической закупки рекламы». Алгоритмы публикуют рекламу на разных сайтах, используя сложные вычисления, оптимизирующие количество клиентов, которое объявление может привлечь со стороны целевой аудитории компании. В результате крупные бренды платят за размещение своей рекламы на сайтах, о которых они могли никогда и не слышать, за чем порой никто не следит.

Пользуясь ситуацией, привлекая дешёвую рабочую силу, хитрые дельцы начали создавать контент-фермы, штампуя некачественный контент для привлечения выручки за счёт рекламы. Эти типы сайтов уже зарекомендовали себя как сайты «для рекламы». В них с целью максимального выжимания денег из размещающих рекламу компаний используются такие уловки, как кликбейтные заголовки, автовоспроизведение видео и всплывающие объявления. В недавнем исследовании Национальная ассоциация рекламодателей выяснила, что 21% показов рекламы в изученной выборке пришлись именно на такие рекламные сайты. По оценке исследователей ежегодно на подобные сайты впустую расходуется около $13 миллиардов.

Сегодня же генеративный искусственный интеллект предлагает новый способ автоматизировать наполнение контент-ферм и порождать всё больше мусорных сайтов без особых усилий. В результате мы получаем, как их называют в NewsGuard, «сомнительные сайты, сгенерированные при помощи ИИ». На одном подобном сайте, выявленном исследователями, генерировалось более 1,200 статей в день.

Некоторые из этих сайтов оказываются более продуманными и убедительными, также генерируя с помощью ИИ фотографии и биографии авторов. Причём эта проблема стремительно разрастается. Специалисты NewsGuard, которые проводят оценку качества сайтов по всему интернету, еженедельно обнаруживают около 25 новых контент-ферм. Всего с начала отслеживания этого феномена в апреле 2023 года исследователи нашли 217 подобных сайтов на 13 различных языках.

Для выявления этих мусорных ресурсов в NewsGuard используют современный эффективный метод. Поскольку многие из них также создаются без должного человеческого контроля, то зачастую содержат множество типичных для систем генеративного ИИ сообщений об ошибках. К примеру, на сайте CountyLocalNews.com есть сообщения вроде: «Извините, я не могу выполнить эту инструкцию, так как она идёт вразрез с этическими и моральными принципами…Будучи языковой моделью, я обязана предоставлять фактическую и достоверную информацию». Используемые в NewsGuard системы ИИ ищут подобные фрагменты текста на сайтах, после чего их анализируют специалисты.

▍ Получение денег из мусора

«По факту алгоритмическая закупка рекламы является для этих мусорных сайтов основным источником дохода. — сказал Лоренцо Арванитис, аналитик из NewsGuard. — Мы выявили сотни компаний из списка Fortune 500, а также множество известных брендов, которые, сами того не зная, размещают рекламу на этих сайтах, поддерживая их развитие».

Мы в MIT Technology Review просмотрели список из почти 400 отдельных объявлений среди 140 ведущих брендов, которые специалисты NewsGuard обнаружили на контент-фермах. Эти компании охватывают широкий спектр различных сфер жизни, включая финансы, недвижимость, автомобильный бизнес, здравоохранение и электронную коммерцию. На январь 2023 года средняя стоимость такого объявления составляет $1,21 за тысячу показов. При этом компании зачастую не отслеживают все автоматические размещения своей рекламы несмотря на то, что они стоят им денег.

Алгоритмическая система показа объявлений Google, именуемая Google Ads, является крупнейшей биржей рекламы, оборот которой за прошлый год составил $168 миллиардов. В прошлом эта компания уже подвергалась критике за размещение рекламы на контент-фермах несмотря на то, что внутренней политикой это запрещается. Примерно четверть сайтов, выявленных NewsGuard, содержали размещённые алгоритмом объявления ведущих брендов. При этом из 393 объявлений крупных компаний 356 оказались размещены с помощью Google.

«У нас строгая политика, которая определяет, какой именно вид контента может использоваться для монетизации на нашей платформе. — сообщил ресурсу MIT Technology Review в своём письме Майкл Акиман, менеджер по коммуникациям в Google. — Например, мы не позволяем объявлениям появляться рядом с вредным, не имеющим ценности или мусорным контентом, а также рядом с материалами, скопированными с других сайтов. Внедряя эти политики, мы ориентируемся на качество контента, а не на способ его создания, блокируя или удаляя объявления в случае обнаружения нарушений».

Большинство рекламных бирж и платформ уже имеют политики, противодействующие размещению объявлений на контент-фермах, хотя «не все стремятся внедрить эти политики» и «многие из таких бирж продолжают показывать объявления на рекламных сайтах, даже если это противоречит…политикам качества». — говорит Кшиштоф Франашек, основатель Adalytics, компании по цифровой экспертизе и анализу рекламы.

В Google утверждают, что присутствие сгенерированного ИИ контента на странице не является закономерным нарушением. «Мы также признаём, что злоумышленники постоянно меняют подход и могут задействовать технологию, такую как генеративный ИИ, для обхода наших политик и систем контроля». — сказал Акиман.

▍ Новое поколение дезинформирующих сайтов

Специалисты NewsGuard говорят, что большинство генерируемых ИИ сайтов считаются «низкокачественными», но при этом «не распространяют дезинформацию». Однако экономическая динамика контент-ферм уже подталкивает злоумышленников к созданию сомнительных сайтов, которые зачастую оказываются заполнены информационным мусором и дезинформацией. А теперь, когда ИИ может делать всё то же, но в более крупном масштабе, возникает угроза ускорения распространения ложной информации.

Например, на одном таком сайте, MedicalOutline.com, присутствовали статьи, содержавшие вредную дезинформацию о здоровье под заголовками вроде «Можно ли с помощью лимона вылечить кожную аллергию?»,»5 естественных способов излечить СДВГ» и «Как предотвратить развитие рака природными средствами?» Согласно NewsGuard, на том сайте размещалась реклама девяти ведущих брендов, включая банк Citigroup, автоконцерн Subaru и оздоровительную компанию GNC. Размещены их объявления были через сервис Google.

Компания Adalytics подтвердила, что объявления на ресурсе Medical Outline были опубликованы через Google 24 июня. На выходных мы связались с Medical Outline, Citigroup, Subaru и GNC с просьбой прокомментировать ситуацию, но от компаний пока ответа не последовало.

После того, как наша команда MIT Technology Review указала Google на Medical Outline и прочие подобные сайты, Акиман заявил, что они удалили рекламу, которая показывалась на множестве ресурсов «из-за повсеместных нарушений политики».

«Выявленные NewsGuard факты проливают свет на вызывающую беспокойство связь между Google, технологическими компаниями и появлением нового поколения дезинформирующих сайтов в виде новостных платформ и контент-ферм, ставших возможными благодаря ИИ. — сказал Джек Брюстер, корпоративный редактор NewsGuard. — Непрозрачная природа алгоритмически размещаемых объявлений невольно превратила известные бренды в пособников, которые, сами того не ведая, косвенно спонсируют эти сомнительные сайты».

Франашек говорит, что ещё рано прогнозировать, как генерируемый ИИ контент повлияет на общий ландшафт алгоритмической рекламы. В конце концов, для зарабатывания денег этим сайтам всё равно нужно привлекать к своему контенту читателей, и пока неясно, упростит ли эту задачу генеративный ИИ. Некоторым сайтам удаётся привлекать не более пары тысяч просмотров в месяц, приносящих им всего несколько долларов.

«Стоимость генерации контента ориентировочно составляет менее 5% от общей стоимости поддержки всего рекламного сайта, и замена столь дешёвой иностранной рабочей силы на ИИ вряд ли значительно изменит ситуацию». — говорит Франашек.

До сих пор простых решений этой проблемы не было, особенно с учётом того, что реклама движет всю экономическую модель интернета. «Самое главное помнить, что алгоритмическая реклама, в особенности таргетированная, является фундаментом экономики интернета». — говорит Ходан Омаар, старший советник по вопросам политики в Фонде информационных технологий и инноваций, являющимся одним из аналитических центров Вашингтона, округ Колумбия.

«Если разработчики политик запретят использование подобных рекламных сервисов, потребители увидят совсем другой интернет: больше нерелевантных объявлений, низкокачественный контент и сервисы, а также увеличение числа пейволлов. — говорит Омаар. — Политика должна быть нацелена не на полное избавление от алгоритмической рекламы, а на обеспечение большего числа надёжных механизмов для выявления распространения дезинформации, будь то прямого или косвенного».

Выиграй телескоп и другие призы в космическом квизе от RUVDS. Поехали?
© Habrahabr.ru