Как мы проводим A/B-тесты креативов в рекламе с помощью байесовского подхода

0072478a21300ada2e6d1a12c9dcab61.png

Всем привет! На связи трафик-менеджер Garage Eight Надежда Дулинец. В статье расскажу о флоу АБ тестирования рекламных креативов, который мы внедрили в 2023. Объясню, как выбрать и приоритизировать гипотезы, анализировать результаты и заводить A/B-тесты. Отдельное внимание уделю байесовскому подходу.

Особенности A/B-тестов в трафике

Рекламные кампании для продвижения приложений занимают особое место в структуре нашего маркетинга. Креативы в таких кампаниях очень важны. Под креативами в этой статье будем понимать любой визуал, который можно загрузить в рекламный кабинет — видео, статика, инфлюенс-нарезки и т.д. Креативов должно быть много, потому что их нужно регулярно обновлять. А чтобы увидеть желаемые результаты и выбрать лучшие, приходится их постоянно тестировать. 

В интернете много материалов на тему A/B-тестов, есть даже готовые флоу. Однако флоу тестирования UX в приложении или цепочки CRM-коммуникаций не подходит для тестов в платных каналах. Здесь есть особенности, которые нужно учитывать:

  • A/B-тесты в трафике платные. Каждый день A/B-теста равен определенному рекламному бюджету. Чем дольше длится A/B-тест, тем больше денег мы потратим.

  • Выборку трудно спрогнозировать. CPM, IPM и другие метрики зависят от многих факторов: сезонности, аукциона, типа креативов (видео/статика) и т.д.

  • Быстрое выгорание креативов. Конечно, есть «топ-перформеры», которые живут 6–12 месяцев. Однако большинство креативов работают успешно 1–3 месяца. В таких условиях невыгодно проводить A/B-тесты длительностью в месяц, ведь победитель A/B-теста может очень быстро выгореть.

Учитывая эти особенности, при разработке флоу мы поставили перед собой конкретную задачу: сократить длительность проведения A/B-тестов и, как следствие, снизить расход рекламного бюджета.

A/B-тесты и тесты новых концепций

В нашей компании мы используем 2 типа тестирования креативов в трафике:

  1. Тесты новых концепций, когда креативы значительно отличаются друг от друга, например, фоном, музыкой, героями, сюжетом и т.д. То есть это совершенно разные креативы, которые некорректно сравнивать между собой путем A/B-тестирования. Например, сравнить видеоинтервью с клиентами против статики с предложением 50% скидки не получится. В таких случаях мы добавляем новые концепции в ротацию в текущие кампании или группы объявлений и смотрим, как они отрабатывают по сравнению с активными креативами. Анализируем метрики CPM, IPM, CTR, CVR, чтобы понять, насколько они выше или ниже среднего. Смотрим, как сама система масштабирует креатив: какой процент рекламного бюджета она распределяет на новую концепцию. 

  2. A/B-тесты, когда мы изменяем один элемент в рамках одной концепции. Например, креатив с красной кнопкой против креатива с зеленой кнопкой. В таких случаях мы запускаем АБ тест со сплитом аудиторий.

В статье мы не будем затрагивать тесты новых концепций, а подробно расскажем про второй тип — A/B-тесты.

Подходы к A/B-тестированию

Без углубления в технические детали кратко рассмотрим подходы к A/B-тестированию: классический и байесовский.

При классическом подходе к A/B-тестированию мы отвечаем на вопрос «Какой вариант лучше?» Требования к выборке строгие: ее необходимо заранее рассчитать и набрать для достижения статзначимости. Ключевые метрики — статзначимость и p-value. 

Пример анализа результатов с помощью классического подхода. Возможны следующие результаты: вариант А лучше варианта B, вариант B лучше варианта А, варианты А и B значимо не различаются. 

7417f9669be00ea7cce5d0bf377d3ebc.png

При байесовском подходе к A/B-тестированию мы отвечаем на вопрос »С какой вероятностью креатив лучший?» Требования к выборке не такие строгие: решение можно принять на основе меньшей выборки, что положительно сказывается на длительности A/B-тестов и рекламных бюджетах. Ключевая метрика здесь — P2BB (Probability to be the best или Вероятность того, что вариант лучший). В результате анализа мы получаем распределение вероятностей.

Пример анализа результатов с помощью байесовского подхода. Вариант А лучший с вероятностью 77.05% (то есть метрика P2BB для данной вариации равна 77.05%), вариант B — с вероятностью 19.86%, вариант С — 3.08%.

9f0ccf51d185c1dd596a26f24049a3fc.png

Метрики для A/B-теста

По итогам A/B-теста мы анализируем все метрики по воронке, так как в трафике важно оценить воронку комплексно. То есть P2BB мы считаем для всех метрик по воронке.

Однако в спорных ситуациях, когда один креатив по одной метрике победил, а по другой проиграл, финальное решение принимаем по конечной метрике — CVR в регистрацию.

Так как бенчмарков по P2BB на рынке не было, мы посовещались с нашими аналитиками и установили свой порог — P2BB не ниже 75%. То есть, если по какой-то метрике у креатива P2BB выше 75%, мы считаем его победителем по этой метрике.

Упрощенный пример нашей воронки.

Упрощенный пример нашей воронки.

Следующий шаг — понять, как именно нужно изменить ту или иную метрику. Для этого мы построили «симулятор» изменений метрик по воронке. Из рекламных кабинетов выгрузили актуальные метрики по кампаниям и посчитали, как изменится ключевая метрика при изменении CTR на 3, 5, 8, 10, 15, 20%. Аналогичные расчеты сделали для всех важных для нас метрик.

Цели этапа:

  • Посмотреть, как даже небольшое изменение одной метрики может повлиять на конверсии и финальный СРА.

  • Определить минимальный процент изменений метрики, к которому вы будете стремиться в A/B-тестах.

  • Использовать полученную информацию для генерации более качественных гипотез.

85667327218f64261a3e24bb6021d634.png

Упрощенный пример «симулятора»: как изменится CPA при изменении CTR

Приоритизация гипотез

Для генерации гипотез мы используем:

  • Анализ статистики по текущим кампаниям: что работает хорошо, а что плохо

  • Анализ креативов конкурентов

  • Внутренние исследования, опросы и интервью

  • Анализ поведения пользователей в продукте 

  • Внешние исследования в открытом доступе, бенчмарки

  • Совместные брейнштормы с дизайнерами, копирайтерами, аналитиками, трафиками.

Для приоритизации гипотез мы адаптировали методологию RICE под платные каналы. По пяти пунктам ставим баллы от 0 до 2, суммируем их и получаем финальный рейтинг. 

  • Охват — насколько гипотеза масштабируема. Смотрим, подходит ли она для креативов по всей воронке или только для узкого сегмента аудитории.

  • Уверенность — источник гипотезы. Определяем, создана ли гипотеза на основе исследований и бенчмарков или на основе собственного любопытства.

  • Усилия — время дизайнера. Узнаем, нужны ли минимальные корректировки текущих креативов или более сложные изменения (3D, видеосток, своя съемка).

  • Видны ли изменения в первые пять секунд. Так как многие пользователи недосматривают даже короткие видео до конца, важно тестировать изменения, которые заметны в 1–5 секунды ролика.

  • Необходимость в креативе. Помимо A/B-тестов важно не забывать про текущие активные кампании и подстраивать гипотезы под них. Например, если в текущих кампаниях выгорела вся статика, в следующей итерации желательно выбрать гипотезу, подходящую статике.

*RICE: охват (reach), влияние (impact), уверенность (confidence), усилия (effort)

Пример плохой гипотезы: у варианта А и B сразу несколько изменений, они незаметны. Скорее всего, пользователи будут реагировать одинаково на оба варианта, мы получим одинаковые метрики и сольем бюджет.

✅ Хороший пример гипотезы: изменение одно, оно заметно (пустой фон против ярких элементов на фоне). Вероятность видимых различий в метриках выше.

Итоговый флоу запуска A/B-тестов

Как запустить A/B-тест за семь шагов:

  1. Генерируем и приоритезируем гипотезу по методологии RICE.

  2. Запускаем A/B-тест на рекламной платформе, где есть инструмент тестирования. Можно выбрать любую платформу. Важное условие: на ней должна быть возможность разделить аудитории на несколько равных частей, а также поставить одинаковый бюджет на каждую вариацию.

  3. Выбираем аудиторию, близкую к аудитории в активных кампаниях, чтобы потом корректно экстраполировать результаты A/B-теста на текущие кампании. Например, если вы работаете с мужчинами, а A/B-тест креатива запускаете на женщин, результаты АБ теста нельзя будет 100% экстраполировать на активные кампании, ведь аудитории сильно отличаются. 

  4. Учитываем сезонность. В нашем продукте есть сезонность по дням недели: будние дни представляют наибольший интерес, а в выходные активность пользователей падает. Поэтому большинство A/B-тестов мы можем проводить по 4–5 дней: с понедельника по четверг или пятницу.

  5. После завершения теста не ограничиваемся результатами, которые выдает рекламный кабинет. Выгружаем все метрики в таблицу, для каждой считаем статзначимость и P2BB по воронке.

  6. Для поиска дополнительных инсайтов смотрим разбивки по сегментам: полу, возрасту, регионам, устройствам и местам размещения.

  7. Делаем вывод по A/B-тесту. Начинаем заново.

Пример анализа результата

Посмотрим на реальном примере, как использовать байесовский подход.

Вводные данные: В A/B-тесте участвовали 2 креатива: А и B. По всем исследуемым метрикам (CTR, IPM, CVR) креатив А лучше креатива B.

737917fc5baeae7f8f77e42e0fb6652b.png

Классический подход. Считаем статзначимость по всем метрикам. Статзначимость выше порогового значения (>%95) только у двух метрик из трех — CTR, IPM. У метрики CVR статзначимость = 58.02%.

Байесовский подход. Считаем P2BB для всех трех метрик. Видим, что данных для принятия решения достаточно: P2BB выше порогового значения (>75%). Делаем вывод, что по всем трем метрикам — CTR, IPM, CVR — победил креатив А.

Итого: Вариант А победил по метрикам CTR, IPM (статзначимость > 95%) и по метрике CVR (P2BB > 75%).

Выводы: Если бы мы использовали только классический подход, то не смогли бы сделать выводы по тесту, так как данных недостаточно. Нужно либо продлевать тест и тратить дополнительные рекламные бюджеты, либо смотреть только на 2 метрики из 3. Благодаря байесовскому подходу мы можем сделать вывод по всем трем метрикам за тот же бюджет и те же сроки.

Подводим итоги

Байесовский подход позволяет принять решение на основе меньшей выборки и сократить время A/B-теста. Задача, которую мы поставили в начале, была достигнута: за 2023 год мы провели более 150 A/B-тестов, средняя длительность каждого из которых составила 4–5 дней. 

Стоит упомянуть, что байесовский подход не лишен недостатков. Например, есть проблема подглядывания, влияние выбросов и т.д. Поэтому работать с ним нужно аккуратно. Однако особенности A/B-тестов в трафике, включая отдельные бюджеты на тесты креативов, флуктуацию выборки и выгорание креативов, влияют на наш выбор подхода. В нашем случае плюсы байесовского подхода перевешивают его минусы. 

Полезные ссылки

© Habrahabr.ru