Как мы проводим A/B-тесты креативов в рекламе с помощью байесовского подхода
Всем привет! На связи трафик-менеджер Garage Eight Надежда Дулинец. В статье расскажу о флоу АБ тестирования рекламных креативов, который мы внедрили в 2023. Объясню, как выбрать и приоритизировать гипотезы, анализировать результаты и заводить A/B-тесты. Отдельное внимание уделю байесовскому подходу.
Особенности A/B-тестов в трафике
Рекламные кампании для продвижения приложений занимают особое место в структуре нашего маркетинга. Креативы в таких кампаниях очень важны. Под креативами в этой статье будем понимать любой визуал, который можно загрузить в рекламный кабинет — видео, статика, инфлюенс-нарезки и т.д. Креативов должно быть много, потому что их нужно регулярно обновлять. А чтобы увидеть желаемые результаты и выбрать лучшие, приходится их постоянно тестировать.
В интернете много материалов на тему A/B-тестов, есть даже готовые флоу. Однако флоу тестирования UX в приложении или цепочки CRM-коммуникаций не подходит для тестов в платных каналах. Здесь есть особенности, которые нужно учитывать:
A/B-тесты в трафике платные. Каждый день A/B-теста равен определенному рекламному бюджету. Чем дольше длится A/B-тест, тем больше денег мы потратим.
Выборку трудно спрогнозировать. CPM, IPM и другие метрики зависят от многих факторов: сезонности, аукциона, типа креативов (видео/статика) и т.д.
Быстрое выгорание креативов. Конечно, есть «топ-перформеры», которые живут 6–12 месяцев. Однако большинство креативов работают успешно 1–3 месяца. В таких условиях невыгодно проводить A/B-тесты длительностью в месяц, ведь победитель A/B-теста может очень быстро выгореть.
Учитывая эти особенности, при разработке флоу мы поставили перед собой конкретную задачу: сократить длительность проведения A/B-тестов и, как следствие, снизить расход рекламного бюджета.
A/B-тесты и тесты новых концепций
В нашей компании мы используем 2 типа тестирования креативов в трафике:
Тесты новых концепций, когда креативы значительно отличаются друг от друга, например, фоном, музыкой, героями, сюжетом и т.д. То есть это совершенно разные креативы, которые некорректно сравнивать между собой путем A/B-тестирования. Например, сравнить видеоинтервью с клиентами против статики с предложением 50% скидки не получится. В таких случаях мы добавляем новые концепции в ротацию в текущие кампании или группы объявлений и смотрим, как они отрабатывают по сравнению с активными креативами. Анализируем метрики CPM, IPM, CTR, CVR, чтобы понять, насколько они выше или ниже среднего. Смотрим, как сама система масштабирует креатив: какой процент рекламного бюджета она распределяет на новую концепцию.
A/B-тесты, когда мы изменяем один элемент в рамках одной концепции. Например, креатив с красной кнопкой против креатива с зеленой кнопкой. В таких случаях мы запускаем АБ тест со сплитом аудиторий.
В статье мы не будем затрагивать тесты новых концепций, а подробно расскажем про второй тип — A/B-тесты.
Подходы к A/B-тестированию
Без углубления в технические детали кратко рассмотрим подходы к A/B-тестированию: классический и байесовский.
При классическом подходе к A/B-тестированию мы отвечаем на вопрос «Какой вариант лучше?» Требования к выборке строгие: ее необходимо заранее рассчитать и набрать для достижения статзначимости. Ключевые метрики — статзначимость и p-value.
Пример анализа результатов с помощью классического подхода. Возможны следующие результаты: вариант А лучше варианта B, вариант B лучше варианта А, варианты А и B значимо не различаются.
При байесовском подходе к A/B-тестированию мы отвечаем на вопрос »С какой вероятностью креатив лучший?» Требования к выборке не такие строгие: решение можно принять на основе меньшей выборки, что положительно сказывается на длительности A/B-тестов и рекламных бюджетах. Ключевая метрика здесь — P2BB (Probability to be the best или Вероятность того, что вариант лучший). В результате анализа мы получаем распределение вероятностей.
Пример анализа результатов с помощью байесовского подхода. Вариант А лучший с вероятностью 77.05% (то есть метрика P2BB для данной вариации равна 77.05%), вариант B — с вероятностью 19.86%, вариант С — 3.08%.
Метрики для A/B-теста
По итогам A/B-теста мы анализируем все метрики по воронке, так как в трафике важно оценить воронку комплексно. То есть P2BB мы считаем для всех метрик по воронке.
Однако в спорных ситуациях, когда один креатив по одной метрике победил, а по другой проиграл, финальное решение принимаем по конечной метрике — CVR в регистрацию.
Так как бенчмарков по P2BB на рынке не было, мы посовещались с нашими аналитиками и установили свой порог — P2BB не ниже 75%. То есть, если по какой-то метрике у креатива P2BB выше 75%, мы считаем его победителем по этой метрике.
Упрощенный пример нашей воронки.
Следующий шаг — понять, как именно нужно изменить ту или иную метрику. Для этого мы построили «симулятор» изменений метрик по воронке. Из рекламных кабинетов выгрузили актуальные метрики по кампаниям и посчитали, как изменится ключевая метрика при изменении CTR на 3, 5, 8, 10, 15, 20%. Аналогичные расчеты сделали для всех важных для нас метрик.
Цели этапа:
Посмотреть, как даже небольшое изменение одной метрики может повлиять на конверсии и финальный СРА.
Определить минимальный процент изменений метрики, к которому вы будете стремиться в A/B-тестах.
Использовать полученную информацию для генерации более качественных гипотез.
Упрощенный пример «симулятора»: как изменится CPA при изменении CTR
Приоритизация гипотез
Для генерации гипотез мы используем:
Анализ статистики по текущим кампаниям: что работает хорошо, а что плохо
Анализ креативов конкурентов
Внутренние исследования, опросы и интервью
Анализ поведения пользователей в продукте
Внешние исследования в открытом доступе, бенчмарки
Совместные брейнштормы с дизайнерами, копирайтерами, аналитиками, трафиками.
Для приоритизации гипотез мы адаптировали методологию RICE под платные каналы. По пяти пунктам ставим баллы от 0 до 2, суммируем их и получаем финальный рейтинг.
Охват — насколько гипотеза масштабируема. Смотрим, подходит ли она для креативов по всей воронке или только для узкого сегмента аудитории.
Уверенность — источник гипотезы. Определяем, создана ли гипотеза на основе исследований и бенчмарков или на основе собственного любопытства.
Усилия — время дизайнера. Узнаем, нужны ли минимальные корректировки текущих креативов или более сложные изменения (3D, видеосток, своя съемка).
Видны ли изменения в первые пять секунд. Так как многие пользователи недосматривают даже короткие видео до конца, важно тестировать изменения, которые заметны в 1–5 секунды ролика.
Необходимость в креативе. Помимо A/B-тестов важно не забывать про текущие активные кампании и подстраивать гипотезы под них. Например, если в текущих кампаниях выгорела вся статика, в следующей итерации желательно выбрать гипотезу, подходящую статике.
*RICE: охват (reach), влияние (impact), уверенность (confidence), усилия (effort)
❌ Пример плохой гипотезы: у варианта А и B сразу несколько изменений, они незаметны. Скорее всего, пользователи будут реагировать одинаково на оба варианта, мы получим одинаковые метрики и сольем бюджет.
✅ Хороший пример гипотезы: изменение одно, оно заметно (пустой фон против ярких элементов на фоне). Вероятность видимых различий в метриках выше.
Итоговый флоу запуска A/B-тестов
Как запустить A/B-тест за семь шагов:
Генерируем и приоритезируем гипотезу по методологии RICE.
Запускаем A/B-тест на рекламной платформе, где есть инструмент тестирования. Можно выбрать любую платформу. Важное условие: на ней должна быть возможность разделить аудитории на несколько равных частей, а также поставить одинаковый бюджет на каждую вариацию.
Выбираем аудиторию, близкую к аудитории в активных кампаниях, чтобы потом корректно экстраполировать результаты A/B-теста на текущие кампании. Например, если вы работаете с мужчинами, а A/B-тест креатива запускаете на женщин, результаты АБ теста нельзя будет 100% экстраполировать на активные кампании, ведь аудитории сильно отличаются.
Учитываем сезонность. В нашем продукте есть сезонность по дням недели: будние дни представляют наибольший интерес, а в выходные активность пользователей падает. Поэтому большинство A/B-тестов мы можем проводить по 4–5 дней: с понедельника по четверг или пятницу.
После завершения теста не ограничиваемся результатами, которые выдает рекламный кабинет. Выгружаем все метрики в таблицу, для каждой считаем статзначимость и P2BB по воронке.
Для поиска дополнительных инсайтов смотрим разбивки по сегментам: полу, возрасту, регионам, устройствам и местам размещения.
Делаем вывод по A/B-тесту. Начинаем заново.
Пример анализа результата
Посмотрим на реальном примере, как использовать байесовский подход.
Вводные данные: В A/B-тесте участвовали 2 креатива: А и B. По всем исследуемым метрикам (CTR, IPM, CVR) креатив А лучше креатива B.
Классический подход. Считаем статзначимость по всем метрикам. Статзначимость выше порогового значения (>%95) только у двух метрик из трех — CTR, IPM. У метрики CVR статзначимость = 58.02%.
Байесовский подход. Считаем P2BB для всех трех метрик. Видим, что данных для принятия решения достаточно: P2BB выше порогового значения (>75%). Делаем вывод, что по всем трем метрикам — CTR, IPM, CVR — победил креатив А.
Итого: Вариант А победил по метрикам CTR, IPM (статзначимость > 95%) и по метрике CVR (P2BB > 75%).
Выводы: Если бы мы использовали только классический подход, то не смогли бы сделать выводы по тесту, так как данных недостаточно. Нужно либо продлевать тест и тратить дополнительные рекламные бюджеты, либо смотреть только на 2 метрики из 3. Благодаря байесовскому подходу мы можем сделать вывод по всем трем метрикам за тот же бюджет и те же сроки.
Подводим итоги
Байесовский подход позволяет принять решение на основе меньшей выборки и сократить время A/B-теста. Задача, которую мы поставили в начале, была достигнута: за 2023 год мы провели более 150 A/B-тестов, средняя длительность каждого из которых составила 4–5 дней.
Стоит упомянуть, что байесовский подход не лишен недостатков. Например, есть проблема подглядывания, влияние выбросов и т.д. Поэтому работать с ним нужно аккуратно. Однако особенности A/B-тестов в трафике, включая отдельные бюджеты на тесты креативов, флуктуацию выборки и выгорание креативов, влияют на наш выбор подхода. В нашем случае плюсы байесовского подхода перевешивают его минусы.