Как провести A/B-тест правильно и ничего не упустить. Метод с фреймворком
С чего начать A/B-тест
Тестирование помогает измерить эффективность какого-либо элемента письма или лендинга. Например, вы предполагаете, что красная кнопка с призывом к действию сработает лучше, чем зеленая. Чтобы подтвердить свою гипотезу, нужно провести эксперимент, в котором одной половине пользователей покажут вариант с красной кнопкой, а другой — с зеленой, и посмотреть на результаты кликов. Это упрощенное описание A/B-теста, теперь переходим к деталям.
Что можно тестировать? На самом деле практически все:
-
текст, в том числе темы, прехедеры, заголовки;
-
изображения, их размер и расположение;
-
размер картинок товаров и их количество;
-
цвета и расположение кнопок CTA;
-
структуру и дизайн письма;
-
ценовое предложение, размер скидок.
Главное, что нужно помнить: для каждой гипотезы проводим отдельный тест. Не получится за раз проверить и тему письма, и дизайн макета. Вы просто потратите время и получите недостоверные результаты.
Перед началом эксперимента нужно провести подготовительную работу.
-
Определиться, какую метрику мы хотим увеличить. Это может быть открываемость, кликабельность, конверсия. Также нужно составить список метрик, которые будут замеряться в каждом эксперименте, потому что гипотезы могут совершенно неожиданно повлиять на другие показатели.
-
Сформулировать гипотезы: чем больше, тем лучше. Постарайтесь собрать все возможные варианты того, что может повлиять на результат.
-
Собрать дополнительную информацию, чтобы отсеять банальные варианты. Возможно, какие-то гипотезы уже проверялись, и на них не стоит тратить время. Часть гипотез можно проверить, изучив маркетинговые исследования аудитории и рынка.
-
Проверить гипотезы на адекватность, своевременность и реалистичный профит. Учитывайте контекст, он тоже будет влиять на результаты эксперимента. Например, не стоит тестировать письма с предложением купить валенки летом. Или развлекательные рассылки во время кризиса.
-
Подумать, как повлияет тест на стратегию в целом. Поведение покупателей изменится сиюминутно или это будет планомерное и глобальное изменение? Например, кликбейтные тексты в теме писем смогут временно повысить OR, но в долгосрочной перспективе снизят доверие покупателей к бренду.
-
Заранее узнать у аналитиков, получится ли правильно оценить результаты теста. Например, если мы тестируем изменения в письмах с брошенной корзиной, то результат будет зависеть среди прочего и от товара в корзине. Значит, на этапе логирования данных понадобятся дополнительные работы, которые помогут получить достоверный результат.
Создайте конкурс на workspace.ru — получите предложения от участников CMS Magazine по цене и срокам. Это бесплатно и займет 5 минут. В каталоге 15 617 диджитал-агентств, готовых вам помочь — выберите и сэкономьте до 30%.
Создать конкурс →
Как генерировать гипотезы
Гипотеза — это наше предположение, что какое-то изменение исходных данных приведет к ожидаемому результату.
Создавать гипотезы можно разными способами. Например, масштабировать собственные удачные кейсы. Посмотрите результаты рассылок за прошлые месяцы и разделите их по группам с высокими и низкими OR и CTOR. Подумайте: что общего у этих писем и что могло повлиять на успех или неудачу? Это поможет сформулировать конкретное предположение, например: «OR будет выше, если указывать размер скидки в теме письма».
Еще один способ — анализ конкурентов. Изучите рассылки других брендов, возможно, они используют интересные приемы, которые вы захотите проверить, чтобы после использовать в своих рассылках. Например, вы заметили, что в темах писем делается акцент на пользе для подписчиков с помощью слов «ваш», «для вас». Значит, можно предположить, что OR будет выше, если использовать в теме письма слова «ваша скидка» или «промокод для вас».
Переходим к эксперименту
Устанавливаем базовый показатель. Итак, мы выбрали метрику, которую хотим увеличить (например, Click rate). Нужно вычислить ее средний показатель за период от 1 до 6 месяцев и установить чувствительность эксперимента. Это минимальное изменение, которое можно считать достоверным при заданной статистической значимости.
Статистическая значимость — это мощность и достоверность эксперимента. Их принято устанавливать в стандартных значениях от 80% и 95% соответственно.
Определяем размер выборки. Выборка — это количество людей, которые должны поучаствовать в тесте, чтобы результаты получились достоверными. Определить выборку помогают специальные калькуляторы, например калькулятор достоверности Mindbox.
В калькулятор вносим средний показатель и то, на сколько процентов мы хотим его увеличить. Показатели достоверности и мощности можно оставить по умолчанию. Справа калькулятор показывает размер выборки, необходимый для получения достоверных результатов.
Обратите внимание: чем выше ожидаемый прирост, тем меньше выборка. Почему? Чем ниже ожидаемый прирост, тем чувствительнее эксперимент, а значит, для его проверки понадобится больше пользователей. Если же установить высокий уровень прироста, то конечные результаты обоих версий будут более вариативными. Из-за широкого разброса показателя для эксперимента понадобится меньше пользователей.
Нужно найти разумный уровень минимального эффекта, при котором диапазон получаемого показателя не превышает половины базового уровня (среднего показателя). Допустим, базовый уровень — 10%. Если мы установим минимальный эффект в 5%, тест будет считаться успешным в диапазоне от 5% до 15%, то есть разброс будет слишком большим.
Начинаем тест. Эксперимент должен длиться, пока письма не получат все люди из выборки. Наверняка у вас будет соблазн подглядеть результаты в процессе. Этого делать не стоит, потому что в середине эксперимента результаты могут подтверждать вашу гипотезу, а в конце окажется, что это не так. Обязательно доведите тест до конца.
Как оценить результаты
Оценить результаты теста можно в том же калькуляторе. Нужно ввести полученные данные и размер выборки, а программа сама сделает вывод.
Теперь нужно понять, что мы видим в результатах: причинно-следственную связь или корреляцию. И сделать корректные выводы, не забыв проверить себя на подмену понятий. Разберем на примерах.
Причинно-следственная связь (одно событие напрямую влияет на другое). Провокационная тема письма увеличила открываемость. Вывод: тема письма, которая затрагивает чувства и вызывает эмоции, влияет на открываемость.
Корреляция (одно событие влияет на другое, но не напрямую). Провокационная тема письма увеличила кликабельность. Вывод: кликабельность увеличилась благодаря росту OR.
Эвристическая подмена вопроса (когнитивное искажение, при котором мы упрощаем решение). Провокационная тема письма увеличила OR. Если мы сделаем вывод, что провокационные темы стоит использовать чаще, то в долгосрочной перспективе это сработает против нас, и рано или поздно показатели снизятся.
Также стоит учитывать эффект новизны. Новые приемы или макеты всегда немного увеличивают показатели.
Независимо от того, соответствовал эксперимент ожиданиям или нет, вы получите бесценные знания о поведении своих клиентов. Эти данные можно будет использовать, чтобы увеличить ценность компании в долгосрочной перспективе.
Фреймворк для A/B-теста. Опыт WIM
Иногда нужно протестировать множество гипотез, и становится сложно не запутаться в экспериментах. В таком случае можно использовать фреймворк — он помогает упорядочить тест и не потерять важную информацию.
Разберем работу с фреймворком на примере теста триггерных писем «Брошенная корзина». Нам поможет Excel. Создаем таблицу, куда будем вносить цель теста, элементы, гипотезы, механику и условия для получения достоверных результатов.
Например, мы хотим увеличить открываемость. Что на нее влияет? Тема, прехедер, время отправки и так далее. Что мы можем изменить в теме? Сделать ее персонализированной, добавить эмодзи, изменить tone of voice. Вносим данные в таблицу.
Далее генерируем гипотезы для каждого элемента. Например, мы предполагаем, что персонализация увеличивает OR. Тогда нам нужно провести тест, где одному сегменту мы отправим письма с именем в теме, а другому — без. С помощью калькулятора вычисляем количество писем, которые нам нужно отправить, и фиксируем их в последней колонке.
Постепенно наша таблица будет разрастаться, в ней будут появляться все новые и новые гипотезы, и в итоге все поля будут заполнены.
Как понять, с какой гипотезы начать тест? Как вариант, можно проранжировать их по степени важности. Для этого все гипотезы выносим на отдельный лист и проставляем оценки от 1 до 3, в зависимости от сложности реализации и ценности, которую, как нам кажется, они принесут.
Для столбца Total применяем сортировку Я → А, чтобы сверху оказались наиболее перспективные гипотезы. Если гипотез очень много, то на варианты внизу списка можно не тратить время.
Наглядно оценить и представить результаты теста поможет таблица с данными. Вносим в нее все полученные результаты и смотрим на изменения метрик.
Из примера выше мы видим, что гипотеза подтвердилась — OR вырос на 1,6%. Поэтому можно начинать использовать этот прием во всех письмах.
При правильном подходе A/B-тест — отличный инструмент для улучшения метрик и, как следствие, увеличения прибыльности компании и лояльности покупателей.
Распространенные ошибки в A/B-тестах
Не все было залогировано. Если нам кажется, что какой-то определенный элемент внутри письма должен увеличить кликабельность, то мы должны посчитать клики по этому элементу отдельно. Это нужно учесть до старта теста и не забыть поставить нужные метки.
Тестировали малые данные. Либо результат тестов на малых данных будет недостоверным, либо понадобится много времени, чтобы эксперимент оказался статистически значимым.
Не проверили, есть ли изменения в метриках, если исходные данные не менялись. Для этого используют A/A-тест — аудитории показывают два одинаковых варианта и отслеживают разброс результатов. Это помогает понять, насколько сегмент подходит для анализа.
Полный текст статьи читайте на CMS Magazine