А/B тесты — как проверять гипотезы на основе статистики
Представьте, что вы протестировали два разных УТП в рекламных заголовках, и одно из них увеличило CTR на 10%. Но насколько достоверны эти результаты? Можно ли быть уверенными, что это не случайность, и именно новый заголовок стал причиной улучшения показателей?
Данная статья будет посвящена довольно важному инструменту в маркетинге — A/B-тестам. Наверняка практически каждый маркетолог/владелец бизнеса сталкивался с ситуацией, когда хочется понять, а повлияет ли изменение какого-либо элемента на сайте на увеличение конверсии, или же повлияет ли изменение формулировки в рекламном объявлении на увеличение CTR (на самом деле, подобных гипотез может быть очень много). И тут на помощь приходит A/B-тест.
A/B-тест — это метод исследования, который с помощью статистики помогает определить, как изменение одного элемента влияет на ключевые метрики продукта.
К сожалению, далеко не все понимают всю важность A/B-тестов, и далеко не все умеют их правильно проводить. Нередко встречаются кейсы, когда »мамкин маркетолог», закончивший 1 интернет-курс по маркетингу и возомнивший себя гуру, пытается провести A/B-тест, набирает 100 показов, 10 кликов и на основе этой статистики делает выводы, которые заведомо неверные.
Неправильный подход к проведению A/B-тестов может значительно навредить бизнесу в перспективе, поскольку все гипотезы будут внедряться на основе интуиции, а не на основе данных (просто представьте, сколько денег рекламного бюджета можно слить, если ваш специалист по маркетингу работает по принципу »я так чувствую»). Поэтому в данной статье я подготовил инструкцию по проведению A/B-тестов.
Алгоритм проведения тестов
1. Сформулировать гипотезу и выбрать метрику оценки
Для проведения любого теста необходимо четко сформулировать гипотезу. Она должна содержать:
Объект тестирования (например, заголовок, цвет кнопки, УТП);
Метрику, которую планируется улучшить (CTR, CR из клика в заявку);
Конкретный ожидаемый результат, или аплифт (например, «увеличение CTR на 10%»).
Важно, чтобы гипотеза была измеримой, проверяемой и актуальной для бизнеса. Это позволит точно оценить влияние изменений на целевую метрику. Существует также негласное правило: 1 тест = 1 гипотеза = 1 метрика оценки.
Пример гипотезы №1: »добавление в рекламное объявление более привлекательного УТП «Широкий ассортимент» позволит увеличить CTR на 10%»
Объект тестирования — УТП
Метрика, которую планируем улучшить — CTR
Ожидаемый аплифт — 10%
Пример гипотезы №2: »запуск рекламной кампании на автоматической стратегии позволит увеличить CR из клика в заявку на 15% за счет обучаемых алгоритмов».
Объект тестирования — стратегия
Метрика, которую планируем улучшить — CR из клика в заявку
Ожидаемый аплифт — 15%
2. Рассчитать выборку и определить период теста
Размер выборки — число людей, которые должны увидеть каждый вариант, чтобы можно было доверять результату теста. Также выборка помогает рассчитать время теста и не выключить его слишком рано.
Рассчитать выборку можно с помощью сайта Mindbox (подобных сервисов довольно много, но я привык пользоваться именно этим, поскольку мне он кажется наиболее удобным и простым в использовании). Возьмем гипотезу №1 из п.1 и рассчитаем для нее выборку.
Допустим, вы знаете, что в среднем CTR рекламного объявления с УТП »Большой выбор» — 10%, и вы ожидаете, что УТП »Широкий ассортимент» отработает эффективнее, а CTR увеличится до 11% (т.е. на 1 п.п.). Вносим эти вводные в калькулятор, где

Средний показатель — средний CTR исходного УТП «Большой выбор».
Ожидаемый абсолютный прирост — прирост в процентных пунктах, т.е. мы ожидаем, что CTR увеличится до 11%. Чем меньше ожидаемый прирост, тем больше должна быть выборка.
Достоверность — процент вероятности, с которой результаты верны, если тест показал разницу.
Важный момент: чтобы результат теста был достоверным, уровень значимости должен быть не ниже 95%. Если достоверность ниже, есть риск сделать неправильные выводы.
Мощность — процент вероятности, с которой результаты верны, если тест не показал разницу. Оставляем по умолчанию 80%.
Видим, что размер выборки с учетом наших вводных — 28 257 показов (по 14 128 на тестовый и на контрольный вариант). Иными словами, чтобы результаты теста были статистически значимыми, контрольный и тестовый вариант должны набрать не меньше 14 128 показов.
Исходя из этих значений, мы можем примерно посчитать, сколько времени нам потребуется на проведение теста. Например, мы знаем, что в среднем в день рекламная кампания получает 3 000 показов. Для того, чтобы набрать 28 257 показов, нам потребуется около 10 дней.
Неверный расчет выборки может исказить результаты теста. Маленькая выборка повышает риск ошибки первого рода (ложноположительный результат), когда улучшение кажется значимым, но на самом деле это случайность. Слишком большая выборка, напротив, приводит к перерасходу ресурсов и может быть неоправданной.
Совет: если расчет выборки показывает, что тест займет несколько месяцев, оцените, насколько гипотеза важна для бизнеса. Иногда быстрее и эффективнее протестировать более значимое изменение или использовать другие методы.
3. Провести тест, набрать нужное количество статистики
Настраиваем рекламные кампании:
В контрольном варианте в заголовке рекламного объявления используем старое УТП «Большой выбор».
В тестовом варианте в заголовке рекламного объявления используем новое УТП «Широкий ассортимент».
Очень важно, чтобы эти кампании отличались только объектами тестирования и ничем больше, потому что любые другие изменения (например, использование другой стратегии в рекламной кампании) могут сильно исказить результаты.
Далее настраиваем А/B-тест в рекламном кабинете (у многих площадок такой функционал есть).
4. Рассчитать статистическую значимость
После того как вы набрали необходимое количество показов (согласно рассчитанной выборке в п.2, для тестового и контрольного вариантов нам необходимо набрать по 14 128 показов), мы можем проверить, являются ли наши результаты статистически значимыми.
Пример №1
Контрольный вариант («Большой выбор»): 14 150 показов и 1 415 кликов
Тестовый вариант («Широкий ассортимент»): 14 150 показов и 1 555 кликов.

Шикарно! Тестовый вариант показал более высокий CTR, и данные статистически значимы. Достоверность 95% в данном случае говорит о том, что »CTR у тестового УТП «Широкий ассортимент» с вероятностью 95% будет выше, чем CTR у контрольного УТП «Большой выбор».
Доверительный интервал — это CTR при указанном уровне достоверности. Если он равен 95%, то CTR с вероятностью 95% находится в пределах доверительного интервала.
Пример №2
Контрольный вариант («Большой выбор»): 14 150 показов и 1 415 кликов
Тестовый вариант («Широкий ассортимент»): 14 150 показов и 1 450 кликов.

Несмотря на то, что CTR у тестового варианта выше на 0,2 п.п, данные не статистически значимы, а значит мы не можем быть уверенными, что это не случайность.
Но остановимся на примере №1. Допустим, наш тест оказался успешным.
5. Подвести итоги
Важный момент при подведении итогов заключается в том, что результаты теста должны напрямую коррелировать с гипотезой. Гипотеза в нашем примере была следующей »добавление в рекламное объявление более привлекательного УТП «Широкий ассортимент» позволит увеличить CTR на 10%».
Представим, что у нас есть статистически значимые результаты в пользу тестового варианта. Получается, что гипотеза подтвердилась, и благодаря добавлению в рекламное объявление более привлекательного УТП »Широкий ассортимент» нам удалось увеличить CTR на 10%.
Тест можно считать успешным, если результаты статистически значимы и подтверждают гипотезу. Однако важно помнить: результаты релевантны только для сегмента аудитории, участвовавшего в тесте. Например, гипотеза подтвердилась для аудитории 25–34 лет, но на другой возрастной группе (например, 18–24) результаты могут отличаться. Перед масштабированием стоит протестировать гипотезу и на других сегментах.
Немного об ошибках
К сожалению, довольно часто специалисты допускают ошибки при проведении таких тестов. Рассмотрим несколько основных ошибок.
Ошибка №1. Неправильная формулировка гипотезы
Пример плохой гипотезы: «Новое УТП повысит интерес пользователей». Такая формулировка некорректна, поскольку «интерес» — это неконкретная метрика, которая не подлежит измерению.
Пример хорошей гипотезы: «Добавление в рекламное объявление более привлекательного УТП «Широкий ассортимент» позволит увеличить CTR на 10%.» Измеримость и четкие ожидания делают гипотезу пригодной для теста.
Ошибка №2. Выбор неподходящей метрики оценки
Пример: вы тестируете новое УТП, при этом в качестве метрики оценки берете конверсию из клика в заявку (на что новое УТП влияет лишь косвенно), и в данном случае более корректно и разумно оценивать CTR.
Ошибка №3. Неправильный расчет выборки (или отсутствие расчета вовсе)
Игнорирование расчета выборки — одна из самых распространенных ошибок. Например, считать, что 100 показов и 10 кликов достаточно для достоверных выводов, — это серьезное заблуждение, которое приводит к ложным результатам.
Ошибка №4. Неправильная интерпретация результатов
Пример плохих результатов: «Ну, мы набрали 100 показов и 10 кликов, вроде УТП норм, думаем, что в дальнейшем будем использовать его всюду, где можно».
Пример хороших результатов: «Гипотеза подтвердилась, и благодаря добавлению в рекламное объявление более привлекательного УТП «Широкий ассортимент» нам удалось увеличить CTR на 10%. Результаты получились статистически значимыми. Тест можно считать успешным».
Подведем итоги
Освоение методики A/B-тестирования — необходимый навык для любого маркетолога. Четкая формулировка гипотезы, правильный расчет выборки, грамотная настройка теста и корректный анализ данных помогают минимизировать ошибки и принимать обоснованные решения. Регулярное тестирование дает возможность не только улучшать метрики, но и находить точки роста для бизнеса.
Эта статья охватывает только базовые моменты проведения A/B-тестов. На самом деле нюансов и подходов к тестированию намного больше. Например, существуют параллельные тесты, тесты по периодам, мультивариантные тесты… Но об этом в следующих статьях.
Избегайте распространенных ошибок, тестируйте гипотезы на актуальных сегментах и делайте выводы, которые основаны не на интуиции, а на статистике.