Размер выборки для A/B теста
Допустим вы тестируете рассылку и хотите понять какой заголовок заходит лучше. На сколько человек надо отправить рассылку с тестированием заголовка и текста сообщения, чтобы получить статистически значимый результат?
Для определения размера выборки, который обеспечит статистическую значимость результатов A/B тестирования (в данном случае тестирования заголовка и текста электронной рассылки), необходимо учесть несколько параметров:
Базовый показатель конверсии (Baseline Conversion Rate, BCR): средний процент открытия ваших предыдущих рассылок. Это ваша отправная точка.
Минимальное изменение в конверсии, которое вы хотите обнаружить (Minimum Detectable Effect, MDE): наименьшее изменение в проценте открытий, которое для вас имеет практическую значимость и которое вы хотите иметь возможность зафиксировать с помощью теста.
Уровень значимости (Alpha): вероятность отвергнуть нулевую гипотезу, когда она верна. Обычно используется значение 0.05, что соответствует 5%.
Мощность теста (Power): вероятность обнаружения эффекта, если он действительно существует. Обычно используется значение 0.8, что соответствует 80%.
Формула для расчета размера выборки
Расчет размера выборки для A/B тестирования может быть достаточно сложным, особенно если делать его вручную, поскольку он включает в себя функции нормального распределения и обратные функции. Однако базовая формула, используемая для определения размера выборки для каждой группы, выглядит следующим образом:
Где:
Пример расчета
Допустим, ваша текущая средняя конверсия (BCR) составляет 10% (0.1 в долях), и вы хотите увидеть изменение хотя бы на 2% (MDE равно 0.02). При стандартных значениях уровня значимости 5% и мощности 80%, размер выборки для каждой группы можно рассчитать с использованием вышеуказанной формулы.
Давайте проведем этот расчет.
Для получения статистически значимых результатов в вашем A/B тестировании (с учетом базового показателя конверсии в 10% и желаемого минимального детектируемого изменения в 2% при стандартном уровне значимости 5% и мощности 80%), вам потребуется примерно 3623 участников в каждой группе тестирования. Это означает, что общее количество участников для обеих групп должно быть примерно 7246 человек.
Этот расчет предполагает, что у вас есть достаточно большая аудитория для рассылки и что распределение открытий будет приближаться к нормальному распределению. Важно также учитывать другие факторы, такие как сезонность и поведение вашей аудитории, которые могут повлиять на результаты теста.
Расчет для разных показателей BCR и MDE
Ниже представлена таблица, показывающая размер выборки для одной группы, необходимый для различных базовых показателей конверсии (BCR) и минимальных детектируемых изменений (MDE):
MDE \ BCR | 5% | 10% | 15% | 20% |
---|---|---|---|---|
1% | 7664 | 14313 | 20177 | 25256 |
2% | 1965 | 3623 | 5084 | 6348 |
3% | 894 | 1630 | 2276 | 2836 |
5% | 336 | 600 | 831 | 1031 |
В этой таблице строки представляют различные значения MDE (1%, 2%, 3%, 5%), а столбцы — различные значения BCR (5%, 10%, 15%, 20%). Каждое значение в таблице указывает на размер выборки одной группы, необходимый для достижения статистической значимости при данных параметрах.
Видно, что чем выше BCR и ниже MDE, тем больше нужно участников для достижения статистической значимости.
Другими словами, если у ваша конверсия уже 20% и вы хотите увидеть повышение этой конверсии на 1%, то вам надо запустить тест на 25+ тысяч респондентов. Но если вы запустите тест на 1000+ респондентов и увидите конверсию в 25% (20+5), то вы можете быть спокойны — вы подтвердили гипотезу и ваша конверсия выросла на 5 процентных пункта.