Размер выборки для A/B теста

00fa35f2fcce24a1a0a7ba1a44769fc1.png

Допустим вы тестируете рассылку и хотите понять какой заголовок заходит лучше. На сколько человек надо отправить рассылку с тестированием заголовка и текста сообщения, чтобы получить статистически значимый результат?

Для определения размера выборки, который обеспечит статистическую значимость результатов A/B тестирования (в данном случае тестирования заголовка и текста электронной рассылки), необходимо учесть несколько параметров:

  • Базовый показатель конверсии (Baseline Conversion Rate, BCR): средний процент открытия ваших предыдущих рассылок. Это ваша отправная точка.

  • Минимальное изменение в конверсии, которое вы хотите обнаружить (Minimum Detectable Effect, MDE): наименьшее изменение в проценте открытий, которое для вас имеет практическую значимость и которое вы хотите иметь возможность зафиксировать с помощью теста.

  • Уровень значимости (Alpha): вероятность отвергнуть нулевую гипотезу, когда она верна. Обычно используется значение 0.05, что соответствует 5%.

  • Мощность теста (Power): вероятность обнаружения эффекта, если он действительно существует. Обычно используется значение 0.8, что соответствует 80%.

Формула для расчета размера выборки

Расчет размера выборки для A/B тестирования может быть достаточно сложным, особенно если делать его вручную, поскольку он включает в себя функции нормального распределения и обратные функции. Однако базовая формула, используемая для определения размера выборки для каждой группы, выглядит следующим образом:

13ef565c609c43c6211b16e69be0331e.png

Где:

e04919cc640ed7d4dad729c9841636fc.png

Пример расчета

Допустим, ваша текущая средняя конверсия (BCR) составляет 10% (0.1 в долях), и вы хотите увидеть изменение хотя бы на 2% (MDE равно 0.02). При стандартных значениях уровня значимости 5% и мощности 80%, размер выборки для каждой группы можно рассчитать с использованием вышеуказанной формулы.

Давайте проведем этот расчет.

Для получения статистически значимых результатов в вашем A/B тестировании (с учетом базового показателя конверсии в 10% и желаемого минимального детектируемого изменения в 2% при стандартном уровне значимости 5% и мощности 80%), вам потребуется примерно 3623 участников в каждой группе тестирования. Это означает, что общее количество участников для обеих групп должно быть примерно 7246 человек.

Этот расчет предполагает, что у вас есть достаточно большая аудитория для рассылки и что распределение открытий будет приближаться к нормальному распределению. Важно также учитывать другие факторы, такие как сезонность и поведение вашей аудитории, которые могут повлиять на результаты теста.

Расчет для разных показателей BCR и MDE

Ниже представлена таблица, показывающая размер выборки для одной группы, необходимый для различных базовых показателей конверсии (BCR) и минимальных детектируемых изменений (MDE):

MDE \ BCR

5%

10%

15%

20%

1%

7664

14313

20177

25256

2%

1965

3623

5084

6348

3%

894

1630

2276

2836

5%

336

600

831

1031

В этой таблице строки представляют различные значения MDE (1%, 2%, 3%, 5%), а столбцы — различные значения BCR (5%, 10%, 15%, 20%). Каждое значение в таблице указывает на размер выборки одной группы, необходимый для достижения статистической значимости при данных параметрах.

Видно, что чем выше BCR и ниже MDE, тем больше нужно участников для достижения статистической значимости.

Другими словами, если у ваша конверсия уже 20% и вы хотите увидеть повышение этой конверсии на 1%, то вам надо запустить тест на 25+ тысяч респондентов. Но если вы запустите тест на 1000+ респондентов и увидите конверсию в 25% (20+5), то вы можете быть спокойны — вы подтвердили гипотезу и ваша конверсия выросла на 5 процентных пункта.

© Habrahabr.ru