Что делать, если A/B-тест не сработал — Исследование агентства ConversionXL

Маркетолог агентства ConversionXL Алекс Биркетт опросил экспертов и собрал советы о том, что делать, если A/B-тесты не показали однозначных результатов.

Редакция рубрики Growth Hacks публикует перевод материала.

Представьте, что вы запустили тест и провели его по всем правилам, но результат получили неоднозначный. Что делать в этом случае?

Как ни странно, очень многие тесты не показывают ожидаемых результатов. Специалисты Experiment Engine утверждают, что от 50% до 80% результатов тестов трудно назвать однозначными, поэтому «лучше к этому просто привыкнуть». Эта диаграмма показывает распределение вероятности того, насколько разными окажутся два тестируемых вами значения.

Источник

По другим оценкам, A/B-тесты проваливаются где-то в 80−90% случаев — когда вариант A не настолько отличается от варианта B, чтобы оправдать новую бизнес-тактику. Такое положение дел может тормозить дальнейшее тестирование. Как сказано в статье Harvard Business Review, «для многих менеджеров отсутствие действий, которые следуют из результатов теста, означает бесполезность этого теста. Поэтому, когда большинство тестов проваливается, они невольно задумываются, не было ли тестирование пустой тратой времени и денег».

VWO и Convert.com подсчитали, что лишь один из семи A/B-тестов приносит сколько-нибудь заметные результаты. Однако тот же Convert показал, что из тех тестов, которые проводят агентства по оптимизации, статистически достоверные результаты даёт каждый третий тест.

Поскольку неоднозначные результаты A/B-тестов — это скорее норма, чем исключение, хочется понять, что с этим можно сделать.

Сегментировать данные

Первое, что следует предпринять, если A/B-тест завершился неоднозначно, — посмотреть на сегменты данных. Брайан Месси из Conversion Sciences описал случай, когда именно рассмотрение отдельных сегментов помогло выявить более точные данные при проведении мощного, хорошо спланированного сплит-теста. Вывод, который сделал Брайан, звучит примерно так: «Если тестировать два сегмента сразу, то поведение одного из них может свести на нет результаты по другому сегменту».

Если тест выдаёт неоднозначные результаты, попробуйте посмотреть на него с точки зрения таких ключевых сегментов, как устройства, источники трафика или чего-то ещё, что может оказывать влияние на ваш бизнес. Будьте внимательны: чтобы претендовать на получение однозначных результатов, нужно убедиться, что эти сегменты имеют достаточный размер выборки.

В случае Месси неоднозначные результаты дало тестирование видеороликов, расположенных в нижней части страницы сайта магазина одежды. И, хотя видео обычно повышает конверсию, тест показал, что страницы с роликами работали ничуть не лучше, чем текстовые.

Сегментирование пользователей выявило следующее:
  • Новые посетители сайта предпочитали смотреть длинные видео, тогда как повторные посетители выбирали более короткие клипы.
  • Посетителям, которые заходили на сайт через продуктовые страницы, и тем, кто заходил через домашнюю страницу, нравились разные типы видеороликов.
  • Подписчики-энтузиасты демонстрировали большую конверсию, чем другие сегменты, когда просматривали ролики, содержащие крупные изображения продукта.

Когда всех пользователей тестировали вместе, отдельные сегменты накладывались друг на друга и не позволяли увидеть эту разницу. Разбив трафик на сегменты, Месси смог выявить направления для своих дальнейших исследований.

ad86415675ef36.jpgДжастин Рондодиректор по оптимизации Digital Marketer

Работая с сегментами, следует быть внимательным. Как средние значения не отражают общей картины, так и сегменты показывают лишь часть информации. Даже если вы всего лишь исследуете трафик, вам вряд ли хватит данных, чтобы сделать однозначные утверждения о поведении пользователей.

Если вы хотите просто использовать сегментирование, чтобы доставлять правильный контент нужным людям, постарайтесь:
  1. инвестировать в технологии;
  2. очень дотошно вести отчётность (особенно если вы проводите сплит-тестирование).

Не забывайте, что сегменты рассказывают лишь часть истории, иначе работа с ними может превратиться в настоящий кошмар. Я работаю с ними только в том случае, если это может принести мне значительную прибыль или много лидов.

Если вы просмотрели свои сегменты и не нашли ничего ценного, спросите себя, стоит ли и дальше продолжать упираться со своей гипотезой или лучше двинуться к следующему пункту в вашем списке.

Продолжать или переключиться

Что лучше: вновь и вновь перебирать разные варианты одной и той же гипотезы или взяться за другую? И. Джи. Лоулесс из Experiment Engine в своей статье утверждает: если ваш тест основан на чек-листе, взятом из интернета, или вы с его помощью пытаетесь подтвердить чьё-то мнение — возможно, лучше бросить его и перейти к чему-то действительно важному.

Не тестировать всякую ерунду

Если введённые изменения слишком маленькие или неявные, то результаты вашего A/B-теста, скорее всего, будут неоднозначными. Вот пример от GrooveHQ:

Тест, в котором меняется цвет кнопки подписки на сайте, не показал значимых результатов. А ведь это один из наиболее часто проводимых тестов.

Конечно, такие гиганты, как Amazon или Google, с их миллионами посетителей в день могут позволить себе провести масштабное статистическое исследование по поводу косметических изменений. Но компании поменьше должны сосредоточиться на получении более значимых результатов.

Второй пример предоставил Алекс Башински, сооснователь Picreel. Его компания хотела усилить социальное подтверждение на странице своего сайта, поэтому они протестировали два варианта оформления логотипов различных СМИ:

Версия A. Цветные логотипы со ссылками:

Версия B. Серые логотипы без ссылок:

А вот и результаты: разницы нет.

Урок: оказывается, посетители сайта вообще не обращают внимания на цвета логотипов.

Если ваш последний тест не выдал однозначных результатов — возможно, это случилось потому, что вы взяли идею для него из статьи с захватывающим заголовком «Проверь это прямо сейчас». Вместо этого попробуйте протестировать те параметры, которые действительно что-то значат для ваших посетителей.

Кроме того, тестовая оптимизация — это именно процесс. Здесь есть много фреймворков, но я предлагаю использовать нашу модель ResearchXL для сбора идей и определения их приоритетности.

Быть смелее

Итак, ваши тесты должны основываться на количественных и качественных данных (а не на чьём-то мнении). Кроме того, следует проверять те вещи, которые действительно имеют значение для ваших посетителей. Иногда это требует определённой смелости.

050710b86123d8.jpgКайл Рашглава департамента проектирования и оптимизации Hillary for America

Часто, чтобы подстраховаться, вы тестируете самую осторожную версию своей гипотезы. Но маленькие изменения обычно не приводят к значимым результатам. Проводя A/B-тестирование, сначала убедитесь, что ваша гипотеза верна. Как только вы узнаете это наверняка, вы сможете настроить её поточнее.

Тесты вроде примера с цветными кнопками подписки не приносят результатов и не прибавляют знаний: они основаны на случайных предположениях, не затрагивают истинных потребностей ваших посетителей и слишком малы, чтобы можно было заметить разницу без тонны трафика.

Итеративное тестирование: не сдаваться сразу

Если вы чётко соблюдаете процедуру тестирования, но не получаете явных результатов — возможно, вам следует перепроверить свою гипотезу и подумать над тем, что в ней можно изменить, как советует И. Джи. Лоулесс.

a3b8eaa6ef6e16.jpgПип Лажаоснователь ConversionXL

Представим, что на нашей странице заказов много качественных данных. Но опросы показывают, что люди опасаются доверять сайтам данные своих кредитных карт. Очевидно, наша цель — усилить впечатление безопасности, которое производит эта страница. Сколько существует способов это сделать? Бесконечно много. И если вы попробовали всего один способ из тысячи и получили неоднозначный результат, это не значит, что ваша гипотеза была ошибочной.

Если у вас есть сильные данные, указывающие на проблему, продолжайте итерации. Проведите столько вариантов теста относительно контрольной группы, сколько позволяет ваш трафик, запустите много A/B-тестов подряд, пробуйте разные пути решения проблемы.

Если же ваша тестовая гипотеза основана на предположении «а давайте просто попробуем это», постарайтесь протестировать что-то ещё.

Секрет успеха в том, что ваш тест должен опираться на сильную гипотезу. Пока мы на 100% не уверены в этой гипотезе (даже если тесты дали положительный результат, мы не знаем наверняка, почему это работает; у нас просто есть несколько возможных версий), нужно делать всё, чтобы усилить эту уверенность. Это и называется итеративным тестированием.

Обращать внимание на стратегию

Если ваши тесты постоянно дают неоднозначные результаты, есть смысл посмотреть на свою стратегию.

b4ad9e140df20b.jpgПол Роукоснователь и директор департамента оптимизации PRWD

Первый вопрос, который вы должны себе задать: мы действительно регулярно получаем неоднозначные результаты? Если у 20% ваших тестов неоднозначные результаты, нужно критически оценить выдвинутые гипотезы и вспомнить, чего именно вы пытаетесь достичь с помощью своей стратегии оптимизации.

Задайте себе следующие вопросы:
  • Стоит ли за нашей тестовой гипотезой реальное «почему»?
  • Повторите этот вопрос.
  • Основана ли наша тестовая гипотеза на поведении посетителей сайта?
  • Не слишком ли малы наши изменения, заметят ли их посетители?
  • Обращают ли посетители внимание на изменения, которые мы вносим?
  • Понимаем ли мы, какие методы нужно использовать, чтобы повлиять на принятие решения?

Пока ваши неоднозначные результаты не превратились в однозначные, вы можете продолжать извлекать из них уроки.

Что такое неоднозначные результаты

Вы проверяете мнения или суждения, которые берёте за основу для своих исследований? Даже если вы не получаете то, на что рассчитываете, неоднозначные результаты могут показать, какие изменения на ваших посетителей практически не влияют, а это само по себе ценное знание.

69161cf839d873.jpgЭндрю Андерсонглава департамента оптимизации Malwarebytes

Что на самом деле означает «неоднозначный»? Только то, что вы не получили ответ, на который надеялись. Возможно, показатели, которые вы тестируете, мало на что влияют. Знать, что нечто не имеет большого влияния, уже очень ценно, а значит, результат такого теста далёк от неоднозначности.

Можно ли говорить о неоднозначности, когда вы фокусируетесь на обосновании конкретной идеи, а полученные результаты не показывают заметных изменений? Как определить неоднозначность, если вы рассматриваете всего одну или две точки, и при этом разница между ними мала? У вас есть идея (некое предсказание, хотя вы и называете это гипотезой), вы её тестируете, но на выходе получаете очень незначительную разницу.

Если вы правильно определили вашу естественную дисперсию (для большинства сайтов она составляет около 3%, то есть всё, что находится между −3% и 3%, обнаружить нельзя), то найдётся множество вещей, которые попадут в этот пул. Если так происходит, значит ли это, что ваша идея не особенно важна? Нет, ведь у вас только одна точка данных. Верна ли ваша идея? Скорее всего, не вполне, но вы понятия не имеете, что именно в ней не так.

Тестирование с целью узнать истину и увеличение числа вариантов вашего теста принесут гораздо больше пользы, чем попытки доказать заранее сделанное предположение.

69161cf839d873.jpgЭндрю Андерсонглава департамента оптимизации Malwarebytes

Допустим, мы выясняем, влияет ли копирование на эту страницу. Если я протестировал большой бета-диапазон, сделал 10 итераций и все они не выдали заметного результата, я могу быть уверен, что копирование не влияет. Но если 8 из них ничего не показали, а 2 выдали результат — это говорит лишь о том, что у нас что-то происходит.

Когда вы пытаетесь исключить субъективное влияние, вы фокусируетесь на реальной ценности изменений, а также на всех способах, которыми можно их получить. Это позволяет вам больше узнавать, а значит, увеличивать выход ваших тестов и избегать «неоднозначных» результатов. Вы должны получить достаточное количество данных, чтобы правильно измерить те вещи, которые влияют на ваш бизнес.

Ценность нейтральных тестов

Все любят выигрывать. Неожиданный скачок на выходе сплит-теста вызывает бурю положительных эмоций, но, к сожалению, это исключение, а не норма. Однако не стоит делать вывод, что неоднозначные A/B-тесты — это пустая трата времени. Несмотря ни на что, вы многое можете из них почерпнуть.

Григорий Коган в статье для блога Optimizely пишет о том, как можно извлечь ценность из нейтральных тестов. При получении неоднозначных результатов нужно спросить себя: «Какую гипотезу могут опровергать нейтральные результаты?». Проблема может быть не в том, о чём вы думаете. В качестве примера Григорий приводит тест, который он сам недавно провёл:

1dd8efed63ed45.jpgГригорий Коганконсультант по привлечению клиентов

Если бы мы связывали свои ожидания только с победой, тест вряд ли был бы нам полезен и вскоре мы вновь оказались бы перед чистым листом. К счастью, мы рассматривали этот тест как возможность чему-то научиться и поближе присмотреться к нашей целевой аудитории.

Это исследование полностью окупило себя: мы обнаружили, что из-за небольшой разницы между потоками заказов существующих и новых посетителей сайта некоторые из них никогда не видели новых вариантов, но всё равно включались в результаты исследования. Это искажало результаты в пользу уже существующих пользователей, которые на самом деле были гораздо меньше впечатлены новой страницей заказов.

Когда мы это поняли, то повторили тест, используя более точный метод активации (ручную активацию Optimizely). Во время второй итерации обнаружили, что вариация улучшила показатели на 5%. Для ecommerce-сайта это существенный прирост в доходах.

Если бы мы гнались только за победой, то упустили бы из виду первый тест, давший неоднозначные результаты, и потеряли бы возможность увеличить скорость заказов и доход.

Ещё один интересный пример связан с ценообразованием. Если вы тестируете разные варианты цены и не видите никакой разницы в результатах, это даёт вам огромную ценность. Это был один из провалившихся тестов в Groove. Они тестировали небольшое изменение цены, и тест не показал никаких значимых отличий:

Но если нет никакой разницы, значит, можно назначать максимальную цену. Тест показал, что конверсия не изменилась при цене в $29, $35 и $39. Раз так, мы выставили цену в $39.

Учитывайте микроконверсии

Даже если вы не собирались оптимизировать микроконверсии, Кайл Раш предлагает вам «измерить больше, чем изначально планировали». То же самое советует Джастин Рондо.

ad86415675ef36.jpgДжастин Рондодиректор по оптимизации Digital Marketer

Я считаю исследование микроконверсий очень полезным делом. Поднимая микроконверсии в вашей воронке, вы можете использовать их в качестве индикатора, особенно в тех случаях, когда продаж недостаточно, чтобы получить однозначный результат тестирования.

Возможно, стоит применить тот вариант теста, который поднимает некоторые метрики, коррелирующие с микроконверсиями, и наоборот.

Расслабиться

Многие из тех, с кем я разговаривал во время подготовки этой статьи, предлагали просто отказаться от дальнейших попыток, если идеи закончились. Для чего? Хотя бы для того, чтобы сберечь ресурсы.

050710b86123d8.jpgКайл Рашглава департамента проектирования и оптимизации Hillary for America

Когда мои тесты дают неоднозначные результаты, я могу просто махнуть на них рукой. Я поступаю так потому, что знаю: добавляя всё новые компоненты в пользовательский интерфейс, вы увеличиваете не столько скорость конверсии, сколько общий беспорядок. Если вам приходится иметь дело с большим количеством компонентов, это только затрудняет вашу способность получить сколько-нибудь заметные результаты. Поэтому обычно я добавляю только те компоненты, которые дали отличные результаты на A/B-тестах.

Из этого правила есть исключение. Возможно, вы тестируете нечто, к чему есть юридические требования, или какой-то атрибут бренда, который хорошо сработает в долгосрочной перспективе. В этих случаях вам, скорее всего, придётся работать со всем своим трафиком.

Или выбрать то, что нравится вам

Если нет никакой разницы, можно выбрать то, что вам больше нравится.

ad86415675ef36.jpgДжастин Рондодиректор по оптимизации Digital Marketer

Если нет никакой заметной разницы (или если скорость конверсии искусственно растёт из-за малого размера выборки), я выбираю тот вариант, что мне больше нравится. Если эффективность одинаковая, можно с одинаковым успехом пойти в любую сторону. Это ведь не окончательное решение, а всего лишь новая точка отсчёта. Обычно у меня есть список из нескольких новых итераций теста, и я просто двигаюсь к следующей.

b4ad9e140df20b.jpgПол Роукоснователь и директор департамента оптимизации PRWD

Допустим, тест не принес однозначных результатов. Если предположить, что в основе вашего теста лежит разумная гипотеза, то не будет ничего плохого, если вы продолжите тестирование, выбрав в качестве точки отсчёта какой-то свой вариант.

Возможно, большинство из нас, столкнувшись с неоднозначными результатами теста, примут решение с учётом своих ресурсов, особенностей бренда или из соображений новизны. Но это всё-таки вопрос политики: точно так же вы можете прислушаться к мнению клиентов или шефа.

Заключение

Победители нравятся всем, однако данные отраслевой статистики показывают, что большинство тестов не приносят ожидаемых результатов. Многие тесты в принципе не могут дать однозначный выход, и это может плохо повлиять на всю программу оптимизации.

Получив неоднозначные результаты (при том, что вы всё сделали правильно и учли дисперсию), вы можете выбрать несколько вариантов дальнейших действий, рекомендованных экспертами по оптимизации. Конечно, все эти советы следует соотносить с вашей конкретной ситуацией (сегментирование ничего не даст, если у вас нет адекватного трафика или если вы тестируете всякую чепуху). Вот эти проверенные советы:

  • Рассмотрите разные сегменты и введите индивидуальные правила.
  • Реализуйте несколько итераций вашей гипотезы.
  • Протестируйте экстремальные варианты и поймите, из-за чего нет результата: это проблема реализации или недостаток влияния?
  • Попробуйте что-то новое (следующий пункт из списка).
  • Попробуйте что-то более радикальное.
  • Отследите микроконверсии и выберите один из вариантов, если при нём увеличатся важные корелирующие метрики.

Еще можно просто махнуть на всё рукой или порадовать ваших стейкхолдеров, выбрав понравившийся им вариант. Выбирайте первое, если стараетесь быть дисциплинированным и эффективным, или второе, если хотите немножко поиграть в политику (программе оптимизации иногда не помешают дополнительные вливания).

Присылайте собственные кейсы, в результате которых вам удалось заметно улучшить (или, наоборот, ухудшить) показатели проекта, на what@growthhacks.ru. Интересные эксперименты обязательно попадут на страницы рубрики Growth Hacks.

Твитнуть
Поделиться
Поделиться

В избр.

Ком.

©  vc.ru