Применение контрольных карт Шухарта для количественного анализа трафика (и любых данных вообще)

Что случается, когда математик работает специалистом по контекстной рекламе…

Всем привет, меня зовут Юрий Болотов. Я работаю специалистом по контекстной рекламе в студии «АлаичЪ и Ко».

Перед тем как ты, уважаемый читатель, перейдешь к основной части, я сразу хочу оговориться, что анализ трафика на примере статьи взят просто для примера. Все формулы расчетов будут актуальны и для любых других данных:

  • средних чеков;

  • количества продаж в офлайн-магазине;

  • оповещений о падении трафика с контекста;

  • оценки эффективности изменений в рекламной компании;

  • да хоть количества ошибок в тексте вашего копирайтера или количества бракованных деталей на заводе — метод, который мы будем рассматривать, как раз чаще всего используют для реальных производств.

Также постараюсь ответить на вопрос «и чё?» (зачем это все надо).

В любых данных, на которые мы обычно смотрим, содержится информация о том, как реально работает наша система (привлечения трафика, система продаж, оборудование на заводе и т. д.) и разные специальные причины или особые случаи.

Так вот, системное нужно лечить системно, и для этого есть целый ряд анализов — корреляционный, факторный, кластерный и т.д. А особые случаи надо лечить особо.

Собственно, описанный ниже метод и позволяет узнать, где особые случаи, а где системные.

Метод этот — контрольные карты Шухарта. Это ГОСТ Р 50779.42–99. Этот метод очень точный. Всего в 0.3% случаев (3 на 1000) есть риск, что график выйдет за границы, когда никаких особых причин нет.

Существует несколько видов контрольных карт. Нам для наших задач очень подходит карта скользящих размахов. Именно работу с ней я и буду описывать. Для примера был взят трафик на блог нашего руководителя Александра Алаева.

Новые посетители были взяты лишь из расчета, что они еще не знают про организацию и могут быть заинтересованы в услугах в отличии от постоянно посещающих.

И так, мы взяли и записали в эксельке трафик новых посетителей в будние дни.

(Не обращайте внимания на то, что в таблице данные почти годовалой давности, эта публикация очень долго пролежала «в столе» перед тем, как мы решили ее опубликовать).

Теперь надо нам надо посчитать скользящий размах. Это разница между 1 и 2 значениями, 2 и 3, 3 и 4 и т. д.

Так, разница между 1 и 2 значениями у нас 581–486=95, разница между 2 и 3 — 585–581=4 и т. д. В результате получаем такую таблицу:

Следующим шагом нам надо посчитать средние значения посетителей (B столбец) и скользящих размахов (C столбец).

Среднее посетителей = (486+581+…+566)/21 = 564 или формулой в таблице =СУММ (B1: B21)/21.

Среднее размахов = (95+4+…+24)/20 = 40,8 (=СУММ (C2: C21)/20).

Теперь берем наш средний размах и умножаем на 3,267 (это постоянное число и не зависит от других параметров. Можете поверить мне, можете проверить по таблице в ГОСТе).

40,8×3,267=133,29. Это число называется верхней контрольной границей скользящих размахов.

Нам надо проверить, чтобы наши размахи не выходили за пределы этой границы. Если выходят, то сначала надо искать причину и устранять ее, прежде чем двигаться дальше. Например, при анализе общего трафика на сайт такое может возникнуть, если бюджет контекстной рекламы пополняется в случайные дни, и она то работает, то нет. В нашем случае все размахи входят в границу. Значит, двигаемся дальше.

Последним шагом в расчетах мы найдем верхнюю и нижнюю контрольные границы нашей карты.

Верхняя контрольная граница (UCL) = Среднее значение (564) + Среднее значение размахов (40,8) умноженное на 2,66 (это тоже постоянное значение, взятое из таблиц в ГОСТе).

UCL=564+40,8×2,66=672.

Нижняя контрольная граница (LCL) = 564–40,8×2,66=455.

Для наглядности построим график:

Все операции, проделанные выше, были сделаны еще в начале октября. После этого я стал ждать, когда график выйдет за границы, чтобы можно было показать это, найти причину выхода и закончить эту статью каким-нибудь наглядным примером.

Долго ждать не пришлось.

Уже 11-го числа график вышел за верхнюю границу. «Вот оно!» — подумал я. «Значит что-то случилось. Просто так этого быть почти не могло».

Когда я построил отчёт в Метрике по источникам перехода, то сразу понял, что же именно случилось. Оказалось, что 10 числа была опубликована статья-интервью на Спарке.

Именно это событие и было особым случаем, который контрольные карты должны выявлять.

После того, как подобное событие найдено, необходимо либо приложить все усилия, чтобы оно стало постоянным (когда это возможно) если событие положительное; либо, если оно отрицательное, постараться сделать так, чтобы оно никогда больше не наступало.

А теперь один реальный кейс по контекстной рекламе.

В конце ноября 2017 года к нам на контекстную рекламу пришел крупный интернет-магазин. Для крупных клиентов с большими бюджетами (там, где трудозатраты имеют смысл) я для себя строю карты по основным метрикам. Обычно это общее количество визитов, визиты по основным рекламным каналам, CPL и % конверсии (по нему очень удобно определить проблемы с оформлением заказов на сайте).

Весь декабрь и январь мы настраивали кампании в Google AdWords, Google Merchant, Яндекс.Директ, Яндекс.Маркет. В конце-концов, к февралю, все основные направления были запущены, фиды загружены, бюджеты пополнены. Клиент все время активно дорабатывал сайт, создавал новые разделы, менял корзину и т. д. О каких-то изменениях клиент нас предупреждал, а о каких-то нет. Одно из таких изменений и привело к тому, что я решил написать всю эту статью.

В феврале я решил, что пора построить карту и следить за показателями. Реклама к этому моменту работала стабильно, системы аналитики были настроены и казалось, что ничего не предвещает проблем.

По итогам февраля я взял данные по визитам за месяц, посчитал аналогично скользящие размахи.

Посчитал:

  • среднее значение — 660

  • средний размах — 72

  • верхнюю границу — 852

  • нижнюю границу — 470

Построил график (хотя на практике удобней просто в таблице выделять цветом данные, выходящие за пределы)

После построения графика, осталось только ждать и наблюдать, а т. к. клиент все еще много работал над сайтом, то первая проблема не заставила себя ждать.

Уже 16 марта график вышел за нижнюю границу. А т. к. 17–18 были выходные, то поиск проблемы начался лишь 19-ого числа.

Пересмотрев отчеты в метрике и рекламных кабинетах, я обнаружил следующую картину:

Уже потом выяснилось, что в 16 числа была переделана мобильная версия сайта и туда просто забыли установить коды аналитики.

В конце хочу привести еще одну гипотетическую ситуацию, как применение контрольных карт может перевернуть взгляд на некоторые вещи с ног на голову.

Представьте, что у вас есть производство каких-нибудь мелких изделий. Вы решаете, что надо замерять количество бракованных деталей по каждому мастеру отдельно. Строите карты, высчитываете границы и начинаете следить изо дня в день.

Вдруг в какой-то день вы видите, что мастер Петр Иванович вышел за нижнюю границу или, говоря по-другому, сделал так мало брака, как никогда. Для вас это сигнал — надо выяснить, что же такого в этот день случилось с Петром Ивановичем, чего никогда раньше не было?

Вы выходите из своего офиса, спрашиваете людей и выясняется, что мастер пришел на работу немного «под мухой». И в таком состоянии у него руки не трясутся, он спокойно и невозмутимо делает свою работу.

Что же это получается? Вместо того, чтобы оштрафовать мастера или уволить по статье, надо разрешить ему немного принимать утром на грудь! :)

Это, конечно, юмор (с бесконечным уважением к мастерам). Надеюсь, пример «как можно посмотреть на ситуацию с другого ракурса» понятен.

Хорошего дня и спасибо, что прочитали! Буду рад пообщаться в комментариях.

#маркетинг

©  vc.ru