Этика представления данных в примерах: как нами манипулируют

d98fe31d11e2c7b440d5f6cd35ddcfb2.png

Сейчас данные — новая нефть, этот тренд становится важным для принятия решений в компаниях. Зачем искажают данные? Обычно это делается, когда желаемое хотят выдать за действительное, представить что-то в выгодном свете, подтолкнуть к ошибочным выводам «на основе данных». Чаще такие искажения встречаются в презентациях, поскольку при использовании дашбордов пользователь, как правило, самостоятельно может углубиться в данные и перепроверить их, если возникают сомнения.

Привет, Хабр! Меня зовут Андрей Машковцев, я — ведущий BI-аналитик в «Т-банке», эксперт Skillbox, веду телеграмм–канал «Лайфхаки в аналитике» и увлекаюсь бегом. Для закрытого комьюнити Skillbox Code Experts рассказал об этике визуализации данных. Как представлять данные этично и каким образом нами манипулируют с помощью графики. Основные мысли переложил в статью. Напомню, что в первой части статьи я рассказывал, как не нужно визуализировать данные и показал антипаттерны на примерах. В этой статье приведу примеры намеренного искажения данных при визуализации и научу их распознавать.

Накопительный график

Может показаться, что искаженное представление данных встречается в небольших компаниях или локальных презентациях. На самом деле — нет, это вполне распространённые кейсы, но я научу, как себя не запутать. 

Источник: qz

Первый пример — накопительный график. На изображении Тим Кук на очередной презентации iPhone вдохновенно рассказывает о том, как растут продажи, и всё это представлено накопительным итогом. Накопительный итог всегда или чаще всего — неудачный способ визуализировать, поскольку понятно, что он всегда будет расти. Если тот же график представить в квартальных продажах, то увидим, что динамика не такая уж и последовательно возрастающая. Есть кварталы, когда происходит снижение продаж, и, в принципе, рост не такой впечатляющий.

Источник: qz

Вывод: если видите накопительный график — насторожитесь, не хотят ли вас обмануть?

Обрезка данных 

Говорят, что если подстричь секущиеся концы, то волосы будут выглядеть более здоровыми. То же самое можно сказать и о графиках. Например, если темпы продаж замедляются, вы можете опустить последние 1–2 месяца. А если кто-то спросит, всегда можно сказать, что у вас не было времени обновить данные.

Обрезка «лишних» неудобных данных — ещё один способ манипуляции. Это может быть сезонность или периоды с неудачной динамикой, как, например, на графике ниже с февраля по апрель или после ноября. Эти неудачные лишние данные часто обрезают, чтобы показать только восходящие — например, с апреля по ноябрь. Говорят, что обновленных данных — нет, поэтому мы показываем данные только до ноября. И менеджмент сделает выводы, что всё хорошо, хотя на самом деле нет. 

7349b92d6635c3128d14c9108af97e2e.png

Изменение детализации

Случайные пики вредны для линии тренда. Если график демонстрирует неустойчивые пики — изменение временного интервала может сгладить волатильность и создать более последовательную линию тренда. Например, если на продукт периодически обрушивается рекламная шумиха, но вы не в состоянии поддерживать показатели на постоянном уровне в остальное время — можно сгладить график, увеличив временной интервал и вместо кварталов указав годы.

Например, у нас есть квартальные данные, и в этих квартальных данных наблюдаются неустойчивые пики, странная динамика, в которой, по-хорошему, надо, конечно, разобраться. При этом, если мы построим те же цифры по годам, то вроде бы всё хорошо, всё растёт и проблем нет.

7a4d0ff3447e1270edcf2445cbb8a501.png

Поэтому слишком крупная годовая детализация тоже должна вызывать подозрения, а по-хорошему, конечно, нужно разбираться в том, почему возникают скачки и аномалии, в более мелкой гранулярности. 

Выбор «лучшей» метрики

Допустим, у нас есть когорты клиентов. Когорты — это клиенты, которые к нам пришли. Мы отличаем клиентов, которые пришли в январе, от клиентов, которые пришли в феврале, марте и так далее. И обычно, если происходит какие-то изменения, А/В-тесты и так далее, то каждую когорту анализируют отдельно. Январские клиенты — не то же самое, что мартовские или апрельские, потому что в тот период могли быть промо-акции, скидки и так далее, что повлияло на динамику. 

mobilespoon

Но если хочется показать хорошую динамику, то можно найти итоговое количество пользователей — 90, 120, 140, а оно всё время растет. И растёт за счет январской когорты, которая устойчиво себя ведёт. Во-первых, она начинается с большой цифры 90 и не снижается. Тогда как остальные когорты, во-первых, начинаются с более низкого количества пользователей, во-вторых, имеют тенденцию к снижению. То есть явно есть какие-то проблемы, но на таком общем количестве клиентов или заказов мы этого не видим. Кажется, что всё хорошо. 

Источник: mobilespoon

Посмотрим на график, основанный на когортах, чтобы они начинались с »0 месяца». И сразу становится понятно, что каждая когорта начинается с более низкого уровня. На этом графике видны все тревожные сигналы.

Источник: mobilespoon

Этика обращения с данными — широкое понятие, которое включает также подходы к защите и обработке персональных данных. В этой статье я попытался сфокусироваться на аспектах, связанных с визуализацией. Подробнее об этике обращения с данными можно почитать в книге DAMA — DMBOK.

© Habrahabr.ru