Графики, которые работают: выбор лучшей визуализации

Всем привет!

Я — Дарья Касьяненко, эксперт Центра непрерывного образования факультета компьютерных наук НИУ ВШЭ. Недавно моя коллега, Дарья Огнева, аналитик в Okko в группе по Bl-отчетности и преподаватель курса «Аналитик данных», провела вебинар для тех, кто только начинает погружаться в бизнес-аналитику и хочет разобраться в визуализации данных.

f5f02887f942a1552c84021cf5a7ad62.pngДарья Огнева

Аналитик в Okko в группе по Bl-отчетности и преподаватель курса «Аналитик данных»

Two hundred twenty participants (88%) ranked sight as their most valuable sense. ©

52e70b876d72ca4baf79a7e395ce13e2.jpeg

Как было бы классно, если бы за доли секунды, мельком скользнув по графику, вы уже видели ответ на вопрос. А не сидели с линейкой и уровнем в попытке попасть в нужную ячейку на пересечении столбца и строки или сравнить высоту соседних колонок.

Особенно, если это презентация — экран далеко, а вместо линейки стакан кофе. Идеальный недостижимый мир с розовыми единорогами или все в наших руках?

График — многопараметрический объект, рассматривать и оптимизировать который можно часами. Для простоты эксперимента давайте остановимся хотя бы на одном параметре — визуальная кодировка. Еще проще — ограничимся пятью самыми популярными: барчарт, линейный, скаттерплот, пайчарт и таблица.

Уровень: без предварительной подготовки.

Эксперименты не грабли — по ним продуктивнее пройтись самим. 

Вдохновившись статьей «Task-Based Effectiveness of Basic Visualizations» Saket, Endert, Demiralp» и взяв несколько неслучайных датасетов со случайным распределением по типам (визуальной кодировки) графиков, за вебинар мы попробовали решить 3 задачи: упрощенное ранжирование (выберите 6-ой по убыванию метрики ХХХ), наличие аномалий и корреляций.

Выборка: активные слушатели вебинара: https://cs.hse.ru/dpo/announcements/973735262.html 

Инструмент: https://etc.ch/ *

*для множественного выбора очень странно считаются проценты (сумма нормируется в 100%) → постфактум отдельный расчет по абсолютам, которые инструмент позволяет выгрузить.

Упрощенное ранжирование: шестой по убыванию затрат номер

Тестовые картинки:

a739f4d24128d5d030ece48f21d3a6a1.png50e2b78f81fd3fbf2f461b7071a516f4.png1becffbf0b0ef04038a9f6d32e7b39df.png372ce578714c4033473cdbad8becafb7.png742cdd22c99b11175abfb606e98a79bd.png

Упрощенное ранжирование / Результаты:

ea8e09dc0ae3a0541a7b310fc5d0dc2b.png1e940d98a883d8c5ee5875794774ce45.pnga2db3eab819bec1064fcd25c3bc95877.png41812c5755dedf2334aff283cbbfea1d.pngf30c963be408c28057aeba3470c3ecee.png

тип графика

точность (доля верных ответов)

популярность

таблица

64%

top1

скаттерплот

50%

top1

барчарт

31%

top1

линейный

29.2%

top1

пайчарт

18.5%

top4, минимальный из ненулевых

Выводы: таблица — лидер. Для близких по величине значений окружающий контекст (барчат vs скаттерплот) существенно влияет на точность ответа. В таблице влияние контекста снижено. Пайчарт — впечатляюще низкий результат.

Что еще интересно посмотреть:  

  1. Провести эксперименты с разным распределением значений в датасете. 

  2. Посмотреть динамику точности в зависимости от величины выборки.

Из-за низкой точности и для меньшей травматизации опрашиваемых пайчарт исключен из гонки.

Наличие аномалий

Наличие аномалий / Тестовые картинки

Наличие аномалий / Тестовые картинки

тип графика

точность (доля верных ответов)

корректный ответ

скаттерплот

95,5%

да

линейный

86,4%

нет

барчарт

50,0%

нет

таблица

22,7%

да

Выводы: таблица — не лидер. Аномалии или их отсутствие хорошо показаны на линейном и скаттерплоте. Не все опрашиваемые всецело понимают суть аномалий.


Что еще интересно посмотреть:  

  1. Проверить наличие байеса на ответ (да) / может, у людей в целом есть склонность видеть аномалии, где их нет.

  2. Рассмотреть свободно владеющих понятием аномалия и приближенно понимающих термин.

  3. Увеличить число экспериментов, чтобы исключить влияние специфичности распределения.

Наличие корреляций

Наличие корреляций / Тестовые картинки

Наличие корреляций / Тестовые картинки

тип графика

точность (доля верных ответов)

корректный ответ

скаттерплот

92%

да

линейный

52%

да

таблица

16%

да

таблица

12%

да

Выводы: Специфичность данных барчата существенно исказило результаты. Примеры понятия корреляций было дано на скаттерплотах — на них опрашиваемые достаточно точно ответили на вопрос, для всех остальных типов не хватило примера наличия/отсутствия корреляции. Хочется повторить эксперимент, поменяв методологию.

Что еще интересно посмотреть: как и для аномалий

  1.  Проверить наличие байеса на ответ (да) / может, у людей в целом есть склонность видеть аномалии, где их нет.

  2. Рассмотреть свободно владеющих понятием корреляция и приближенно понимающих термин.

  3. Увеличить число экспериментов, чтобы исключить влияние специфичности распределения.

По итогам экспериментов — хочется еще больше экспериментов. Для проверки уже полученных результатах на больших выборках, для нивелирования точечных артефактов. Более того, мы исследовали только точность ответа. Было бы классно, обращаясь к оригиналу, рассмотреть и время выполнения задания, и субъективное предпочтение пользователя (как ему удобнее/привычнее работать). Более того, было бы классно рассмотреть разные типы задач, дополнив текущие три.

Результаты статьи «Task-Based Effectiveness of Basic Visualizations» Saket, Endert, Demiralp / статзначимое превосходство одних типов графиков над другими по метрикам точность-скорость-удобство в разбивке по типу задач

199f69f02439c2ae26412c048c4de40d.png

Тем не менее, даже с учетом специфичности данных и ЦА наше небольшое исследование подтвердило выводы статьи и здравый смысл:


Таблица хороша в задачах:

Барчарт хорош в задачах:

  • Покомпонентное сравнение

  • min, max

  • Выявление аномалий

  • Распределение

Линейный график хорош в задачах

  • Динамика

  • Корреляция

Скаттерплот хорош в задачах

Пайчарт хорош в задачах:

Однако типов графиков существенно больше 5 (например, https://datavizproject.com/), и выбор тогосамого — нетривиальная задача и для новичка, и для опытного пользователя, постоянно скатывающегося в барчарты.

Благо, есть блок-схемы, помогающие заблудшим аналитикам выйти на нужный график: чарт-чузеры. Какая ты палка — только лучше на уровне.

Чарт-чузеры

** Обратите внимание, что в последнем проекте есть и статьи с самыми популярными дилеммами, и плюсы-нюансы использования каждого типа графиков. Более того, inspiration. И практика английского языка.

Саммари

В статье мы посмотрели на 5 популярных типов визуальной кодировки из десятков, которые представляют один из атрибутов графиков, которые часть волшебной мира визуализации данных, дрейфующего в безумной вселенной BI-аналитики

119bcd4915d398a1e374b796509295d8.png

Полное видео вебинара

© Habrahabr.ru