Как правильно делать визуализацию нескольких распределений

Посмотрите, вот гистограмма с накоплением, иллюстрирующая распределение пассажиров «Титаника» — очень популярный в визуализации данных пример — в зависимости от их пола:

40e4e1bfe97337ab084c7c5c686c91a3.png

Что не так с подобным представлением данных? Главные недостатки именно этой гистограммы в том, что, во-первых, накопление здесь легко перепутать с наложением: при взгляде на график неясно, начинается ли отсчет числа женщин с нуля по оси Y или с окончанием синего столбца. Во-вторых, визуально достаточно затруднительно сравнить данные только по женщинам и понять, какая возрастная категория среди них преобладает. 

Есть более удобные варианты представления таких данных на графике, например, накладывающиеся графики плотности, иллюстрирующие ядерные оценки плотности:  

9d68ef0b22d3bfedebbfada90733d16f.png

Или представление в виде двух расходящихся гистограмм:

e74ac38b17627e56458471a148f87665.png

Но идеальное визуализационное решение для этого набора данных заключается в том, чтобы по отдельности показать возрастное распределение пассажиров и пассажирок «Титаника» с учетом соблюдения пропорций относительно общего количества пассажиров. Эта визуализация наглядно показывает, что в возрастной группе 20–50 лет женщин на «Титанике» было гораздо меньше, чем мужчин:  

904b84ae53c658f75973e5ef899b0fba.png

Возрастные распределения мужчин и женщин — пассажиров «Титаника», представлены как доли относительно общего количества пассажиров. Раскрашенные области графиков показывают ядерные оценки плотности пассажиров-мужчин и пассажиров-женщин соответственно. Серые области показывают общее возрастное распределение пассажиров.

При этом важно понимать, что данный подход не сработает в случае визуализации более чем двух распределений. В случае нескольких распределений гистограммы сильно сбивают с толку, а графики плотности работают хорошо только в том случае, если наборы данных не пересекающиеся, но смежные. Ядерные оценки плотности являются более подходящим методом для одновременной визуализации нескольких распределений, нежели гистограммы.

Это был лишь один из множества примеров того, как лучше визуализировать данные, приведенных в книге Клауса Уилке про искусство создания графиков «Основы визуализации данных». Перед нами отнюдь не такая специализированная тема, как может показаться на первый взгляд: удобное и понятное представление статистики на графиках важно для отчетов и презентаций в большинстве сфер деятельности, для курсовых и дипломов в большинстве дисциплин. Уилке — профессор вычислительной и эволюционной биологии в Техасском университете, а также программист и автор нескольких популярных пакетов на языке R, созданном для статистического анализа данных. В своей книге он дает ссылки на нужную литературу по программированию данных и собственные архивы с кодом, но сам текст посвящает именно аналитике визуального представления различных графиков, независимо от используемого ПО. Эта книга — сборник важных уроков взаимопонимания для настоящих статистиков. 

© Habrahabr.ru