История визуализации данных: краткий исторический очерк
В новом материале я хочу поговорить об истории визуализации данных. Речь не только о всяческих диаграммах (о чем недавно в нашем блоге была отдельная большая статья), но в принципе — как вообще появилась идея, что данные можно как-то кодировать и визуализировать? Как давно это началось? Через какие этапы развития прошла сама идея представления данных в наглядном виде? Есть ли еще куда развиваться, или мы уперлись в некий технический потолок? Обо всем этом и не только — читайте ниже.
Визуализация
В современном мире нас окружает такое количество данных, даже если не брать конкретно сферу IT, что их невозможно представить без приближенного и понятного визуализированного вида. Наглядность всегда побеждает цифры, в которых можно попросту утонуть.
Как отмечал мой коллега Сергей,
Визуализация процессов в большинстве случаев доносит информацию более эффективно, чем текст или аудио. В отличие от этих подходов, где возможны разночтения, визуальную презентацию все понимают примерно одинаково, и это очень удобно.
Диаграммы могут использоваться на разных этапах жизненного цикла разработки ПО — да и любого производственного процесса в принципе. По сути это просто набор лучших инженерных практик для визуального схематического моделирования сложных систем и этапов сложных процессов.
Хочу обратить особенное внимание на подчеркнутую фразу. Визуализировать можно все в принципе, не только прибыль или этапы проекта или курсы акций. Логично предположить, что те, кто впервые столкнулся с необходимостью представить данные в визуальном виде, делали это не по лирическим, а по совершенно необходимым практическим соображениям.
Строго говоря, «визуализация данных» и «инфографика» это разные вещи, хотя их очень часто употребляют как синонимы. Определения весьма запутаны, но попробуем их понятно объяснить: инфографика — это то, что нарисовал человек, а визуализация данных — это то, что сделал алгоритм. Еще говорят, что визуализация данных — это просто составная часть инфографики (в которую входят еще и иллюстрации и текстовые пояснения, как на что мы смотрим, так и про более широкий контекст вообще).
В этом тексте я буду использовать понятие визуализации данных в широком смысле.
С чего же все началось?
Доисторические придумки
Наверное, самым древним предметом, который показывает визуализирующую работу абстрактной мысли, можно назвать — нет, не изображения охоты на мамонтов на стенах пещер —, а так называемую Кость Ишанго (Ishango bone), найденную в Конго в 1950 году.
По разным заключениям, этому артефакту может быть от 6 до 19 (!) тысяч лет.
Согласно одной из версий, перед нами первый в человеческой истории арифмометр (сделанный из малоберцовой кости бабуина) с тремя рядами насечек, которые, по-видимому как-то помогали людям производить вычисления. Разумеется, мы не знаем (и скорее всего никогда не узнаем) точного назначения Кости Ишанго — как и в случае с известным Фестским диском, каждый исследователь полагается на свою фантазию. Так что в разное время Кость Ишанго объявляли то бессмысленным набором узоров, то астрологической шпаргалкой, а то и вовсе календарем менструальных циклов.
Так или иначе, перед нами (при условии, что мы вообще признаем наличие смысла в этих узорах) вероятно первая в истории попытка визуализировать абстрактное — числа, количество — притом, что даже самих понятий подобного рода, как обычно представляют, еще не существовало.
Для неспециалиста конечно это выглядит все просто чудовищно и непонятно
Затем мы делаем «небольшой» скачок на несколько тысячелетий вперед и оказываемся в древней Месопотамии. За 3 тысячи лет до нашей эры люди уже, как ни странно, не слишком отличались от нас в плане своих интересов. При расшифровке глиняных табличек шумеро-аккадской клинописи, вероятно, первой иероглифической системы записи данных, взору исследователей предстали совершенно понятные современному человеку вещи: записи о торговых сделках, юридические памятки, математические вычисления, художественные тексты (вроде «Эпоса о Гильгамеше»), личные письма…
Обратите внимание, что уже здесь числа записывались такими же черточками, как и буквы: прямой клин — для обозначения единиц и лежачий клин — для обозначения десятков внутри шестидесятеричного разряда. Новый шестидесятеричный разряд начинался с появлением прямого клина после лежачего клина, если рассматривать число справа налево.
Перед нами один из первых способов записывать различные данные, не только текст, но и числовые операции, а также различные длительные сообщения. Египетские иероглифы использовали также для чисел внешне неотличимые от букв и слов знаковые элементы.
Когда в 1950-х расшифровали микенское «линейное письмо B», там обнаружилась похожая картина: 87 слоговых знаков (из которых составлялись слова) и более 100 идеографических знаков, обозначающих товары и понятия.
Довольно долгое время иероглифического алфавита полностью хватало для передачи абстрактных и численных данных. Древним евреям было достаточно обычного 22-буквенного алфавита для записи чисел, которые кодировались теми же самыми буквами (каждая имела свое числовое значение от 1 до 400). Аналогичное решение проблемы с обозначением чисел на письме можно найти у древних греков, арабов, славян и тибетцев.
И все же в какой-то момент, по мере накопления данных и необходимости их обрабатывать, возникла потребность в схематической визуализации уже другого рода. Интересно, что это произошло довольно давно.
Рождение инфографики
После необходимой преамбулы перейдем непосредственно к предшественникам визуализации данных.
Если отправляетесь куда-нибудь, я укажу вам верный путь — я карта, карта. Смело идите, куда захотели, я приведу вас прямо к цели — я карта, карта.
Перед вами Туринская папирусная карта, которая была создана в Египте около 1150 года до нашей эры. На ней запечатлен 15-километровый участок высохшего русла реки Вади-Хаммамат, места его слияния с двумя другими пересохшими руслами, а также — что, собственно, нас интересует — расстояние между карьером и рудником, расположение месторождений золота на окружающих холмах и сведения, относящиеся к каменоломне (в том числе размер вырубаемых каменных блоков перед перевозкой).
Туринский папирус — уникальный артефакт, который по сути первая в мире геологическая карта, обозначающая разные типы горных пород (черные и розовые холмы) и разные виды каменистых почв (коричневые, зеленые и белые точки). Глядя на эту карту с визуализированными данными, древнеегипетский чиновник, ответственный за поставку камня, мог спланировать полноценную экспедицию, рассчитать маршрут, количество ресурсов и учесть в своих вычислениях особенности местности.
В Европе с визуализацией данных долгое время все было плохо — хотя сама визуальная часть и довольно зубодробительные схемы уже с XII века появляются на страницах натурфилософских, астрономических, богословских и астрологических (в особенности), исторических и юридических манускриптов. По большей части, однако, такие схемы служили не визуально-репрезентативной, а мнемонической цели — чтобы большие объемы данных было легко запоминать и схематически воспроизводить в голове. Возможно и наши современные «деревья» и круговые диаграммы растут как раз оттуда, из каббалистических рисунков и схематических кругов средневековья, но это только предположение.
Стремительный рывок вперед
Когда началась эпоха Возрождения, практически все области человеческого знания совершили стремительную трансформацию, во многом приблизившись к тому, что мы знаем сегодня.
Визуализация данных обрела второе дыхание в период между окончанием Возрождения и началом победоносного шествия Просвещения. Начала появляться статистика, в частности, люди впервые стали задумываться о фиксировании демографии.
В 1665-м году, когда Лондон охватила крупнейшая в его истории эпидемия чумы (а сидящим на самоизоляции интеллектуалам по большей части было нечем заняться), лавочник Джон Граунт впервые составил демографический чарт жителей своего города, пока еще просто в виде сводной таблицы:
Примерно в то же время и тоже британец Джон Огилби нарисовал первый атлас дорог Британии со множеством пояснений и условных обозначений (а также придумал четкое понятие картографического масштаба и в принципе обозначать дорогу словом road):
А в 1769 году британский же химик Джозеф Пристли (вошедший в истории как первооткрыватель кислорода!) нарисовал совершенно монументальную вещь, «карту времени» — инфографику, на которой обозначил сравнительные периоды процветания разных империй и культур. Ось X демонстрировала продолжительность периода господства, славы и влияния; ось Y — уровень развития общества, значимые события, интеллектуальный прогресс. Выглядит это до сих пор фантастически.
И, наконец, мы переходим уже практически к современности — еще один англичанин (ну разумеется) Уильям Плейфэр в конце XVIII века изобретает все те диаграммы, которые мы используем до сих пор: в 1786 году линейчатый график и гистограммы для представления экономических данных и в 1801 году секторную диаграмму в круге и круговую диаграммы.
Для своего времени Плэйфэр выглядел просто гением (которым он и был). Вся экономика Англии была для него видна как на ладони: торговый баланс, соотношение экспорта и импорта, график, совмещающий три показателя: уровень цен на пшеницу, уровень заработной платы и периоды правления монархов за период с 1565 по 1820 год.
Графики Плэйфэра изменили многие представления об экономике: например, до его визуализаций считалось, что высокую стоимость зерна провоцирует повышение зарплат, однако график четко показал, что стоимость зерна росла намного быстрее, чем зарплата рабочих. Кажется, Плэйфэру бы нашлась работа даже сегодня.
По-моему это совершенно потрясающий факт: 250 лет спустя, мы со всеми своими нейросетями и айфонами по-прежнему пользуемся теми моделями визуализации данных, которые придумал Плэйфэр, родившийся еще до Наполеона и живший во время, когда не было ни электричества, ни фотографии, ни автомобилей.
Почему так? Неужели эти способы действительно объективно самые лучшие и развиваться в визуализации дальше некуда?
Еще одно интересное добавление к разработкам Плэйфэра в XIX веке сделала легендарная медсестра Флоренс Найтингейл (1820 — 1910), которая работала в госпитале во время Крымской войны. Ее мучил вопрос избыточной смертности солдат, и чтобы убедить начальство в необходимости изменений, Найтингейл придумала оригинальный способ визуализации данных по причинам смертности, напоминающий розу ветров.
Появившаяся примерно в то же время «Диаграмма торгового движения по Канал дю Центр в 1844 году» француза Шарля Жозефа Минара уже выглядит практически современно:
А вот его же график, анализирующий спустя 50 лет причины поражения Наполеона в российской кампании (в частности, сопоставляются передвижения войск и температура воздуха):
Перспективы?
Любопытно, что какой-то исчерпывающей истории визуализации данных на текущий момент не существует (этим заявлением открывается работа Friendly, Michael (2008). «A Brief History of Data Visualization»). Еще любопытнее: куда визуализация может двинуться дальше? Мы используем компьютерное визуальное представление данных каждый день, в презентациях, в отчетах, в исследовательских целях. Но как будто бы ничего радикально нового уже давно в этой области не происходит.
Вот, например, в 1990-х появился treemap, тоже полезная штука, но как будто все это уже было. Scatter point в 3D, mindmap и displaying connections тоже вроде как относительно новые методы, но во-первых они базируются на старых инструментах, во-вторых (сугубо по мнению автора этих строк) хуже читаются, чем классические типы визуализации.
В целом же у нас есть семь базовых инструментов визуализации ± еще несколько часто используемых, и все они были придуманы, как показано в тексте, уже довольно давно. Может быть достаточно и того, что есть?
Расскажите в комментариях, что думаете по этому поводу — и спасибо, что дочитали!