«Мама, он и меня посчитал!», или Откуда растут ноги у анализа пешеходного трафика
Недавно появилась новость о том, что в США запущена программа сбора данных о пешеходах рекламными щитами с целью определения их целевой аудитории. Сразу же началась дискуссия об этичности сбора GSM-данных и о том, какие именно будут утекать приватные данные. Я же хочу совершенно не в русле этого обсуждения рассказать немного об истории вопроса и о том, как можно собранную тем или иным способом информацию об уличной толпе использовать во благо города и его жителей.
Начнём с самого начала. Методы анализа пешеходного трафика появились ещё в прошлом веке, а вместо данных вышек GSM использовали бесплатную рабсилу студентов, которые в рамках курсовых работ исписывали и исчерчивали графиками тысячи листов в клеточку, в полосочку и А4. Только вот проблема, все люди такие разные, и занимаются на улице все своими частными непонятными делами. Такие разрозненные сведения неудобно обрабатывать, да и где ловить значимые закономерности, и будут они они одинаковыми в разных случаях?
Как унифицировать данные о неорганизованной массе народу? Самый простой вариант — отбросить те самые «приватные данные», которые так дороги их хозяевам. Например, можно использовать методику советского учёного А.В. Крашенинникова: ориентироваться на плотность людей на территории (горизонтальная ось) и интенсивность их движения (вертикальная ось). Получится вот такая «диаграмма средового поведения», на которой найдётся место любому виду деятельности людей:
Эти четыре квадратика так, для примера, они не имеют друг к другу отношения. В реальной же ситуации получаются более сложные и узнаваемые картинки:
Удивительно, но даже имея всего два параметра, можно составить «портрет» места, понять, чего от него хотят люди, удовлетворяет ли их окружение, и что стоит изменить. Форма, размеры пространства, препятствия для видимости или прохода влияют на графики очень сильно: разные места привлекают разных людей и стимулируют разную деятельность. Такие схемки по возможности используются при реконструкции старых кварталов, а для проектирования новых — разработанные на их основе управляющие пространственные паттерны.
На нынешнем уровне обработки информации без труда можно добавить ещё 2 параметра: пол и возраст. Закодируем пол формой отметки на диаграмме, а возраст — цветом. Портрет обычного двора может выглядеть как-то так:
Скорее всего, результатом «слежки» со стороны рекламных щитов будут примерно такие «портреты» городской среды вокруг них. Своеобразный быстро читаемый код, «ничего личного». Легко обрабатывать и находить закономерности. И — в отличие от вездесущих QR-кодов — этот можно прочесть невооружённым глазом.
Если добавить пятый параметр — время — можно отследить, что в разные часы суток, дни недели, времена года одни и те же места привлекают разных людей. Этим занимается такая перспективная область науки как ритманализ. Есть и примеры практического использования ритманализа, например, калифорнийский Санта-Крус внедрил программу, которая составляет маршрут для патрульных машин, основываясь на статистике преступлений по улицам с учётом дней недели, времени суток, футбольных матчей по ТВ и т.д. Есть примеры подобного и на данных сотовой связи. Да и вообще, прогнозирование преступлений нынче — очень популярная область.
Карта прогноза правонарушений в Санта-Крусе.
Любопытно, что изначально одним из применений методики Крашенинникова было как раз улучшение криминогенной обстановки в жилых районах: разработанный им алгоритм позволял находить привлекательные для асоциальных граждан места и «перекодировать» их. Впрочем, во времена, когда компьютеры были большими, а программы — маленькими, предложенная им программа так и не была написана. Вручную же анализировать вполне можно, но долго и занудно. К тому же, данных, которые можно получить с карты, зачастую недостаточно: люди очень любят «переиначивать» неудобные пространства, используя их не по назначению, а чтобы это выяснить, нужно долговременное прямое наблюдение. Но не всё же издеваться над бедными студентами? На сегодняшнем этапе развития техники появилась возможность автоматизировать и эту часть работы, например, анализируя видеозаписи или ориентируясь на данные сотовой связи.
Построенная вручную карта зон социального контроля одного крупного квартала на сетке 25×25 м. Красота, можно на стенку вешать. Классик абстракционизма Пит Мондриан одобряет.
Если есть возможность оперировать данными GSM-вышек, можно отслеживать уже не статические «срезы», а динамические «треки», и результаты становятся интереснее. Например, в дублинской лаборатории IBM Research написали алгоритм анализа трафика людей, пользующихся общественным транспортом, который был обкатан на примере 4,5-миллионного города Абиджан и позволил улучшить транспортную ситуацию, сократив время ожидания и поездки в среднем на 10% для всех жителей. Информацию с декабря 2011 года по апрель 2012 года собрал и предоставил для научных исследований оператор Orange. База включает 2,5 млрд. записей и очищена от любой персональной информации.
На верхнем рисунке — время ожидания на остановках, на нижнем — загруженность маршрутов.
В общем, не так страшен чёрт, как его малюют: значимые положительные результаты тотальной слежки действительно существуют. Конечно, рекламные компании сейчас претендуют на роль мирового зла и уже подбираются к критическому уровню, описанному Э. Гриффитом в его «Слушайте, слушайте», Г. Каттнером в книге «День не в счёт», Ф. Полом в «Торговцах Венеры» или Р. Расселом в «Комнате». Конечно, геомаркетинг уже никуда из нашей жизни не денется, но есть и вероятность того, что собранные рекламными щитами данные станут общественным достоянием, как и в случае с Абиджаном, и тогда каждый, придумавший новый алгоритм анализа, сможет испытать его, узнать что-то новое о лице города — и даже изменить его выражение к лучшему.