Как мы участвовали в хакатоне по дата журналистике. Социально значимое: Государству виднее

Сегодня закончился «первый» хакатон по дата журналистике. Мы заняли на нём первое место. Проделали огромный объём работы за одни сутки. Я хотел бы рассказать как всё было.

Темой хакатона были финансы российских СМИ. Ежегодно государство поддерживает СМИ, поднимающие в своих материалах социально важные темы. Для этого проводится специальный конкурс. Главным критерием отбора получателей субсидий является «социальная значимость» проекта. Мы решили понять, что скрывается за формулировкой «социальная значимость» и какие темы оказались самыми популярными и «дорогими» в 2015 году.

Забегая вперёд, скажу, что ответ такой:

  • По опросам очень много россиян считают себя патриотами, но государство всё равно даёт больше всего денег на проекты про патриотизм.
  • 2015 год был годом литературы и на него пришлось 70 лет победы, поэтому «год литературы» и «историческая память в топе».
  • Субсидии, по идее, должны даваться на социально значимые проекты, «развитие Крыма», например, не очень в тему.
  • В целом складывается ощущение, что чаще пишут и читают об исторической памяти, чаще вспоминают достижения прошлых лет, в то время как на материалы об инновациях и новых технологиях государство выделяет меньше.


55a7dcdacde84318a5e6f7c47c66d8bd

А теперь как мы пришли к этим выводам.
Роспечать публикует каждый год у себя на сайте списки субсидий для электронных СМИ и список субсидий для печатных СМИ. Первый список выглядит так:
1e8b086b16ca47ed83ce027e38246e35

У нас есть название организации, название и описание проекта. Для каждой строчки нужно определить группу, к которой относится субсидия и её объём в рублях. С классификацией всё просто: берём список тематик, которые публикует Роспечать и вручную размечаем ориентируясь на описания. Субсидий всего 2–3 сотни, поэтому разметку можно сделать за разумное время. С ценами сложнее: выделяем название издательства, например, «Радиовещательная Компания «Бурятия», забиваем его в реестр субсидий, скачиваем для найденные записи и в каждой ищем название проекта, например, «Бессмертный полк. Мы помним» и выписываем цену. Для 75% проектов процедура отрабатывает автоматически. С остальными нужно разбираться вручную.
e7d509f131a44c6aab003c2c29b909a6

Со списком субсидий для печатных СМИ сложнее. Список выглядит так:
ed9857557ea94be8929a6e89426e59b2

Записей уже около тысячи, поэтому ручная разметка происходит не так бодро. В списке нет названий организаций, а значит просто найти субсидии в реестре не получится. Выход есть: берём реестр СМИ, который публикует Роскомнадзор, он выглядит так:
3783861f10314a46a3d17e13f307c204

По названию издания находим ИНН издательства. Искать можно по точному совпадению, покрытие получается хорошее. Дальше вбиваем все эти ИННы в реестр субсидий и скачиваем все результаты. Теперь самое сложное: среди всех записей нужно найти только те, которые соответствуют проектам, фигурирующим в списке Роспечати. Названия проектов есть только в договорах, договоры это пдфы со сканами, автоматически с ними ничего не сделаешь:
48569e6eb61a471bba91be11d579fdde

Поэтому скачиваем все пдфы просматриваем их вручную и записываем цены в соответствующие ячейки. За 4–5 часов удалось провернуть операцию для 50% записей. В итоге получается две таблицы для электронных и печатных СМИ, в каждой строчке цены и категория. Если что эти таблицы можно скачать их нашего репозитория github.com/alexanderkuk/media-hack/tree/master/data

Дальше получаем график, который я показывал вначале:
55a7dcdacde84318a5e6f7c47c66d8bd

И смотрим детализацию для некоторых интересных категорий:
bd00d47c2cc94478bdc0276123b57fc1

В ходе ручной разметки неизбежно находятся странные проекты, на которые была потрачена куча денег:
06fbb31eeffb404d8347ffde53200c2e
4726f383ec7a4aa18729ca96fdf3f02d

Всего вышеописанного нам конечно показалось недостаточно и мы собрали ещё инфу по госконтрактам. На clearspending.ru мы нашли все контракты, в которых есть подстроки «пропаганда», «популяризация», «воспитание» или «имидж». Посмотрели, какие коды ОКПД чаще всего встречаются и немного их обобщили их с помощью реестра кодов:
e31a28d7eb0c4eefb478ef02b3d4fab2

Затем опять взяли реестр СМИ Роскомнадзора, собрали из него ИННы всех издательств, получилось примерно 32 000 штук, скачали для каждого из них выдачу clearspending.ru и оставили только контракты за 2015 год с одним из отобранных кодов ОКПД. Получилось примерно 3000 контрактов. Дальше их нужно было классифицировать. Мы составили набор простых правил вида:

    u'Инвалидность': [
        u'доступной среды для инвалидов и маломабильных групп',
        u'безбарьерной среды для инвалидов и маломабильных групп',
        u'социальной интеграции'
        ],
    u'Рабочие профессии': [
        u'рабочие профессии',
        
        u'популяризации рабочих профессий',
        ],
    u'Предпринимательство': [
        u'предпринимательство',
        u'молодой предприниматель',
        u'малое и среднее предпринимательство'
    ],
    u'ДТП': [
        u'участников дорожного движения',
        u'дорожно-транспортный травматизм',
        u'о состоянии проезда',
    ],

Прогнали их по всему списку и увидели интересное: в контрактах встречаются заказы на пропаганду толерантности, здорового образа жизни, достижений в сельском хозяйстве, однако большая часть заказных статей СМИ направлена на самопиар государственных органов:
149b6dfda72b402eb1df69d17978b887

Все наблюдения оформили в виде сайта zina.tilda.ws, код и данные выложили на github.com/alexanderkuk/media-hack

© Habrahabr.ru