Анализ результатов выборов в Госдуму. Готовимся к голосованию 2016 года

Выборы в Государственную думу только осенью, но мы уже начинаем готовиться. Если повторится история 2011 года, будет очень интересно. Наверное, многие помнят, как сразу после тех выборов появилась куча статистических исследований, намекающих на фальсификации и как все узнали, как выглядит распределение Гаусса. Я хотел бы рассказать, где искать данные про выборы и как с ними работать. Кроме хорошо известных графиков я покажу некоторые другие прикольные картинки, которых раньше в паблике не видел. Так, например, выглядит распределение голосов за Единую Россию по стране, хорошо видны регионы с максимальной поддержкой партии власти — Северный Кавказ и Татарстан:
4115ddfdddac4233b26ac5f441911b6a

Есть такой замечательный сайт izbirkom.ru. Его здесь даже недавно упоминали в контексте, что, типа, на него потратили слишком много денег. Но лично мне не жалко, сайт прекрасный:
234f936972e1465bba9876440d808fbc
Там есть инфа про все-превсе выборы с детализацией до УИКа. Выбираем 2011 год, уровень выборов — «федеральный», кликаем на «Выборы депутатов Государственной Думы Федерального Собрания Российской Федерации шестого созыва» и рекурсивно погружаемся в «Нижестоящие избирательные комиссии». Небольшой хак, который помогает собирать данные автоматически: идём на аккуратно сформированный урл www.kirov.vybory.izbirkom.ru/region/region/kirov? action=show&root=1&tvd=100100028713304&vrn=100100028713299®ion=43&global=&sub_region=43&prver=0&pronetvd=null&vibid=100100028713304&type=233 и переходим по ссылкам в шапке таблицы пока ссылки не закончатся:
89be0cdc06d54ba4885d1f4d4f6e573d

Но наше счастье было бы неполным, если бы для каждого УИКа нашей огромной страны Избирком не публиковал подробное описание. Телефон, адрес, члены избирательной комиссии — всё это можно найти на izbirkom.ru в разбивке по УИКам. Более того, ребята из Gis Lab, периодически прокачивают этот раздел сайта и выкладывают данные в виде csv-таблицы.

Есть только одна проблема: непонятно как объединить описания УИКов и цифры про результаты голосования на них. Потому что, например, в разделе с результатами для Базарносызганского района Ульяновской области УИКи имеют номера с 1 по 21, а разделе с описаниями с 1101 по 1120. Я решил применить здесь мой любимый метод: забить на них. В результате по точному совпадению названия региона и номера УИКа удалось объединить примерно 80% записей, а это целых — 80 000 УИКов. Скачать их можно по адресу github.com/alexanderkuk/analyze-izbirkom/blob/master/data/data.csv. Там же лежит код github.com/alexanderkuk/analyze-izbirkom. Таблица выглядит так (size — число людей, приписанных к УИКу, total — число бюллетеней, votes — число использованных бюллетеней, и дальше votes в разбивке по партиям):
18f9e6b96a8f44b3a29be0db84f52fb1

С помощью этих данных можно воспроизвести классические наблюдению после выборов 2011. С ростом явки доля голосов за партию власти растёт, а за все остальные падает (точка — УИК):
ffc08fc85d064ff1b735a1b4f97d19c5.png

В России, вообще, очень необычное распределение числа участков по явке. Почему-то на круглых значениях (60%, 70%, 80%) случаются пики, а максимум приходится вообще на 100%. На самом деле, должно получаться нормальное или лог-нормальное распределение, но не такая интереснейшая кривая:
8f8c56585bf047ada59706fb216a408c.png

Причём нельзя сказать, что высокая явка наблюдается только на мелких избирательных участках, нередки случаи когда 90–100% приходится на участи, к которым приписано 1500–2000 человек:
2911998ce784451a890cbd17584daeb0.png

У нас есть координаты, поэтому обязательно нужно, что-то нанести на карту. Я недавно открыл для себя сервис CartoDB, всем советую. Вот так выглядит распределение голосов за Единую Россию, которое я показывал в самом начале (пустые пятна, как, например, вокруг Самары — это артефакты не идеального процесса склейки адресов УИКов с их результатами):
0155b24d8fb546cb8082c33c4a2311c2

То же самое для КПРФ (повышенный уровень поддержки рядом с Нижним Новгородом и на Алтае):
3518299cfd614cf09a3acbb85b86814b

У Яблока поддержка больше в столичных регионах:
3cc5e57fd6b04d09895e642d8017cadb

Иногда ещё интересно посмотреть на отдельные города. Например, в Твери поддержка Единой России на левом берегу Волги явно выше, чем на правом:
834f4ea21e6349f4a7d58d5eea0c773f

В общем, ждём 18 сентября, по идее, данные должны выложить сразу после подсчёта голосов.

© Habrahabr.ru