Убийства и анализ данных

Привет, Хабр.

Меня зовут Алексей Кнорре, и я криминолог, аспирант в UPenn и аффилированный научный сотрудник в ЕУСПб. Подумал, что сейчас, после месяцев карантина, самое время рассказать о преступности. Неясная экономическая ситуация, рост безработицы, ухудшение общественного здоровья — все это вызывает опасения в завтрашнем дне. Что будет с преступностью в России? Как криминолог, я использую статистические методы и программирование для того, чтобы эмпирически исследовать преступность, поэтому я постоянно работаю с данными, о которых сегодня и хотел бы рассказать доступным языком. На Хабре было всего два поста по тегу «криминология», поэтому надеюсь, мой рассказ будет интересным.

Кто-то из вас мог видеть в прошлом году рейтинг безопасности городов России. Как собирали данные о безопасности: вроде бы был опрос жителей, но сколько человек опросили? Не было ли в выборке систематических смещений, как если бы опрашивали только жителей больших многоквартирных домов? Насколько вообще люди могут точно сказать, что в их городе в целом безопасно? Безопасно по сравнению с чем, и как эту безопасность измерить? А вдруг анкетный опрос отражает больше общественные настроения, нежели реальную преступность — вероятность случайного нападения на улице, грабежа или кражи?

В науке преступность измеряют разными способами. Два года назад мы с коллегами, например, провели первый в России репрезентативный виктимизационный опрос, обзвонив 16 тыс. человек. Данные мы открыли для общего пользования. Основной вывод — уровень реальной преступности где-то в 8 раз выше регистрируемой правоохранительными органами. Вот визуализация процесса от Марии Бублик и Натальи Тогановой, вошедшая в шорт-лист премии Information is Beautiful — 2019.

vqzaf-thjaujaihb5g_9yqwriow.jpeg

Опрос дает картину в целом по стране, но не позволяет судить об опасности отдельных мест. С этими мыслями я попробовал сделать рейтинг безопасности городов, который использовал бы более надёжные данные. Что лучше всего может отражать безопасность города? Хороший показатель безопасности — это риск насильственной смерти. С одной стороны, убийства — одно из «лучших» преступлений с точки зрения регистрируемости. О краже кошелька можно забыть или просто не сообщать полиции. За обнаружением «криминального» трупа всегда следует возбуждение уголовного дела. С другой стороны, обычное российское убийство — это бытовой конфликт, зашедший слишком далеко, часто в состоянии алкогольного опьянения. Так что количество убийств — хорошая метрика безопасности среды.

Управление ООН по наркотикам и преступности (UNODC) ежегодно выпускает аналитический отчёт по убийствам в странах мира. Стандартная метрика — количество убийств на 100 000 человек населения, или homicide rate. По состоянию на 2017 г., меньше всего убийств в Японии и Сингапуре (0,2 убийства на 100 000), Гонконге (0,3), Индонезии (0,4) и Норвегии (0,5). Больше всего — в Сальвадоре (61 убийств на 100 000 человек), Ямайке (57), Гондурасе (41,7) и Бразилии (30,5). Россия сильно внизу этого международного рейтинга, с 9 убийствами на 100 000 человек, в компании с Угандой (11), Уругваем (8,2), Перу (7,7) и Афганистаном (7,1).

Интересно посмотреть на гетерогенность: где в России убивают больше или меньше, чем в среднем? С этими мыслями я открыл RStudio и начал писать код.

Чтобы получить рейтинг, нужно получить удельное количество убийств, для которого, в свою очередь, нужно для каждого города России знать количество убийств и его население.

С сайта Росстата я взял файл с населением России с разбивкой по населённым пунктам за 2016 г. Год был выбран не случайно: это единственный год, где для каждой единицы, будь то субъект РФ, городской округ или муниципальный район, был идентификатор ТЕРСОН-МО, копирующий ОКТМО. ОК, население есть.

С убийствами оказалось сложнее. Открытой статистики по убийствам на уровне городов в России нет. В нашей научной работе мы используем данные обо всех возбужденных уголовных делах в России в 2013–2014 гг. Это огромный деперсонифицированный массив из примерно 5,5 млн. оцифрованных статистических карточек, которые в обязательном порядке заполняют следователи или дознаватели в момент возбуждения уголовного дела. Вот так выглядит первая страница карточки на выявленное преступление:

oruitej4llsljs9x9gdrtzzguzo.png

Любые административные данные немного грязные. В нашем случае в этих данных целиком отсутствовало несколько регионов, а у некоторых был пустой ОКТМО. Кроме того, иногда проблемой было то, что в некоторых городах единственный отдел полиции отвечал и за город, и за прилегающий муниципальный район, а его идентификатор ОКТМО был районный. Иными словами, это проблема «муниципальный округ-административный центр»: в зоне ответственности многих отделов, например, МВД находятся и город, в котором они расположены, и муниципальный район, который подчинён этому городу. Сличение по 5 знаку ОКТМО завысило бы удельное количество убийств, поскольку для города N в числителе будут убийства и в городе N, и в N-ском муниципальном районе, а в знаменателе — население только города N. Поэтому я агрегировал все данные об убийствах на уровне первых 6 цифр ОКТМО отделов правоохранительных органов.

Получилось два набора данных — убийства и численность — с общим ключом — ОКТМО. Сличив их, я оставил города с населением больше 100 000 человек, таких городов получилось 176. Нижняя граница в 100 тыс. выбрана по трём соображениям: во-первых, спорадический характер преступности делает оценку на меньших населенных пунктах нестабильной. Во-вторых, точность сличения уменьшается с размером населённого пункта. В-третьих, сама логика удельного количества убийств на 100 000 человек подсказывает нам отсечку.

Из 176 городов я нахожу данные по убийствам для 140 городов. В наших данных полностью отсутствуют сведения для Чечни и отсутствует маппинг между отделом полиции и ОКТМО для Башкортостана, Кемеровской области, Хакасии, Сахалина, Ярославской области, Костромской области, Камчатского края. Кроме того, из-за проблемы «муниципальный район-административный центр» я также теряю большинство городов Московской области. Тем не менее, 140 городов — это уже что-то. Получаем homicide rate: делим количество убийств на 2 (потому что данные за два года), а потом на население города. И всё бы хорошо, да только данные по убийствам за 2013–2014 гг.

С 1990-х гг. по всём мире происходит «великое падение преступности», в англоязычном мире известное как the great crime drop. Грубо говоря, люди перестают красть, бить и убивать. Криминологи выделяют ряд возможных причин, таких, как развитие систем безопасности (видеокамеры, охранные системы и т.п.), рост уровня жизни, прекращение использования свинцовых красок, которые отрицательно влияют на когнитивное развитие детей и снижают способность к самоконтролю. Теорий много. Это падение характерно и для России.

К счастью, у Генеральной прокуратуры РФ есть сайт с открытыми данными о преступности на региональном уровне. Путём несложных манипуляций я выгрузил данные об убийствах (учитывая и статью 105 УК РФ, и статью 111 ч. 4 УК РФ — обе на самом деле квалифицируют умышленное насилие, которое привело к смерти) за последние 10 лет по регионам и рассчитал динамику удельной убийственности по регионам:

cfk_me8ubtsy-r-ffxqwb8zsdfs.png

Мы видим почти двухкратное падение количества убийств за 10 лет. Используя эти данные, я предсказал, как изменится убийственность каждого региона в России с 2014 к 2020 г. Для каждого региона получается множитель-мультипликатор, который мы умножаем на удельную убийственность по данным 5,5 млн. карточек, и получаем спрогнозированную удельную убийственность в 2020 г. Важное предположение здесь в том, что тренд снижения преступности в городах следует тренду на уровне региона. Кроме того, прогнозы всегда неточны, поэтому мы рассчитали доверительные интервалы.

vpuxgb3ou9kt7uyxfk4vl35fkdi.png

Получился рейтинг безопасности городов России на основе данных об убийствах. Данные по убийствам в этих городах, населению, мультипликаторам и финальной оценке удельной убийственности в 2020 г. я выложил на GitHub.

Следующим шагом мог бы стать пересчёт рейтинга на данных посвежее (при условии, что кто-нибудь получит к ним доступ), а также проверка научных гипотез о том, что является причиной большого количества убийств в российских городах. Например, если сравнить, с одной стороны, удельное количество убийств, и, с другой, то, насколько часто физическое насилие приводит к смерти, то видно, что одной только удельной убийственностью гетерогенность российских городов не исчерпывается:

yovq1emey1icsqxgu2zlbnpjnns.png

Можно посмотреть на Индекс самоизоляции Яндекса и убийственность по городам. На первый взгляд кажется, что в городах, где живут более законопослушные в плане карантина люди, реже убивают, а линия регрессии, показанная синим, может убедить в том, что такая связь есть. Но это не так: для доказательства такого предположения недостаточно двух переменных с парой десятков точек данных. Сам график скорее похож на график связи между количеством пиратов и средней температурой поверхности Земли, на котором кажется, что связь между двумя переменными есть, но без надёжного исследовательского дизайна, который мог бы претендовать на причинность, это всего лишь ложная корреляция. На самом деле, это просто иллюстрация того, что данные криминальной статистики можно сцеплять с другими наборами данных и смотреть, что получается.

9dxsbc5ezm0y0sdrzmdvier7pok.png

Наконец, можно сделать еще одну интересную вещь. Я сматчил данные Мирового банка о среднем удельном количестве убийств на 100 тыс. человек населения по странам мира за 2017 г. (или ближайший доступный) и получил страны, которые ближе всего находятся к российским городам по уровню убийств. Это не совсем корректное сравнение, поскольку, во-первых, разные годы, и мы знаем, что со временем убийств становится меньше, во-вторых, удельные количества в микрогосударствах, таких, как Багамы, не всегда годятся для сравнений. Здесь может быть экологическая ошибка, связанная с агрегацией данных на уровне стран. Тем не менее, это забавное сравнение. В таблице ниже подобранные страны для 14 городов-миллионников России. Мой родной город — Красноярск, и теперь я могу говорить, что с точки зрения статистики убийств я родом из Королевства Свазиленд.

Приглашаю вас брать эти данные для своих изысканий. Мой университет недавно запустил совместно с Яндексом программу «Пандан», на которой мы будем совмещать знания из общественных наук с навыками исследователей данных. Как раз в криминологии добавленная стоимость такого альянса очевидна.

© Habrahabr.ru