Анализ резюме HH.RU: много графиков и немного сексизма и дискриминации

Недавно мне на глаза попалась статья про анализ датасета резюме hh.ru, который участвовал в каком-то хакатоне. Это навело меня на мысль самому поиграться с данными резюме. Тем более что у меня их немного больше. Я выбрал самую интересную для меня профобласть, которую можно указать в резюме, — «Информационные технологии, интернет, телеком».

Под катом вас ожидает много графиков, на которых вы узнаете, сколько получают люди в различных айтишных специализациях, выпускники каких вузов хотят больше всего денег, у каких работодателей айтишники задерживаются меньше всего, зарабатывают ли пользователи гуглопочты больше, чем пользователи почты Яндекса или Мейла, и много другой информации.

gpwpoayk3oep2qvlixmnjzzg3rg.jpeg

Всё описанное ниже — это лишь моё видение того, как оно должно быть. Графики не претендуют на полную объективность и отражение реальной ситуации. В любом месте я мог допустить ошибку.

Я взял российские резюме из профобласти «Информационные технологии, интернет, телеком», которые обновлялись за последний год. Далее для всех графиков следует учитывать, что приведенные ниже показатели — это не абсолютный срез по стране, а только по той части, которая присутствует на hh.ru. Она может быть смещенная.

В общей сложности в анализе участвует 566 178 резюме айтишников. Все графики кликабельны.

Количество человек в специализации


В профобласти «Информационные технологии, интернет, телеком» можно выбрать до трех специализаций. На графике показано, сколько человек какую специализацию выбрали:
fu8r2myh_am8s1jgtchtslpmb24.png

Сколько человек скрывают желаемую зарплату


При создании резюме можно не указывать свою заплату. Как видим, этим пользуется порядка 40% айтишников.
3qw9axdbiljwm7ot11pzu9ez4uw.png

Распределение мужчин и женщин по специализациям


bqzzti__uobt-n3b7ae5zh3ifc4.png
Перевесом мужчин в IT никого не удивишь. Почему так мало женщин — сисадминов, сетевиков и руководящих технарей?

Распределение желаемой зарплаты по специализациям


Ну, а теперь посмотрим, сколько денег хотят мужчины и женщины в разных специализациях по всей России.

Следующий график — это boxplot, или по-нашему — ящик с усами. Читается он так. Черта внутри ящика — это медиана. То есть половина людей получает больше этой суммы, а другая половина — меньше. Значение медианы я постарался почти на всех графиках подписать. Ящик представляет собой интерквартильный размах (IQR) и включает в себя 50% всех резюме: от 1-го квартиля (25%) до 3-го квартиля (75%). Другими словами, 25% резюме хотят меньше денег, чем левая граница ящика, и 25% хотят больше денег, чем правая граница ящика. Усы же ограничивают почти все остальные данные: 0,35% всех резюме хотят меньше денег, чем у левой границы, и 0,35% хотят больше, чем граница правого уса. Все, кто не вошел в указанные интервалы, — выбросы и отмечаются отдельными точками.
af-bkbt6asisa28un8yzo1itccu.png
Ни для кого не секрет, что в Москве и Санкт-Петербурге больше айтишников, чем в других регионах нашей страны, и уровень оплаты там выше среднего по стране. Поэтому я сделал для этих городов отдельные графики с распределением зарплат по специализациям.

Распределение зарплат по специализациям в Москве


zwn0dxnjp2qknmtjhwbs02htu2a.png

Распределение зарплат по специализациям в Санкт-Петербурге


ixrxanjcettxbokkiljkzkd0sju.png
На всех трех графиках одинаковые ожидания по денежной компенсации между мужчинами и женщинами можно увидеть у тестировщиков. Кстати, в эту IT-область девушки идут с большей охотой, чем во многие другие.

Стоит отметить, что в Москве и Питере женская медиана у технических начальниц выше. Но если посмотреть на график распределения по количеству мужчин и женщин в этой специальности, то видно, что вторых значительно меньше.

Зарплаты айтишников по России в сравнении с другими профессиональными областями


srkndm-lzzczvpt15cozo72nkzy.png
Видим, что по зарплате айтишники уступают только добыче сырья, консультированию и высшему менеджменту. В 24 из 28 профобластей женщины хотят меньше денег (по медиане). В остальных — поровну.

Распределение айтишников по регионам


Еще раз уточню, что график отражает не реальное распределение айтишников по стране, а только те резюме, которые есть на hh.ru. Уровень использования сайта в регионах отличается.
ueupcxxsdga4zxyrslzbay8vw90.png

Сколько резюме приходится на одну вакансию


Для данного графика я получил все активные вакансии и резюме, которые обновлялись в течение года, и для каждого региона поделил количество резюме на количество вакансий. Также я исключил регионы, где количество айтишников меньше 1000.
ouugpmbctqrny5xfs8qkv-mv_om.png
Видно, что в лидеры вырвалась Московская область. Она не включает в себя саму Москву. Скорее всего, так потому, что много айтишников, особенно приезжих, расселяется на периферии, а работа по большей части в самом городе.

Процент IT-резюме от общего числа резюме


На следующем графике я посчитал, какой процент от общего числа резюме в данном регионе занимают айтишники.
ydwhgupozx-lfupxtm0k9izugb4.png
Интересная разница между Питером и Ленинградской областью и Москвой и Московской областью. Скорее всего, это из-за наличия в МО таких крупных притонов для айтишников, как Мытищи, Химки, Люберцы и прочих, которые относятся к области, но близко к городу.

Распределение желаемой зарплаты в IT по регионам


ikgdbi08btqgr5t_azx6wwijg7k.png

Самые популярные ключевые навыки в IT


В резюме можно указывать ключевые навыки. На следующем графике показан топ выбранных навыков для всех айтишников.
a0quwb9xb_pry_t0bhyd9olhlii.png

Ключевые навыки для специализации «Программирование, разработка»


Интересно посмотреть основные ключевые навыки только для разработчиков.
t8aprp2vpymtby_ezrhiinf4zvc.png

Ключевые навыки для специализации «Начало карьеры»


zcquscuqlmwnvzdjvjbbl9sg5jo.png

Распределение денежных ожиданий по ключевым навыкам


kn_samv7qgk13ssasp2b6we7gfw.png

Распределение возраста по специализациям в IT


jqsrevk4zxn7igm4pks-xogdoqk.png
Молодёжь чаще идёт в web и игрушки. Мне кажется, это отличная точка входа в IT.

Зависимость зарплаты от опыта работы


rztgmykjwtm0yu_sxyrpe7hqlqo.png
Порядок нарушают лишь те, кто проработал уже более 20 лет. Скорее всего, так потому, что в этой категории много тех, кто пришел в IT из другой области. Так как в резюме люди часто любят указывать не только релевантный данной профобласти опыт.

Распределение резюме по статусам видимости


csucjdvpmgkvonmfehzn8prbdrm.png

Предпочитаемое время на дорогу до работы


lplfslwwkumxq3_h2xfsr6brlpi.png
Большинство указывает, что время, затраченное на дорогу до работы, не имеет значения. В Питере и Москве люди несколько глубже осознают это «не имеет значения» и поэтому реже выбирают этот пункт.

Ближайшая станция метро


В резюме можно указывать ближайшую станцию метро. Посмотрим для Москвы, где больше всего людей.
1fpjxfeg0chlbccua8lsavlirwo.png
Я не нашел простого способа поставить в питоновском gmap текстовый лейбл, поэтому отмеченные маркерами станции обозначены отдельно:
z0d65ojnyx45nie0k-q-1upkxrk.png
Большинство указанных станций — основные точки входа в город из людных замкадных мест.

Какими сотовыми операторами пользуются айтишники


Я скачал базу DEF-кодов на сайте Россвязи, немного причесал её и смапил с номерами телефонов из резюме.
hkahmz5d7l33bgkqdj7t7vj19yq.png

Какой электронной почтой пользуются


Для данного графика различные домены одной компании я объединил в одну группу. Кстати, любопытный факт, которого не видно на графике, про Яндекс.Почту, что подавляющее большинство указывает в email-адресе домен yandex.ru, а не ya.ru
-5y0olr8d8glpysvlzammvjz_lu.png
Я всегда считал, что самые крутые чуваки пользуются Gmail, средние — Яндексом, а остальные используют почту Mail.ru. Сейчас посмотрим, какие зарплатные ожидания будут по этим трем группам.
wwepoyl3aowbjschtos-cevb0_i.png
Так что, ребята, если хотите больше денег — вы знаете, что делать.

Распределение желаемой зарплаты по вузам


Ну, а теперь посмотрим, выпускники каких вузов хотят больше всего денег. Я отсеял все заведения, где училось меньше 1000 человек из выборки.
aodmemd3rgwgm56obtlaxqiao9g.png

В каких компаниях люди дольше всего работают


В опыте работы можно указать продолжительность работы в данной компании. Я взял все, через которые прошло более 500 айтишников.
dg0bgc1wwqsts92-ylykidzfks4.png
Видно, что попадаются не очень айтишные организации. Всё потому, что в опыте работы указывается не только релевантный опыт.

Распределение желаемой зарплаты при наличии опыта работы в компании


Посмотрим, люди с опытом работы в каких компаниях хотят больше всего денег. Возьму Москву и Питер отдельно.
Москва:
blfjkpular8tdansk1ykj7xnbkk.png
Санкт-Петербург:
hsrn7qlbde5hdzlhilyjffdyqxc.png

В процессе рисования графиков у меня появлялись всё новые и новые идеи что можно сделать ещё, но я решил остановиться на том, что есть. Если этот пост хорошо зайдёт, я сделаю продолжение.

В рисовании графиков мне помогали: Python, Jupyter notebook, Pandas, Seaborn, Apache Hive и другие.
Задавайте вопросы.
Всем спасибо.

© Habrahabr.ru