Анализ резюме HH.RU: много графиков и немного сексизма и дискриминации
Недавно мне на глаза попалась статья про анализ датасета резюме hh.ru, который участвовал в каком-то хакатоне. Это навело меня на мысль самому поиграться с данными резюме. Тем более что у меня их немного больше. Я выбрал самую интересную для меня профобласть, которую можно указать в резюме, — «Информационные технологии, интернет, телеком».
Под катом вас ожидает много графиков, на которых вы узнаете, сколько получают люди в различных айтишных специализациях, выпускники каких вузов хотят больше всего денег, у каких работодателей айтишники задерживаются меньше всего, зарабатывают ли пользователи гуглопочты больше, чем пользователи почты Яндекса или Мейла, и много другой информации.
Всё описанное ниже — это лишь моё видение того, как оно должно быть. Графики не претендуют на полную объективность и отражение реальной ситуации. В любом месте я мог допустить ошибку.
Я взял российские резюме из профобласти «Информационные технологии, интернет, телеком», которые обновлялись за последний год. Далее для всех графиков следует учитывать, что приведенные ниже показатели — это не абсолютный срез по стране, а только по той части, которая присутствует на hh.ru. Она может быть смещенная.
В общей сложности в анализе участвует 566 178 резюме айтишников. Все графики кликабельны.
Количество человек в специализации
В профобласти «Информационные технологии, интернет, телеком» можно выбрать до трех специализаций. На графике показано, сколько человек какую специализацию выбрали:
Сколько человек скрывают желаемую зарплату
При создании резюме можно не указывать свою заплату. Как видим, этим пользуется порядка 40% айтишников.
Распределение мужчин и женщин по специализациям
Перевесом мужчин в IT никого не удивишь. Почему так мало женщин — сисадминов, сетевиков и руководящих технарей?
Распределение желаемой зарплаты по специализациям
Ну, а теперь посмотрим, сколько денег хотят мужчины и женщины в разных специализациях по всей России.
Следующий график — это boxplot, или по-нашему — ящик с усами. Читается он так. Черта внутри ящика — это медиана. То есть половина людей получает больше этой суммы, а другая половина — меньше. Значение медианы я постарался почти на всех графиках подписать. Ящик представляет собой интерквартильный размах (IQR) и включает в себя 50% всех резюме: от 1-го квартиля (25%) до 3-го квартиля (75%). Другими словами, 25% резюме хотят меньше денег, чем левая граница ящика, и 25% хотят больше денег, чем правая граница ящика. Усы же ограничивают почти все остальные данные: 0,35% всех резюме хотят меньше денег, чем у левой границы, и 0,35% хотят больше, чем граница правого уса. Все, кто не вошел в указанные интервалы, — выбросы и отмечаются отдельными точками.
Ни для кого не секрет, что в Москве и Санкт-Петербурге больше айтишников, чем в других регионах нашей страны, и уровень оплаты там выше среднего по стране. Поэтому я сделал для этих городов отдельные графики с распределением зарплат по специализациям.
Распределение зарплат по специализациям в Москве
Распределение зарплат по специализациям в Санкт-Петербурге
На всех трех графиках одинаковые ожидания по денежной компенсации между мужчинами и женщинами можно увидеть у тестировщиков. Кстати, в эту IT-область девушки идут с большей охотой, чем во многие другие.
Стоит отметить, что в Москве и Питере женская медиана у технических начальниц выше. Но если посмотреть на график распределения по количеству мужчин и женщин в этой специальности, то видно, что вторых значительно меньше.
Зарплаты айтишников по России в сравнении с другими профессиональными областями
Видим, что по зарплате айтишники уступают только добыче сырья, консультированию и высшему менеджменту. В 24 из 28 профобластей женщины хотят меньше денег (по медиане). В остальных — поровну.
Распределение айтишников по регионам
Еще раз уточню, что график отражает не реальное распределение айтишников по стране, а только те резюме, которые есть на hh.ru. Уровень использования сайта в регионах отличается.
Сколько резюме приходится на одну вакансию
Для данного графика я получил все активные вакансии и резюме, которые обновлялись в течение года, и для каждого региона поделил количество резюме на количество вакансий. Также я исключил регионы, где количество айтишников меньше 1000.
Видно, что в лидеры вырвалась Московская область. Она не включает в себя саму Москву. Скорее всего, так потому, что много айтишников, особенно приезжих, расселяется на периферии, а работа по большей части в самом городе.
Процент IT-резюме от общего числа резюме
На следующем графике я посчитал, какой процент от общего числа резюме в данном регионе занимают айтишники.
Интересная разница между Питером и Ленинградской областью и Москвой и Московской областью. Скорее всего, это из-за наличия в МО таких крупных притонов для айтишников, как Мытищи, Химки, Люберцы и прочих, которые относятся к области, но близко к городу.
Распределение желаемой зарплаты в IT по регионам
Самые популярные ключевые навыки в IT
В резюме можно указывать ключевые навыки. На следующем графике показан топ выбранных навыков для всех айтишников.
Ключевые навыки для специализации «Программирование, разработка»
Интересно посмотреть основные ключевые навыки только для разработчиков.
Ключевые навыки для специализации «Начало карьеры»
Распределение денежных ожиданий по ключевым навыкам
Распределение возраста по специализациям в IT
Молодёжь чаще идёт в web и игрушки. Мне кажется, это отличная точка входа в IT.
Зависимость зарплаты от опыта работы
Порядок нарушают лишь те, кто проработал уже более 20 лет. Скорее всего, так потому, что в этой категории много тех, кто пришел в IT из другой области. Так как в резюме люди часто любят указывать не только релевантный данной профобласти опыт.
Распределение резюме по статусам видимости
Предпочитаемое время на дорогу до работы
Большинство указывает, что время, затраченное на дорогу до работы, не имеет значения. В Питере и Москве люди несколько глубже осознают это «не имеет значения» и поэтому реже выбирают этот пункт.
Ближайшая станция метро
В резюме можно указывать ближайшую станцию метро. Посмотрим для Москвы, где больше всего людей.
Я не нашел простого способа поставить в питоновском gmap текстовый лейбл, поэтому отмеченные маркерами станции обозначены отдельно:
Большинство указанных станций — основные точки входа в город из людных замкадных мест.
Какими сотовыми операторами пользуются айтишники
Я скачал базу DEF-кодов на сайте Россвязи, немного причесал её и смапил с номерами телефонов из резюме.
Какой электронной почтой пользуются
Для данного графика различные домены одной компании я объединил в одну группу. Кстати, любопытный факт, которого не видно на графике, про Яндекс.Почту, что подавляющее большинство указывает в email-адресе домен yandex.ru, а не ya.ru
Я всегда считал, что самые крутые чуваки пользуются Gmail, средние — Яндексом, а остальные используют почту Mail.ru. Сейчас посмотрим, какие зарплатные ожидания будут по этим трем группам.
Так что, ребята, если хотите больше денег — вы знаете, что делать.
Распределение желаемой зарплаты по вузам
Ну, а теперь посмотрим, выпускники каких вузов хотят больше всего денег. Я отсеял все заведения, где училось меньше 1000 человек из выборки.
В каких компаниях люди дольше всего работают
В опыте работы можно указать продолжительность работы в данной компании. Я взял все, через которые прошло более 500 айтишников.
Видно, что попадаются не очень айтишные организации. Всё потому, что в опыте работы указывается не только релевантный опыт.
Распределение желаемой зарплаты при наличии опыта работы в компании
Посмотрим, люди с опытом работы в каких компаниях хотят больше всего денег. Возьму Москву и Питер отдельно.
Москва:
Санкт-Петербург:
В процессе рисования графиков у меня появлялись всё новые и новые идеи что можно сделать ещё, но я решил остановиться на том, что есть. Если этот пост хорошо зайдёт, я сделаю продолжение.
В рисовании графиков мне помогали: Python, Jupyter notebook, Pandas, Seaborn, Apache Hive и другие.
Задавайте вопросы.
Всем спасибо.