Как мы участвовали в Smart Data Hack. Headhunter и Труд всем16.11.2015 10:03
Сходили на Smart Data Hack, заняли первое место. Пока ничего не забылось, хотел бы рассказать, как всё было. Для мероприятия Headhunter сделал дамп вакансий за 2014, 2015 годы, дамп резюме без персональных данных и что-то ещё по мелочи. Минтруд пришёл с выгрузкой всех открытых вакансийсо своего Труда всем. Ещё были данные от ювелирного магазина »585», но на них я совсем не смотрел.
«Труд всем» внешне очень похож на другие сайты для поиска работы. Фильтры, выдача, резюме — всё стандартно. Наша идея заключалась в том, чтобы поискать, что отличает сайт от конкурентов, оправдано его существование или нет. Для начала выгрузили оценки трафика для HH, Труд и Job.ru с Similarweb. Труд сейчас в 10 раз меньше HH, но с лета растёт. Интересно, что Job.ru последний год падает, возможно, скоро Труд его обгонит.
http://trudvsem.ru/vacancy/card/1021801058443/2bbb11f1-3a46-11e5-a0ef-3bdbd1a6e39dhttp://trudvsem.ru/vacancy/card/1021801058443/2bbb11f1-3a46-11e5-a0ef-3bdbd1a6e39d2015-10-30 00:00:00 MSK2015-11-13 03:19:57 MSKот 11500 до 11500«руб.»Работы, не требующие квалификацииМонтажникПолная занятостьСменный графикОПЫТ РАБОТЫ ПО МОНТАЖУ ОХРАННЫХ И ПОЖАРНЫХ СИСТЕМВЫПОЛНЕНИЕ МОНТАЖА,НАЛАДКИ И ТЕХНИЧЕСКОГО ОБСЛУЖИВАНИЯ СИСТЕМ АВТОМАТИЧЕСКОЙ ПОЖАРНО-ОХРАННОЙ СИГНАЛИЗАЦИИ
Социальный пакет
Среднее профессиональноеОПЫТ РАБОТЫ ПО МОНТАЖУ ОХРАННЫХ И ПОЖАРНЫХ СИСТЕМ Ответственность
Удмуртская республика, 427405, г. Воткинск, ул. ЛЕНИНА, д.2453.99297157.053191ООО ЧОП "КОБРА"KOBRAOOO@MAIL.RU8(34145)51001СОЛОВЬЕВ АЛЕКСАНДР АНАТОЛЬЕВИЧfalse
...
Удивительно, но факт — число открытых вакансий на Труде чуть больше, чем на HH (700Мб):
Может быть, на Труде вакансии никто не закрывает и они валяются там годами? Нет, 80% вакансий были открыты в прошлом месяце. У HH — 99%. Пик в прошлый понедельник на HH, возможно, связан с тем, что рекрутеры иногда пересоздают вакансии, чтобы держать их в топе выдачи. 4 ноября — праздник, вакансий мало:
Разных работодателей на Труде даже больше, чем на HH:
Дальше, конечно, было интересно как-то сравнить вакансии и работодателей. На HH ведётся хорошая классификация вакансий:
С помощью этих данных удалось сделать простой классификатор. Для названия вакансии он выводил распределение по категориям:
Принцип работы классификатора очень простой. Для каждого слова считаем в каких категориях оно чаще всего встречается: например, «врач» — в категории «медицина», предлог «по» — равномерно размазан по всем категориям. Чтобы классифицировать вакансию, её название разбивается на слова, распределения по категориям для всех слов суммируются. Подробнее в сорцах.
Классификатор был запущен на всех вакансиях HH и Труда. Получилось, что HH — это в основном про продажи, ИТ и банки. Труд, наоборот, про нормальные профессии — про врачей, учителей, рабочих.
Была гипотеза, что HH рассчитан в основном на московскую аудиторию, а Труд на региона. Честно посчитали распределение вакансий по географии. Действительно, у HH ~45% вакансий приходится на Москву, Питер и Московскую область, а у Труда только ~15% (да, c Питером, какой-то косяк):
В конце решили сравнить зарплаты на порталах. На Труде зарплаты в 2–3 раза ниже, и, что интересно, слабо отличаются между категориями:
«Это всё Москва», подумали мы. И сделали срез по регионам. Но и там зарплаты на HH значительно выше. Наверное, дело в том, что на Труде представлены в основном государственные учреждения, там зарплаты ниже:
Ещё интересно, что на Труде большая часть вакансий со сменным графиком, а не с нормальным, как на HH:
Получается, что порталы заметно отличаются. Если человек, не программист и не менеджер, живёт не в Москве, и нормально относится к работе в государственных организациях, ему больше подходит «Труд всем».
Хакатон был организован нормально: хороший интернет, много данных. Но участников было мало, ко второму дню осталось всего три команды, из них нормальный результат был только у нас.