[Перевод] Тренды в Data Scienсe 2020
Google Trends по запросу «data science»
Краткое изложение
- По нашим оценкам, вакансии в advanced analytics насчитывают почти 1 миллион человек во всем мире, 291 тысяча из них в США.
- За последние два года дефицит работ в области data science значительно сократился — были наняты около 800 тысяч специалистов, однако на данный момент десятки вакансий так и остаются нетронутыми, причем подавляющее большинство из них — в США.
- Самый большой спрос на рабочих в области advanced analytics — в области залива Сан- Франциско с самыми высокими зарплатами и самым большим количеством вакансий, за ней следуют крупные городские центры вроде Нью-Йорка, Бостона, Вашингтона и Сиэтла.
- Средняя заработная плата по стране у data scientists остается выше $100,000 — эта тенденция просматривается почти во всех штатах, удовлетворенность работой и престиж также остаются на высоком уровне.
- Для подготовки специалистов в advanced analytics было создано больше ста образовательных программ.
Узнайте подробности, как получить востребованную профессию с нуля или Level Up по навыкам и зарплате, пройдя платные онлайн-курсы SkillFactory:
Вступление
Вот уже последние несколько лет data science является одним из самых ярких трендов в бизнесе. В 2012 году Harvard Business Review назвали работу data scientists «самой сексуальной работой 21-го века». Многочисленные отчеты (1, 2, 3, 4) писали, что мир сталкивается с огромным дефицитом data scientists. Создавались буткемпы и университетские программы, чтобы решить вопросы, связанные с огромным спросом на навыки в этой области.
К «advanced analytics» мы относим всех, кто сам относит себя к data scientist, специалистам по машинному обучению или ИИ-исследователю.
Спрос и предложение data scientists — май 2020
Общее число рабочих в области advanced analytics
На сегодняшний день в мире насчитывается чуть менее одного миллиона рабочих в области advanced analytics (см. раздел методологии ниже), из которых 290 тысяч или же примерно 30% приходится на Соединенные Штаты Америки. На данный момент численность data scientists значительно превосходит численность инженеров по машинному обучению и исследователей ИИ как в США, так и во всем мире, однако и инженеры, и исследователи являются новыми на рынке труда и в будущем могут значительно вырасти.
Сравнение общего числа продвинутых аналитиков в мире в разбивке по должности, май 2020 г.
Открытые и дефицитные вакансии
На сегодняшний день на LinkedIn открыты около 86 тысяч вакансий в сфере advanced analytics, большая часть (53.4 тысячи) приходится на США. Интересно отметить, что США представляет собой непропорционально большое число открытых вакансий (62%) по сравнению с долей рабочих в advanced analytics во всем мире (30%), хоть это и можно списать на ложную методологию сбора данных (см. раздел методологии ниже).
Количество открытых ролей advanced analytics по сравнению с общим числом профессиональных сотрудников advanced analytics
Мы можем использовать число открытых вакансий (по сравнению с количеством имеющихся сотрудников) в качестве приблизительного показателя, чтобы понять сколько всего работников недостает. Из приведенного ниже графика видно, что открытых вакансий по всему миру на 9% больше, чем непосредственно сотрудников, в то время как в США это число достигает примерно 18.7%.
Сокращение дефицита
Сегодня в США насчитывают примерно 53 тысячи свободных рабочих мест в области advanced analytics. Однако, в августе 2018 года LinkedIn опубликовал отчет — на тот момент дефицит составлял около 151 тысячи рабочих мест. За последние два года дефицит значительно сократился — по всему миру была нанята примерно 831 тысяча профессионалов в области advanced analytics (см. ниже).
Apteo оценивает общее количество продвинутых аналитиков с течением времени
Дефицит продвинутых аналитиков в 2018 году по сравнению с 2020 годом
Распределение открытых вакансий и недостаток рабочих по городам США
Общее число специалистов и вакансий
Никого не удивит, что наибольшая часть работников в advanced analytics находятся в районе залива Сан-Франциско — примерно 45.7 тысяч человек, как и наибольшее количество открытых вакансий — около 8 тысяч. На втором месте идет Нью-Йоркская агломерация — около 38.8 тысяч сотрудников и 5.9 тысяч вакансий. На третьем месте район Большого Бостона — 15.9 тысяч сотрудников и 3.3 тысячи вакансий.
Самая высокая доля на душу населения
На первом месте район залива Сан-Франциско — 5.9 тысячи человек на миллион. На втором месте идет Сиэтл — 4.3 тысячи на миллион, завершает Бостон — 3.2 тысячи на миллион.
Наибольшая нехватка рабочей силы
Наибольший процент (39.2%) открытых вакансий — в городе Вашингтон.
Расширенная аналитика сотрудников и вакансий по городам
Заработная плата и удовлетворенность работой в США
Заработная плата в этой сфере варьируется по всей Америке. Основываясь на данных из различных источников, мы подсчитали, что средняя зарплата специалистов достигает примерно $114,000 в год, что соответствует примерно $14,000 в районе залива Сан-Франциско.
В 2020 году работа в data science заняла третье место по Америке по версии Glassdoor (сразу после Front End Engineer и Java Developer). С 2016 по 2019 года data scientists занимали первое место.
Образовательные программы и требуемые навыки
Для удовлетворения потребностей в бизнесе появилось множество новых образовательных программ. На данный момент существует как минимум 79 буткемпов, 62 программы бакалавриата и 111 магистерских программ, ориентированных на data science. Ниже мы перечислим наиболее упоминаемые программные средства и навыки для специалистов в области advanced analytics
Top Tools
- Python
- SQL
- R
- Spark
- Cloud
- AWS
- Java
- Tensorflow
Top Skills
- Machine Learning / Regression
- Statistics
- Research
- Prediction
- Visualization
- Recommendation
- Optimization
- Deep Learning
- Natural Language Processing
Образовательные программы
Вывод
Очевидно, что data science продолжает быть крайне востребованной и на сегодняшний день. В то время как мир, судя по всему, быстро удовлетворяет этот спрос, по-прежнему существует острая нехватка рабочих в области advanced analytics. Интересно то, что возникают и новые должности типа инженера по машинному обучению (machine learning engineer) или ИИ-исследователя (A.I. researcher), и вполне вероятно, что для них потребуются дополнительные сотрудники, поскольку все больше компаний работают над внутренним продвижением data science.
Рост количества должностей отражает растущее желание организаций и компаний использовать данные для более компетентных решений. Хоть организации и нанимают все больше людей, крайне маловероятно, что все, кроме самых престижных компаний, смогут нанять достаточное количество сотрудников для удовлетворения своих бизнес потребностей.
Методология
Расчет занятости и дефицита
Для идентификации data scientists и открытых вакансий в data science, мы провели поиск по ключевым словам на LinkedIn по трем наиболее распространенным названиям вакансий, которые мы ассоциируем с математической, инженерной и аналитической работой, в которой, по нашему мнению, и заключается работа data scientist при помощи премиум аккаунта генерального директора и соучредителя Apteo Шанифа Дханани. Названия вакансий следующие — «data scientist», «инженер по машинному обучению» и «исследователь искусственного интеллекта».
«Data scientist» и «инженер по машинному обучению» также могут быть связаны с такими ключевыми словами как «data science» и «инженер МО», поэтому для предотвращения двойного подсчета мы использовали бинарный поиск — искали ровно один термин за раз, исключая все остальные термины. Например, мы соединили результаты из следующих двух запросов для поиска «data scientists»:
«data science» -«data scientist» -«machine learning engineer» -«ml engineer» -«ai researcher» and «data scientist» -«data science» -«machine learning engineer» -«ml engineer» -«ai researcher»
Поскольку LinkedIn отображает результаты только из своей расширенной сети, вполне вероятно, что результаты могут быть чуть более занижены по сравнению с реальными цифрами, однако мы считаем, что и эти цифры дают приблизительную оценку расчетных значений, которая может быть полезна при анализе рынка труда в области data science.
Источники информации:
- Данные поиска работ на LinkedIn, полученные 1-го мая 2020 года.
- Google (численность населения)
Расчет заработной платы
Единого правдивого источника для расчета заработной платы просто не существует. Правительство США, рекрутинговые компании и независимые отчеты публикуют разные значения о заработной плате advanced analytics. Для наших отчетов мы собрали как можно больше независимых значений как на государственном, так и на национальном уровне и использовали среднее значение.
Источники информации:
Рост занятости
Как и в случае с расчетом заработной платы, за последние годы имеется крайне мало информации о количестве сотрудников в advanced analytics. Используя множество различных источников, мы вычислили наилучшую оценку количества работников за каждый год. В некоторых случаях мы использовали внешние данные в качестве наших, в других — мы делали вывод на основе кривой с использованием имеющихся у нас данных.
Источники информации:
Образовательные программы и требуемые навыки
Следует снова проговорить, что было сложно оценить образовательные программы. В каждом университете свое название для программы по data science, поэтому нам приходилось субъективно определять, какие программы включать в список, а какие исключать из него. Мы попытались отобрать те программы, основанные на математической строгости, вычислительной работе и аналитике. Мы исследовали различные отчеты и агрегаторы для сбора данных по университетским программам, а также различные буткемпы для определения суммарных показателей для 2020-го года.
Источники информации: