[Перевод] Тренды в Data Scienсe 2020

image

Google Trends по запросу «data science»

Краткое изложение


  • По нашим оценкам, вакансии в advanced analytics насчитывают почти 1 миллион человек во всем мире, 291 тысяча из них в США.
  • За последние два года дефицит работ в области data science значительно сократился — были наняты около 800 тысяч специалистов, однако на данный момент десятки вакансий так и остаются нетронутыми, причем подавляющее большинство из них — в США.
  • Самый большой спрос на рабочих в области advanced analytics — в области залива Сан- Франциско с самыми высокими зарплатами и самым большим количеством вакансий, за ней следуют крупные городские центры вроде Нью-Йорка, Бостона, Вашингтона и Сиэтла.
  • Средняя заработная плата по стране у data scientists остается выше $100,000 — эта тенденция просматривается почти во всех штатах, удовлетворенность работой и престиж также остаются на высоком уровне.
  • Для подготовки специалистов в advanced analytics было создано больше ста образовательных программ.


image

Узнайте подробности, как получить востребованную профессию с нуля или Level Up по навыкам и зарплате, пройдя платные онлайн-курсы SkillFactory:

Вступление


Вот уже последние несколько лет data science является одним из самых ярких трендов в бизнесе. В 2012 году Harvard Business Review назвали работу data scientists «самой сексуальной работой 21-го века». Многочисленные отчеты (1, 2, 3, 4) писали, что мир сталкивается с огромным дефицитом data scientists. Создавались буткемпы и университетские программы, чтобы решить вопросы, связанные с огромным спросом на навыки в этой области.

К «advanced analytics» мы относим всех, кто сам относит себя к data scientist, специалистам по машинному обучению или ИИ-исследователю.

Спрос и предложение data scientists — май 2020


Общее число рабочих в области advanced analytics

На сегодняшний день в мире насчитывается чуть менее одного миллиона рабочих в области advanced analytics (см. раздел методологии ниже), из которых 290 тысяч или же примерно 30% приходится на Соединенные Штаты Америки. На данный момент численность data scientists значительно превосходит численность инженеров по машинному обучению и исследователей ИИ как в США, так и во всем мире, однако и инженеры, и исследователи являются новыми на рынке труда и в будущем могут значительно вырасти.

image

Сравнение общего числа продвинутых аналитиков в мире в разбивке по должности, май 2020 г.

Открытые и дефицитные вакансии


На сегодняшний день на LinkedIn открыты около 86 тысяч вакансий в сфере advanced analytics, большая часть (53.4 тысячи) приходится на США. Интересно отметить, что США представляет собой непропорционально большое число открытых вакансий (62%) по сравнению с долей рабочих в advanced analytics во всем мире (30%), хоть это и можно списать на ложную методологию сбора данных (см. раздел методологии ниже).

image

Количество открытых ролей advanced analytics по сравнению с общим числом профессиональных сотрудников advanced analytics

Мы можем использовать число открытых вакансий (по сравнению с количеством имеющихся сотрудников) в качестве приблизительного показателя, чтобы понять сколько всего работников недостает. Из приведенного ниже графика видно, что открытых вакансий по всему миру на 9% больше, чем непосредственно сотрудников, в то время как в США это число достигает примерно 18.7%.

Сокращение дефицита


Сегодня в США насчитывают примерно 53 тысячи свободных рабочих мест в области advanced analytics. Однако, в августе 2018 года LinkedIn опубликовал отчет — на тот момент дефицит составлял около 151 тысячи рабочих мест. За последние два года дефицит значительно сократился — по всему миру была нанята примерно 831 тысяча профессионалов в области advanced analytics (см. ниже).

image

Apteo оценивает общее количество продвинутых аналитиков с течением времени

image

Дефицит продвинутых аналитиков в 2018 году по сравнению с 2020 годом

Распределение открытых вакансий и недостаток рабочих по городам США


Общее число специалистов и вакансий


Никого не удивит, что наибольшая часть работников в advanced analytics находятся в районе залива Сан-Франциско — примерно 45.7 тысяч человек, как и наибольшее количество открытых вакансий — около 8 тысяч. На втором месте идет Нью-Йоркская агломерация — около 38.8 тысяч сотрудников и 5.9 тысяч вакансий. На третьем месте район Большого Бостона — 15.9 тысяч сотрудников и 3.3 тысячи вакансий.

Самая высокая доля на душу населения


На первом месте район залива Сан-Франциско — 5.9 тысячи человек на миллион. На втором месте идет Сиэтл — 4.3 тысячи на миллион, завершает Бостон — 3.2 тысячи на миллион.

Наибольшая нехватка рабочей силы


Наибольший процент (39.2%) открытых вакансий — в городе Вашингтон.

image

Расширенная аналитика сотрудников и вакансий по городам

image

Заработная плата и удовлетворенность работой в США

Заработная плата в этой сфере варьируется по всей Америке. Основываясь на данных из различных источников, мы подсчитали, что средняя зарплата специалистов достигает примерно $114,000 в год, что соответствует примерно $14,000 в районе залива Сан-Франциско.

В 2020 году работа в data science заняла третье место по Америке по версии Glassdoor (сразу после Front End Engineer и Java Developer). С 2016 по 2019 года data scientists занимали первое место.

image

Образовательные программы и требуемые навыки


Для удовлетворения потребностей в бизнесе появилось множество новых образовательных программ. На данный момент существует как минимум 79 буткемпов, 62 программы бакалавриата и 111 магистерских программ, ориентированных на data science. Ниже мы перечислим наиболее упоминаемые программные средства и навыки для специалистов в области advanced analytics

Top Tools


  • Python
  • SQL
  • R
  • Spark
  • Cloud
  • AWS
  • Java
  • Tensorflow

Top Skills


  • Machine Learning / Regression
  • Statistics
  • Research
  • Prediction
  • Visualization
  • Recommendation
  • Optimization
  • Deep Learning
  • Natural Language Processing

image

Образовательные программы

Вывод


Очевидно, что data science продолжает быть крайне востребованной и на сегодняшний день. В то время как мир, судя по всему, быстро удовлетворяет этот спрос, по-прежнему существует острая нехватка рабочих в области advanced analytics. Интересно то, что возникают и новые должности типа инженера по машинному обучению (machine learning engineer) или ИИ-исследователя (A.I. researcher), и вполне вероятно, что для них потребуются дополнительные сотрудники, поскольку все больше компаний работают над внутренним продвижением data science.

Рост количества должностей отражает растущее желание организаций и компаний использовать данные для более компетентных решений. Хоть организации и нанимают все больше людей, крайне маловероятно, что все, кроме самых престижных компаний, смогут нанять достаточное количество сотрудников для удовлетворения своих бизнес потребностей.

Методология


Расчет занятости и дефицита


Для идентификации data scientists и открытых вакансий в data science, мы провели поиск по ключевым словам на LinkedIn по трем наиболее распространенным названиям вакансий, которые мы ассоциируем с математической, инженерной и аналитической работой, в которой, по нашему мнению, и заключается работа data scientist при помощи премиум аккаунта генерального директора и соучредителя Apteo Шанифа Дханани. Названия вакансий следующие — «data scientist», «инженер по машинному обучению» и «исследователь искусственного интеллекта».

«Data scientist» и «инженер по машинному обучению» также могут быть связаны с такими ключевыми словами как «data science» и «инженер МО», поэтому для предотвращения двойного подсчета мы использовали бинарный поиск — искали ровно один термин за раз, исключая все остальные термины. Например, мы соединили результаты из следующих двух запросов для поиска «data scientists»:

«data science» -«data scientist» -«machine learning engineer» -«ml engineer» -«ai researcher» and «data scientist» -«data science» -«machine learning engineer» -«ml engineer» -«ai researcher»

Поскольку LinkedIn отображает результаты только из своей расширенной сети, вполне вероятно, что результаты могут быть чуть более занижены по сравнению с реальными цифрами, однако мы считаем, что и эти цифры дают приблизительную оценку расчетных значений, которая может быть полезна при анализе рынка труда в области data science.

Источники информации:

  • Данные поиска работ на LinkedIn, полученные 1-го мая 2020 года.
  • Google (численность населения)

Расчет заработной платы


Единого правдивого источника для расчета заработной платы просто не существует. Правительство США, рекрутинговые компании и независимые отчеты публикуют разные значения о заработной плате advanced analytics. Для наших отчетов мы собрали как можно больше независимых значений как на государственном, так и на национальном уровне и использовали среднее значение.

Источники информации:

Рост занятости


Как и в случае с расчетом заработной платы, за последние годы имеется крайне мало информации о количестве сотрудников в advanced analytics. Используя множество различных источников, мы вычислили наилучшую оценку количества работников за каждый год. В некоторых случаях мы использовали внешние данные в качестве наших, в других — мы делали вывод на основе кривой с использованием имеющихся у нас данных.

Источники информации:

Образовательные программы и требуемые навыки

Следует снова проговорить, что было сложно оценить образовательные программы. В каждом университете свое название для программы по data science, поэтому нам приходилось субъективно определять, какие программы включать в список, а какие исключать из него. Мы попытались отобрать те программы, основанные на математической строгости, вычислительной работе и аналитике. Мы исследовали различные отчеты и агрегаторы для сбора данных по университетским программам, а также различные буткемпы для определения суммарных показателей для 2020-го года.

Источники информации:


Читать еще


© Habrahabr.ru