[Перевод] Как выучиться на Data Scientist: наиболее востребованные технические навыки
Какие технические знания становятся наиболее популярными у работодателей, а какие теряют свою популярность.
В своей первоначальной статье 2018-го года я рассматривал спрос на общие навыки – статистику и коммуникацию. Также я рассматривал спрос на Python и язык программирования R. Технологии создания программного обеспечения меняются намного быстрее, чем спрос на общие навыки, поэтому в этот обновленный анализ я включаю только технологии.
Я искал ключевые слова, которые появлялись в списках вакансий на должность «Data Scientist» в США на таких сайтах как SimplyHired, Indeed, Monster и LinkedIn. В этот раз я решил написать код, чтобы изучить все списки вместо того, чтобы искать вручную. Это решение оказалось очень успешным для SimplyHired, Indeed и Monster. Я использовал Requests и Beautiful Soup из библиотеки Python HTTP. Код с анализом вы можете увидеть в моем отчете на GitHub.
Продираться через LinkedIn оказалось в разы сложнее. Необходимо пройти процесс авторизации, чтобы просматривать точное количество списков вакансий. Я решил использовать Selenium для просмотра страниц без графического интерфейса пользователя. В сентябре 2019 года Верховный суд США выиграл дело против LinkedIn, тем самым позволив очистить данные сайта. Тем не менее, я не смог получить доступ к своей учетной записи после нескольких попыток входа. Возможно, эта проблема возникла из-за ограничения скорости. Апдейт: Я все же смог войти, но боюсь, что меня заблокируют при повторной попытке.
Кстати говоря, Microsoft владеет LinkedIn, Randstad Holding владеет Monster, а Recruit Holdings владеет Indeed и SimplyHired.
В любом случае, данные LinkedIn не обеспечили точного сравнения предыдущего года с настоящим. Этим летом я заметил огромные колебания при поиске работ в технической сфере. Я предполагаю, что возможно они экспериментировали с алгоритмом поиска результатов, используя обработку естественного языка. Напротив, примерно одинаковое количество вакансий для ‘Data Scientist’ появилось на других сайтах за эти два года.
Именно поэтому я исключил результаты LinkedIn 2019 и 2018 годов из этой статьи.
Для каждого сайта по поиску работы я рассчитал процент общего числа объявлений по вакансии data scientists, где появлялось ключевое слово. Затем я усреднил эти проценты по трем сайтам по каждому ключевому слову.
Я вручную исследовал новые поисковые запросы и рассмотрел наиболее многообещающие. Ни один из новых запросов не достиг в среднем и 5% в перечне 2019 года; ниже вы увидите результат выборки.
Поехали!
Результаты
Существует по крайней мере четыре способа, чтобы рассмотреть результаты для каждого ключевого слова:
- Разделите количество объявлений с ключевым словом на общее число запросов, которые включают в себя «data scientist» на каждом сайте по поиску работы за каждый код. Затем возьмите среднее значение всех трех сайтов. Именно этот процесс и я описывал ранее.
- После выполнения первого пункта измерьте изменение среднего значения процента объявлений с 2018 по 2019 год.
- После выполнения первого пункта возьмите процентное изменение объявлений с 2018 по 2019 год.
- После выполнения первого пункта вычислите рейтинг каждого ключевого слова относительно других ключевых слов за этот год. Затем посчитайте изменение в рейтинге за оба года.
Давайте рассмотрим три первых варианта с помощью гистограмм. Затем я покажу вам таблицу с данными, и мы обсудим результаты.
Итак, вот диаграмма с первым пунктом за 2019 год. Мы можем видеть, что Python появляется почти в 75% объявлений.
Ниже диаграмма со вторым пунктом, демонстрирующая прибавления и убавления с точки зрения среднего процента объявлений между 2018 и 2019 годами. AWS вырос на 5% пунктов. В среднем в 2018 году он появлялся в 14.6% объявлений, в то время как в 2019 году вырос до 19.4%.
Вот диаграмма для третьего пункта, показывающая процентное изменение из года в год. PyTorch вырос на 108.1% по сравнению со средним процентом объявлений, в которых он появлялся в 2018 году.
Все диаграммы были составлены в Plotly. Если вы хотите узнать как использовать Plotly для создания интерактивных визуализаций, то зацените мое руководство. Если вы хотите взглянуть на интерактивные диаграммы, то зайдите в HTML-файл в моем отчете на GitHub. Код с анализом и визуализацией там же.
Ниже в виде таблиц приведена информация из графиков выше, отсортированная по процентному изменению среднего процента объявлений с 2018 по 2019 годы.
Понимаю, это все немного запутанно, поэтому вот небольшое руководство к информации в таблице.
- 2018 Avg — это среднее значение процента объявлений с 10-го октября 2018 года с сайтов SimplyHired, Indeed и Monster.
- 2019 Avg – это то же самое, что и 2018 Avg, только вот это для 4-го декабря 2019 года. Эти данные показаны в первой из трех приведенных выше диаграмм.
- Change in Avg – это колонка 2019 года минус 2018 год. Эта информация из второй из трех диаграмм выше.
- % Change – это процентное изменение с 2018 по 2019. Эти данные есть на третьей диаграмме.
- 2018 Rank – это рейтинг относительно других ключевых слов в 2018 году.
- 2019 Rank это рейтинг относительно других ключевых слов в 2019 году.
- Rank Change – это повышение или понижение рейтинга за эти два года.
Что мы можем вынести из этой информации
Существенные изменения произошли меньше чем за 14 месяцев.
Победители
Python все также на коне. Это, безусловно, самое часто встречающееся ключевое слово. Буквально в трех из четырех объявлений. Python прилично вырос по сравнению с 2018 годом.
SQL – наша восходящая звезда. Он почти превзошел R по второму по величине среднему баллу. Такими темпами он в скором времени выйдет на второе место.
Самый большой рост показали фреймворки глубокого обучения.
У PyTorch был самый большой прирост ключевых слов. Keras и TensorFlow также показали успехи. И Keras, и PyTorch поднялись на четыре ступени, TensorFlow – на три. Обратите внимание на то, что PyTorch начинал с низкого среднего значения, а среднее значение TensorFlow все также в два раза выше, чем у PyTorch.
Навыки работы с облачными платформами становятся все более востребованными. AWS появилась в почти 20% объявлений, Azure – примерно в 10% и поднялся на четыре ступени.
Это самые ходовые технологии.
Проигравшие
У R самое большое снижение среднего значения. Это открытие не очень удивляет, учитывая результаты других исследований. Python сильно обогнал R в качестве языка программирования. Как бы там ни было, R продолжает быть очень популярным, появляясь в 55% объявлений. Не отчаивайтесь, если владеете R, но также задумайтесь об изучении Python, если хотите получить более востребованный навык.
Многие продукты Apache, включая Pig, Hive, Hadoop и Spark теряют свою популярность. Pig опустился на пять позиций в рейтинге – гораздо больше по сравнению с любыми другими технологиями. Spark и Hadoop по-прежнему широко востребованы, но, опираясь на мои выводы, можно увидеть тенденцию движения к технологиям Big-Data.
Статистические пакеты прикладных программ MATLAB и SAS сильно потеряли в популярности. MATLAB опустился на четыре строки в рейтинге, а SAS опустился с шестого на восьмое место. В обоих языках наблюдается значительное процентное снижение по сравнению со средними показателями 2018 года.
Совет
В этом списке очень много технологий. Конечно же, знать все вам не нужно. Не зря же мифического data scientist называют единорогом.
Мой совет следующий – если вы начинаете работать в этой области, концентрируйтесь на технологиях, пользующихся спросом.
Сосредоточьтесь.
На.
Изучении.
Одной.
Технологии.
За.
Раз.
(Это отличный совет, хотя я и сам не всегда его придерживался. )
Вот в таком порядке я рекомендую учиться:
- Выучите Python для общего программирования.
- Для преобразования данных изучите Pandas. Я полагаю, что компания, нанимающая на вакансию data scientist со знанием Python будет также ожидать от кандидатов знания Pandas и Scikit-learn. Scikit-learn как раз появились в списке, а Pandas почти пробили путь наверх. Вместе с изучением Pandas вы также выучите визуализацию в Matplotlib и немного NumPy.
- Изучите машинное обучение с помощью Scikit-learn. Также я рекомендую книгу «Introduction to Machine Leaning with Python».
- Изучите SQL для эффективного отправления запросов в соответствующие базы данных.
- Изучите Tableau для визуализации данных. Вероятно, это самая интересная и простая для восприятия технология из всего списка.
- Освойте облачные платформы. AWS – хороший выбор из-за его доли на рынке. Microsoft Azure – также отличный вариант. Хоть он и не так популярен, я все равно неравнодушен к Google Cloud, потому что мне нравится их пользовательский интерфейс и фокус на машинное обучение. Если вы хотите ознакомиться с возможностями приема, преобразования и хранения данных на Google Cloud, можете прочитать мою статью о том, как стать сертифицированным профессиональным Data Engineer на Google Cloud.
- Изучите технологию глубокого обучения. Наибольшим спросом пользуется TensorFlow. Книга Франсуа Шолле «Deep Learning with Python» прекрасно объясняет Keras и принципы глубокого обучения. Keras сейчас тесно взаимодействует с TensorFlow, так что это отличное начало. PyTorch также развивается. Чтобы больше узнать об этой теме, ознакомьтесь с моим анализом.
Это мои общие советы по обучению. Приспособьте их под свои цели или же забейте и делайте то, что хотите сами.
Узнайте подробности, как получить востребованную профессию с нуля или Level Up по навыкам и зарплате, пройдя онлайн-курсы SkillFactory: