Data Science Skills

bc980548df934ff5856920fefdcc6b36.png

Продолжаем серию аналитических исследований востребованности навыков на рынке труда. В этот раз благодаря Павлу Сурменку sharky мы рассмотрим новую профессию — Data Scientist.

Последние года термин Data Science начал набирать популярность. Об этом много пишут, говорят на конференциях. Некоторые компании даже нанимают людей на должность со звучным названием Data Scientist. Что же такое Data Science? И кто такие Data Scientists?

Содержание


Если задать такой вопрос жителю Сан-Франциско, можно получить ответ, что Data Scientist — это статистик, живущий в Сан-Франциско. Смешно, хотя не сильно обнадеживает тех, кто живет не в Сан-Франциско, правда? Хорошо, тогда еще одно определение: Data Scientist — это тот, кто разбирается в статистике лучше, чем любой программист, и разбирается в программировании лучше, чем любой статистик. А вот этот вариант уже близок к сути. Data Scientist, ученый по данным, является своеобразным гибридом статистика и программиста. Причем как статистики, так и программисты бывают очень разными, поэтому лучше рассматривать эту профессию как широкий спектр от чистых статистиков до чистых программистов.

Роберт Чанг, Data Scientist из Twitter, делит представителей своей профессии на 2 группы: Type A Data Scientist v.s. Type B Data Scientist.

Тип A, где A — это Analysis. Эти люди по большей части занимаются извлечением смысла из статических данных. Они очень похожи на статистиков, могут даже быть статистиками и просто сменить название должности на Data Scientist, а, как мы знаем, уже только одна смена названия должности может дать значительный прирост зарплаты, плюс почет и уважение. Но кроме статистики они знают еще и практические аспекты: как очищать данные, как работать с большими наборами данных, как визуализировать данные и описывать результаты своей работы.

Тип B, где B — Building. Они также обладают знаниями статистики, но при этом сильные и опытные программисты. Они больше заинтересованы в применении данных на реальных системах. Часто строят модели, работающие во взаимодействии с пользователями, например, системы рекомендаций товаров, фильмов, рекламы.

Data Science также немного пересекается с такими областями деятельности как Machine Learning и Artificial Intelligence, представители этой сферы близки к Data Science типа B.


В англоязычном Интернете тренд повышения интереса к Data Science хорошо заметен примерно с 2012 года (https://www.google.com/trends/explore#q=Data%20Science). В последние несколько лет также хорошо заметен рост интереса к смежным областям: Machine Learning, Artificial Intelligence, Deep Learning. Gartner поместил Machine Learning на вершину hype curve в 2015 году: Gartner’s 2015 Hype Cycle for Emerging Technologies Identifies the Computing Innovations That Organizations Should Monitor. А журнал Harvard Business Review в 2012 году опубликовал статью с интригующим заголовком: Data Scientist: The Sexiest Job of the 21st Century.

a9a624460f114a5685043a76659205cc.png

Что же изучать тем, кто хочет стать Data Scientist, какие навыки необходимы? Давайте посмотрим на то, какие требования американские работодатели предъявляли к кандидатам на позиции в областях Data Science и Machine Learning.

Мы проанализировали 549 вакансий, опубликованных на одном из крупнейших мировых порталов по поиску работы, которые включали требования Data Science и Machine Learning.

Data Scientist Hard Skills


Начнем с анализа требований к владению профессиональными навыками (hard skills).

Как можно увидеть из рейтинга, наиболее популярными являются фундаментальные знания математики, статистики, Computer Science и машинного обучения. Помимо теоретических знаний, Data Scientist должен уметь «добывать», очищать, моделировать и визуализировать данные. Также важен опыт в разработке программного обеспечения и управлении качеством.

e52406c6244d4ad0a9543051a25caae5.png

Data Science Tools and Technologies


Основным инструментарием Data Scientist являются языки программирования Python и R.

R — это специализированный язык программирования для статистических расчетов, именно поэтому он так полюбился статистикам и ученым по данным. Он позволяет быстро загрузить набор данных, посчитать основные статистические характеристики, визуализировать данные, построить модели данных.

Python, хоть и представляет собой язык программирования общего назначения, но имеет огромное количество качественных библиотек и платформ для Data Science и Machine Learning.

Что примечательно, в 39% вакансий требуется знание как R, так и Python одновременно, поэтому лучше изучать оба языка сразу, а не пытаться выбрать один из них.

Для работы с большими данными работодатели предпочитают использовать Hadoop и Spark. Среди баз данных популярны MySQL и MongoDB.

1f9d81e544de4a1f8735948af54d9602.png

Data Scientist Soft Skills


Общие компетенции (soft skills) по сравнению с профессиональными навыками востребованы в меньшей мере, так как упоминаются в вакансиях более чем вдвое реже. Средние зарплаты вакансий, в которых требуются soft skills так же существенно, примерно на 20%, ниже тех, где требуются hard skills и знание технологий.

Тем не менее, среди встреченных soft skills наиболее важными являются следующие: умение общаться, визуализировать данные, делать презентации, эффективно писать и говорить. Также полезны навыки работы в команде, менеджмента и решения проблем.

02d116f8f5d94adea145ae566df0ff76.png

Data Scientist Domain Knowledge


В некоторых вакансиях требуется знание предметной области от физики и биологии до недвижимости и гостиничного бизнеса. Здесь в лидерах экономика, маркетинг и медицина.

36ea534f438a45b9925b9060f8e1f36f.png

Data Scientists Specializations


Перед началом исследования мы предполагали выделить подспециализации профессии Data Scientist. Например, отделить тех, кто занимается преимущественно анализом и визуализацией данных от тех, кто строит модели для предсказательной аналитики или алгоритмы машинного обучения. Но, как оказалось в ходе анализа данных, требования к большинству вакансий достаточно однородны, и четкого разбиения на специальности не прослеживается.

Хотя некоторые закономерности кажутся интересными. Например, если в вакансии требуются знания Python или C++, то маловероятно требование коммуникационных навыков и менеджмента, и наоборот.


Опрос O«Reilly 2015 Data Science Salary Survey помогает нам взглянуть на рынок труда с противоположной стороны. Это исследование базируется на опросе 600 Data Scientists, а собранные данные включают уровень зарплат, демографическую информацию и количество времени, которое специалисты тратят на задачи различных типов. Ключевые выводы этого исследования следующие:

  • SQL, Excel, R, Python — ключевые инструменты, и этот список не меняется на протяжение 3 лет.
  • Сильно растет популярность Spark и Scala.
  • Фокус тех, кто ранее использовал специализированные коммерческие инструменты, смещается на использование R.
  • Но те, кто ранее использовал R, переходят на Python, Python лидирует.
  • Среди всех индустрий наиболее высокие зарплаты в Software Development.
  • Cloud Computing продолжает быть востребованным.


Рекомендуем прочитать отчет целиком. Кроме прочего, он описывает математическую модель зависимости зарплаты Data Scientist от того, где он живет, какое образование имеет и над какими задачами работает. Например, Data Scientists, которые проводят больше времени на встречах, зарабатывают больше. А кто больше 4 часов в день занимаются изучением данных, зарабатывает меньше.
За последние годы появилось множество online-курсов на эту тему. И это очень хороший способ начать!

Если вы склоняетесь больше к анализу данных, то хорошим вариантом являются курсы специализации Data Science на Coursera: Launch Your Career in Data Science. Получение специализации не бесплатно, но если вам не нужен сертификат, то вы можете пройти все эти курсы бесплатно: просто посмотрите название курса и с помощью поиска найдите курс.

Для тех, кого интересует Machine Learning, можно порекомендовать курс Андрю Эн (Andrew Ng), Chief Scientist в компании Baidu Research, который по совместительству преподаватель в Стэнфорде и является основателем Coursera: Компьютерное обучение.


Data Science — это новая область деятельности, поэтому требования к Data Scientists еще не до конца сформированы. Учитывая динамичность нашего времени, возможно, Data Science никогда не станет самостоятельной профессией, которой будут обучать в университетах, а так и останется набором практик и навыков. Но это точно те практики и те навыки, которые будут очень востребованы в ближайшие годы.

© Habrahabr.ru