8 навыков, необходимых в профессии Data Scientist

Светлана Шаповалова, редактор блога «Нетологии», адаптировала статью Dave Holtz, в которой он рассказал о восьми навыках, которые помогут начать карьеру Data Scientist.

Интересна профессия Data Scientist? Самое время начать её изучать: Томас Дэвенпорт и Дж. Патил, известные лидеры области, в статье для Harvard Business Review назвали Data Scientist «самой желанной профессией XXI века».

Но как стать дата-сайентистом? Если верить большинству источников, создастся впечатление, что понадобится, как минимум, ученая степень в самых разных областях: от разработки программного обеспечения, обработки данных, работы с базами данных и статистики до машинного обучения и визуализации данных.

Не переживайте. Опыт показывает, что это не главное. Не надо как можно больше и быстрее изучать множество информации о данных и осваивать все навыки подряд — это может затянуться на полжизни. Вместо этого научитесь внимательно читать описание должностных обязанностей. Именно это позволяет претендовать на вакансии, для которых у вас уже есть необходимые умения, или развивать конкретные навыки работы с данными, чтобы получить желаемое место.

Я расскажу вам о восьми важных навыках для Data Scientist.

Базовый инструментарий

Не важно, в какую компанию вы собираетесь, от вас ожидаемо потребуют знание стандартных профессиональных инструментов: язык программирования для статистической обработки данных, например R или Python, а также язык запросов для работы с базами данных, например, SQL.

Базовые знания статистики

Базовое понимание статистики жизненно необходимо в Data Science. Один интервьюер пожаловался мне, что большинство кандидатов, которых он собеседовал, даже не смогли внятно сформулировать определение P-значения. Вы должны понимать, что такое статистические тесты, распределения, метод максимального правдоподобия и т. д.
Вспомните, чему вас учили на парах по статистике. Это также понадобится при работе с машинным обучением.

Однако, самое важное — это чтобы вы точно понимали, когда и какой подход необходимо использовать.

Знания статистики понадобятся для работы в любом месте, но особенно важными они будут в компаниях, полностью ориентированных на работу с данными, и где акционеры принимают решения в зависимости от тех данных, что им предоставляются.

Машинное обучение

Методы машинного обучения пригодятся в работе с большими объемами информации и в компаниях, чей продукт целиком основан на данных. Это значит, что придется узнать значение всех слов, которые на слуху в теме машинного обучения: k-ближайшие соседи, случайные леса, ансамблевые методы.

Многие из этих методов вполне реализуемы с помощью библиотек R или Python — именно поэтому вам не придется изобретать велосипед, если только вы не ведущий специалист с мировым именем.

Важнее умение видеть всю ситуацию целиком и понимать, когда уместно применять те или иные методы.

Многомерный анализ и линейная алгебра

Скорее всего, вас попросят привести примеры результатов, которые вы получили на прошлом месте работы, используя машинное обучение или статистику. Если их нет, интервьюер может задать вопросы, связанные с множеством переменных или линейной алгеброй, поскольку это — основа многих методов.

Вы можете спросить, зачем необходимо понимать этот материал, если есть куча встроенных реализаций в sklearn или R. Смысл в том, что если в какой-то момент команда разработчиков решит разработать собственную реализацию, эти знания вам очень пригодятся.

Понимание этих концепций особенно важно в компаниях, где продукт определяется данными, а небольшие улучшения в прогнозируемой производительности или оптимизации алгоритма могут привести к огромным выигрышам.

Обработка данных

Зачастую данные, которые вы анализируете, не организованы, поэтому с ними трудно работать. Поэтому важно знать, как бороться с их разрозненностью. Это могут быть пропущенные значения, непоследовательное форматирование строки (например, «нью-йорк» и «нй» вместо «Нью-Йорк») и форматирование даты ('01 / 01/2014' вместо '2014–01–01' и т.д.). Этот навык важен как для небольших компаний, где вы только начинаете работать с данными, так и для data-driven компаний.

Визуализация и передача данных

Визуализация и передача данных невероятно важны. Особенно в молодых компаниях, которые впервые принимают основанные на данных решения. Или в компаниях, где дата-сайентист — это человек, который помогает другим принимать решения, основываясь на данных.

Передача данных означает, что вам понадобится описывать свои выводы или методы работы как технической, так и нетехнической аудитории.

Что касается визуализации данных, будет полезно ознакомится с такими инструментами как ggplot и d3.js. Важно не просто узнать, как работать с инструментами визуализации данных, но и понять принципы кодирования данных и передачи информации.

Программная разработка

Если вы собеседуетесь в небольшую компанию и будете одним из первых специалистов по данным, вам однозначно пригодится опыт разработки программного обеспечения. Вы будете отвечать за обработку большого объема данных и, возможно, разработку продуктов, управляемых данными.

Мышление в мире данных

Компаниям важно знать, что вы умеете решать задачи, основываясь на данных.

Это означает, что в какой-то момент собеседования вас, возможно, могут спросить о проблеме более высокого уровня, чем ваш нынешний. Например, о тесте, который компания хочет запустить, или о продукте, который может потребоваться для разработки. Важно понимать, что в таком случае важно, а что нет. Как бы вы, в роли Data Scientist, взаимодействовали с разработчиками и менеджерами продукта? Какие методы использовали бы?

Наука данных только зарождается и еще не имеет четких границ. Чтобы получить работу, важнее найти компанию, чьи потребности соответствуют вашим навыкам, чем заниматься развитием этих навыков вхолостую. Конечно, это лишь мои личные впечатления.

Полный текст статьи читайте на Нетология