Кто такой Data Scientist — глазами работодателя. Интервью с Авито и Spice IT

Ксения Суворова, директор по развитию Фонтанки.ру, и Андрей Мирошниченко, координатор офлайн-программы «Data Scientist», специально для блога Нетологии подготовили интервью с представителями компании Авито и HR-агентства Spice IT о том, чего ждет рынок от представителей профессии Data Scientist.

Сейчас почти каждая статья о data science или машинном обучении начинается с того, что «три года назад американская исследовательская компания подсчитала, что через четыре года будет нужен миллион data scientist«ов». И даже в России ощущается острая нехватка людей с экспертизой. При этом есть множество возможностей освоить эту сферу: онлайн и офлайн-курсы, тренажёры и книги — то есть исправить текущую ситуацию реально. Беседовал Андрей Мирошниченко — координатор офлайн-программы «Data Scientist».

image

В прошлый раз мы сделали краткую выжимку двух интервью, и рассказали о том, как выглядит профессия специалиста по большим данным со стороны не сотрудника, а работодателя. Сегодня же мы публикуем полные интервью с Авито и Spice IT.

Avito


О перспективности профессии data science и работе в Avito «Нетологии» рассказала Александра Головина.

На каком этапе, на ваш взгляд, находится рынок data science? Он растёт, достаточно развит или вообще идёт на спад, и через полгода люди, которые учились, поймут, что зря потратили время?


Потребность в специалистах data science очень велика и в дальнейшем будет расти. Однако возможностей для обучения тоже много: любой человек, который понимает, что ему не хватает академического образования, может пройти курсы и получить необходимую базу.

Вопрос, скорее, в том, кто и почему приходит в профессию. Сейчас довольно много людей, которым интересна область больших данных и которые её изучают, но пока не понимают, для чего на самом деле им это нужно. На собеседовании соискатели говорят, что интересуются машинным обучением, а когда начинаешь спрашивать почему, отвечают: «Это модно». И всё. Понимания, как применить знания, нет. То есть в большинстве случаев это исследование ради исследования, попытка апробировать собственные гипотезы.

А в бизнесе все не так. Здесь есть задача, для которой необходимо найти оптимальный метод решения. Специфика в том, чтобы это решение было практически реализуемо. И это, наверное, основная проблема, с которой мы сталкиваемся при отборе людей. Некоторые соискатели считают, что достаточно придумать красивый алгоритм, а то, что его нельзя будет нигде применить — дело десятое. То есть проблема в том, что изучают data science многие, но где и для чего применить данные, понимают далеко не все.

Экспертизу, в свою очередь, можно разделить. Есть люди, которые проработали в близкой нам сфере — классифайдах, IT. Они прекрасно понимают, где и как применять знания. Люди, которые приходят из другой сферы — из банков, вчерашние выпускники или проработавшие в лаборатории — в этом плане проигрывают, но для нас это не показатель. Такие кандидаты могут не знать специфику нашего бизнеса, но способны разработать вполне рабочие алгоритмы, не усложняя поставленную задачу. Это, кстати, вторая проблема кандидатов. Они уходят в deep learning, глубинные сети, пытаются найти что-то посложнее. Хотя на самом деле модель, которая будет работать, может быть намного проще.

Как набираете людей: с рынка или из внутренних ресурсов?


В data science приходят из разных направлений. Мы не смотрим кандидатов исключительно из Яндекса и Mail.ru. Хотя для позиций высокого уровня, конечно, нужно, чтобы человек ранее работал с большими данными: этого требует специфика.

Еще в data science и машинное обучение многие попадают с наших конкурсов — c Kaggle, DataRing. Но даже это для нас нерешающий показатель. Мы смотрим, насколько компетенции кандидата соответствуют позиции, насколько он в принципе впишется в команду. Потому что для нас очень важно, чтобы человек умел взаимодействовать с коллегами.

У вас есть какие-то специальные партнерские программы, как, например, у Яндекса с Вышкой?


Пока нет, к сожалению. Несмотря на то что у нас сильный data science, говорить об этом вовне мы начали совсем недавно. Но думаю, в ближайшие год-полтора мы придём и к программам партнерства.

К слову о профессиональных компетенциях. Какие основные навыки и знания вы ищете у кандидатов? Какая в принципе должна база? Должен ли это быть профильный вуз или профильное образование, например, математическое или же специализированное на data science, которое в России тоже появляется?


Для специалистов в данных у нас строгий отбор во всей компании: самая большая воронка и самый маленький выход из неё. Коллеги сформировали очень четкие критерии оценки. Они всегда знают, что им нужно, и в этом плане мы совпадаем. У нас очень слаженная и дружная команда, чем я горжусь.

Скиллы можно разделить на хард и софт. Что касается хард: образование обязательно математическое. Специалист должен понимать, как работают математические модели. Приходят к нам, как правило, из ведущих вузов: МФТИ, ВШЭ, МГУ. Среди выпускников последнего в шутку даже идет соревнование, кого в компании больше — окончивших мехмат или окончивших ВМК.

Также есть условное разделение на продуктовых аналитиков и ML-аналитиков. Задача продуктовых аналитиков искать возможность улучшения продукта, генерируя гипотезы о возможных проблемах пользователей и способах их быстрого решения. ML-аналитики автоматизируют решения, найденные продуктовыми аналитиками, задач с помощью различных ML методов: персональные рекомендации, ценообразование и так далее.

Базовые навыки проверяем на тестовом задании. Департамент большой, он состоит из нескольких отделов, поддерживающих разные системы. Поэтому в каждом отделе разработан собственный кейс, максимально приближенный к тому, чем предстоит заниматься в будущем. При решении такого кейса навыки кандидата становятся очевидны. После этого мы смотрим код и решаем, кого пригласить на встречу.

Про софт скиллс. Это часть, на которую мы обязательно обращаем внимание при личном общении с кандидатом. Так как специалисты по data science задействованы в кросс-функциональных проектах, для нас очень важно, чтобы человек разделял ценности компании, мог работать в команде и выстраивать коммуникацию с коллегами.

То есть история про немного сумасшедшего гения, который сидит один в углу и делает супермодели — она не работает?


Смотря под какие задачи. Теоретически это возможно, и где-то такие вещи работают. Но работа в Avito предполагает командную работу. Поэтому мы и анализируем навыки в комплексе.

Возвращаясь к балансу экспертизы и профильных знаний. Кто предпочтительнее в общем случае: программист, который пишет классные модели, но у которого крошечный профильный опыт, или же человек, у которого много опыта, но только базовые знания в машинном обучении?


Здесь всё сугубо индивидуально. Надо смотреть на человека, на его перспективы. Коллеги готовы брать людей с минимальным техническим опытом, если видят в них потенциал. А дальше всё зависит от мотивации: хочет ли этого сам человек, как планирует развиваться, и насколько нам по пути в долгосрочной перспективе.

У вас есть внутренние программы обучения, менторство?


Безусловно. С одной стороны, мы предоставляем свободу действий. Приходит задача, а какие инструменты выбирать, как строить, куда смотреть, что использовать — решают сами сотрудники. У нас в этом плане ребята очень инициативные. Они буквально болеют своим делом. Каждую неделю устраивают митапы, где выступают 1−2 человека: рассказывают, что используют, какой метод применяют, что работает, а что — нет. Они делятся знаниями внутри команды, и у новых сотрудников есть возможность обучаться прямо в процессе работы.

С другой стороны, мы вкладываемся в хард и софт-скиллы сотрудников. В Avito есть академия, где можно записаться на любой тренинг. То есть учиться можно не только у коллег, но и у специалистов в других профессиональных областях.

Вы упомянули конкурсы. Какие есть ещё способы попасть к вам, кроме как подаваться с резюме?


Цель конкурсов, которые мы устраиваем, не в том, чтобы закрыть позицию. У них много целей, и главная — найти идеи для решения конкретной актуальной задачи. Если при этом удаётся привлечь сотрудника — это совсем здорово. Но конкурсы — не основной метод рекрутмента. Обычный поиск, сайты с вакансиями — все это тоже работает. На каких-то людей мы выходим самостоятельно, кого-то рекомендуют коллеги.

К слову о вакансиях. Часто встречал в России и за рубежом наименования вакансий в сфере data science с примерно аналогичными обязанностями различаются. Где-то это был инженер machine learning, где-то data scientist, где-то аналитик данных, где-то программист. Так как же называются вакансии такого рода?


Единого названия нет. Это могут быть и широкие названия, типа Старший Аналитик, и более конкретные, например, Аналитик по ценообразованию. Все зависит от того, насколько специфичны предполагаемые задачи и как долго мы предполагаем, что человек их будет решать, прежде чем переключится на другие.

Как правило, когда я общаюсь с кандидатами, то подробно рассказываю про отдел, куда мы ищем человека, про его специфику. Потому что data scientist data scientist«у рознь. В разных компаниях у него разная функциональность, и лучше сразу уточнить, чем предстоит заниматься.

По поводу портфолио. Насколько важно его наличие?


Это опционально. Коллегам бывает интересно посмотреть предыдущие проекты соискателя, но они не являются решающим аргументом. Мы даем кандидату кейс, который максимально приближен к тому, чем предстоит заниматься. И мы смотрим, как человек будет работать в полевых условиях — это самое важное.

HR-агентство Spice IT


На какой стадии этот сегмент рынка? Ждать ли в ближайшей перспективе спада?


Вакансий все больше и больше. Данные — самый ценный на рынке продукт. Спада в ближайшее время не будет. Специалистов уже не хватает, особенно если речь идет о таких вакансиях, как Head of Predictive Analytics или Lead/Chief data scientist. Кандидаты заняты на серьезных проектах и не хотят бросать начатое. Плюс эти позиции подразумевают наличие специальных качеств, необходимых той или иной компании.

Со стажерами и джунами проще. Data science начинает набирать обороты, и многие рады попробовать свои силы в этой сфере. Ребята сами присылают нам резюме с просьбой рассмотреть их на имеющиеся позиции. Мы только за.

Думаю, через пару лет Data science станет одной из лидирующих вакансий, рынок будет переполнен предложениями, но вот хватит ли на всех кандидатов…

Какие профессиональные компетенции ищете? Какая должна быть база?


Профессиональные компетенции зависят от требований, выставляемых компанией-заказчиком. Из основного можно выделить: R, Python, Machine Learning, базы данных, такие как MSSQL, MySQL, Postgresql. Кандидаты на позицию Data Scientists должны хорошо разбираться в математике, статистике и программировании.

На какие надпрофессиональные скиллы смотрите?


Soft skills. Вакансии, где soft skills — одно из ключевых требований, встречаются достаточно редко, если это не руководящая позиция. В связи с тем, что сильных специалистов на рынке пока не очень много, упор идет именно на техническую составляющую. Конечно, многим компаниям хотелось бы видеть в своих рядах специалистов с проактивной позицией, подготавливающих презентации, составляющих красивые отчеты и умеющих наладить контакт с коллегами и руководством, но, повторюсь, на практике большинство клиентов поступаются этими требованиями, предпочитая коммуникабельности хороший технический опыт.

Конечно, есть универсальные вещи, которых ждут по умолчанию. Ответственность, самостоятельность, если речь идет о позиции выше джуниора. Если кандидат пробуется на стажера, то умение гуглить и вовремя задавать вопросы старшим специалистам — очень важно. Ну и следование современным тенденциям в индустрии для всех. Хотя с этим пока проблем нет. Люди в этой должности обычно не лишены любопытства.

Нужно ли иметь специальное университетское образование, чтобы попасть в компанию, или самоучек тоже рассматривают?


Конечно, этот вопрос в большей степени рассчитан на инхаус, но хочу отметить, что высшее техническое образование — пункт, который часто встречается в основных требованиях.

Обычно, проанализировав рынок и организовав подборку релевантных резюме, мы с клиентами сходимся во мнении, что образование — не ключевой фактор при подборе. Но есть довольно специфичные заказчики, для которых принципиально наличие узкопрофильного образования, соответствующего направлению деятельности компании. Например, пару месяцев назад мы искали scientist с образованием психолога, но это скорее исключение из правил. Из-за сырости рынка образование уходит на второй план при составлении job description.

Насколько важен профильный опыт в сфере работы компании?


На сегодняшний день у меня была всего одна позиция, где такой опыт был важен: как раз тот самый психолог-сайентист. В основном этот критерий редко встречается. Хотя, возможно, это связано с тем, что у нас в работе большая часть позиций по data science приходит из стартапов, имеющих уникальное или редко встречающееся направление деятельности. Специалистов подобного профиля найти было бы практически невозможно.

Нанимают ли data scientist’ов с небольшим опытом или вообще без него?


Такие позиции часто встречаются. Компании готовы обучать, принимая кандидатов в качестве стажеров или младших аналитиков. Готовы смотреть ребят, которые ведут проекты на фрилансе или делают что-то для себя с целью получения опыта.

Какой опыт в среднем нужно иметь, чтобы попасть на работу data scientist’ом?


У нас в работе вакансии разного уровня, где нужны специалисты с минимальным опытом или сильным техническим. Вариантов масса, каждому можно что-то подобрать.

Какие проблемы чаще всего встречаете у кандидатов на data science-должности?


Часто бывает так, что на джуниорские позиции не хватает лишь теории — требуется опыт, хоть какой-то. Компании хотят кандидатов, которые уже попробовали что-то сделать самостоятельно, даже если это практическое задание из обучающего курса или опыт участия в соревнованиях, проводимых Kaggle.

Какие советы и рекомендации можете дать кандидатам при прохождении собеседований на data science-должности?


Основное — это подготовка к собеседованию. Обычно я прошу кандидата подготовиться к встрече с технической командой. Иногда так случается, что ребята указывают в резюме множество технологий, а по факту работают лишь с небольшой частью из указанного. Я прошу честно расписать, с чем и в какой степени приходилось сталкиваться. Это позволяет избежать неловких ситуаций на интервью, когда люди не могут ответить на вопросы, потому что имеют поверхностное представление о вещах, которые сами же озвучили. Можно посмотреть на основные требования и подтянуть то, что возможно.

От редакции


Курсы «Нетологии» по теме:

  • очный курс «Data Scientist»;
  • онлайн-программа «Big Data: основы работы с большими массивами данных».

© Habrahabr.ru