Десять важных вопросов перед трудоустройством в Data Science

Переход на мою текущую позицию занял около четырёх месяцев: с мая по сентябрь я проходил HR, будущего руководителя, его команду, руководителя руководителя и руководителя руководителя руководителя. Почти всё это время я задавал вопросы, чтобы понять подходит мне эта позиция или нет. В итоге, когда ответы меня удовлетворили и мне пообещали не мешать работать — я согласился на предложение, и сейчас я Head of Machine Learning Laboratory в Альфа-Банке. 

Но мой кейс не такой распространённый — чаще всего собеседования затягиваются «всего» до 5 часов в виде увлекательного квеста проверки хард и софт скиллов. Но и на собеседование ещё надо попасть — ведь отклик на позицию не гарантирует приглашение на интервью или даже формального ответа на заявку, потому что желающих обычно порядка 100 человек на одно место даже с учётом огромного количества предложений от всевозможных работодателей.

Как вы понимаете, нанимающая сторона на рынке вакансий Data Science проводит очень тщательный отбор в свою команду. К сожалению, дата сайентист не может поступать аналогичным образом и прособеседовать своего работодателя, но может задать интересующие его вопросы после интервью и найти много полезной информации самостоятельно в сети. В этой статье расскажу о 10 ключевых вопросах, на которые крайне желательно получить ответ до вашего трудоустройства. Ведь от них будет зависеть не только как вы проведёте несколько часов на собеседовании, но и как скоро будете искать новую работу, когда поймёте, что надо было вопросы всё-таки задавать.

Простым перечислением не ограничусь — попытаюсь донести, почему считаю их крайне важными. Более того, под капотом вы сможете узнать мои ответы на эти вопросы.

4c9a4931bd3237b98d2538bc18716ba8.jpg

Вопрос №1. Данные: объем, глубина истории, доступность?

По определению, работа дата сайентиста тесно связана с данными, поэтому первый вопрос, который стоит задать, к ним и относится. Качество процессов по их сбору и хранению определяет не только качество моделей для бизнеса, но и то, насколько ваша работа будет интересной и востребованной.

Сложные модели требуют большого объема данных для обучения. Сейчас практически каждый дата сайентист хочет обучать deep learning модели. Однако, разработка нейронных сетей с нуля, а не файнтюнинг предобученных моделей, требует большого объёма накопленных данных. Следовательно, если в компании данных не накопилось в достаточном количестве, то, скорее всего, вам будет целесообразнее обучать что-то из класса линейных или деревянные моделей. В крайних случаях, данных может быть настолько мало, что компании нужно принимать решения на основе мнений экспертов.

Глубина истории данных может стать стоп-фактором для моделирования. Нередко качественную валидацию и тестированиемоделей невозможно провести без выборки, отложенной по времени. В кредитном скоринге и вовсе требуется 3 года исторических данных для разработки стабильных моделей.

В некоторых областях о пользователях, в принципе, невозможно собрать богатый набор признаков. Например, в крупных магазинах электроники клиенты совершают несколько покупок в год, в лучшем случае, потому что редкому потребителю требуется больше одного телефона и телевизора в год.

Данные могут быть недоступны для моделирования. Например, они могут лежат на источнике и не реплицироваться в отдельную базу данных для аналитиков. В итоге, к источнику доступ вам не дадут, исходя из соображений безопасности и предложат подождать лучших времен. В редких случаях, вы можете и не дождаться этого момента в компании

© Habrahabr.ru