Машинное обучение vs. аналитический подход

a0gncuy0wdjaka70i2a90ve8nyq.jpeg

Какое-то время назад мы нашли свои старые материалы, по которым обучали первые потоки на наших курсах машинного обучения в Школе Данных и сравнили их с теперешними. Мы удивились, сколько всего мы добавили и поменяли за 5 лет обучения. Осознав, почему мы это сделали и как, на самом деле, поменялся подход к решению задач Data Science, мы решили написать вот эту публикацию.

Начинали мы обучение с основных методов и алгоритмов машинного обучения, рассказывали, как их применять на практике, как подбирать параметры, как чистить и готовить данные, как мерить качество. Мы считали (и до сих пор считаем), что подготовка полноценного дейта-саентиста должна в себя включать не только методы классического машинного обучения, но также и методы анализа графов (социальных сетей, SNA), анализа текстов, работу с нейронными сетями и большими данными (Big Data).

Таким образом, на выходе у нас получался эксперт в широкой области Data Science, способный применять обширный арсенал методов на практике. Таких же специалистов мы брали и к себе в бизнес. Сначала в компании, где мы работали и руководили соответствующими направлениями, а потом в свой бизнес по разработке продуктов на основе машинного обучения — Студию Данных.

Но позже мы поняли, что этого не только не достаточно для успешной реализации Data Science проектов, а что это даже и не главное.

Подход в начале практики Data Science и, будем честны, у многих аналитиков до сих пор заключается в следующем: дайте мне данные, я их очищу, сделаю вектор признаков, разделю на обучающую и тестовую выборки, запущу несколько алгоритмов ML, и вот вам результат.
Имеет ли такой подход право на жизнь?

Да, имеет, но там, где предметная область уже хорошо изучена и уже есть хороший накопленный опыт применения аналитики. Примеры? Банковский скоринг, отток у операторов, кросс-продажи (Next Best Offer) в рознице, банках, телекомах, прогноз эффективности акций в рознице, прогноз остатков. Этот список можно продолжать.

А теперь давайте представим другие области: прогноз времени прибытия в мультимодальной перевозке (корабль, поезд, грузовик): какие признаки будете использовать? Тип груза, вес груза, наличие определенных сортировочных узлов? А если подумать? Может, какие-то более простые и очевидные признаки (еще даже без моделей машинного обучения) вам дадут значительную точность?

Или вам нужно спрогнозировать чувствительность крупных клиентов к изменению цены на определенную продукцию. Как определите эластичность? Что именно будете прогнозировать?

А нужно ли строить модель, если производственный процесс потом изменить все-равно не получится?

Получается, что нужно уметь работать в новых предметных областях применения аналитики, так как в хорошо изученных областях, и так уже много наработок и это уже «красный океан».
Что же нужно, чтобы идти в новые области с аналитикой?

Для этого нужно уметь глубоко разобраться в предметной области конкретного процесса, описаний которого часто нет. Понять, какие данные вообще в принципе нужны, понять, на чем конкретно здесь делается бизнес. Понять нужна ли тут аналитика вообще, нужны ли какие-то предсказательные алгоритмы, нужно ли менять бизнес-процесс, есть ли операционные рычаги (какой смысл предсказывать останов оборудования, если способов его избежать все равно нет?).

Если просуммировать, то требуется следующие вещи:

  • Аналитический подход, умение формулировать и проверять гипотезы
  • Понимание принципов и особенности работы бизнеса и отдельных процессов
  • Понимания экономики процессов
  • Понимание технологий
  • Умения связывать данные бизнес-процессами


И, если оторвать от машинного обучения, какая сфера это умеет делать лучше всего? Правильно — управленческий консалтинг. А где этому учат используя так называемый case-метод (много примеров из разных бизнес-ситуаций) — верно, на курсах MBA (master of business administration).

Таким образом, получается, что идеальный Data Scientist — выпускник MBA с опытом работы в консалтинге, прошедший курсы по машинному обучению.

Это, конечно, перебор, но верно то, что среди подрядчиков лидируют те, у кого внутри на уровне процессов и стандартов, на уровне подбора и обучения сотрудников развита культура аналитического мышления. Этого же подхода мы придерживаемся и у себя в Студии Данных. И, что логично, такой же подход мы заложили в наше обучения в Школе Данных.

Вы можете возразить. Ведь написанное выше в большей степени применимо в консалтинге, где каждый раз заранее не знаешь, из какой предметной области будет проект. А что в крупных компаниях, где область в принципе очерчена?

В компаниях мы наблюдаем все ту же специфику, описанную выше, и необходимость понимания бизнеса аналитиком и всей командой, необходимость наличия ответственности за финальный результат.

Именно по этой причине в крупных компаниях мы сейчас видим тренд в специализации подразделений Data Science и перемещения функции аналитики из централизованного подразделения, одного на всю компанию, в бизнес-функции, то есть, ближе к бизнесу. При такой специализации способность аналитика быстро разбираться в новом бизнесе и предлагать реально применимые решения, а не модели, является конкурентным преимуществом.

Что же именно поменялось в нашей учебной программе? Мы и раньше всех обучали на основе практических кейсов. Поменялась структура и характер кейсов. Раньше наши кейсы походили на задачи на Kaggle: вот задача, вот целевая переменная, вот метрика качества, вот данные.

Теперь задача звучит иначе: вот задача в терминах клиента, вот описание процесса клиента. Сформулируйте задачу аналитики, предложите метрику качества, оцените целесообразность применения аналитики, посчитайте экономический эффект, предложите методы, сформулируйте запрос на данные, которые вам нужны. А вот далее все как обычно: почистите данные, постройте модель итд. И такие примеры мы даем из совершенно разных областей, благо, наличие собственного консалтинга в этой области сильно расширяет набор доступных задач, которые мы решали на собственном опыте.

Но дисциплина аналитического подхода это не только практика кейсов. Мы также обучаем стандартным фреймворкам (основных шаблонов анализа), применяемые в консалтинге. Также мы добавили в обучение процесс разработки аналитического продукта, которого мы придерживаемся на занятиях, от бизнес-анализа до презентации результатов заказчику и планирования развертывания продуктивного решения включая этапы, роли, ключевые точки принятия решений и моменты взаимодействия с заказчиком.

Презентациям мы уделяем отдельную роль — слишком часто мы видели разрыв между мыслями аналитиков и восприятием этих мыслей сотрудниками заказчика.

В целом, мы считаем, что задача подготовки дейта-саентиста сейчас не в том, как подготовить специалиста для существующих областей (для этого уже есть немало курсов и это во многом стало commodity), а подготовить эксперта-исследователя для работы в новых областях, куда цифровизация пока только приходит.

Ну, и, как обычно — начало нового курса у нас в Школе Данных 16 сентября. Заказы на новые проекты в Студию Данных мы принимаем постоянно, так же как и набираем сотрудников (см. раздел открытые вакансии).

P.S. Мы немного обновили наш сайт, чтобы сделать его удобнее. Поэтому, не удивляйтесь новому облику.

© Habrahabr.ru