Чем на самом деле занимается дата-сайентист
Меня зовут Женя Толстов, я тимлид ML-отдела в группе компаний ФСК и наставник на курсе «Специалист по Data Science» в Практикуме. Работаю в IT больше 10 лет: начинал как аналитик данных, со временем перешёл в дата-сайенс. Поработал в консалтинге, в стартапе с американской культурой, в крупном телекоме и финтехе. Недавно попал в нетипичную для дата-сайентистов сферу — в девелопмент.
Мой опыт будет полезен, если вы делаете первые шаги в профессии или хотите узнать, есть ли в «стройке» интересные ML-задачи.
Как я попал в девелопмент и что здесь делаю
Я перешёл в девелопмент на позицию тимлида после 4 лет работы в крупном российском банке. На новом месте передо мной стояла задача — сформировать собственный отдел, наладить процессы. Сейчас в команде двое участников — я и ещё один дата-сайентист. Продолжаю собирать команду, есть несколько открытых позиций.
Тимлиды в крупных компаниях меньшую часть рабочего времени тратят на написание кода, потому что их календарь забит встречами и организационными задачами. У меня другая ситуация: мне чаще приходится «работать руками», так как команда пока маленькая.
Задачи поступают напрямую из разных отделов компании. Практически любой руководитель, который знает о возможностях искусственного интеллекта и догадывается, что они могут ему пригодиться, обращается к нам. У нас довольно большой бэклог.
Зачем девелоперам дата-сайентисты
С 2020 года строительный рынок сильно вырос благодаря большим субсидиям на строительство и ипотеку. Застройщики заработали много денег. В итоге некоторые крупные строительные компании начали покупать мелкие и вкладываться в цифровизацию.
Потенциал в сфере большой. У застройщиков много данных, которые нужно правильно собирать, обрабатывать, хранить и использовать. Здесь и подключаются дата-сайентисты. Вот чем занимается моя команда.
Индексация цен
Это процесс определения и корректировки цен на квартиры. Раньше эту задачу вручную решали наши аналитики, а сейчас мы разрабатываем алгоритм, который автоматизирует этот процесс и улучшает необходимые метрики. Например, алгоритм может быть настроен на увеличение выручки или повышение скорости продажи квартир.
Оптимизация строительства
Вторая задача связана с оптимизацией строительства и финансовыми метриками. Продажи квартир начинаются сразу после получения разрешения на строительство, но компания не может строить все корпуса одновременно, так как деньги от продаж поступают только после завершения стройки через эскроу-счета. Мы определяем, в каком порядке выводить на продажу корпуса жилого комплекса, чтобы быстрее получить средства и использовать их для дальнейших работ.
Обработка документов
Есть второстепенные задачи, связанные с оцифровкой документов, например, строительных смет, в которых содержится информация об оборотах. Чтобы с данными было удобно работать, мы переводим их в цифровой формат. Смет много, и все они по-разному оформлены, поэтому задача нетривиальная.
Разработка чат-ботов
После того как стала популярна GPT, все захотели себе такое же. Например, создать чат, который будет отвечать на узкоспециальные вопросы сотрудников: объяснять простыми словами информацию из документов, помогать найти нужные данные в тех же сметах. Чтобы чат-бот всё это знал, сначала его нужно правильно настроить — и это одна из задач дата-сайентиста.
Google Collab — один из инструментов работы над нейронными сетями, если нужно использовать видеокарты
Над чем работаю сейчас: пример проекта и этапы
Сейчас у меня в работе задача, связанная с ценообразованием квартир. Мне нужно «умно» индексировать цены на них. Это, по сути, классическая задача динамического ценообразования, которую решают и в такси, и ритейле. Девелопмент отличается только спецификой процессов, а общий алгоритм работы стандартный.
Постановка задачи. Обсуждаю с заказчиком задачу и текущие процессы, которые нужно улучшить. Согласовываем бизнес-метрики, которые берёмся улучшать.
Предварительный анализ. Изучаю имеющиеся данные и процессы, оцениваю возможное решение.
Построение модели. Подготавливаю данные и строю первый прототип решения, который можно тестировать и в дальнейшем улучшать.
A/B-тестирование. На А/B-тестах смотрим результаты прототипа.
Катим в прод. Интегрируем решение в компанию.
Мониторинг. Продолжаем собирать бизнес- и технические метрики, чтобы убедиться, что решение работает и не приводит к деградации показателей.
Дата-сайентисты много копаются в данных, поэтому нужно хорошо знать SQLТипичный рабочий день
Мою работу можно условно разделить на две области — организационную и исполнительскую. Каким будет день, зависит от того, какие задачи в приоритете и сколько встреч стоит в календаре.
Об «исполнительской» части работы я немного рассказал выше — это всё, что связано с решением конкретных задач. Это может быть написание кода или анализ данных. Бэклог задач мы ведём в Confluence, поэтому туда я заглядываю ежедневно.
Ведём бэклог в Confluence. На примере — классическая структура, которой придерживаемся
Организационная часть — это мои тимлидские задачи. Сюда входят синки с руководителями, встречи с заказчиками, подготовка к этим встречам, подведение итогов, изучение «роадмапа», найм.
В календаре запланированы синхроны, регулярные 1–1, собесы и встречи со стейкхолдерами
Немного лирики о профессии
Дата-сайенс — работа для усидчивых. Вам придётся долго и усердно гуглить, ничего не понимать, разбираться в специфике бизнеса, сидеть над логикой, снова ничего не понимать, много кодить. И так по кругу.
Часто важны не только хардскилы, но и погружение в доменную область. Я, например, разобрался в том, как устроена стройка и какие факторы влияют на цену квартир, а дата-сайентисты в металлургических компаниях изучают работу прокатных станков, чтобы прогнозировать, когда они сломаются.