FunTech ML-meetup

oc7cjgjngv6hugvgkgfpspraefq.png

Недавно FunCorp приобщился к прекрасному — машинному обучению. Наш бэкенд-инженер научил поисковики читать мемы. По такому случаю мы решили собрать ML-митап, дабы поделиться своими наработками, а заодно и поучиться у более опытных специалистов из других компаний, где машинное обучение уже является важной составляющей бизнеса. Решили собрать — собрали. Проведём 9-го февраля. Программа под катом.

Программа


«Опыт запуска Discover для 90 млн пользователей: пять рекомендаций ML-разработчикам», Андрей Законов, vk.com


О докладе


  • Важна не только модель: правильно формулируем задачи и выбираем метрики.
  • Разные способы оптимизировать свои решения под нагрузки.
  • Правильно оцениваем эксперименты: изучаем графики и работаем с обратной связью.


«Как научить поисковики читать мемы», Григорий Кузовников, FunCorp


О докладе


iFunny — приложение со смешными картинками и видео. Единственный текстовый контент, который есть, — это пользовательские комментарии, но для того, чтобы привлечь трафик с поисковиков, его недостаточно, поэтому было решено извлечь текст с картинок и разместить его на страницах. Специально для этого был создан сервис, который:

  • находит на картинке область, содержащую «основную шутку»
  • извлекает текст из этой области
  • проверяет качество распознанного текста.


Сервис написан на Python с использованием tensorflow. Опыта в разработке ML-сервисов ни у кого в команде не было, поэтому мы прошли все этапы:

  1. Постановка задания.
  2. Первые эксперименты, когда мы пытались сделать что-то, что хоть как-то работает, экспериментируя с архитектурой нейронных сетей.
  3. Составление обучающей выборки.
  4. Обучение и подбор коэффициентов модели.
  5. Создание сервиса, использующего нашу обученную модель. Оборачивание его в docker-контейнер.
  6. Деплой и привязка сервиса к нашему php-монолиту. Холостой запуск.
  7. Первые результаты работы и замечания от прокатов.
  8. Использование результатов распознавания в бою.
  9. Анализ результатов.
  10. Сейчас мы здесь. Нам всё ещё только предстоит переделать и переобучить модели для повышения количества корректно распознанных мемов.


«Машинное обучение в Yandex.Taxi», Роман Халкечев, Yandex.Taxi


О докладе


В докладе пойдёт речь про устройство Яндекс.Такси.

Будет подробный рассказ:

  • про задачи, которые мы решаем с помощью анализа данных и технологий машинного обучения
  • про наш конвейер разработки, тестирования и запуска в продакшн моделей машинного обучения
  • пройдёмся по всем этапам: от экспериментов в Jupyter Notebook до полноценного ML-продакшна.


«Избавляемся от проклятия Sklearn: пишем XGBoost с нуля», Артём Хапкин, Поиск Mail.ru


О докладе


Рассказ про бустинг. Что нужно знать, чтобы самому его написать. Какие есть подводные камни, как можно улучшать его работу.

В настоящее время сложно представить место, где не используются ансамблевые алгоритмы бустинга над решающими деревьями. Это и поисковые движки, алгоритмы ранжирования рекомендаций, соревнования на Kaggle и ещё много где.

Существуют много готовых реализаций алгоритма: Catboost, Lightgbm, Xgboost и прочее. Однако, бывают случаи, когда пользоваться готовыми решениями из коробки не очень хорошо — теряется понимание работы алгоритма, а для определённых задач такие реализации не очень подходят и пр.

В этом докладе мы разберём принципы работы алгоритма, и, двигаясь от простого к сложному, реализуем свой собственный алгоритм Xgboosting«а, который потом можно будет подстраивать для любых задач машинного обучения — классификации, регрессии, ранжирования и т.д.

Больше информации в Telegram
Зарегистрироваться можно в Timepad. Количество мест ограничено.

Для тех, кто не сможет приехать или не успеет записаться, на нашем канале будет вестись трансляция.

© Habrahabr.ru