FunTech ML-meetup22.01.2019 11:04

Недавно FunCorp приобщился к прекрасному — машинному обучению. Наш бэкенд-инженер научил поисковики читать мемы. По такому случаю мы решили собрать ML-митап, дабы поделиться своими наработками, а заодно и поучиться у более опытных специалистов из других компаний, где машинное обучение уже является важной составляющей бизнеса. Решили собрать — собрали. Проведём 9-го февраля. Программа под катом.

Программа

«Опыт запуска Discover для 90 млн пользователей: пять рекомендаций ML-разработчикам», Андрей Законов, vk.com

О докладе

Важна не только модель: правильно формулируем задачи и выбираем метрики.
Разные способы оптимизировать свои решения под нагрузки.
Правильно оцениваем эксперименты: изучаем графики и работаем с обратной связью.

«Как научить поисковики читать мемы», Григорий Кузовников, FunCorp

О докладе

iFunny — приложение со смешными картинками и видео. Единственный текстовый контент, который есть, — это пользовательские комментарии, но для того, чтобы привлечь трафик с поисковиков, его недостаточно, поэтому было решено извлечь текст с картинок и разместить его на страницах. Специально для этого был создан сервис, который:

находит на картинке область, содержащую «основную шутку»
извлекает текст из этой области
проверяет качество распознанного текста.

Сервис написан на Python с использованием tensorflow. Опыта в разработке ML-сервисов ни у кого в команде не было, поэтому мы прошли все этапы:

Постановка задания.
Первые эксперименты, когда мы пытались сделать что-то, что хоть как-то работает, экспериментируя с архитектурой нейронных сетей.
Составление обучающей выборки.
Обучение и подбор коэффициентов модели.
Создание сервиса, использующего нашу обученную модель. Оборачивание его в docker-контейнер.
Деплой и привязка сервиса к нашему php-монолиту. Холостой запуск.
Первые результаты работы и замечания от прокатов.
Использование результатов распознавания в бою.
Анализ результатов.
Сейчас мы здесь. Нам всё ещё только предстоит переделать и переобучить модели для повышения количества корректно распознанных мемов.

«Машинное обучение в Yandex.Taxi», Роман Халкечев, Yandex.Taxi

О докладе

В докладе пойдёт речь про устройство Яндекс.Такси.

Будет подробный рассказ:

про задачи, которые мы решаем с помощью анализа данных и технологий машинного обучения
про наш конвейер разработки, тестирования и запуска в продакшн моделей машинного обучения
пройдёмся по всем этапам: от экспериментов в Jupyter Notebook до полноценного ML-продакшна.

«Избавляемся от проклятия Sklearn: пишем XGBoost с нуля», Артём Хапкин, Поиск Mail.ru

О докладе

Рассказ про бустинг. Что нужно знать, чтобы самому его написать. Какие есть подводные камни, как можно улучшать его работу.

В настоящее время сложно представить место, где не используются ансамблевые алгоритмы бустинга над решающими деревьями. Это и поисковые движки, алгоритмы ранжирования рекомендаций, соревнования на Kaggle и ещё много где.

Существуют много готовых реализаций алгоритма: Catboost, Lightgbm, Xgboost и прочее. Однако, бывают случаи, когда пользоваться готовыми решениями из коробки не очень хорошо — теряется понимание работы алгоритма, а для определённых задач такие реализации не очень подходят и пр.

В этом докладе мы разберём принципы работы алгоритма, и, двигаясь от простого к сложному, реализуем свой собственный алгоритм Xgboosting«а, который потом можно будет подстраивать для любых задач машинного обучения — классификации, регрессии, ранжирования и т.д.

Больше информации в Telegram
Зарегистрироваться можно в Timepad. Количество мест ограничено.

Для тех, кто не сможет приехать или не успеет записаться, на нашем канале будет вестись трансляция.