Moscow Data Science Major August 2019: программа и регистрация26.08.2019 16:18

31 августа 2019 г. Mail.ru Group и сообщество Open Data Science приглашают на Moscow Data Science Major. Это как Data Fest, только мини. Событие состоит из 8 тематических блоков докладов, 1 ML-тренировки и 8 часов ударной порции нетворкинга и знакомств. Знакомьтесь с программой и регистрируйтесь! Вход на событие бесплатный, по одобренной регистрации. Регистрация закрывается в 29 августа в 12:00.
Доклады на Moscow Data Science Major пройдут в три потока. В таблице вы найдете сетку с расписанием, а ниже — описания докладов.

Зал Атриум

Секция SysML

«End-to-End Production: на примере дефектовки колодок и бандажей тележек локомотивов с помощью CV», Алексей Дончук
В начале 2019 года, компания Aurorai сделал опытный образец системы поиска дефектов в тормозных колодках локомотивов, а сейчас у нас уже готово серийный образец. Я расскажу как происходил процесс разработки, с какими проблемами мы столкнулись и как их решали — in depths.

«Давай останемся друзьями — или как устроен раздел Возможно Вы Знакомы в Одноклассниках», Малютин Евгений
Возможно вы знакомы, ВВЗ, PYMK, people you may know — та самая часть социальной сети, в которой находятся люди, которых вы хотели бы не знать. Рассказ про то как устроен ВВЗ в Одноклассниках и как мы помогаем пользователям не остаться одним в этом холодном мире с помощью машинного обучения. В программе:

ML
Большие графы
Тяжелые вычисления
Грязные трюки
Social Network Analysis

«Суровая действительность товарных рекомендаций бытовой техники», Владимир Литвинчук
Категория бытовой техники и электроники имеет свою специфику с точки зрения постановки задачи рекомендаций: низкая частота и слабая связанность покупок, разнообразие категорий, невысокая доля импульсных покупок/покупок, связанных с интересами и стилем жизни. В докладе я расскажу, какие ограничения с точки зрения постановки задачи и использования алгоритмов это на нас накладывает, какие бизнес-сценарии взаимодействия с клиентом мы охватываем, какие данные и алгоритмы используем, где и почему уместно и эффективно использовать ML, где мы обходимся более простыми техниками.

Секция NLP

«Вытаскивание товаров из платежек», Андрей Ахметов
Задача: Платежные документы содержат фразы описания товаров и услуг, которые продают и покупают. Нужно эту инфу преобразовать в таблицу [ID компании, список фраз].

Решение: Используем Томита-парсер, NER модель, bigARTM, кластеризацию чтобы задачу решить.

«NER: как мы учили Почту выделять именованные сущности», Михаил Баранов, Mail.ru Group
Как часто вам приходится искать в ящике письма о заказах в интернет-магазине, а затем просматривать их, пытаясь найти информацию: что это за заказ, где он сейчас находится, когда и где его можно получить?

Мы научили Почту делать это за вас. Модель машинного обучения распознает такие именованные сущности, как статус заказа, его номер, дату доставки и т.п., после чего вся важная информация о заказе отображается в шапке письма.

Из доклада вы узнаете:

что зажгло — нейронки или бустинг;
как измерить качество на потоке, не имея доступа к пользовательским данным;
на какие грабли мы наступили в процессе, и как с ними справились;
и многое другое.

«Переобучение? Не думаю. Как машинное обучение работает в новостном агентстве», Андрей Коломиец
Хотел бы рассказать про несколько решенных нами задач: автоматическую модерацию комментариев, тегирование новостей, рекомендации новостей (с точки зрения NLP). При этом используются самые разнообразные инструменты: от BERT до моделей на правилах. Описанные проекты внедрены в продакшн и приносят пользу с точки зрения бизнеса (уменьшение рутинного труда модераторов и редакторов, повышение посещаемости, поисковая оптимизация).

«Sentence-level pretraining», Борис Зубарев
Расскажу о том, как мне удалось повысить f1 на 7 пунктов в многоклассовой классификации на 5-ти тысячах размеченных примерах за счет использования предтренировки и чего-то среднего между аугментациями и proxy labelling. Как и многие, я не могу использовать большие модели типа BERT для инференса, примеров мало и tf-idf + логистическая регрессия выглядит довольно неплохим вариантом пока не добыты еще данные. Но когда тебе важны метрики прямо сейчас можно найти выход получше, особенно если есть неразмеченные данные, итоговая модель evolved transformer + inception и она влезла в 20 мс инференса на CPU. Также на ACL была представлена статья с похожей идеей, но с меньшим количеством шагов в пайплайне, которые мне докинули (как раз аугментации): How to Get Past Sesame Street: Sentence-Level Pretraining Beyond Language Modeling?

Расскажу также хаки как лучше заводить такой пайплайн, какие есть сложности, какие есть методы аугментации помимо back-translation и как добавлять новые данные из другой задачи и другого домена, например сентимент.

«Промышленная эксплуатация BERT в задачах классификации и поиска», Денис Антюхов
Расскажу о том как мы применяем BERT для широкого спектра задач NLP. В программе: BERT как сервис, деплой и горизонтальное масштабирование, case studies: анализ тональности, NER, DSSM для QA.

Секция Fail/cess story

«Как мы не запилили динамическое ценообразование в большом е-коме», Павел Мягких, Евгений Лимаренко
История о том, как мы запускали проект по динамическому ценообразованию, с какими проблемами столкнулись, как мы превозмогали, и чем в итоге эта сказка закончилась.

«Ранжирование ленты ВКонтакте», Данила Савенков
Поговорим о ранжировании умной ленты ВКонтакте. Обсудим постановку задачи, ключевые метрики и нюансы в работе оффлайн модели.

«Моделирование продаж», Максим Павлов
Прогнозирование спроса в ритейле (на примере X5).

«Мультимодальное распознавание эмоций», Андрей Беляев
Различие между мультимодальным и уномодальным определением эмоций. Проблемы данных для мультимодального определения эмоций. Модальности для работы: лицо, голос, тело, текст, пульс. Объединение модальностей.

1 переговорная

Секция ML trainings

«Ice Vision Hacathon», Азат Давлетшин
В докладе я расскажу про то, как мы победили в хакатоне IceVision, на котором нужно было детектировать и классифицировать дорожные знаки на видеопоследовательностях. Ключевые характеристики датасета и конкурса: мелкие объекты на высоком разрешении, сложные условия съемки, сильный дисбаланс классов, небольшая тренировочная выборка, жесткие ограничения по железу и производительности решения.

«KDD 2019 Policy Learning for Malaria Control», Влад Шах-Назаров
Расскажу про свой опыт участия в треке по обучению с подкреплением KDD Cup 2019. Какая была задача, какой подход позволил занять высокое место и почему простой random search — это competitive approach to RL и на соревнованиях.

«Чемпионат по машинному обучению и анализу данных — ML Boot Camp 9», Александр Ничипоренко
Доклад о решении, занявшем первое место: речь пойдет о задаче детектирования объектов на изображениях (изображений в датасете не было), разметке, метрике, критерии минмакс, несработавших идеях и о том, что в итоге сработало.

Секция ML4IR

«Мир глазами нейросетей», Данила Байгушев и Михаил Белозеров
Доклад освещает проблему интерпретируемости предсказаний нейросетей. Расскажем про современные (и не очень) подходы к анализу обученных нейросетей, а также обсудим, похоже ли их «видение мира» на наше, и как понимание их устройства позволяет находить способы обмана моделей.

«Обзор трендов Рекомендательных систем от Пульса», Андрей Мурашев
В рамках доклада будет сделан обзор современных трендов в рекомендательных системах на основании последней конференции RecSys. Какие методы еще развиваются, какие обрели новую жизнь и на что делают ставку в будущем рекомендаций. Расскажу, что из этого уже используется в продуктах Пульса, и что мы планируем применять.ё

«Нейромашинный перевод в задачах поиска документов, отвечающих на вопросы», Федор Федоренко
С появлением огромного количества голосовых помощников, задача построения вопросно-ответной системы становится всё более и более актуальной. Одной из главных задач таких систем является нахождение документов, релевантных вопросу. В докладе поговорим о том, как мы делали такую систему на основе Ответов Mail.Ru, и как на помощь классическим алгоритмам извлечения информации пришёл нейромашинный перевод.

Секция PyData

«Как ухаживать за пандами», Николай Марков
Pandas — отличная базовая библиотека для работы с данными, включая очистку, генерацию новых фич и интеграцию с инструментами машинного обучения. Проблема в том, что в ней, несмотря на кажущуюся простоту, есть разные тонкости, а также готовые обертки, которые могут сильно облегчить жизнь, если о них знать. Попробуем вникнуть?

«Фишки AutoML», Денис Воротынцев
Современные AutoML модели показывают хорошие результаты в соревнованиях Kaggle, создавая точные модели за малое время. Каким образом они это делают? В ходе этого доклада будут рассмотрены out of the box методы, применяемые для автоматической генерации и отбора фичей, подбора моделей и тюнинг гиперпараметров, которые могут применяться в data science пайплайне для увеличения скоров при меньших вложенных человеко-часах.

«PyData Puzzlers», Пётр Ермаков
Работа с данными в Python не предвещает беды и сюрпризов. Да и какие тут еще пазлеры? Нетривиальное поведение возможно только в Java. Но не тут то было! В интерактивном формате вместе с аудиторией мы откроем новые возможности выстрелить себе в ногу и облажаться в Python-е для Data Science.

Кинозал

Секция A/B testing

«Как мы ускорили А/Б тесты в Яндекс Советнике в 10/100 раз», Нерсес Багиян
Перед нами встала задача ускорить А/Б тесты в сто раз и мы вышли за пределы дозволенного. Линеаризация, перевзвешивание, машинное обучение и даже Баес во славу А/Б.

«Рекурсивная оценка разнородности причинных эффектов в субпопуляциях при A/B», Алексей Мясников
Рассматривается data-driven подход к разделению данных на субпопуляции, отличающиеся величиной наблюдаемого эффекта». По сути рассматривается новая реализация regression trees, умеющая создавать аккуратные доверительные интервалы (помимо других стат. методов).

«Методология А/Б тестов и пост-анализа в офлайн ритейле», Александр Сахнов
В офлайне тоже делают А/Б и хорошо когда можно заранее разбить на группу А и группу Б. Такая роскошь дозволена не всегда. Расскажем что делаем в каждом из случаев, от бакетных методов, до баесовских структурных временных рядов.

Секция DS 4 Life

«Эмоции города: анализ качества городской среды с помощью PPGIS», Александра Ненько

«Вычислительное прогнозирование психометрик пользователя на основе его цифрового следа в социальных сетях», Ирина Деева
Люди регулярно оставляют достаточно своих данных в социальных сетях и на разных сайтах, формируя таким образом свой уникальный цифровой след. Этот цифровой след может быть рассмотрен как база к созданию цифровой сущности человека в гиперпространстве социальных медиа. Однако человек — это сложная система; следовательно, модель цифрового объекта должна быть многомасштабной. В этом докладе мы рассмотрим связь такой слабо формализуемой стороны пользователя, как его психометрические показатели, и его цифрового следа на сайтах социальных сетей. Будет представлено описание серии экспериментов по прогнозированию психометрик, основанном на данных из двух социальных сетей (Facebook и Vkontakte), в ходе которых сравнивались два подхода к прогнозированию: многомерное прогнозирование, когда все психометрические показатели прогнозируются одновременно, и одномерные модели для каждой черты личности. Попробуем сравнить результаты этих прогнозирований и наконец ответим на вопрос, можно ли понять, кто скрывается за профилем человека в социальных сетях?

«Эмоциональный пульс школы: использование данных ВКонтакте для изучения психологического благополучия учащихся», Иван Смирнов
Исследования образования традиционно фокусируются на академической успеваемости, зачастую игнорируя психологическое благополучие учащихся. Отчасти это связано с тем, что психологическое благополучие и факторы, с ним связанные, сложно изучать, используя традиционные методы. В докладе будет рассказано о том, как данные из соц.сетей и методы машинного обучения могут помочь преодолеть эти ограничения.

Секция Summer ML conf

«ICML 2019 Report», Сергей Свиридов
Я расскажу о том, как проходила конференция ICML 2019 в Long Beach, CA, USA, о трендах конференции и самых интересных (и не только) статьях, представленных на конференции с особым акцентом на работы в области обучения с подкреплением.

«ACL», Валентин Малых
Я расскажу о поездке на крупнейшую конференцию по обработке естесственного языка — ACL, прошедшую во Флоренции месяц назад. Что актуально сейчас в NLP и обработке речи, машинном переводе и других горячих темах, самое свежее с ACL.

«Highlights and trends CVPR-2019», Сергей Алямкин
В докладе будут освещены основные тренды развития алгоритмов компьютерного зрения с конференции CVPR-2019. В силу своих профессиональных интересов акцент сделаю на свежих идеях в domain adaptation, SOTA в распознавании лиц, сделаю небольшой экскурс в тематику Convolution Graph Neural Networks и расскажу про ряд других прикладных работ, вызвавшим у меня интерес.

Вход на событие бесплатный, по одобренной регистрации. Регистрация закрывается в 29 августа в 12:00.
Сбор участников и регистрация: 10:00.
Начало докладов: 11:00.
Адрес: г. Москва, м. «Аэропорт», Ленинградский пр-т, д. 39, стр. 79.
Для тех, кто не сможет прийти, будет организована видеотрансляция. Ссылки на трансляцию опубликуем накануне.