Moscow Data Science Major: анонс и регистрация

nwcsdv6wicfgcjbmjnmptdykq9u.jpeg

1 сентября Mail.Ru Group и сообщество Open Data Science проведут крупнейший митап Moscow Data Science Major. Событие состоит из пяти тематических блоков докладов, одной ML-тренировки и целого зала для нетворкинга и знакомств.

Знакомьтесь с программой и регистрируйтесь! Вход на событие бесплатный, по одобренной регистрации.
Доклады на Moscow Data Science Major пройдут в два потока. В таблице вы найдете сетку с расписанием, а ниже — описания докладов.

Расписание:

ucypeovqqo5ipb0mnkqm_mjojya.png

Описания докладов:

«Speaker Diarization Problem», Григорий Стерлинг, NeurodataLab LLC
Коротко расскажу про speech processing в целом и про задачу speaker diarization (по записи диалога нужно определить, кто и когда говорил). Расскажу про историю проблемы, зачем, почему, про cocktail party problem, кто как решал, почему это сложно. Основная часть доклада будет посвящена результатам 2017–2018 годов, например, о статье Google, в которой описано решение задачи для видео (там нейросетка как будто пытается читать по губам). Закончу тем, что делают, когда видео нет, а есть только звук (диалог по телефону, например), пройдусь по статьями и нашему подходу.

«Нейросетевые вокодеры», Сергей Дуканов, Mail.Ru Group
Сначала будет небольшой экскурс в современные подходы к решению задачи синтеза речи, затем поговорим про вокодеры, а потом сосредоточимся на одном из наиболее интересных из них (как с точки зрения теории, так и практики).

«Пицца а-ля semi-supervised», Артур Кузин, Dbrain
На примере контроля продукции в «Додо Пиццы» расскажу о приемах работы с данными при обучении моделей. В частности, покажу, как ббоксы натягиваются на семантическую сегментацию объектов, а также как обучить модель и получить разметку датасета, разметив только несколько сэмплов.

«Архитектура OCR и TD в распознавании фотографий печатных документов», Алексей Гончаров и Илья Жариков, Лаборатория машинного интеллекта МФТИ
Доклад описывает структуру OCR (распознавание символов) и TD (детекция окон с текстом), которые наша команда использует в проектах по распознаванию фотографий печатных документов различного типа. Поговорим как об архитектуре, так и об обучении этих систем.

«Как делать domain adaptation, и идеи для повышения его качества», Ренат Баширов, Samsung AI
Доклад представляет из себя выжимку идей из пары десятков статей. Статьи выбирались по степени полезности для осуществления domain adaptation для изображений: имея одно размеченное множество, как получить/улучшить разметку на другом похожем множестве.

Будет:

  • много GAN’ов,
  • несколько архитектур с десятком функций потерь,
  • рассказано про
    • что такого разного можно подавать в функции потерь,
    • перенос стиля,
    • применение domain adaptation для разных задач: классификация, сегментация.


Не надо думать, что ничего не будет понятно, если ты понимаешь, например:

  • что такое функция потерь,
  • как работает backprop,
  • зачем нужен batchnorm и как он работает,
  • какого размера тензор получаются после global average pooling.


«Поиск по товарам — организация работы», Дмитрий Дремов, Анализ чеков
Про задачу, подход к организации работы и результаты.

«Витрины в социальной сети: как и что показывать», Сергей Бойцов, Одноклассники
Пройдём весь путь от пользователя до конкретного элемента в витрине, которую он видит. Сбор, предобработка данных, аналитическая обработка, A/B-тестирование.

«Рекомендательные системы для транспортных билетов», Артем Просветов
В докладе расскажем о применении рекомендательных систем в необычной для них области: для продажи транспортных билетов. Какие традиционные подходы могут помочь в решении этой задачи, какие эвристики хорошо себя показывают и какие открытия для себя мы сделали, занимаясь этим проектом.

«Тюнинг Jupyter Notebook», Александр Лифанов
Как настроить Jupyter Notebook для продуктивной и удобной работы.

«BigArtm — не только для текста», Максим Стаценко, Mail.Ru Group
Многие привыкли, что эмбединг — это про текст: мы делаем эмбедниг слов, предложений и т.д. В некотором смысле тематическое моделирование — это тоже эмбединг. В своём докладе я хочу показать, что с помощью Python и изобретательности можно использовать подходы тематического моделирования и эмбедингов в задачах, в которых текстов нет совсем, а именно в кластеризации пользователей по источникам заработка и по интересам.

«PID Controller intro, или Как варить пиво с PyData», Антон Лебедевич
Постепенное введение в самый популярный автоматический регулятор на примере затирания солода для пива, с анимацией и кодом на Python. Помимо базового PID controller будет пара трюков, которые улучшают его работу в реальной жизни. На практике часто нужна автоматическая регуляция, и почти любая её реализация содержит элементы PID вместе с их недостатками, о которых надо знать и уметь их чинить.

Зона «Кинозал»
Зона нетворкинга и знакомств. В этом зале вы сможете общаться с коллегами и другими участниками мероприятия в свободном формате.

Для участия необходимо зарегистрироваться. Не забудьте паспорт или водительские права.

Сбор участников и регистрация: 10:00 — 11:00.
Начало докладов: 11:00.
Примерное окончание мероприятия: 17:00.
Адрес: г. Москва, м. Аэропорт, Ленинградский пр-т, д. 39, стр. 79.

Для тех, кто не сможет прийти, будет организована видеотрансляция. Ссылку опубликуем накануне мероприятия.

© Habrahabr.ru