Что будет на конференции UseData Conf 2019?
Ура! Мы завершили формирование программы конференции UseData Conf 2019! Эта конференция для тех, кто решает практические задачи с помощью методов машинного обучения. Между идеальным алгоритмом в вакууме и его применением на реальных данных часто лежит пропасть. Мы хотим, чтобы те, кто умеет преодолевать эту пропасть, встретились и смогли обменяться опытом.
Магия машинного обучения для управленцев, истории применения ML для анализа эффективности рекламы в телевизоре, беспилотные игрушечные машинки, нефть и автомобильные номера — это лишь часть докладов на UseData 2019. Об этих и других темах подробнее под катом.
В программе мы сформировали 5 секций. Доклады секции сгруппированы по направлениям задач, которые они решают.
- Машинное обучение и анализ данных в коммерции.
- Компьютерное зрение.
- Обработка текстов на естественных языках.
- Системы принятия решений.
- Фреймворки и инструменты по машинному обучению.
По каждой из этих тем нашлось что-то интересное.
Машинное обучение и анализ данных в коммерции
Эффект от ТВ-рекламы: оценка и оптимизация
Александра Ломакина, JOOM
Половина моего рекламного бюджета тратится впустую. Проблема в том, что я не знаю, какая именно.
Это цитата Джона Уонамейкера, американского предпринимателя, который открыл первый универмаг и первым применил ценники. Он что-то понимал в коммерции.
В компании Joom тоже задумались о том, какая часть бюджета на ТВ-рекламу тратится впустую и поставили измерить ее эффективность перед дата сайентистами. Как понять, что пользователь пришел от рекламе в телевизоре, какими инструментами отслеживать и какие данные для этого нужны?
Александра прошла этот путь до конца и готова поделиться ответами. Спойлер: пространство для оптимизации огромно.
Машинное обучение для предсказания продаж интернет-магазина OZON.RU. Оптимизация цен с помощью моделей предсказания спроса.
Александр Алексейцев, OZON.RU
OZON.ru — очень крупный магазин с огромным количеством товаров, сложной логистикой и ценообразованием. Над пополнением складов магазина и прогнозом спроса работает модель. Большой магазин — много данных, на которых модель может учиться. С одной стороны это хорошо, удобно строить прогнозы. С другой — в таких масштабах быстро проявляется ошибка, если она есть.
Например, товара долго не было на складе, а потом он появился и модель ошибается с прогнозом. Ничего страшного для одного товара, но в OZON.ru таких товаров сотни каждый день. Из-за ошибки складу может не хватать товаров или он будет переполнен.
Как работать с ошибками прогноза и поставок, и как страховаться от ошибок расскажет Александр. Его доклад это не только успешный кейс применения машинного обучения, но и интереснейший экскурс в предметную область. Если вы строите модели для прогнозов продаж, найдёте для себя много нового.
Компьютерное зрение
В этой секции поговорим о распознавании гос. номеров, проблемах ресурсов и послушаем научный доклад.
512 КБ памяти хватит всем! Идентификация человека по лицу на микроконтроллере с камерой
Александр Сморкалов, Xperience.ai
Бывает, что нужно распознавать лица на вычислительно слабых устройствах, которые работают от батарейки. На них мало памяти, а про GPU там и вовсе не слышали. Александр поделится историей успешного переноса модели на такие устройства. Опыт переноса моделей на нестандартные устройства сильно расширяет кругозор. Идеи могут пригодиться в ситуации, когда устройство стандартное, но потребляемые ресурсы неприемлемы.
Wasserstein Regularization for Generative and Discriminative Learning
Guido Montufar, институт Макса Планка
Мы очень рады, что Ваня Ямщиков уговорил своего коллегу Гвидо приехать к нам на конференцию. Это единственный научный доклад на конференции, но практическая применимость всё равно несомненна. Борьба идёт вокруг того, чтобы распознавать или генерировать классы с большим разбросом внутри, например, изображений. Помните классическую задачу про собачек-кошечек, в которой собаки разных пород не похожи друг на друга? Так вот, эти различия — детский лепет по сравнению с тем, что бывает.
Я не эксперт в этой теме, но, мне кажется, что такие задачи вынуждают создавать нейросети с большим количеством слоёв. Это усугубляет проблему затухания градиента и бесконечная борьба брони и снаряда бесцельно расходует сотни нефти вычислительных ресурсов. Методы, которые исследует Гвидо, позволяют решать задачи с большим разбросом внутри каждого класса дешевле и быстрее.
Как найти и закрыть гос. номер на фото автомобиля и помешать копированию контента c помощью adversarial attack
Илья Сергеев, Авито
Когда-то очень давно я работал в Яндексе, и Я.Карты создавали панорамы улиц, совместно с командой компьютерного зрения. На панорамах надо было замазывать лица и номера автомобилей, которые случайно попали в кадр. Готовых решений для этого не существовало, пришлось пилить самим.
В Авито для похожей задачи тоже сделали своё решение. В 2019 году эта задача уже не выглядит захватывающе. Кажется, что сейчас кто угодно в состоянии научиться закрывать гос. номер за час на коленке. Но так только кажется. Оказалось, что некоторым компаниям проще копировать изображения у Авито, заменяя на картинке знак своим, потому что задетектить его проще, чем номер. Авито пришлось предпринимать специальные усилия, чтобы и вывести на чистую воду контентных воришек.
Части этой истории уже были опубликованы на Хабре, но на нашей конференции Илья представит её целиком в форме рассказа, а не статьи.
Как нейросети могут помочь построить картину происходящего под землей и определить, где искать нефть
Дарима Мылзенова, Gazprom Neft
Кто в детстве решал модельную задачу из компьютерного зрения про распознавание рукописных цифр? Кто сам писал цифры на бумажке, сканировал её и проверял, что видит модель (ничего)? Примерно то же ощущение испытывают люди, сталкиваясь с задачами из реального мира.
Мы очень любим задачи из реального сектора, потому что на них хорошо видна разница между данными на которых люди привыкли учиться и данными из жизни: неточными, с ошибками и ограничениями, с разной разрешающей способностью, с пробелами. Дарима расскажет не только о том, на что способны нейросетевые модели в области анализа земных недр, но и том, сколько всего пока не умеют, а хотелось бы.
Обработка текстов на естественных языках
Может ли машина понимать анекдоты и шутки? Как научить модель понимать странные имена? А распознавать код?
Поиск аномалий в анкетных данных на примере ФИО
Георгий Шушуев, ЦФТ
Это забавный кейс от системы денежных переводов «Золотая Корона». Некоторые пользователи системы с трудом пишут своё имя по-русски, да и имена у них непривычные. Бутнару Иурии, Сашка Седлай Коня Аккуратно, Eyide Lucky, Пулотов Аслам Ахмат Жон Угли, Бэбэлэу ИонНо, Устаю Уже Ильясович — что из этого имя? В этом наборе букв есть имена, но вы задумались, верно? Здесь и возникает сложность — научить модель распознавать имена, даже если у человека не всегда это получается.
Мы любим истории об успешном обучении без учителя, и это как раз одна из них. Георгий расскажет про эволюцию детектора аномалий в анкетных данных от марковской модели до нейросетевой и поделится лайфхаками разработки таких детекторов для наборов коротких текстов.
Machine Learning for Code
Егор Булычев, source{d}
Это обзор самых свежих событий из области работы с кодом. Как найти репозитории, которые похожи по решаемым задачам? Как на GitHub найти разработчика с похожим опытом? Как вообще формализовать эту похожесть? И как всё оптимизировать, чтобы работать со всем GitHub сразу? Егор занимается ровно этими задачами и поделится своим опытом.
Можно ли научить машину чувству юмора?
Владислав Блинов, Валерия Баранова, Тинькофф
Владислав и Валерия учат машину понимать шутки на русском языке. Разве это не прекрасно? Здесь не о чем рассуждать — просто надо прийти и послушать.
С практической точки зрения всё как мы любим: размеченных датасетов почти нет, воды нет, растительности нет, населена роботами. Серьёзная работа на весёлую тему.
Как реализовать быстрый и эффективный семантический поиск в своем проекте на основе кликстрима, трансформеров и приблизительного поиска (ANNS)
Владимир Бугай, Knoema
Как сделать нормальный поиск в ситуации, когда чисел много, а текста мало? Knoema — агрегатор аналитических данных, которые почти все имеют вид временных рядов. Если зачем-то вы хотите узнать последние оценки нефтяных запасов Венесуэлы или объём производства алмазов в Конго, то это место, где есть свежие данные. Вопрос только в том, как их найти.
Некоторые данные содержатся в базе непосредственно, некоторые — вычислимые. Чтобы искать хорошо, приходится строить модель связей между данными. Сейчас это уже нейросетевая модель на основе USE. Владимир расскажет о нескольких важных шагах в разработке поиска по нестандартным данным: как относительно быстро собрать такой поиск из готовых компонентов, как дообучить его с помощью своей дополнительной информации, например, кликов, как уменьшать размер индекса и оптимизировать прочие узкие места.
Системы принятия решений
Modern Neural Net Architectures / Year 2019 version
Григорий Сапунов, Intento
Григорий, кажется, не нуждается в представлениях. Он сооснователь компании Intento, регулярный спикер и ведущий секций на конференциях о машинном обучении, человек, который следит за индустрией и двигает её. Из последних регалий, о которых ещё не все слышали, — включение в список Google Developer Expert в категории Machine Learning. На момент написания этого текста в списке всего 109 человек, и только один из них — из России. Гриша, поздравляем!
Это как раз тот уровень экспертизы, на котором можно сделать интересный обзор новинок в мире нейросетей за последние пару лет. Какие новые задачи сети научились решать? Что для этого пришлось сделать? В каких направлениях ждём следующих прорывов?
Что такое хорошо и что такое плохо: метрики для рекомендательных систем
Ирина Пчелинцева, Яндекс
Как измерить эффективность рекомендательной системы для фильмов? Предсказать, какую оценку поставит конкретный зритель конкретному фильму, и предлагать его посмотреть, только если оценка высокая. Но есть нюансы.
Большинство уверенно скажет, что «Крестный отец» или «Список Шиндлера» хорошие фильмы, даже если сам их не видел. Но, представьте, как вы возвращаетесь с работы. День был тяжелый: проект не клеится, начальник съел весь мозг, и завтра будет так же. В таком состоянии вряд ли захочется смотреть умный и глубокий фильм, а тупой боевик, которому красная цена шесть из десяти — зайдет. Поэтому рекомендательная система должна предлагать то, что вы посмотрите, а не то, что принято хвалить.
Это лишь одна из неожиданных сторон задачи, и таких сторон — много. Чтобы узнать о них, приходите на выступление Ирины.
Разработка и внедрение интеллектуальных агентов
Андрей Иванов, Тинькофф
Интеллектуальный агент — это часть системы, которая решает какую-то интеллектуальную задачу за человека. Разрабатывает агента специалист по машинному обучению, некоторые задачи которого агент возьмет на себя. Например, для банка это рекомендательная система, которая может предложить кредит, вклад, карту или другой продукт в зависимости от того, что известно о пользователе.
У Андрея очень практическое выступление: как в Тинькофф используются интеллектуальные агенты (на примере «историй»), какие трудности возникают с их разработкой и какие инструменты в этом помогают.
Прогнозирование инцидентов в процессе бурения
Иван Исаев, Altarix
Еще раз про реальный сектор и нефть. Иван расскажет хорошую практическую историю о том, как получить от заказчика немного данных, сделать на их основе полезную модель, получить после этого больше данных, и уже на них получить достойный результат.
Machine Learning Based Autonomous Car Driving Algorithms
Saloni Garg
Эта история — не та, чем кажется. Saloni довелось решать задачи, о существовании которых большинство из нас не догадывается.
В бедном регионе топливо для автобуса ценный ресурс. Водители экономят его с помощью множества удивительных техник: не включают фары, едут на нейтрали, не соблюдают рядность. Как в таких условиях принудить его к безопасному вождению?
Денег вокруг мало, поэтому железо для решения задачи самое примитивное, строить большинство оценок нужно локально, видео с камеры на сервер не передать. Как работать в таких условиях, и расскажет Saloni Garg.
Фреймворки и инструменты по машинному обучению
Добавляем контроль данных в ML pipeline
Артём Селезнёв, Мегафон
От МегаФон ждёшь или рекомендательных систем с новыми услугами и тарифами, или рассказов про Елену. Но нет, в этом раз Артём поведает об опыте внедрения инструмента DVC и дополнительные навороты, которые были сделаны поверх него. Навороты интересные и нетривиальные. Если вы за воспроизводимость экспериментов с машинным обучением, приходите на доклад.
AWS DeepRacer: учимся сложному через игру
Александр Патрушев, AWS
Правда же, интересно было бы потренировать модель для гонок на беспилотном автомобиле? И ещё так, чтобы разбить при этом минимум автомобилей. В идеале, хочется иметь приближенную к реальности виртуальную среду, в которой ловить большинство багов. Один из вариантов такой среды — использование моделей. Игрушечные машинки, в масштабе 1 к 18, используются для тренировки алгоритмов. Александр поделится историей создания AWS DeepRacer и трудностями, которые возникают при разработке виртуальной среды для обучения и при переносе модели на реальную технику.
Управленческий доклад вне секций
Project Management 2.0: AI Transformation
Эдуард Тянтов, Mail.ru Group
Мир меняется и ML-модели все чаще проникают в наши продукты, а иногда становятся их центральной частью. Приходилось ли вам когда-нибудь на гневное «Почему?!» от начальства, виновато отвечать «Ну, модель так настроилась…»? Начальство, выросшее на практиках разработки софта конца прошлого века, часто не понимает, чего ждать от машинного обучения и какая цена у этой магии.
Эдуард в своём докладе посмотрит на проблему со стороны руководства командой и продуктом. Что меняется в цикле разработки, в постановке задач, в проверке качества? Он — как раз тот человек, который может много об этом сказать, так как уже много лет успешно ведёт проекты на базе машинного обучения в Mail.ru. Самый известный проект, на мой взгляд, — Artisto, приложение для стилизации видео.
Бонус-трек
А ещё у нас будет трёхчасовой hands-on воркшоп от Яндекса по сбору данных при помощи Яндекс.Толоки! Вести его будут люди, которые разрабатывают Толоку, и те, кто ею пользуется на постоянной основе: Алексей Друца и Ольга Мегорская.
Вы получите общее представление о работе механизмов краудсорсинга, подобного Толоке или Mechanical Turk. Дальше сможете выбрать одну из нескольких предлагаемых задач по разметке данных, сформировать задание для толокеров, подготовить проверочные задания и задания-«ловушки» для читеров. В конце попробуете определить истинные оценки по полученной разметке и подозрительных толокеров при помощи алгоритмов, которые предлагает система.
Воркшоп будет полезен тем, кто задумывался о сборе данных через Толоку, но не решался из-за опасности потратить весь бюджет без подготовки.
Чтобы перейти через пропасть между алгоритмами в вакууме и реальными, ждем 16 сентября. Целый день докладов, митапов, общения, машинного обучения и кейсов — красота! Следующее и окончательное повышение цен на UseData Conf 2019 уже 9 сентября, поэтому бронируйте билеты уже сейчас, чтобы зафиксировать цену. До встречи в Инфопространстве!