Прямая трансляция Sberbank Data Science Day 10 ноября

Привет!

10 ноября (уже завтра!) в Москве в киноцентре «Октябрь» пройдет большая конференция Sberbank Data Science Day, где будут награждение победителей SDSJ 2018, выступления большого количества международных и российских экспертов в области Data Science, секции про ML и применение искусственного интеллекта в науке и бизнесе. И еще много интересного!

Прямую трансляцию можно посмотреть тут. Под катом и на сайте программа. Также рассказываем, как оценивали победителей Sberbank Data Science Journey.

yqwxfmg6cdc6dswnxfarhmqlqfm.jpeg


Программа


Конференция разделена на несколько тематических блоков, вот расписание:
Основной зал
11:00 — 11:30. Открытие конференции.
11:30 — 12:30. Панельная дискуссия «Технологии анализа данных и искусственного интеллекта в цифровой экономике»
12:30 — 13:15. «Биологически-обусловленные методы и архитектуры в глубоком обучении». Сергей Бартунов, Deep Mind
13:15 — 14:00. «Conversational Agents as Intelligent Digital Companion to Understand Human Emotion and Express its Emotion». Soo-Young Lee, KAIST
15:00 — 15:45. «Масштабируемое автоматическое машинное обучение». Андрей Спиридонов, H2O
15:45 — 16:30. Панельная дискуссия «Тренд на инновации: применение DS/AI и улучшение клиентского опыта»
17:15 — 18:00 Торжественное награждение победителей соревнований Sberbank Data Science Journey и КлассикAI (соревнование по стихосложению с помощью искусственного интеллекта)

Зал «Наука»
12:30 — 13:45.DS/AI технологии: AutoML
13:45 — 14:45.DS/AI технологии: Computer Vision
14:45 — 15:45.DS/AI технологии: Natural Language Processing (NLP)
15:45 — 16:30.DS/AI технологии: Reinforcement Learning
16:30 — 17:15.DS/AI технологии: Speech Analytics

Зал «Бизнес» (зал 1)
12:30 — 13:45.Применение DS/AI в банковской и финансовой сферах
13:45 — 15:00.Применение DS/AI в медицине и биоинформатике
15:00 — 16:15.Применение DS/AI в банковской и финансовой сферах
16:15 — 17:15.Brainwriting: создаем платформу для AI исследований

Зал «Бизнес» (зал 2)
12:30 — 14:45.Применение DS/AI в ритейле
14:45 — 16:30.Применение DS/AI в промышленности
16:30 — 17:15.Применение DS/AI в медиа и телекоме

Зал «Сообщество»
12:30 — 13:15.Презентация постеров «Poster Session Lightning Talk»
13:15 — 15:00.Презентация открытых проектов в сфере DS/AI «AI Open Projects»
15:00 — 15:45.Разбор решений соревнования КлассикAI
15:45 — 17:15.Разбор решений соревнования Sberbank Data Science Journey

Победители Sberbank Data Science Journey


В этом году мы предложили решить задачи c использованием технологии AutoML. До конца 3 ноября участники выгружали свои решения, в следующие 12 часов выбирали из своих решений лучшие. Теперь выбор за жюри. На конференции мы наградим победителей Sberbank Data Science Journey.

Участникам были предоставлены готовые наборы данных от Сбербанка. Все 24 датасета, задействованных в соревновании, были собраны различными департаментами: блоком розницы, блоком рисков и блоком технологий. Все они были специальным образом подготовлены и обезличены. В основу легла такая информация, как:

  • Доля одобренного лимита
  • Время доставки карты
  • Различные виды скоринга
  • Отклики на предложение карты
  • Отклик на прочие предложения продуктов
  • Поломки банкоматов
  • Информация о снятии наличных в банкоматах
  • Остатки средств на счетах и другая информация


Для оценивания решений были выделены группы датасетов: check (открытый для участников), public (скрытый от участников, но можно видеть результат во время соревнования), private (набор, на котором подводятся итоги соревнования)

В каждом таком наборе три задачи на регрессию и пять на бинарную классификацию. Решения работали на наборах данных различных размеров: от 1Мб и 300 строк до 1Гб и 1 млн строк. Жюри еще до начала соревнования подготовило датасеты, тестирующая система уже проверила их в автоматическом режиме, а на сайте сейчас можно видеть результаты (с учетом ограничений, связанных с интригой).

Решения принимались в формате архивов с кодом. Участникам нужно было построить алгоритм, который реализует полный цикл решения задачи машинного обучения автоматически, получая на вход данные, а на выходе возвращая готовый ответ.
Решения участников должны были вписаться в заданные ограничения:

  • решению доступны ресурсы
  • решение не имеет доступа к ресурсам интернета
  • максимальный размер упакованного и распакованного архива с решением: 1 Гб
  • архив распаковывается в файловую систему, находящуюся в оперативной памяти (ramfs), доступную решению для записи
  • остальное содержимое контейнера доступно только для чтения
  • CSV с набором данных не превышает 3 Гб
  • Ограничения нужны для того, чтобы достичь честного сравнения, поставив участников в равные технические условия.

Вот что представляет собой система оценки в данном соревновании:
1. Для каждой задачи (датасету) по тестовой части выборки считается метрика, специфичная для задачи (RMSE для регрессии, ROC-AUC для бинарной классификации).
2. Для каждой задачи (датасета) производится перевод значения метрик участников в общую шкалу по следующей схеме. За наилучшее по метрике решение (среди всех отправленных и успешно протестированных решений) дается 1 балл, бейзлайн-решение оценивается в 0 баллов. Участники, находящиеся по метрике между наилучшим и бейзлайн-решениями получают пропорциональное количество баллов между 0 и 1. Решения по качество нижу бейзлайна оцениваются в 0 баллов. Если наилучшее решение и бейзлайн решения совпадают, то все участники получают 0 баллов. Если решение участника выдаёт на задаче ошибку или не проходит по временному ограничению, то оно получают за эту задачу 0 баллов.
3. Итоговый результат каждого участника считается как сумма результатов по каждой задачи после преобразования в общую шкалу. В общем лидерборде участники ранжируются по итоговому результату

Итоги соревнования доступны здесь.

Кроме основного зачета, участники боролись за приз в номинации «Лучшее публичное решение». На протяжении всего конкурса они публиковали свои подходы к решению задачи AutoML на GitHub, а победители определились по количеству GItHub stars.

На конференции будет отдельная секция, посвященная SDSJ»18, где победители расскажут о своих решениях и ответят на все вопросы.

Еще раз оставляем ссылку на онлайн трансляцию конференции, чтобы все заинтересовавшиеся могли посмотреть Sberbank Data Science Day.

© Habrahabr.ru