Фестиваль Данных в музее Москвы, как это было

95de46453bac40e08b6c42b26baf590d.jpg

Привет Хабр,

Итак, мы провели Фестиваль Данных на выставке новых технологий SMIT в Музее Москвы, о котором писали здесь.

Это первое мероприятие из серии, в которой мы собираем экспертов из разных областей бизнеса, науки и государственного управления и рассказываем про аналитику данных.

Хранение и анализ данных, которые были прерогативой узкого круга компаний и людей теперь начинают затрагивать жизнь практически всех. По этой причине мы и начали данную серию мероприятий, где мы широкой аудитории рассказываем про данные и их аналитику.
Итак, что же было на Фестивале:

442f8e6a3ca9481bb80158ccea6fee61.jpg


Сначала, Андрей Устюжанин (Руководитель совместных проектов Яндекса и CERN) рассказал, как машинное обучение помогает изучать Черную Материю.

a018a1077a9f42c88086522cf470f7ff.jpg


Далее, Алексей Воробьев и Кирилл Краснощеков (ГУП «НИ и ПИ Генплана Москвы») рассказали про использование Больших Данных для планирования города.

4af0469c9f804c65b59895ae108ff6b6.jpg


Наталья Калайтанова (Медиаэксперт компании DCA) рассказывала про изменение подхода к медийным размещениям с помощью аналитики.

c236462683804f328031e0d11a861cc4.jpg


Никита Котляров из Avito рассказывал про использование машинного обучения для блокирования обманных объявлений на Авито.

8c071972e6f14d6086702fe7a47db563.jpg


Юрий Кашницкий из Школы Данных «Билайн» рассказал про важность анализа выбросов в данных на примере выявления очень успешных моделей Playboy по своим параметрам не подходящим под классические каноны.

69cf13241d1f4c02b7a297ae88944528.jpg


Ростислав Яворский (Доцент департамента анализа данных и искусственного интеллекта факультета компьютерных наук НИУ ВШЭ) рассказывал про анализ социальных сетей.

00a78c673e9a47f9bcc78aca3d1d726e.jpg


Сергей Марин из департамента Big Data Билайн и основатель Школы Данных «Билайн» рассказал про использование Больших Данных для создания персонализированного клиентского опыта на уровне каждого клиента.

e4cca8efb079406fa5e19091e33e77fc.jpg


Все презентации доступны здесь.

Также, в рамках Фестиваля мы провели Хакатон по анализу данных. Темой Хакатона была — предсказание связей между абонентами.

6ffb1a948a334e0d85d86273d886112d.jpg


Специально для хакатона мы сгенерировали синтетические данные максимально близкие к реальности, которые описывали граф связей с между различными абонентами. Вершин графа было более миллиона.

После, мы специальным образом зашумили эти данные, разрушив некоторые из связей. Задача была — восстановить максимальное количество связей попутно, не создав множество новых ребер, раннее не существующих.

Мы не ограничивались простым фактом существования какой-либо связи между пользователями, но также добавили информацию о величине и форме связи между ними.

Описание полей файла:

A — Id абонета А,
B — Id абонета B,
x_A — Id оператора абонета А,
x_B — Id оператора абонета В,
c_AB — количество звонков от А к В,
d_AB — длительность звонков от А к В,
c_BA — количество звонков от В к А,
d_BA — длительность звонков от В к А,
s_AB — количество смс от А к В,
s_BA — количество смс от В к А

Участникам также был предоставлен код для ознакомления со структурой формата решения и внутренних проверок:

Benchmark.ipynb — пример простого решения с конвертацией ответа в специальный формат требуемый для проверки результатов.
Checker.ipynb — код, которым будет проверяться качество решения.

d7044009cecc48e4bba242a53f792da3.jpg

В ходе Хакатона мы поняли, что предлагаемая задача интереснее и сложнее чем нам виделось раньше, и мы решили не ограничиваться исходными четырьмя часами, дав зарегистрировавшимся участникам время до 18:00 среды 23 декабря. Для этого, мы оперативно перевели Хакатон в онлайн режим.

Последующий формат онлайн взаимодействия был следующий:

Была создана форма в гуглформах, в которой зарегистрированные участники указывали следующую информацию

Имя и Фамилия (или никнейм)
Почта
Прямая ссылка на выложенный submission.csv
Комментарий — на случай вопросов

Итоговый документ был виден только организаторам.

Раз и даже чаще чем в день мы:

Скачивали решения и прогоняли их через чекер с исходными данными
Обновляли рейтинг и результаты участников
Отвечали на вопросы

После 6 вечера в среду мы подвели результаты и определили победителей. Ими оказались:

1-ое место: Александр Кукушкин. Приз: Сертификат на обучение в Школе Данных Билайн
2-ое место: Антон Устинов. Приз: Билет на Квест
3-ье место: Георгий Зубриенко. Приз: Наушники

Александр выложил описание своего решения здесь.

Все ребята большие молодцы! Все призы мы торжественно вручим в первую неделю января в центральном офисе «ВымпелКом» в Москве.

В целом, хочется сказать Огромное Спасибо всем участникам нашего Фестиваля, а также выразить надежду, что само мероприятие и организация понравились.

Это первое из подобных мероприятий и в следующем году мы планируем их много больше. Следите за анонсами на Хабре и подписывайтесь на новости на странице Школы.

В довершение этого года и в продолжение парадигмы рассказать про аналитику данных широкой аудитории мы выступили в эфире радио Комсомольская Правда, где рассказали про аналитику данных, про тренды и про Школу Данных. Запись эфира доступна здесь.

Всех с Наступающими Праздниками и до встреч в Новом Году!

© Habrahabr.ru