Граали соревнования Telecom Data Cup. Самое жаркое впереди

d3c752ef0fefb6906364664da43c05fe.png

В начале ноября стартовал чемпионат по машинному обучению и анализу данных под кодовым названием Telecom Data Cup, организаторами которого являются Mail.Ru Group и МегаФон.

Соревнование запущено на уже известной платформе ML Boot Camp. На ней стараемся проводить большинство своих контестов по анализу данных. Это соревнование уже второе по счету в этом году и седьмое за всё время существования проекта. Предыдущие чемпионаты открыты в режиме песочницы, что позволяет вам в любое время дня и ночи тренироваться в решении прошлых заданий.

На текущее соревнование зарегистрировалось свыше 2500 пользователей, 1700 человек скачали датасет, загружено 7800 различных решений, а сообщество в чате перешагнуло отметку в 1600 участников. Завершится соревнование 16 декабря, поэтому пора уже вступать в бойцовский клуб, если вы еще не в нем. Приветствуем и помогаем всем. Кофе или что-то свое собственное и бодрящее вам в помощь :)

4aee85e1567efae3ccc62a08d84b7d7e.jpg

В футере статьи вы найдете полезные ссылки и материалы по этому и предыдущим соревнованиям. Главное, что уже сейчас вы погрузитесь в мир задачи Telecom Data Cup, что позволит вам быстро втянуться в процесс и получить удовольствие от настоящих исследований.

Коротко про задачу


Те, кто уже в курсе того, что происходит на чемпионате, могут переходить к следующему разделу.

Все мы устаем от навязчивых телефонных и интернет-опросов «маркетологов». Представьте, как вам звонят и спрашивают, смотрите ли вы сейчас телевизор, какой канал, сколько устройств в данный момент включено и какая телепередача по ним идет. Боже, так и хочется бросить трубку (так часто и делаем). Пользователи негодуют, совсем неохотно делятся обратной связью, что негативно влияет на качество предоставляемых услуг. Проблема требует решения.

В этом соревновании нужно погрузиться в мир телекоммуникаций, чтобы на основе анонимизированных пользовательских данных, предоставленных телеком-оператором МегаФон и полученных в ходе опросов настоящих живых клиентов, предсказать, удовлетворены ли абоненты качеством связи.

Было опрошено 9443 абонента. Результатом опроса является индекс удовлетворенности для каждого абонента, равный нулю (0 — доволен) или единице (1 — не доволен). Необходимо с максимально возможной точностью выявить недовольных клиентов.

Метрикой, оценивающей ваши решения, выбран ROC AUC. Предсказание нужно сделать для 5221 абонентов в том же порядке, что и в файле subs_csi_test.csv. Данные можно скачать на сайте платформы. Предварительные результаты будут формироваться по ответам для 2088 абонентов, а финальные — по ответам для 3133 абонентов (40/60). Максимальное количество загрузок решений в день — 5, а количество выбираемых решений — 2.

Граали


f0f0a2796f1430fb06a26e9a9dc42f13.jpg

Задача вызвала любопытство у сообщества. Участники выбирают разные пути решения. Одни генерируют N моделей, просматривают их, стекают и стекают, и… вуаля, — готово. Другие генерят фичи, изучают дисциплину «Информационные системы и технологии» по лекциям, выложенным в репозиторий, и вроде тоже всё нормально. А некоторые надеются на рандом с хорошим сидом.

Для того, чтобы лидерборд в конце конкурса приобрел более красивый вид, хотим поделиться с вами некоторыми Граалями по задаче.

Грааль №0.


0a69f55d1aab15a392834bfa85447ac4.png

Обратите внимание на чат и Github-репозиторий с лекциями. Там очень много полезной информации. Многие из нас мало представляют, как работает сеть. Кто ищет, тот всегда найдет! В репозиторий добавили короткую презентацию с описание работы БС и файл с распределением признаков по услугам.

5472d783481a6db12cd759ac7ae2cf26.png

f20521e1bbc5a962a696497aa3a552f1.png

В чате участники пытают организаторов. Пытаемся сдерживаться, но сложно.

fefab777fffabd689647e49591cb4113.png

Грааль №1


В предложенных данных поле cell_lac_id обозначает одну соту. Каждая сота принадлежит только одному поколению связи: 2G, 3G, 4G (LTE). Рекомендуем попробовать определить для каждой соты, к какому поколению она принадлежит.

Грааль №2


У каждого телефона есть максимальная технология передачи данных, которую он поддерживает: 2G, 3G, 4G. Информация об этом содержится в поле INTERNET_TYPE_ID таблицы subs_features. Поле закодировано. Подумайте, как можно определить, какое из значений этого поля соответствует какой технологии.

Грааль №3


Обратите внимание: если у какого-то клиента есть телефон с поддержкой 4G, но по истории мы видим, что он часто качает трафик через соты 3G или даже 2G, как этот факт может влиять на его восприятие качества связи?

Грааль №4


У клиентов есть соты, на которых они бывают часто и регулярно (дом, работа, дорога, магазин и т.п.), и соты, на которых они бывают редко и мало. Как вы думаете, качество каких сот может быть важнее для клиента? Как можно определить важные соты?

Грааль №5


В таблице subs_bs_consumption для интернет-трафика есть информация как об объеме переданных данных (SUM_DATA_MB), так и о затраченном на это времени (SUM_DATA_MIN). Какие сведения об опыте клиента на соте можно извлечь из этих данных?

Грааль №6


В таблицах bs_avg_kpi и bs_chnn_kpi есть информация о большом количестве характеристик сот как в среднем за день, так и в час наибольшей нагрузки (ЧНН), причем с историей за несколько месяцев. Попробуйте выделить группы сот, похожих друг на друга по этим характеристикам. Может быть, есть соты, сильно отличающиеся от общей массы? Что происходит с клиентами, которые часто бывают на этих сотах?

На этом Граали от организаторов закончились. Уверены, что они вам помогут в достижении лучшего скора на привате. Не получается — загружайте рандом, мало ли, взлетит на футболку. Всё самое интересное впереди. В конце чемпионата лидерборд будет гореть :) Запомните пятерку!

e20ffcdb312e52111d14eef19b99845f.png

Расписание


Дата окончания чемпионата — 16 декабря, а 22 декабря награждение в офисе МегаФона.

Подарочки


1-е место: 400 000 рублей;
2-е место: 200 000 рублей;
3-е место: 100 000 рублей.

Традиционно — топ-200 получат футболки с символикой чемпионата.
Кроме того, есть специальные номинации:

  • За самый «вжух» вниз на привате — SSD Kingston 120 Gb.
  • Каждый участник, занявший место, кратное 50, получит футболку со стикером из пака сообщества.


6fb90bb68ccba4407a6e4870d85b1980.png

Сообщество


Присоединяйтесь к нашему сообществу в Telegram. Вы всегда можете задать вопросы, получить советы экспертов в области Data Science. Сообщество чемпионатов Mail.Ru Group — это нетворкинг, где легко найти единомышленников.

Полезные ссылки


  1. ML Boot Camp I (Machine Learning Boot Camp — как это был…)
  2. ML Boot Camp II (ML Boot Camp 2016. Новичок в Топ-10, «Оценка производительности». Очень прост…)
  3. ML Boot Camp III. Бинарные данные (Как мы делали ML Boot Camp III, Победное решение конкурса ML Boot Camp I…, ML Boot Camp III: предсказание ухода пол…)
  4. ML Boot Camp IV. Задача с секретом (ML Boot Camp IV. Четвертый. Секретный. Т…, ML Boot Camp IV. С 1 в паблике на 35 в п…, Стабилизация и процессы Дирихле в решени…)
  5. ML Boot Camp V. Предсказание ССЗ (AgeHack — первый онлайн-хакатон по продл…, ML Boot Camp V, история решения на 3 мес…, Meetup по итогам чемпионата ML Boot Camp)
  6. ML Boot Camp VI. Прогноз отклика аудитории на интернет-опрос (ML Boot Camp VI. Прогноз отклика аудитор…, История первого места на ML Boot Camp VI).

© Habrahabr.ru