Итоги Black Box Challenge

Привет, Хабр! Три месяца назад мы объявили о старте соревнования по машинному обучению BlackBox Challenge, а недавно оно закончилось. В этом посте организаторы соревнования расскажут о том, как всё прошло.

2029c044f41b4f9395a8249cb5b089af.png


Вдохновившись результатами Google DeepMind по reinforcement learning, мы поняли, как здорово, когда система не использует человеческую экспертизу, а сама учится понимать окружающую среду. Мы решили сделать соревнование, в котором участникам нужно создать как раз такую систему.

Что за челлендж?


Формат BlackBox Challenge это синтез классического формата соревнований по машинному обучению (как на сайте Kaggle) и соревнований по программированию искусственного интеллекта (например, Russian AI Cup). Участником предлагалось написать бота, который играет в игру с неизвестными правилами — на каждом шаге боту дается 36 переменных, описывающих состояние среды, и он должен выполнить одно из четырех действий.

С одной стороны, соревнование получилось интерактивным — нужно было написать агента, который взаимодействует с внешней средой. С другой стороны, законы этой среды были неизвестны участникам — это вынудило их не использовать априорные знания об устройстве игры, а применять современные методы машинного обучения.

Итоги


Соревнование длилось три месяца, за это время было загружено 3347 решений, из которых 1459 — это нетривиальные решения, которые не совпадают с опубликованным примером (baseline агент).

Число зарегистрированных участников — 1360, из которых 415 загрузили по крайней мере одно решение.
93 участника смогли превзойти baseline на валидационном уровне.

Призы


Призовой фонд составил 800,000 рублей:

  • 1 место: 300,000 рублей
  • 2 место: 175,000 рублей
  • 3 место: 125,000 рублей
  • 4–8 места: Xbox One
  • специальный приз 100,000 рублей за самое интересное решение, выбранное экспертами DCA


В последние недели соревнования в лидерборде шла ожесточенная борьба, и судьбу призов решили считанные баллы.

C большим отрывом победителем соревнования стал участник insight с результатом 4693 очков на финальном уровне.

Участники со второго по пятое место — 5vision, alexandrbugaychuk, grmel89 и wrwrwr — идут очень близко друг к другу. Разрыв между результатами 2-го и 5-го места меньше 150 очков! Это поразительно мало, и чтобы разобраться, мы построили графики лучших решений на валидационном и финальном уровне (обратите внимание, что графики построены для лучших решений на финальном уровне).
866a3fddee0a4fb99394b4a8e01988fd.png
3ab731040d7b45e1ad3598c2e775e210.png
Из них видно, что и сами решения этих участников тоже очень близки и разница в результатах обусловлена случайностью, присущей игре. В этот раз фортуна была на стороне 5vision и alexandrbugaychuk, поздравляем! Призовые 6–8 места заняли VictorGNC, cosionix и AGilmullin (Kesha), преодолев базового бота более, чем на 1000 очков. Это отличный результат.

Участники SDil и ottogin замыкают первую десятку, также обогнав базового бота более, чем на 1000 очков.
Полная таблица финальных результатов доступна по ссылке.

Номинация «Самое интересное решение»


Кроме основного набора призов, мы также разыгрывали номинацию «Самое интересное решение», в которой эксперты DCA оценивали изящность и перспективность подходов участников.

Большинство решений оказались многопараметрическими моделями, в которых параметры менялись случайным образом, часто с помощью эволюционных алгоритмов. Качество модели определялось по результату на одном из игровых уровней. Судя по результатам, такие подходы оказались достаточно эффективными. Похожим образом и был получен наш линейный бот (baseline).

Было, однако, несколько участников, которые действовали по-другому и тоже достигли хороших результатов. Экспертам из DCA было трудно выбрать самое интересное решение, но в конце концов победило решение команды 5vision, которым удалось реализовать изящную идею с использованием policy iteration. Команда получает дополнительные 100,000 рублей.

Также хочется отметить решения guillermobarbadillo — единственный кому удалось применить Q-learning, ottogin — за найденный способ supervised обучения нейронной сети и, конечно, insight — за необычный и эффективный подход к сэмплированию.

Что дальше


Мы открыли систему проверки для тех, кто хочет порешать черный ящик в своё удовольствие и проверить идеи на которые не хватило времени.
Судя по отзывам, многим понравился такой формат соревнования, поэтому в скором времени мы планируем провести соревнование с новой интересной интерактивной задачей.

По вопросам сотрудничества мы доступны по адресу wow@blackboxchallenge.com

Спасибо за участие!

© Habrahabr.ru