Алгоритм Uber добился сверхчеловеческих показателей в играх на Atari 260003.05.2020 21:37

ИИ-алгоритм Go-Explore, созданный компанией Uber AI, проходит любую игру на Atari 2600 с показателями, превышающими средние человеческие, включая игры, в которых ранее искусственный интеллект испытывал трудности. Как сообщают авторы алгоритма, такого результата удалось достичь с помощью системы, которая может запоминать перспективные состояния и возвращаться к ним, прежде чем приступить к повторному исследованию игры.

Go-Explore исследователи представили в начале 2019 года. Сейчас он показывает результаты «на порядок лучше», чем у своих предшественников, во многих играх, пишет Engadget. Go-Explore стал первым алгоритмом, преодолевшим все уровня Montezuma«s Revenge и получившим «почти идеальный» показатель в Pitfall.

«Эти две игры Atari — Montezuma«s Revenge и Pitfall — служат эталоном для обучения с подкреплением. В Montezuma«s Revenge Go-Explore набирает в среднем более 43 тыс. баллов. Его максимум составляет почти 18 млн баллов, что превосходит мировой рекорд среди игроков-людей. В игре Pitfall средний балл Go-Explore составляет почти 60 тысяч», — сообщали авторы алгоритма в посвящённой ему статье.

При этом, как указывает Джефф Клун из Uber AI, алгоритм Agent57 компании DeepMind достиг аналогичных показателей, но «совершенно другими методами».

Как и в случае с другими подобными проектами, целью Uber AI было не просто создать ИИ, который мог бы поставить рекорды в старых играх. Исследователя также успешно протестировали Go-Explore в нескольких симуляциях простых роботов. Uber AI надеются, что навыки, которые Go-Explore приобрёл в играх Atari, могут помочь улучшить навигацию для роботов и автономных автомобилей.

Компания DeepMind сообщала об аналогичных успехах нейросети Agent57 в начале апреля. Искусственный интеллект смог побить средний результат игроков-людей в 57 играх приставки Atari 2600. Система обучалась в среде Arcade Learning которая представляет собой коллекцию классических игр, которые используются в испытаниях моделей глубокого обучения. Agent57 стал первым алгоритмом, который смог превзойти базовые показатели человека. В частности, Agent57 добился сверхчеловеческого успеха в играх Pitfall, Montezuma«s Revenge, Solaris и Skiing.