DeepMind представила алгоритм игрока Player of Games

DeepMind представила систему искусственного интеллекта Player of Games, которая может играть в покер, шахматы, Go и другие игры. Компания давно инвестирует в игровые системы искусственного интеллекта. В DeepMind отмечают, что игры, хотя и не имеют очевидного коммерческого применения, демонстрируют когнитивные способности искусственного интеллекта. 

Абстрактное представление игры Scotland Yard в Player of Games / DeepMindАбстрактное представление игры Scotland Yard в Player of Games / DeepMind

Player of Games, в отличие от других игровых систем DeepMind, разработанных ранее (AlphaZero, AlphaStar) может хорошо работать как в играх, где работает стратегия (шахматы), так и в играх, где важны другие факторы (покер).

Player of Games в рамках таких игр учится рассуждать о целях и мотивах других их участников, что прокладывает путь для ИИ, который сможет успешно работать с другими, в том числе решать вопросы, требующие переговоров и достижения компромисса. 

»Player of Games учится играть в игры с нуля, просто постоянно играя самостоятельно», — сказал старший научный сотрудник DeepMind Мартин Шмид, один из соавторов Player of Games. — »Это шаг к общности — Player of Games может играть как в игры с идеальной, так и с несовершенной информацией, жертвуя при этом некоторой производительностью».

Хотя Player of Games чрезвычайно универсален, он не может играть в любую игру. Шмид говорит, что система должна учитывать все возможные перспективы каждого игрока в данной игровой ситуации. Хотя в играх с идеальной информацией есть только одна перспектива, в играх с несовершенной информацией таких позиций может быть много — например, около 2000 в покере. Более того, в отличие от MuZero, преемника DeepMind AlphaZero, который подбирает правила для каждой игры, Player of Games нуждается в ознакомлении с ними.

В своем исследовании DeepMind оценила Player of Games, обученный с использованием чипсетов ускорителей Google TPUv4, по игре в шахматы, Go, техасский холдем и стратегической настольной игре Scotland Yard. Для Go был организован турнир на 200 игр между AlphaZero и Player of Games, а для шахмат DeepMind сравнил Player of Games с лучшими системами, включая GnuGo, Pachi и Stockfish, а также AlphaZero. Матч по техасскому холдему от Player of Games проводился с помощью общедоступного Slumbot. В Scotland Yard алгоритм играл против бота, разработанного Джозефом Антониусом Марией Нейссеном, которого соавторы DeepMind прозвали «PimBot». В шахматах и Go Player of Games доказал преимущество перед Stockfish и Pachi в определенных, но не во всех конфигурациях, и выиграл 0,5% игр у AlphaZero. Несмотря на эти проигрыши, DeepMind считает, что Player of Games выступал на уровне «лучшего человека-любителя» и, возможно, даже на профессиональном уровне.

Player of Games оказался лучшим в покере и Scotland Yard. 

Шмид считает, что Player of Games — это большой шаг к действительно общим игровым системам, но далеко не последний. Общая тенденция в экспериментах заключалась в том, что алгоритм работал лучше при наличии большего количества вычислительных ресурсов (игрок обучен на наборе данных из 17 млн «шагов» или действий только для игры в Scotland Yard), и Шмид ожидает, что этот подход будет масштабироваться в обозримом будущем. 

По оценкам экспертов ИИ, обучение AlphaZero обходится в десятки миллионов долларов. DeepMind не раскрывает бюджет на исследования для Player of Games, но он вряд ли будет ниже. 

Название алгоритма Player of Games отсылает к научно-фантастическому роману шотландского писателя Иэна М. Бэнкса, опубликованном в 1988 году. Он повествует о Джернау Гургехе, известном своими способностями к настольным играм.

Комментаторы отмечают, что работу алгоритма было бы интересно проверить в других карточных играх.

В прошлом месяце DeepMind показала, как ее система искусственного интеллекта помогает математикам в поиске информации для разработки теорем. Совместная работа исследователей и ИИ уже привела к прорыву в гипотезе в области топологии и теории представлений, а также к доказанной теореме о структуре узлов.

В октябре DeepMind впервые отчиталась о прибыльности. Компания закончила 2020 год с прибылью в £43,8 миллиона ($59,6 миллиона).

© Habrahabr.ru