Ли Седоль уходит из большого го из-за AlphaGo. Как это понимать?

anufe48i9cmovjr2atttzzxflki.jpeg

В понедельник 25 ноября южнокорейский мастер игры го 9 дана Ли Седоль рассказал в интервью, что он больше не будет участвовать в профессиональных соревнованиях. В качестве главной причины для завершения своей спортивной карьеры Седоль называет появление систем компьютерного го, которые играют лучше любого из людей. Даже если стать лучшим, всё равно будет нечто, что никогда не превзойти, говорит Седоль.

За пределами кругов поклонников го Ли Седоль получил известность благодаря играм против системы AlphaGo, разработанной компанией Google DeepMind. Го из-за своих особенностей долгое время не удавалось оптимизировать так, чтобы компьютеры могли обыгрывать людей. В 2016 году британская DeepMind провела матч из пяти партий, в котором один из лучших из людей — Седоль — проиграл до этого малоизвестной программе.

С той игры прошли три года. За это время улучшенная версия AlphaGo обыграла другого человека-чемпиона, DeepMind выпустила несколько научных работ по нейросети и рассказала о системе AlphaZero, а потом, кажется, потеряла любой интерес к проекту. Лишь сейчас Седоль решил оставить го. Есть ли для его решения другие причины?

О развитии систем компьютерного го и причинах поступка Ли Седоля мы поговорили с 7-кратным чемпионом Европы по го, действующим чемпионом России и членом президиума Российской федерации го Александром Динерштейном.


В январе 2016 года обычно немногословная DeepMind разразилась научной работой, пресс-релизом и видеороликом. Впервые в мире был создан искусственный интеллект, который способен обыграть человека-чемпиона в азиатскую игру го.

На тот момент го считалась одной из последних настольных логических игр, в которую люди могли играть лучше любого компьютерного алгоритма. Как и шахматы, го — игра с совершенной информацией, то есть игроки знают обо всех ходах, которые ранее совершили другие игроки. Но если ни один гроссмейстер уже с 2005 года не может обыграть лучшие из шахматных программ, то компьютерные алгоритмы в го на тот момент играли на уровне любителей.

Два игрока расставляют на доске определённого размера камни чёрного или белого цвета. Цель игры — отгородить на доске камнями своего цвета территорию большего, чем оппонент, размера. Многие из ходов го основаны на интуиции, которую сложно описать алгоритмом.

Вычислительная сложность го связана с большим числом возможных позиций и корректных ходов из них. Задача поиска исхода игры связана с вычислениями функции оптимального значения в дереве поиска, в котором находятся bd ходов. В го количество корректных ходов b ≈ 250, длина игры d ≈ 150. На стандартной доске 19×19 линий возможных позиций в гугол (10100) раз больше, чем атомов по Вселенной.

Программы до AlphaGo полагались на поиск по дереву Монте-Карло для оценки ценности каждого состояния в дереве поиска. При создании AlphaGo к этому алгоритму добавили глубинные свёрточные нейросети. Нейросети обучили с помощью 160 тысяч матчей с сервера игры го через Интернет KGS с 29,4 млн позиций. Дополнительно AlphaGo играла пять тысяч партий против самой себя.

Полученная программа в лабораторных условиях превзошла любые коммерчески доступные продукты и открытые проекты компьютерного го. AlphaGo выиграла 499 матчей из 500 против игроков-программ. Алгоритм нужно было опробовать на человеке, поэтому против программы пригласили играть трёхкратного чемпиона Европы Фань Хуэя. В октябре 2015 года в лондонском офисе Google Хуэй проиграл алгоритму пять из пяти игр.

На тот момент это не было окончательным поражением. Конечно, Хуэй — хороший игрок, но для чемпионатов Европы. Наивысшим уровнем обладают мастера го из основного очага распространения игры — Азии. Поэтому для закрепления результата Google объявила о намерении провести в марте 2016 года в Сеуле матч AlphaGo против Ли Седоля, который на тот момент считался лучшим игроком десятилетия.

Из пяти партий серии Седоль выиграл одну. Лишь в четвёртой игре — когда три победы AlphaGo уже определили исход матча — ИИ признал поражение.

c33be2ff72ea77d2b86cff1792c51dba.jpg
Программисты DeepMind почему-то не предусмотрели драматичного сообщения на случай поражения программы.

DeepMind могла бы удовлетвориться счётом 4:1. Но внутри компании продолжали работать. К июню 2016 года сформировались планы дать AlphaGo поиграть против другого чемпиона го — китайца Кэ Цзе. Матч назначили на май 2017.

С 29 декабря 2016 года на корейском сервере Tygem и китайском Fox начал регулярно играть необычно сильный игрок под именем Magister или Master. Игрок выиграл 60 партий у профессионалов высокого уровня. За победу против незнакомца даже назначали награду. 4 января глава DeepMind Демис Хассабис признался, что этот игрок — новая версия AlphaGo.

AlphaGo Fan играл против Фань Хуэя, игравший против Седоля вариант назвали AlphaGo Lee, в Интернете и против Кэ Цзе играл AlphaGo Master. Каждая из версий требовала для запуска всё меньше и меньше оборудования, но играла сильнее предшественника. В DeepMind оценили, что для игры Fan c Lee на равных первому пришлось бы дать три камня форы, Master оказался сильнее Lee ещё на три камня. Неудивительно, что на Future of Go Summit весной 2017 года Кэ Цзе проиграл новой версии AlphaGo все три игры.

Google не выпустила исходные коды AlphaGo и не продаёт программу. Вероятно, эти игры — лишь демонстрация технологического могущества компании. AlphaGo обязана своим успехом аппаратному вычислительному ускорителю TPU собственной разработки Google. По уменьшению количества необходимых модулей легко отследить увеличение эффективности. Партии игры Фань Хуэя обсчитывали 176 видеоускорителей, против Седоля играли 50 плат TPU, против Цзэ выставили всего одну.

10a7a3dae12772b1fef1501d064fd9a9.png
Вычислительный кластер, который обыграл Ли Седоля.

DeepMind демонстрировала успехи программной разработки. Для обучения трёх первых версий AlphaGo правилам игры требовались сотни тысяч партий людей, в алгоритм заложены некоторые вручную заданные функции. Версия AlphaGo Zero училась играть полностью самостоятельно, а нейросети политики и ценности в ней объединены в одну. За 3 дня самообучения Zero превзошла Lee, за 40 дней — Master. Менее чем за полтора месяца алгоритм с нуля научился играть лучше людей в игру, история которой насчитывает тысячелетия человеческого опыта.

DeepMind так никогда и не выпустила исходные коды AlphaGo. Программу невозможно нигде приобрести или сыграть против неё, с весны 2017 она не играет против людей. Для желающих перенять мудрость AlphaGo есть лишь обнародованные партии продукта. Возможно, Google не хочет ассоциировать свою деятельность с системами компьютерного го.

Зато другие быстро переняли знания из опубликованных данных. Похожая масштабом и охватом деятельности на Google китайская Tencent начала создавать собственный алгоритм почти сразу после самой первой публикации научной работы по матчу Фань Хуэя. За год продукт под названием Fine Art сильно прокачали. Уже в 2017 году на сервере FGS алгоритм впервые набрал 10 дан. На чемпионате компьютерного го Computer Go UEC Cup в марте 2017 года программа Fine Art превзошла 29 алгоритмов и получила право сыграть против чемпиона-человека и одержала победу. За схожесть с программой DeepMind алгоритм Fine Art прозвали «китайский AlphaGo».

AlphaGo Zero и AlphaZero учатся не на основе партий игроков-людей, а в играх против самих себя. Сторонние разработчики пытались повторить и эти программы. Проект с открытым исходным кодом Leela Zero откровенно говорит, что пытается воссоздать описанное в научной работе DeepMind.

Собственную реализацию компьютерного го создал и Facebook. В мае 2018 компания открыла исходные коды проекта ELF OpenGo. Натренированный на 2000 видеоускорителях алгоритм запускается на одной видеокарте. Он играет сильнее четырёх из тридцати лучших игроков го в мире.

Facebook также не скрывала, что работает на основе исследований DeepMind. Об этом говорит не только текст, но и даже названия научных работ: «ELF OpenGo: An Analysis and Open Reimplementation of AlphaZero». На основании ELF OpenGo Facebook создала инструмент для анализа партий игроков-людей. На сегодняшний день эта программа остаётся одной из сильнейших среди общедоступных, её анализируют собственные партии многие профессиональные игроки.

Южнокорейская компания NHN Entertainment также переняла опыт DeepMind. Разработка программы HanDol начались в 2016 году в период общей заинтересованности в AlphaGo. Версия 1.0 вышла в декабре 2017 года, её уровень игры был сравним с уровнем игрока 9 дана. HanDol 1.0 требовала обучения на записях игр людей, HanDol 2.0 переняла идею тренировок только на играх против самой себя. NHN Entertainment утверждает, что HanDol Lee играет не хуже AlphaGo Lee, игроки говорят, что алгоритм чуть хуже AlphaGo Master.

HanDol также зарекомендовала себя как система компьютерного го сильнее людей. К концу января 2019 года программа одержала победу над пятью лучшими в Южной Корее мастерами 9 дана. NHN Entertainment предлагает HanDol как услугу тренировок игроков и анализа партий.


Через три года после публикации первой научной работы DeepMind об AlphaGo от превосходства людей в го не осталось и следа. Сила компьютерных систем в го не вызывает вопросов, к ним уже обращаются за советами, у них учатся. Несколько научных работ и десятки партий без какого-либо доступа к программе —, но по ней снят даже документальный фильм AlphaGo (доступен в пиратском переводе на русский язык).

Тем не менее с матча Ли Седоль — AlphaGo прошло уже больше трёх лет. Почему Седоль решил уйти из го только сейчас?

На наши вопросы ответил 7-кратный чемпион Европы и действующий чемпион России по го Александр Динерштейн.

В 36 лет Ли Седоль прерывает свою легендарную 24-летнюю карьеру. Случается ли в го такое, что многие профессионалы уходят из игры на рубеже 35—40 лет? Каков типичный путь в жизни мастера го 9 дана?

Этот путь во многом зависит от страны, в которой живёт мастер. В Японии профессионалы частенько играют в турнирах до последнего дня своей жизни. К примеру, один из лидеров японского го середины прошлого века Сугиути Масао (9 дан, 1920—2017) играл турнирные партии даже в возрасте 97 лет, правда, уже без особого успеха. В Китае профессионалы частенько завершают карьеру и переходят на тренерскую работу в 35—40 лет. В Корее регулярно проводятся турниры для ветеранов с хорошими призовыми, поэтому здесь не принято выходить в отставку раньше времени.

Но полагаю, что для Ли Седоля, который за свою карьеру заработал десятки миллионов долларов, призовые не играют существенной роли.


Чем в дальнейшем будет жить Седоль? Вероятно, финансовый вопрос он решил себе до конца своих дней, но чем обычно занимаются бывшие чемпионы после ухода из игры?

Открывают свои школы, тренируют детей. Но Ли Седоль за этим замечен не был. Да, его школа го уже давно существует в Корее и в Китае, но здесь просто используется его раскрученное имя. Сам Ли Седоль никого не обучает.

Я слышал, что он поступил в университет и решил получить высшее образование, но я надеюсь, что он не выберет для себя путь, который совсем не связан с Го. Ведь это тот мастер, который может многое передать будущим поколениям.


Чтобы отметить уход из го Ли Седоль в следующем месяце сыграет против системы компьютерного го HanDol. Но чемпион говорит, что проиграет первую игру даже с планируемыми двумя камнями форы. Каковы шансы Седоля в игре против HanDol? В какой форме человек-игрок находится сейчас?

Матч из 3 партий будет проходить на плавающей форе. Если Ли Седоль проиграет на двух камнях, то придется играть на трёх, а потом, возможно, и на четырёх камнях. Но я уверен, что до четырёх камней дело не дойдет. Ли Седоль сейчас занимает 14 строчку в корейском рейтинге го и 54 место в неофициальном мировом рейтинге, но многие по-прежнему считают его одним из сильнейших мастеров в мире.

Победа Ли Седоля над AlphaGo в четвёртой партии матча во многом была случайной — Ли Седоль сильно отставал по очкам, но смог обмануть программу, применив некорректный (но с очень непростым опровержением) ход.

Но я напомню, что все партии того матча игрались на равных. Если посмотреть на современное положение дел, то на равных никто сильнейшие программы обыграть уже не может. Профессионалы берут 2 камня форы у китайской программы FineArt (а она после ухода с арены AlphaGo считается сильнейшей в мире), но на двух камнях программа выигрывает около 95% всех партий.

Думаю, что и Ли Седолю на двух камнях будет непросто, но на трёх он должен справиться. А 4 камня — это уже фора из разряда ладьи в шахматах. Мастера на такой форе проигрывать не должны. Насколько мне известно, шахматисты пока успешно обыгрывают программу с форой в коня, думаю, что и у нас 3 камня — это потолок. И как бы сильно программы не прогрессировали, на 4 камнях обыграть человека они не смогут никогда.


Южнокорейская система компьютерного го HanDol к концу января 2019 года одержала победу над пятью мастерами 9 дана. Где находится HanDol: на уровне AlphaGo Lee (версии для игры с Седолем) или AlphaGo Master (версии для игры против Кэ Цзе)? Есть ли у HanDol потенциал против более поздних и более сильных AlphaGo Zero или AlphaZero?

Те пять партий игрались на равных. Я их смотрел, помню, что шансов у профессионалов не было. Думаю, что сейчас в мире существует несколько программ, которые вполне могли бы составить конкуренцию сильнейшим версиям AlphaGo. Этот вывод можно сделать по анализу партий AlphaGo современными программами. Они находят до 95% ходов, которые играла AlphaGo, и предлагают сыграть именно в эти точки.

Думаю, что Ли Седоль не в состоянии почувствовать разницу между AlphaGo, с которой он сражался в 2016 году, и современными программами. Но у Ли Седоля есть важное преимущество. Тогда он не знал, с кем предстоит иметь дело, и был уверен, что выиграет матч с сухим счётом. Заранее протестировать AlphaGo ему не дали.

Корейские профессионалы вообще не использовали раньше компьютер для изучения го. Помню, как показывал Ли Сангхуну (старшему брату Ли Седоля, у которого тоже 9 профессиональный дан) украинскую разработку начала 2000-х годов — базу партий профессионалов с возможностью поиска по позициям. Он смотрел на неё с большим удивлением, отмечая, что корейцы таким не пользуются и держат знания в голове.

А сейчас программы есть в открытом доступе. Ли Седоль сможет потренироваться, поиграть с ними на разной форе. Да и стратегия го с тех пор сильно продвинулась вперед — люди изучили компьютерные идеи, стараются подражать машинам. Теперь, когда ты смотришь современные партии, не сразу становится понятно, кто их играл — человек или программа — настолько всё стало похоже по дебютам.


Поражение 2016 года не заставило Седоля немедленно отказаться от го. Заметные победы HanDol против корейских чемпионов относятся к началу этого года. В конце 2019 без какого-либо заметного повода он объявил об уходе.

Кроме возросшей силы слабой формы ИИ от DeepMind для ухода Ли Седоля из спорта есть причины в виде судебного конфликта с Корейской ассоциацией падук по поводу финансового вопроса членских взносов. Седоль мог бы играть в составе профессиональной лиги в Китае или Японии, но вопросы национальности от этого заставили отказаться.

Возможно ли, что называть причиной ухода систему компьютерного го — это в большей степени комплимент её разработчикам, а реальная причина более приземлённа? Кривит ли душой Седоль?

Ли Седоль всегда был резок в высказываниях и поступках. Его недовольство политикой Корейской федерации падук (го), которая забирала себе 10% призовых, в том числе в турнирах, сыгранных в других странах, известно давно. Но это не те деньги, ради которых стоит бросать го.

Думаю, что у Ли Седоля перед глазами стоит картина другого легендарного корейского мастера — Ли Чангхо. Человека, который считался сильнейшим в мире до появления на арене Ли Седоля в середине 2000-х годов. Ли Чангхо го не бросил. Он активно играет в турнирах, но откатился аж на 40-е место в корейском рейтинге.

Что любопытно — 44-летний Ли Чангхо не признаёт компьютерные схемы. Он играет так, как играл всю свою жизнь. Утверждает, что не пользуется компьютером и даже телефон имеет с кнопками. Похоже, что и Ли Седоль с компьютерами не особо дружит. А современное профессиональное го (как и современные шахматы) — это теперь многочасовые тренировки с машиной, шлифовка вариантов, поиск новинок.

Ли Седоль, видимо, решил, что здесь ему за молодежью не угнаться. Хотя можно было не бросать Го, а собрать себе штаб, пригласить профессионалов, которые любят эту кропотливую работу. С таких подходом Ли Седоль ещё мог бы держаться на плаву.


У игрока в шахматы поступок Седоля может вызвать улыбку: в шахматах компьютер уже два десятилетия обыгрывает лучших из людей. Шахматисты с этим свыклись.

Систему HanDol предоставляют в качестве сервиса для тренировок. Она может обыграть почти любого человека, поэтому у неё есть чему поучиться.

Бессмысленно ходить в тени гигантов-машин или достаточно отбирать смартфоны на чемпионатах? Мы теперь будем учиться у программ, а не мудрых мастеров-людей? Как вы оцениваете будущее профессионального го в эпоху, когда коммерчески доступны компьютерные системы сильнее человека?

Главный минус — го потеряла статус единственной в мире игры, с которой не может справиться машина. А мы использовали этот лозунг, даже на буклектах для начинающих радостно о нём сообщали. Таинственность пропала. Профессионалы потеряли статус богов, превратившись в простых смертных. Книги по го потеряли свой смысл — если верить программам, они учат нас неправильным вещам. Минусов, конечно, много.

Но главный плюс в том, что теперь необязательно учиться в Китае, Корее, или Японии. Для того, чтобы обыгрывать азиатских профессионалов, теперь достаточно установить себе программу и пытаться играть так, как она это делает.

Но пока, правда, у нас не особо это получается. Турниры с призами в сотни тысяч долларов по-прежнему выигрывают азиаты. А европейцы и американцы, даже те, которые «спят в обнимку с компьютером», по-прежнему им проигрывают. Но, надеюсь, ситуация изменится в будущем, и мы им ещё покажем!

© Habrahabr.ru