[Перевод] Могут ли Pictionary и Minecraft стать тестами на сообразительность для ИИ?

Большинство стандартных бенчмарков для ИИ не дают нам достаточно полезной информации. Они часто предлагают задачи, которые можно решить простым запоминанием или охватывают темы, не имеющие отношения к реальным потребностям пользователей.

В ответ на это некоторые энтузиасты искусственного интеллекта начинают использовать игры как способ тестирования способности ИИ решать нестандартные задачи. 

Пол Калкрафт, фриланс-разработчик в области ИИ, создал приложение, в котором две ИИ-модели играют в игру, похожую на Pictionary. Одна модель рисует картинки, а другая пытается угадать, что на них изображено. 

«Мне показалось, что это очень весело и, возможно, интересно с точки зрения возможностей моделей», — рассказывает Калкрафт в интервью TechCrunch. — «Я сидел дома в облачный субботний день и реализовал это». 

Идея Калкрафта была вдохновлена похожим проектом британского программиста Саймона Уиллисона, который поставил перед моделями задачу нарисовать векторное изображение пеликана, едущего на велосипеде. Уиллисон, как и Калкрафт, выбрал задачу, которая, по его мнению, заставила бы модели «думать» за пределами данных, на которых они обучались.

«Идея заключается в том, чтобы создать эталон, который нельзя «обмануть», — сказал Кэлкрафт. — Эталон, который не может быть побеждён с помощью запоминания конкретных ответов или простых шаблонов, которые были встречены на этапе обучения». 

Minecraft также попадает в эту категорию систем, считает 16-летний Адонис Сингх. Он разработал инструмент mc-bench, который даёт модели управление персонажем в Minecraft и тестирует её способность проектировать структуры, по аналогии с проектом Microsoft — Project Malmo. 

«Я считаю, что Minecraft проверяет модели на изобретательность и дает им больше свободы действий», — сказал он в интервью TechCrunch. «Он не так ограничен и не так насыщен, как другие игры для тестирования». 

Использование игр для оценки искусственного интеллекта — далеко не новшество. Эта идея существует уже десятилетия. Еще в 1949 году математик Клод Шеннон утверждал, что игры, такие как шахматы, являются достойным испытанием для «умного» программного обеспечения. В более поздние годы Alphabet и DeepMind разработали модели, способные играть в Pong и Breakout; OpenAI обучил ИИ соревноваться в матчах Dota 2, а Meta создала алгоритм, который мог бы составить конкуренцию профессиональным игрокам в техасский холдем. Однако сейчас ситуация изменилась. Энтузиасты начали подключать большие языковые модели (LLM) — системы, которые способны анализировать текст, изображения и другие данные — к играм, чтобы проверить, насколько хорошо они умеют решать логические задачи. 

Сегодня существует целое разнообразие LLM, от Gemini и Claude до GPT-4, и каждая из них имеет свои особенности, так сказать, свой «характер». Они «чувствуются» по-разному при каждом взаимодействии, что является явлением, которое трудно поддается точной количественной оценке.

e37c55ce6486786e7ff47f47b9fa2ad8.png

Модели больших языков (LLM) известны своей чувствительностью к формулировке вопросов и общей непредсказуемости, что делает их работу трудной для анализа, отмечает Кэлкрафт.

В отличие от текстовых бенчмарков, игры предлагают визуальный и интуитивно понятный способ оценки поведения и производительности модели, добавляет Мэттью Гуздиал, исследователь в области ИИ и профессор Университета Альберты. 

«Можно рассматривать каждый бенчмарк как упрощение реальности, ориентированное на решение определённых типов задач, таких как логика или коммуникация», — говорит он. «Игры — это просто ещё один способ принятия решений с использованием ИИ, и люди начинают использовать их как подход, аналогичный другим». 

Те, кто знаком с историей генеративного ИИ, наверняка заметят, что Pictionary схож с генеративными состязательными сетями (GAN), где модель-генератор отправляет изображения модели-дискриминатору, которая их оценивает. 

Кэлкрафт считает, что Pictionary может продемонстрировать способность LLM понимать такие концепты, как формы, цвета и предлоги (например, различие между «в» и «на»). Хотя он не утверждает, что эта игра является надежным тестом на логическое мышление, он подчеркивает, что для победы нужна стратегия и умение понимать подсказки —, а это задачи, с которыми модели обычно сталкиваются с трудом.

«Мне нравится почти антагонистическая природа игры в Pictionary, которая напоминает GAN, где есть две роли: одна рисует, а другая угадывает», — говорит он. «Лучший художник — не тот, кто более искусен, а тот, кто способен наиболее чётко передать идею другим моделям LLM (в том числе менее быстрым и более слабым!).» 

«Pictionary — это упрощённая задача, которая не имеет немедленного практического применения», — предупреждает Кэлкрафт. «Тем не менее, я считаю, что пространственное восприятие и мультимодальность являются критически важными аспектами для развития ИИ, и LLM Pictionary может стать первым шагом на этом пути.»

067c923d159eef76d787f2a86b2196b0.png

Сингх считает, что Minecraft — полезный эталон, который может служить индикатором способности моделей LLM к рассуждениям. По его словам, «Результаты, которые я получил на тех моделях, которые тестировал, полностью совпадают с тем, насколько я доверяю модели в вопросах, связанных с логическим мышлением». 

Однако, не все разделяют его мнение. Майк Кук, научный сотрудник Университета Королевы Марии, специализирующийся на искусственном интеллекте, не считает Minecraft каким-то особенно уникальным инструментом для тестирования ИИ. «Мне кажется, что увлечение Minecraft приходит от людей, не имеющих отношения к играм, которые, возможно, полагают, что, поскольку игра выглядит как «реальный мир», она тесно связана с реальными процессами мышления и действия», — сказал Кук в интервью TechCrunch. 

«С точки зрения решения задач, Minecraft не так уж сильно отличается от таких видеоигр, как Fortnite, Stardew Valley или World of Warcraft. Это просто игры с разной оберткой, которые, возможно, кажутся ближе к реальной жизни из-за действий, вроде строительства или исследования». Действительно, даже самые продвинутые системы ИИ для игр не достаточно хорошо адаптируются к новым средам и не могут быстро решать задачи, с которыми не сталкивались раньше. Например, модель, превосходно играющая в Minecraft, вряд ли продемонстрирует те же результаты в Doom, где требуются совершенно другие навыки.

«Я думаю всё что Minecraft действительно может предложить с точки зрения ИИ, — это крайне слабые сигналы вознаграждения и процедурный мир, который создаёт непредсказуемые вызовы», — продолжил Кук. «Но на самом деле он не намного более «реалистичен» в этом плане, чем любая другая видеоигра».

Тем не менее, наблюдать за тем, как модели LLM строят замки в Minecraft, по-прежнему увлекательно.

© Habrahabr.ru