Как визуальные головоломки помогут выявить AGI

Привет, Хабр!

Последнее время информационный фон насыщается текстами, восхваляющими GPT-4 и прочие LLM. Некоторые авторы (даже на Хабре) называют GPT-4 сильным искусственным интеллектом (AGI), что, увы, не соответствует действительности. Если модель знает больше, чем человек, это еще не делает её AGI. В конце концов, множество искусственных интеллектуальных систем (разные поисковые машины, информационные системы и т.д.) уже долгое время располагают значительным объемом знаний, но разве они могут производить новое знание? Или это не критерий для AGI?

Если верить одному независимому исследованию, модель GPT-4 очень близко подошла к результату человека в публичном тесте Тьюринга: 0.5 против 0.66 [4]. Логично предположить, что следующая версия GPT превзойдет этот результат и будет признана AGI. Не все так просто. Причина в небольшой детали: мало говорить как человек, нужно еще и уметь мыслить как человек.

Чем ближе LLM приближаются к уровню человека в тесте Тьюринга, тем очевиднее тот факт, что этот и многие другие инструменты не позволяют оценить их умственные способности. Для этой задачи нужны другие методы. Одним из таких инструментов можно считать датасет Abstraction and Reasoning Corpus (ARC), ставший основой для ежегодного соревнования Abstraction and Reasoning Challenge или ARC Prize. Cовокупный призовой фонд ARC Prize 2024 составляет 1.1 млн долларов США.

Ранее на Хабре публиковался краткий конспект статьи [2], посвященной датасету, но, на мой взгляд, без подробного объяснения некоторых важных идей. Кроме того, с тех пор ARC получил признание исследователей ИИ и часто фигурирует в публикациях в качестве бенчмарка.

Узкий и общий интеллект

Использовать набор данных ARC для сравнительной оценки интеллекта искусственного ИИ и человека предложил Франсуа Шолле в 2019 г. Шолле известен как исследователь ИИ в корпорации Google, автор книги «Глубокое обучение на Python» и один из создателей библиотеки Keras. В своей статье «О мере интеллекта» он раскритиковал существующие инструменты для оценки интеллекта искусственных систем. Досталось и знаменитому тесту Тьюринга, который Шолле назвал «бесполезным» для прогресса в этой области, потому что он основывается на ненадежном мнении людей, не имеющих четких инструкций. Напомню, в контексте оценки умственных способностей искусственных интеллектуальных систем, тест Тьюринга (он же игра в имитацию) предлагает испытуемому задавать вопросы двум другим собеседникам, которых он не видит. Один из них человек, другой — компьютер. Компьютер должен выдавать себя за человека так, чтобы испытуемый подумал, что он и есть настоящий человек. Многие верят, что тест может стать лакмусовой бумажкой появления сильного искусственного интеллекта. На картинке ниже показано как тест Тьюринга видит генеративная сеть Ideogram от Google.

Город просыпается. Наступает день. Теперь пусть каждый скажет почему он точно не искусственный интеллект.

Город просыпается. Наступает день. Теперь пусть каждый скажет почему он точно не искусственный интеллект.

Для Шолле главная проблема методов оценивания интеллекта заключается в отсутствии строгого представления об этом предмете исследования в компьютерных науках. Большинство методов построены на заимствованиях из психологии, не прошедших критического переосмысления. Еще хуже когда исследователи вовсе пренебрегают накопленным опытом психологов и создают методы оценивания интеллекта, исходя только из своих представлений. Возможно именно так появился «узкий» подход к оценке интеллекта (narrow AI evaluation), который во главу угла поставил оценку навыков решения конкретных задач.

Такими навыками могут быть, например, умение играть в шахматы, или поиск скрытого предмета, или распознавание объектов и т.д. Важно отметить, что имитация общения с человеком тоже всего лишь один из навыков. Если интеллектуальная система обыгрывает Каспарова или либо другого гроссмейстера, значит ли это, что она обладает лучшими интеллектуальными способностями? Безусловно нет. С большой уверенностью можно сказать, что господин гроссмейстер помимо умения просчитывать комбинации имеет другие способности. С искусственными интеллектуальными системами дело обстоит иначе. Deep Blue, какой современный литературный жанр предпочитаешь? E2-E4.

Люди — счастливые обладатели естественного интеллекта — способны обучаться на малом количестве данных и использовать накопленный опыт для решения новых задач, с которыми прежде не сталкивались. Шолле посчитал необходимым отразить это в определении интеллекта и учитывать при разработке методов его оценки. В основу его подхода легло утверждение, что интеллект любой системы выражается в эффективности приобретения ею навыков при выполнении ряда задач с учетом априорных значений, опыта и сложности обобщения. При этом задачи должны отличаться друг от друга и обладать некоторой новизной для оцениваемой системы, т.к. только так можно выявить силу обобщающей способности модели.

Собственно способность обобщать, или генерализация, и есть главная интеллектуальная способность. Чем сильнее эта способность, тем выше интеллект. Шолле предлагает учитывать иерархию генерализаций (см. схему ниже), связывая степень генерализации с уровнем интеллекта, способностью приобретать навыки и выполнять задачи. Оценка генерализации в рамках одного навыка или задачи может выявить только способность к локальной генерализации. Если система способна обобщать знания между несколькими задачами, то такая способность называется широкой генерализацией. Наконец, если система способна находить общее на уровне широких когнитивных способностей, то мы имеем дело с общей генерализацией, а перед нами его величество AGI.

Уровни генерализации [5]

Уровни генерализации [5]

Проблема в том, что большинство методов оценивания ИИ позволяют определить в лучшем случае только локальную генерализацию. Их можно объединить в 4 группы:

  • Экспертная оценка (Human review). Человек-эксперт делает заключение об интеллектуальных способностях системы. Упомянутый ранее тест Тьюринга относится к этой группе методов;

  • Структурный анализ или тест белого ящика (White-box analysis). Сводится к оценке оптимальности решения задачи при известных входных и выходных данных, параметрах системы, структурных элементах и т.д.;

  • Управляемый конфликт (Peer confrontation). Системе противостоит другая система и по результатам их противоборства определяется качество оцениваемой системы. Например, шахматное противостояние Гарри Каспарова с Deep Blue [6], или отчаянное сражение Ли Седоля против AlphaGo [1];

  • Бенчмарки (Benchmarks). Предполагает использование тестового набора данных, для которого известен лучший результат по какой-либо метрике.

Эти подходы не обладают необходимым функционалом для оценки общего интеллекта. Шолле убежден, что компьютерным наукам нужен инструмент, подобный психометрическим тестам в психологии. Другими словами, нужен тест, подобный IQ-тесту, но подходящий как для людей, так и для компьютеров. Чтобы не быть голословным он предложил свой вариант. На протяжении последних 5 лет ARC остается непокоренной вершиной для алгоритмов ИИ.

Наглядные головоломки

Сам Шолле определяет ARC как «бенчмарк общего искусственного интеллекта, как бенчмарк синтеза программ, или как психометрический тест интеллекта»[5]. Датасет состоит из 1000 наглядных головоломок, разделенных на обучающую и тестовую выборки. В обучающей выборке 400 заданий, в тестовой — 600. Тестовая выборка, в свою очередь, разделена на публичную (400 задач) и закрытую (200 задач) части. Каждое задание состоит из нескольких образцов решения (в среднем — 3.3) и 1–2 тестовых головоломок.

ARC сильно отличается от современных разновидностей IQ-теста. В нем нет языковых задач, фотографий реальных объектов и т.д., только элементарная геометрия. Задания не сгенерированы в специальной программе, а созданы вручную Шолле и его ассистентами. Все задания уникальны и не повторяются, но можно перечислить часто встречающиеся концепты:

  • копирование объекта;

  • изменение размера (уменьшение, увеличение);

  • изменение пространственного положения (перемещение, вращение и т.д.);

  • изменение цвета (всего объекта, отдельных частей и т.д.);

  • дополнение фигуры (продолжение линии, вставка симметричного фрагмента и т.д.);

  • подсчет объектов (часто встречающихся, редких и т.д.);

  • изменение порядка;

  • комбинации (цвет + подсчет, размер + перемещение и т.д.).

По задумке Шолле такие задачи не должны требовать каких-либо знаний об окружающем мире. Некоторые задания кажутся легкими, другие чуть сложнее. Примеры наглядных головоломок, разработанных Шолле, представлены ниже. Эти визуализации можно создать с помощью питоновской библиотеки arckit, разработанной участником ARC челенджа anokas [3].

Упорядоченное перемещение фигур

Упорядоченное перемещение фигур

Змейка с раскрашиванием

Змейка с раскрашиванием

Раскрашивание столбцов по высоте: синий - самый большой, желтый - наименьший

Раскрашивание столбцов по высоте: синий — самый большой, желтый — наименьший

Кошмар для GPT

Как видим, датасет не содержит сложных задач. Однако для искусственных интеллектуальных систем это настоящее испытание. В недавней работе исследователей из Университета Торонто приведены удручающие результаты: модель GPT-4 решила только 13 заданий из 50. Другие LLM справились с тестом еще хуже. Для улучшения результатов авторы разработали датасет 1D-ARC, в котором каждое задание представлялось не в 2D, а в 1D. Снижение размерности дало свои плоды: модель GPT-4 решила 50 из 50.

Примеры одномерных головоломок

Примеры одномерных головоломок

А как насчет человека? Может головоломки только на первый взгляд кажутся простыми? Может результат людей еще хуже, чем у GPT-4 и компании?

Судя по всему нет. Специалисты Института Санта Фе поставили перед собой задачу не только сравнить результаты людей и GPT-4, но и определить наиболее сложные группы заданий для ИИ [7]. Для этого они разработали датасет ARC-Concept [7]. Они выбрали 16 концептов и разработали под каждый концепт 10 оригинальных заданий, каждое из которых включает в себя по 3 тестовые задачи. Всего по 30 задач на концепт. Людям и моделям предлагались 3 попытки, чтобы решить каждую задачу. Если хотя бы одна из трех попыток была верной, то ответ засчитывался как правильный. В таблице ниже представлены результаты для людей, первого места соревнования ARC на Kaggle, второго места соревнования ARC на Kaggle и модели GPT-4.

Результаты исследования на датасете ARC-Concept [7]

Результаты исследования на датасете ARC-Concept [7]

Интересно, что если люди показывают очень близкие результаты на всех концептах, то GPT-4 решает задачи с разным успехом. Лучшая точность составляет 0.33 (для задач центрирования), а худшая всего 0.03 (извлечение объектов). В число самых сложных задач для ИИ вошли также продолжение фигуры до границы (0.07), манипуляции внутрь и наружу (0.1), а также подсчет объектов (0.13). Высокие результаты участников соревнования на Kaggle обусловлены использованием алгоритмов синтеза программ, но по отдельным концептам они совпадают с результатами GPT-4.

Причем LLM проигрывают в интеллектуальной баталии даже … детям. В мае 2024 г. исследователи из Университета Амстердама опубликовали статью с результатами детей и взрослых от 3 до 76 лет и LLM. Они использовали KidsARC — вариацию ARC, адаптированную под детей. Участников разбили по возрастным группам: 3 — 5 лет, 6 — 8, 9 — 11 и 12+. Всего в тестировании приняли участие 232 человека, из которых 144 решали задачи из KidsARC-Simple, а 88 дали задания из KidsARC-Concept. Главное отличие между версиями заключается в размерности: задания KidsARC-Simple имеют размер 3×3 клетки, а KidsARC-Concept — 5×5. Кроме того, KidsARC-Concept базируется на упомянутом ранее ARC-Concept.

Образец решения задачи по изменению цвета из набора данных KidsARC-Simple

Образец решения задачи по изменению цвета из набора данных KidsARC-Simple

Первоначально исследователи отобрали 60 публичных LLM, из которых до теста дошло меньше 30 (26 и 20). В их число попали наиболее популярные LLM, включая модели GPT-3, GPT-4 и мультимодальную GPT-4 Vision.

Ниже представлены результаты для датасета KidsARC-Simple.

Результаты тестирования на датасете KidsARC-Simple

Результаты тестирования на датасете KidsARC-Simple

Темно-красный цвет обозначает правильный ответ, другие цвета в гистограмме — ошибки. Ошибка копирования (Copy Error) — входные данные переписаны в ответ, цвет — морская волна. Ошибка матрицы (Matrix Error) — комбинация образцов входных/выходных данных, цвет — темно-желтый. Ошибка концепта (Concept Error) — задание решается так, как если бы оно относилось к другому концепту (например, смещение вместо изменения цвета), цвет — фиолетовый.

Сладкий вкус победы! GPT-4 превзошел все возрастные группы и другие LLM. Бросается в глаза успех (это не сарказм) сразу нескольких моделей с почти одинаковым результатом: Llama2–70b, SOLAR-0–70b, Mixtral-8×7B, Platypus2–70b, GPT-3.5-turbo. Они все справились с заданием лучше, чем возрастная группа 6–8 лет, но хуже, чем более старшие участники эксперимента. Удивление вызывает слабый результат мультимодальной GPT-4 Vision, не только по сравнению с детьми, но и с другими LLM. К сожалению, авторы статьи не описали, сопровождали ли они промт картинкой.

А что со вторым тестом? Также хорошо?

Результаты тестирования на датасете KidsARC-Concept

Результаты тестирования на датасете KidsARC-Concept

Тут все намного хуже… В упорном противостоянии первоклашки одолели GPT-4 и компанию. Младшая возрастная группа не участвовала в тестирование, т.к. не справилась и с первым тестом. Увеличение размера входных данных сказалось на ответах как людей, так и моделей. Дети практически ничего не потеряли в точности ответов, но выросла доля ошибки матрицы, а вот модели выдали катастрофически плохой результат. Интересно, что среди LLM лучший результат по правильным ответам показали GPT-4 и Platypus2–70b.

Верим и ждем

Существуют разные объяснения почему LLM плохо справляются с задачами на абстрактное мышление. Пишут, что LLM не предназначены для обработки визуальных данных. Однако есть еще более слабые результаты мультимодальных моделей, обученных на картинках. К тому же, визуальные головоломки из ARC подаются в LLM в промте в виде текстового описания. Выбор способа подготовки промта также может сказываться на результатах. Можно привести и другие аргументы в пользу того, что в LLM есть зачатки AGI, но, чтобы бы мы не говорили, факт остается фактом: ИИ еще очень далеко до человеческого интеллекта.

Источники

  1. Матч AlphaGo — Ли Седоль. Википедия. https://ru.wikipedia.org/wiki/%D0%9C%D0%B0%D1%82%D1%87_AlphaGo_%E2%80%94_%D0%9B%D0%B8_%D0%A1%D0%B5%D0%B4%D0%BE%D0%BB%D1%8C

  2. Шаврина Т. Как оценивать интеллект? Подход Google. Хабр. https://habr.com/ru/companies/sberbank/articles/493952/

  3. Anokas. Data Exploration with ARCKit. Kaggle. https://www.kaggle.com/code/anokas/data-exploration-with-arckit#Training-set-(first-10-tasks)

  4. Jones C., Bergen B. Does GPT-4 pass the Turing test? ArXiv. https://arxiv.org/pdf/2310.20216

  5. Chollet F. On the Measure of Intelligence. ArXiv. https://arxiv.org/pdf/1911.01547

  6. Deep Blue. Википедия. https://ru.wikipedia.org/wiki/Deep_Blue

  7. Moskvichev A., Odouard V. , Mitchell M. The ConceptARC Benchmark: Evaluating Understanding and Generalization in the ARC Domain. ArXiv. https://arxiv.org/pdf/2305.07141

  8. Opielka G., Rosenbusch H., Vijverberg V., Stevenson S. Do large language models solve ARC visual analogies like people do? ArXiv. https://arxiv.org/pdf/2403.09734

  9. Xu Y.,  Li W., Vaezipoor P.,  Sanner S., Khalil E. LLMs and the Abstraction and Reasoning Corpus: Successes, Failures, and the Importance of Object-based Representations. ArXiv. https://arxiv.org/pdf/2305.18354

© Habrahabr.ru