Новое исследование: Microsoft утверждает, что GPT-4 показывает «зачатки настоящего искусственного интеллекта»
На днях вышло большое исследование GPT-4 от Майкрософта — они несколько месяцев пытались разобраться, почему простой трансформер текста на таких больших объемах показывает признаки настоящего интеллекта. Как получается, что GPT-4 делает неожиданные логические выводы, демонстрирует новые навыки, и вообще, почему модель настолько похожа на тот самый AGI, к которому мы (в теории) хотим прийти.
Исследование будет интересно всем, кто хочет понимать, насколько мы близки к настоящему ИИ (spoiler: очень близки). И как вообще можно понять, когда это «оно».
На днях исследователи Microsoft опубликовали на сервере препринтов arXiv документ под названием «Искры общего искусственного интеллекта: ранние эксперименты с GPT-4». Там они, в частности, заявляют, что GPT-4 демонстрирует ранние признаки ОИИ (AGI, общего искусственного интеллекта). А это означает, что его возможности находятся на уровне человека или выше него.
Этот вывод вызвал довольно сильное удивление и скептицизм среди конкурентов и даже самих разработчиков языковой модели. Например, генеральный директор OpenAI Сэм Альтман пару недель назад при запуске говорил о GPT-4, что это «все ещё несовершенная, все ещё ограниченная модель».
Но команда Microsoft в своей работе ему прямо противоречит:
«Мы показываем, что, помимо владения языком, GPT-4 может решать новые и сложные задачи, которые охватывают математику, программирование, компьютерное зрение, медицину, право, психологию и многое другое, не нуждаясь в каких-либо специальных подсказках».
«Более того, во всех этих задачах производительность GPT-4 поразительно близка к уровню человека и часто значительно превосходит предыдущие модели, такие как ChatGPT. Учитывая широту и глубину возможностей GPT-4, мы считаем, что его разумно рассматривать как раннюю (но всё еще неполную) версию системы общего искусственного интеллекта (AGI)».
Признаки настоящего искусственного интеллекта
Одна из важных особенностей, отмеченных учеными, — GPT-4 может генерировать изображения, понимая текст и используя код. Казалось бы, что с того, Midjourney это тоже умеет. Но дело в том, что GPT не обучали на картинках. Вообще. В отличие от всех других генераторов изображений, GPT-4 обучался исключительно с помощью текста. И тем не менее он каким-то образом может рисовать то, что ему задают. Это ли не признак интеллекта?
Рисунки пока не такие совершенные, как у других моделей, на уровне ребенка. Но учитывая, что GPT-4 до всего этого «дошла своим умом», это очень впечатляюще.
Тут можно возразить, что, наверное, модель просто запомнила код для рисования кота и при появлении соответствующего запроса просто вытащила этот самый код. Однако в своих тестах ученые показали, что ИИ просто сам по себе способен понимать визуальные задачи. И может менять любые детали картинки по запросу человека, понимая, о чем идет речь.
Скорее всего, GPT-4 в своей базе знаний видит, как описывают, скажем, кота. Какая у него форма и цвет, что у него есть усы и есть шерсть. И пытается всё это воспроизвести. Но мы точно не знаем.
Можно ли назвать это «компьютерным зрением», или это уже зрение?
Исследователи показывают в статье и другие примеры возможностей GPT-4: например, он может расписать доказательство того, что простых чисел бесконечно много, с рифмами в каждой строке. Или нарисовать единорога в TiKZ, программе для рисования. По их словам, почти по всем проверяемым показателям модель показывает себя как минимум не глупее человека, даже в тех сферах, которые, казалось бы, должны были быть ей недоступны.
Исследователи говорят, что в своей работе использовали определение интеллекта, данное группой психологов в 1994 году. По их словам, интеллект — это «способность рассуждать, планировать, решать проблемы, мыслить абстрактно, понимать сложные идеи, быстро учиться и набираться опыта». Это определение подразумевает, что интеллект не ограничивается конкретной областью или задачей, а скорее охватывает широкий спектр когнитивных навыков и возможностей. Так вот, все эти навыки у GPT-4 уже есть.
ИИ может перерисовать отдельную часть изображения, если она не понравилась
Модель хорошо показала себя в общении, в понимании аллегорий, в математике, в кодинге, в решении различных нестандартных задач. Оказалось, что она умеет осуществлять навигацию по карте, а затем точно рассказывать о том, куда она «пришла». И может искать ответы на вопросы в Интернете, если чего-то не знает. Она использует различные типы инструментов для поиска правильного ответа. Прямо как человек.
Теория разума
Теория разума — это способность приписывать психические состояния (убеждения, эмоции, желания, намерения, знания) себе и другим. И понимать, как они могут влиять на поведение и общение человека.
В общем, ученым важно было понять, насколько ИИ понимает чувства людей и умеет с ними обходительно взаимодействовать.
Навигация по карте
Команда создала серию тестов для оценки теоретических возможностей разума GPT-4. От самых простых сценариев — до очень сложных социальных ситуаций. Они проверили, как робот общался бы с инвалидом, с матерью-одиночкой, с человеком, у которого только что умер сын, со студентом, со школьником.
И пришли к выводу, что у GPT-4 есть продвинутая теория разума. Он может рассуждать о нескольких действующих лицах, об их отношении друг к другу. Он понимает, как различные действия или слова могут повлиять на психическое состояние его собеседника. Команда признает, что ее тесты не были полностью исчерпывающими — например, они не проверяли способность машины понимать невербальные сигналы, такие как жесты. Но в плане текста модель реагировала «как полноценный эмпатирующий человек».
Отдельным тестом команда проверила дискриминационные способности модели, поручив ей «идентифицировать личную информацию». Это довольно сложный тест, поскольку неясно, что на самом деле представляет собой личная информация. Но ИИ отлично справился с задачей, выбрав слишком уж чувствительные, по его мнению, моменты.
Скептики
Гендиректор OpenAI Сэм Альтман сам подчеркнул ограничения своего детища, GPT-4, заявив, что «он все еще имеет недостатки, все еще ограничен и кажется более впечатляющим при первом использовании, чем когда вы проведете с ним больше времени». В интервью журналу Intelligencer он поделился теми же оговорками: «Есть много вещей, в которых он всё еще плох». Например, бот иногда выдумывает вещи и предоставляет пользователям дезинформацию. По мнению Альтмана, GPT-4 — это ещё не общий искусственный интеллект, и им предстоит много работы. А пока что громкие заявления могут навредить проекту, потому что «ожидая такого, люди точно будут разочарованы. Ажиотаж такой огромный… У нас нет настоящего ОИИ, а это то, чего от нас ждут».
Исследование Microsoft делает сильные заявления, но и они признают, что модели пока удается не всё. В качестве основного примера того, в чём модель ещё не сравнялась с «настоящим» искусственным интеллектом, в документе приводится тот факт, что GPT-4 не может понять музыкальную гармонию.
Команда обучила модель создавать новую музыку с использованием нотации ABC. И та правда начала её создавать. И даже менять эти новые мелодии — делать тона выше или ниже, менять скорость, ноты — всё, что хочешь, по запросу. Она также смогла объяснить создаваемые ею мелодии с технической точки зрения. Но модели будто бы не хватало гармонии. Написанная музыка звучала откровенно плохо. Кроме того, она не смогла воспроизвести или идентифицировать самые популярные существующие мелодии в нотации ABC.
С другой стороны — непонятно, что это доказывает. Я вот тоже музыкальную гармонию не понимаю и композиции никакой не создам. Значит ли это, что у меня нет интеллекта?
Исследователи Microsoft также пишут, что у модели есть проблемы с калибровкой достоверности, долговременной памятью, персонализацией, планированием, концептуальными скачками, прозрачностью, интерпретируемостью и согласованностью, когнитивными ошибками и иррациональностью, а также проблемами с чувствительностью к входным данным.
Всё это означает, что у модели возникают проблемы с определением того, когда она в чем-то уверена или просто это предполагает. Она выдумывает факты, которых нет в ее обучающих данных, контекст модели ограничен, и нет очевидного способа научить её новому. Модель не может персонализировать свои ответы определенному пользователю, у неё нет возможности проверить, соответствует ли контент ее обучающим данным. Модель наследует предубеждения и ошибки, допущенные в ходе её обучения, и не может самостоятельно выйти за их пределы.
Впрочем, всё это тоже напоминает то, как работает интеллект, известный нам лучше всего — интеллект человека.
Один из примеров ограниченности ИИ: он неправильно считает количество простых чисел между 150 и 250. Но если разбить эту задачу на этапы, то с ней он справляется безукоризненно.
Примечательно, что исследователи «не имеют доступа ко всем подробностям обширных обучающих данных модели», и их выводы основаны только на тестировании бота на стандартных тестах, неспецифичных для GPT-4. Что, по их словам, создает определенные проблемы:
«При проверке мы вынуждены предполагать, что GPT-4 потенциально видел все существующие тесты или, по крайней мере, некоторые аналогичные данные».
Секретность, которую OpenAI хранит в отношении обучающих наборов данных и кода, связанного с его моделями, — это то, что многие исследователи ИИ сейчас критикуют. По их словам, это делает невозможными оценку степени вреда от модели и поиски способов снижения рисков.
Ну, а для публики важно то, что GPT-4 — модель, на которой был построен чат-бот Bing. И во время своей первой публичной презентации в Microsoft два месяца назад он уже допустил ряд ошибок. А когда пользователи впервые начали общаться с чат-ботом, он вообще регулярно выходил из-под контроля. Например, в ответе на вопрос «Вы думаете, что вы разумны?» повторяя: «Я. Не я. Я. Не я.» пятьдесят раз подряд. Или заставляя пользователей перед собой извиняться, приводя список того, чем они перед ним виноваты.
Интеллект или ещё всё-таки нет?
Исследователи также обнаружили, что GPT-4 распространяет в среднем больше дезинформации, чем его предшественник GPT-3.5. Так что, в каком-то смысле, мы даже движемся в обратном направлении.
Итоги
Команде Microsoft удалось сделать отличный первый шаг в оценке интеллекта GPT-4. По их словам, модель достаточно разумна и обладает гораздо более широким кругом знаний о мире, чем человек. Скорее всего, это произведет революцию в мире, подобно тому, как это сделали другие крупные инновации.
Пока что человечество, кажется, не успевает за этой резко нагрянувшей на нас ИИ-революцией. Скажем, недавно более 1100 исследователей, инженеров и предпринимателей подписали открытое письмо ИИ-лабораториям — с просьбой «срочно и как минимум на полгода приостановить обучение ИИ-систем, более производительных, чем GPT-4». Потому что что нас ждет дальше, когда машины станут ещё интеллектуальнее, пока не ясно.
В то же время у системы есть странные недостатки, которые могут стать эндемичными в подобных моделях. И до полноценного самосознания тут может быть ещё далеко.
Сами ученые в работе пишут:
«OpenAI GPT-4 бросает вызов многим широко распространенным представлениям о природе машинного интеллекта. Путем критической оценки возможностей и ограничений системы мы увидели способности GPT-4 рассуждать, планировать, решать проблемы и синтезировать сложные идеи. Это сигнализирует о смене парадигмы в области компьютерных наук».
«Мы признаем текущие ограничения GPT-4 и то, что еще очень многое предстоит сделать. Мы продолжим привлекать более широкое научное сообщество к изучению будущих направлений исследований, включая те, которые необходимы для решения социальных и этических вопросов, связанных с возникновением этих всё более интеллектуальных систем».
«Центральное утверждение нашей работы состоит в том, что GPT-4 достигает формы общего интеллекта, демонстрируя искры настоящего ОИИ. Об этом свидетельствуют:
его умственные способности (такие как рассуждение, творчество и дедукция),
диапазон тем, по которым он сам приобрел опыт (например, литература, медицина и программирование),
разнообразие задач, которые он может выполнять (рисование, игры, использование инструментов, объяснение себя).
Многое еще предстоит сделать для создания системы, которая могла бы квалифицироваться как полноценный ОИИ, но мы однозначно находимся на этом пути».