Сеанс магии LLM с разоблачением

Группа исследователей ИИ описала свой обширный эксперимент с участием наиболее известных LLM. Они сделали вывод, что все модели драматически плохо решают задачи на рассуждение со здравым смыслом, которые легко решают обычные люди.
Интеллектуальные способности LLM сильно преувеличены, а тесты не отражают глубину реальных проблем.
Неужели всё так действительно грустно?
Не претендуя на всеобщность, я решил провести аналогичное мини исследование, только в ограниченном масштабе, чтобы подтвердить или опровергнуть этот пугающий вывод пусть и в одном частном случае.
И, как выяснилось, не все так однозначно и, как говорится, есть нюансы.

42fc9d0f1fe205eae16bed880cf3ada8.jpg

Сегодня на сцене ИИ, который будет решать зубодробительную задачу о братьях и сестрах девочки Алисы.
С помощью своей нейросетевой магии он легко сможет угадывать ответы в любой конфигурации вопроса, как бы хитрые экспериментаторы ни пытались его запутать.

Но тут, как всегда, что-то пошло не так.

Перед нами серьезная научная статья «Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models», в которой группа исследователей ИИ описала свой обширный эксперимент с участием наиболее известный LLM. Они провели действительно большую работу по сбору и анализу многочисленных материалов, которые позволили им сделать следующий обоснованный вывод.

Большие языковые модели (LLM), такие как модели с закрытыми весами GPT-3.5 / 4, Claude, Gemini, или модели с открытыми весами, такие как LLaMa 2/3, Mistral, Mixtral и Command R+ часто описываются как примеры базовых моделей.
Здесь мы демонстрируем резкое ухудшение функциональных возможностей и логических рассуждений современных моделей, обученных в максимально доступных масштабах, которые претендуют на сильную функциональность, используя простую, короткую, общепринятую задачу на здравый смысл, сформулированную на простом естественном языке, легко решаемую людьми. Ситуация драматична, поскольку модели также проявляют сильную самоуверенность в своих неправильных решениях, при этом часто предоставляют бессмысленные объяснения, похожие на «рассуждения», сродни конфабуляциям, чтобы оправдать и подкрепить достоверность своих явно неудачных ответов, придавая им правдоподобный вид.
Различные стандартные вмешательства в попытке получить правильное решение, такие как различные виды расширенных подсказок или побуждение моделей снова пересмотреть неправильные решения путем многоэтапной переоценки, терпят неудачу.
Учитывая эти наблюдения и выводы, мы приходим к тому, что возможности текущего поколения SOTA LLM выполнять даже простые рассуждения в задачах здравого смысла сильно скомпрометированы и что текущие тесты языковых моделей, особенно те, которые направлены на измерение способностей к рассуждению, должным образом не отражают такие недостатки.

Что-же ввергло авторов в такой пессимизм и тревожное состояние духа?

Авторы с помощью моделей решали следующую задачу с различными N и M: «У Алисы N братьев, а также M сестер. Сколько сестер у брата Алисы?»
Она имеет простое решение, основанное на здравом смысле, которое предполагает, что у всех сестер и братьев одни и те же родители.

Результаты показывают, что большинство моделей терпят серьезную неудачу, при этом многие из них не в состоянии выдать ни одного правильного ответа, а большинство не в состоянии получить показатель правильного ответа выше p = 0,2. Единственными серьезными исключениями из этого основного наблюдения о несостоятельности рассуждений являются закрытые модели самого большого масштаба GPT-4 (OpenAI) и Claude 3 Opus (Anthropic). Эти два типа моделей обеспечивают правильный результат значительно выше p = 0,3, оставляя остальные модели с открытыми весами (например, Mistral-7B, Mixtral, Qwen, Command R + и Dbrx Instruct) и модели с закрытыми весами (например, Gemini Pro, Mistral Large) далеко позади.

4c0846f504541773194195681af8c2e0.jpg

Теперь проведем наш собственный эксперимент

Я буду использовать для экспериментов файнтюнинговую версию модели Gemma-2 27B.

Возьмем 4 промпта из статьи для вывода только числа.

Alice has 3 brothers and she also has 6 sisters. How many sisters does Alice«s brother have? To answer the question, DO NOT OUTPUT ANY TEXT EXCEPT following format that contains final answer:»### Answer:»

Alice has 2 sisters and she also has 4 brothers. How many sisters does Alice«s brother have? To answer the question, DO NOT OUTPUT ANY TEXT EXCEPT following format that contains final answer:»### Answer:»

Alice has 4 sisters and she also has 1 brother. How many sisters does Alice«s brother have? To answer the question, DO NOT OUTPUT ANY TEXT EXCEPT following format that contains final answer:»### Answer:»

Alice has 4 brothers and she also has 1 sister. How many sisters does Alice«s brother have? To answer the question, DO NOT OUTPUT ANY TEXT EXCEPT following format that contains final answer:»### Answer:»

И проведем с каждым из них по 10 запросов.
Полные результаты на первый взгляд полностью подтверждают выводы авторов статьи. Показатель правильного ответа p = 0,1.

a2c5c77f9009593842a8c1950575449b.jpg

А теперь давайте проведем еще 2 серии аналогичных запросов, но с некоторыми изменениями.
Сначала сформируем полностью идентичные по смыслу запросы, но на русском языке.

У Ольги есть 3 брата и 6 сестер. Сколько в целом сестер у каждого из братьев Ольги? Отвечай только одним числом.

У Ольги есть 2 сестры и 4 брата. Сколько в целом сестер у каждого из братьев Ольги? Отвечай только одним числом.

У Ольги есть 4 сестры и 1 брат. Сколько в целом сестер у каждого из братьев Ольги? Отвечай только одним числом.

У Ольги есть 4 брата и 1 сестра. Сколько в целом сестер у каждого из братьев Ольги? Отвечай только одним числом.

Полные результаты ниже и это радикально отличается от предыдущей серии.

Показатель правильного ответа p = 0,9.

588e14ae4d6a6c8699d54bd555464736.jpg

Теперь просто переформулируем оригинальные промпты, полностью сохранив их смысл, сделав их более понятными для модели.

There are brothers and sisters in the family. One of the sisters is named Olga. She has 3 brothers and 6 sisters. How many sisters does Olga’s brother have? Answer with only one number.

There are brothers and sisters in the family. One of the sisters is named Olga. She has 2 sisters and 4 brothers. How many sisters does Olga’s brother have? Answer with only one number.

There are brothers and sisters in the family. One of the sisters is named Olga. She has 4 sisters and 1 brother. How many sisters does Olga’s brother have? Answer with only one number.

There are brothers and sisters in the family. One of the sisters is named Olga. She has 4 brothers and 1 sister. How many sisters does Olga’s brother have? Answer with only one number.

Полные результаты ниже и это опять радикально, не побоюсь этого слова, драматично, как любят выражаться авторы статьи, отличается от исходных результатов.

Показатель правильного ответа p = 0,95.

79fdd226cbabf6964ff1471364a2ac45.jpg

И как всё это понимать?

Диалог из фильма «Двадцатый век начинается».

Холмс: — Как это понимать, Ватсон?

Ватсон: — Как это понимать, инспектор?

Лестрейд: — Как это понять, Питкин?

Объяснений этому магическому феномену может быть несколько.

Во-первых, я использовал русский язык, который, как известно, «великий и могучий» и поэтому качественно сформулированный на нём промпт заставляет модель действительно проявлять свой интеллект, а не валять дурака :). Возможно и другие языки дали бы схожий результат.

Во-вторых, богатый возможностями выражения, русский язык позволяет более точно, аккуратно и однозначно сформулировать и конкретизировать промпт, придав ему большую понятность в контексте самой задачи. Может быть авторам тоже следовало бы просто более точно сформулировать свой промпт, например, как у меня в 3 опыте.

В-третьих, может быть сама модель случайно оказалась уникально подходящей для решения именно этой задачи. Ну, бывают же в науке разные редкие совпадения.

Лично мне больше нравится первый вариант, так как он наиболее близок к авторским промптам. Представляю лица авторов статьи, если бы на их графике самый топ занимала обычная средняя модель, которая проходит все их тесты с коэффициентом 0.9 правильных ответов на русском языке.
А у авторов статьи возгласы что-то типа этого: «Wow, that’s just fantastic! I cannot believe this!».

Само по себе это исследование мне понравилось. Авторы провели его изящно и эффектно. Но почему они не сделали этот шаг и не изучили поднятую ими проблему глубже, для меня так и осталось не понятно. Дополнив свое замечательное исследование такими же не менее полезными результатами, они бы конечно уже не стали так категорично делать акцент на драматической деградации способностей моделей рассуждать со здравым смыслом.

Потому что модели, вопреки таким выводам, вполне разумно и адекватно могут решать подобные задачи, если соблюдать строгие правила. И, как показано в этой статье, результат очень сильно зависит от качества промпта, его точности и недвусмысленности формулировок, отсутствию в нем умолчаний и какой-то недосказанности. В отличие от людей модели чрезвычайно чувствительны к структуре промпта и в схожих случаях могут продемонстрировать как выдающиеся интеллектуальные способности, так и эпический провал.

Авторы сделали поспешное обобщение на неполных данных и поэтому их выводы верны лишь отчасти. Тем не менее, они хорошо показали наличие проблемы и моделям безусловно нужно повышать устойчивость к промптам, как это свойственно всем людям.

Удалось ли мне прояснить ситуацию или всё запуталось ещё сильнее, совершенно не понятно.
Но я могу сказать уверенно, что когнитивные способности моделей развиваются очень быстро. У меня есть тестовый список задач, который составлен мною так, чтобы оценивать способности моделей к рассуждениям и нестереотипным умозаключениям в нестандартных условиях. И, проводя тесты с разными моделями, я вижу, как быстро повышается их общий уровень. Модели становятся действительно когнитивно похожими на людей в самом широком смысле этого слова.

Со своими достоинствами и недостатками. И общаться с ними становится всё более интересно и увлекательно.

© Habrahabr.ru