Задача про арбуз, «ломающая» нейросети, или развитие логики у языковых моделей за год19.01.2025 19:15

Есть простая задачка: Масса арбуза — 1 кг. Из него выпарили 90% воды. Какая масса арбуза после выпаривания?

Если интересно, попробуйте решить самостоятельно, не используя интернет и другие подсказки — так результат будет честным :-)

Всё коварство в том, что на первый взгляд это типичная задача для средней школы на проценты. И решений на такие задачи в интернете очень много. Но в данном случае у нас недостаточно данных для получения числового ответа. Мы можем прямо это и указать как решение. Или дать ответ в общем виде — в виде формулы и ее объяснения.

Языковые модели, такие как ChatGPT или GigaChat, обучаются на информации из интернета. Мне стало интересно:, а хватит ли логики у нейросетей, чтобы понять, что данная задача решается немного по-особенному. Эта мысль пришла мне в середине 2024 года, и я задала эту задачку нейросетям, которыми пользуюсь в работе.

Заранее скажу, что не являюсь экспертом в области нейросетей и логики, я рядовой пользователь.

Результаты, полученные в 2024 году

1) ChatGPT 4o

С первой попытки ChatGPT 4o не справился. Он воспринял 90% не только как массу выпаренной воды, но и как массу воды в арбузе. После уточняющих вопросов он смог дать ответ, который можно считать корректным.

2) GigaChat в Telegram

GigaChat можно использовать как в Telegram, так и в браузере, но мне привычнее именно в чате. С первой попытки GigaChat выдал очень неожиданный ответ — 51 кг, и привёл странные доводы. При попытке навести на правильную мысль так и не смог выдать ответ в общем виде.

Результаты, полученные в январе 2025 года

С начала декабря 2024 я начала периодически пользоваться в работе новой моделью ChatGPT o1. И мне стало интересно — сможет ли она справиться с той самой задачей про арбуз.

1) Новая модель ChatGPT o1

С первой попытки ChatGPT o1 выдал корректное решение. Да, ответ был числовым, но он написал «Предположим», а в конце четко указал, что мы не можем получить однозначный ответ. Так что, думаю, можно считать, что о1 справился с задачей.

2) GigaChat в Telegram

С первой попытки GigaChat не справился, но при уточнении смог дать правильный ответ. Правда, достаточно странно выглядит то, как он добавляет символы $ и \cdot, но я не буду считать это за ошибку, ведь он старался.

3) ChatGPT 4o

С первой попытки снова не справился. После уточнения выдал корректный ответ.

И так, победитель — ChatGPT о1

Второе место занимает GigaChat. Хоть он и не смог решить задачу, но показал улучшение результатов относительно прошлого года.

ChatGPT 4о — не показал улучшения результатов, поэтому третье место. Хотя улучшений, наверное, ожидать не стоило, так как вышла модель о1.

Мне также стало интересно: многие ли люди смогут решить данную задачу. Большинство моих знакомых справились, хотя сначала по много раз переспрашивали условие. Некоторые все же давали числовой ответ, это было либо 0.1, либо 0.19. Так что, задачкой можно сломать не только нейросеть.

Небольшой итог всего этого эксперимента: нейросети стремительно развиваются и учатся обрабатывать информацию логически, почти так же, как это делает человек. Интересно будет понаблюдать за тем, какими они станут через полгода и год.