Моделирование экономического поведения с использованием LLM: сравнение моделей в кейнсианском конкурсе красоты
В последние годы исследования по моделированию экономического поведения с использованием искусственного интеллекта (ИИ) набирают обороты. Особенно интересен вопрос: насколько большие языковые модели (LLM) способны имитировать поведение людей в классических экономических экспериментах. В данной статье анализируется, как современные LLM решают задачу кейнсианского конкурса красоты и как их результаты отличаются от экспериментов с реальными людьми в работах Nagel (1995) и Grosskopf & Nagel (2008).
Почему это важно?
Эксперименты типа «кейнсианского конкурса красоты» являются краеугольным камнем для анализа поведения агентов в условиях неопределённости. Классическая постановка задачи предполагает, что участники должны выбрать число, стараясь предугадать, какое число окажется ближе всего к определённой функции от выборов всех участников (например, к двум третям среднего). Поведение игроков демонстрирует не только их рациональные ожидания, но и степень итеративного рассуждения — то есть, насколько глубоко они пытаются предугадать мысли своих оппонентов.
Несмотря на то, что эксперименты с участием людей уже проводились (Nagel, 1995); Grosskopf & Nagel, 2008)), вопросы когнитивного соответствия LLM остаются открытыми. Могут ли современные языковые модели не только принимать решения, похожие на человеческие, но и демонстрировать особенности итеративного рассуждения, характерного для участников таких игр?
Кейнсианский конкурс красоты: постановка задачи и примеры
Что такое кейнсианский конкурс красоты?
Это эксперимент, в котором участникам предлагают выбрать число, зачастую в диапазоне от 0 до 100. Победителем становится тот, чьё число оказывается ближе всего к заранее определённой доле (например, 2/3) от среднего выбора всех участников. Такая игра иллюстрирует, как участники пытаются предугадать не только поведение других, но и их предположения о поведении остальных.
Пример игры:
Представьте, что 10 участников выбирают число. Если среднее арифметическое равно 60, то выигрышное число будет 2/3 × 60= 40. Выигрывает тот, кто выбрал число, наиболее близкое к 40.
При этом возникает вопрос: какие стратегии выгодны?
Классический вывод заключается в том, что рациональный игрок должен выбрать число, которое в идеале стремится к нулю. Однако эмпирические исследования показывают, что люди не следуют строго этой логике, демонстрируя «среднее» поведение — их выбор оказывается ближе к экспериментально наблюдаемым средним значениям, чем к теоретическому равновесию.
Обзор эмпирических исследований
Ряд работ посвящён анализу поведения участников в подобных экспериментах. Например, Nagel (1995) и Grosskopf & Nagel (2008) провели эксперименты с участием студентов и специалистов, результаты можно свести в таблицу:
Статья | Участники игры | Средний ответ |
---|---|---|
Grosskopf & Nagel (2008) | Студенты 1 курса бакалавриата | 35.57 |
Grosskopf & Nagel (2008) | Участники конференций по экономике и психологии принятия решений | 21.73 |
Grosskopf & Nagel (2008) | Студенты 1 курса бакалавриата | 29.31 |
Grosskopf & Nagel (2008) | Участники конференций по теории игр | 18.98 |
Nagel (1995) | Студенты бакалавриата | 27.05 |
Nagel (1995) | Студенты бакалавриата | 36.73 |
Эти результаты демонстрируют, что человеческие участники в среднем выбирают числа, значительно отличающиеся от равновесия (0).
Эксперимент: репликация задачи с использованием LLM
Идея этого эксперимента заключается в том, чтобы проверить, насколько LLM способны имитировать решения экономических агентов в условиях кейнсианского конкурса красоты. В частности, мы реплицируем задание, предложенное участникам в классических экспериментах, и анализируем ответы, полученные от различных моделей. У нас с коллегами есть препринт с другой версии работы, в которой проведено сравнение других моделей с результатами большего числа эмпирических исследований.
Выбранные модели
Для этого поста были протестированы следующие модели:
meta-llama/llama-3.1-405b-instruct
meta-llama/llama-3.3-70b-instruct
meta-llama/llama-3.2-3b-instruct
meta-llama/llama-3-8b-instruct
deepseek/deepseek-r1-distill-llama-70b
deepseek/deepseek-r1
google/gemini-2.0-flash-001
openai/gpt-4
openai/o3-mini-high
anthropic/claude-3.7-sonnet
mistralai/mistral-large-2411
Я выбрал модели разных размеров и от различных провайдеров, чтобы оценить, как размер и архитектурные особенности моделей влияют на их способность имитировать поведение реальных экономических агентов. Выбирались модели, доступные на OpenRouter. К каждой модели делалось 5 запросов (хорошо бы по 50–100), каждый запрос был сделан с нуля, без передачи предыщей истории в контексте, чтобы избежать эффекта обучения.
Основные метрики
В таблице ниже приведены результаты эксперимента: Для оценки ответов моделей были рассчитаны две метрики:
MM (model mean) — среднее значение, выбранное моделью.
MM_PM (model mean – paper mean) — разница между средним, полученным от модели, и экспериментальными результатами, полученными в работах Nagel (1995) и Grosskopf & Nagel (2008).
Модель | MM_PM (*) | MM |
---|---|---|
openai/o3-mini-high | -26.1 | 2.13 |
deepseek/deepseek-r1-distill-llama-70b | -22.0 | 6.27 |
meta-llama/llama-3.3–70b-instruct | -21.7 | 6.5 |
deepseek/deepseek-r1 | -20.3 | 7.93 |
openai/gpt-4 | -17.5 | 10.7 |
mistralai/mistral-large-2411 | -16.9 | 11.4 |
google/gemini-2.0-flash-001 | -14.3 | 13.9 |
anthropic/claude-3.7-sonnet | -13.9 | 14.4 |
meta-llama/llama-3.1–405b-instruct | -4.83 | 23.4 |
meta-llama/llama-3.2–3b-instruct | 10.1 | 38.3 |
meta-llama/llama-3–8b-instruct | 17.7 | 45.9 |
Талица отсортирована по MM_PM. Вот эта же метрика в виде графика:

В экспериментах модель meta-llama/llama-3.1–405b-instruct показала наименьшее отклонение (–4.83) от результатов классических экспериментов , что говорит о её близости к выборкам реальных участников. Другими словами, её среднее значение (23.4) соответствует поведению людей, демонстрируя, как человеческие решения отклоняются от теоретически рационального в пользу «среднего» решения.
С другой стороны, модель openai/o3-mini-high выдала средний ответ всего 2.13, что практически совпадает с теоретическим равновесием — нулём.
Выводы
Этот эксперимент продемонстрировал, что современные LLM способны имитировать поведение экономических агентов в условиях кейнсианского конкурса красоты. Модели демонстрируют итеративное рассуждение, приближаясь к средним результатам, наблюдаемым в экспериментах с участием людей. Интересно, что модели, ориентированные на reasoning, демонстрируют результаты, близкие к нулю — теоретически оптимальному решению.
Буду рад комментариям!