OpenAI, Claude и Gemini уступили специализированной модели в финансовом анализе
Хедж-фонд Bridgewater Associates и компания Thinking Machines Lab, основанная бывшим техническим директором OpenAI Мирой Мурати, представили результаты внутреннего исследования, согласно которому специализированная дообученная модель с открытыми весами оказалась эффективнее крупнейших коммерческих ИИ-систем при анализе финансовой информации. По данным авторов, она также требует почти в 14 раз меньше вычислительных затрат.
Исследование было посвящено одной из наиболее трудоёмких задач инвестиционной аналитики — постоянной оценке того, какая информация действительно важна для принятия решений. Аналитикам приходится ежедневно обрабатывать огромные объёмы новостей, корпоративной отчётности, аналитических обзоров, писем и документов регуляторов, при этом ключевую роль играют многочисленные небольшие экспертные оценки.
Авторы выделили 6 типовых задач из повседневной работы инвесторов. Среди них — определение значимости финансовых новостей для руководителей компаний и оценка того, указывают ли документы центральных банков на возможное изменение процентных ставок. Как отмечается в исследовании, подобные решения специалисты принимают интуитивно, но зачастую испытывают трудности при формальном описании логики своих выводов.
Изображение сгенерировано: Nano BananaВ ходе тестирования крупные коммерческие модели показали неожиданно скромные результаты. Базовые версии систем семейства GPT, Claude и Gemini при использовании стандартных запросов достигали точности лишь около 50%. Даже после применения сложных инструкций и введения трёхуровневой системы оценки — «важно и интересно», «важно, но неинтересно» и «неважно» — точность выросла лишь до уровня около 75%, что оказалось ниже установленного исследователями порога надёжности в 80%.
Авторы также утверждают, что новые поколения крупных моделей демонстрируют всё меньший прирост эффективности относительно стоимости. В качестве примера приводится модель GPT 5.4, которая, согласно исследованию, требует на 43% больше затрат по сравнению с версией 5.2, обеспечивая лишь незначительное повышение точности.
Для решения проблемы исследователи использовали метод дообучения открытой модели на специализированных корпоративных данных. Первоначально разметка документов выполнялась внешними подрядчиками, однако качество этих данных оказалось недостаточным. Вместо полной повторной проверки всех материалов команда применила промежуточную модель, которая выявляла наиболее вероятные ошибки разметки, направляя на экспертную оценку только спорные случаи.
Дообучение проводилось на платформе Tinker, разработанной Thinking Machines Lab, с использованием открытой модели Qwen3–235B. По внутренним оценкам авторов, итоговая система достигла точности 84,7%, тогда как лучшая из протестированных коммерческих моделей показала результат 78,2%.
Авторы исследования отдельно подчёркивают, что результаты получены в рамках собственной методологии и не являются независимой внешней оценкой. Тем не менее работа указывает на важную тенденцию: значительная часть наиболее ценных данных и экспертных знаний остаётся внутри компаний и недоступна разработчикам универсальных ИИ-моделей.
© iXBT
