Вышла новая GPT-4.5 preview, она сделает меня банкротом
Несколько часов назад (на момент написания статьи) я получил информационный e‑mail от OpenAI с темой «GPT-4.5 research preview» — компания релизит свою самую большую модель на данный момент времени.

По заявлениям OpenAI, модель теперь лучше понимает намерения пользователя, имеет более глубокие знания об окружающем нас мире, хорошо выполняет такие задачи, как коучинг, мозговой штурм и помощь в написании текстов. Что важно для разработчиков, GPT-4.5 отлично справляется с «агентскими» задачами, например, планирование, вызов инструментов, структурированный вывод и, в дополнение ко всему, vision‑модальность.
Технические детали
GPT-4.5 очень большая модель (даже по сравнению с остальными) и требует значительных вычислительных ресурсов, поэтому она не заменяет GPT-4o. Стоимость запросов следующая у неё соответствующая: $75 за 1 миллион входных токенов, $150 за 1 миллион выходных токенов. Я сравнил цены ниже.

Итак, GPT 4.5 в несколько раз дороже чем самая мощная reasoning модель o1, давайте посмотрим, на сколько лучше она работает. В качестве примеров, я возьму официальные данные от OpenAI, приведённые в их релизе.
Рассмотрим бенчмарк SimpleQA, а именно, точность ответов и долю галлюцинаций. Результаты приведены ниже.

Мы с вами видим, что GPT 4.5 всего лишь на 15.5% процентов (абсолютно) или почти 33% (относительно) опережает флагманскую o1 по качеству (accuracy). Да, результат выше, но не в разы.
По доле галлюцинаций, GPT 4.5 справился лучше o1 на 6.9% (абсолютно) и почти 19% (относительно). Опять же, хотя бы мультипликаторов 2х мы тут не видим.
А теперь вопрос, сколько денег данное улучшение в качестве принесёт бизнесу? И окупит ли себя GPT 4.5?
Результаты на популярных бенчмарках
Рассмотрим результаты флагманских моделей на популярных бенчмарках. Их я так же взял из релиза OpenAI.
Метрика | GPT-4.5 | GPT-4o | OpenAI o3-mini (high) |
---|---|---|---|
GPQA (science) | 71.4% | 53.6% | 79.7% |
AIME '24 (math) | 36.7% | 9.3% | 87.3% |
MMMLU (multilingual) | 85.1% | 81.5% | 81.1% |
MMMU (multimodal) | 74.4% | 69.1% | - |
SWE-Lancer Diamond (coding) | 32.6% | 23.3% | 10.8% |
«Принесённый доход» от решения SWE-Lancer Diamond | $186,125 | $138,750 | $89,625 |
SWE-Bench Verified (coding) | 38.0% | 30.7% | 61.0% |
Возьмём довольно практичный бенчмарк SWE‑Lancer Diamond, в нём собрано 1,400 задач с Upwork по разработке ПО. Очевидно, что GPT-4.5 опять всех переиграла. В частности, результат на 9.3% (абсолютно) и почти 40% (относительно) выше, чем у GPT-4o.
В деньгах, согласно бенчмарку (напомню, модель выполняет фрилансерские задачи), GPT-4.5 принесла бы на 48 тысяч долларов больше, чем GPT-4o. Опять же, мультипликаторов 2х мы тут не наблюдаем.
Мой персональный тест (собес по алгоритмам)
На собеседованиях по алгоритмам обычно даётся 2 обязательные задачи и одна дополнительная (источник), если кандидат справился с предыдущими и осталось время.
Я выбрал 3 задачи из хендбука Яндекса по алгоритмам, а именно:
Бронирование переговорки (Глава 3.2 «Жадные алгоритмы») — leetcode easy
Сумма минимумов на отрезках (Глава 9.4 «Стек») — leetcode easy/medium
Выход из лабиринта (Глава 10.3 «Обходы графа») — leetcode medium/hard
В суть задач я предпочёл бы не вдаваться т.к. всё внимание приковано к тому, решит ли их новая GPT-4.5, и если да, то с какой попытки? Так же, в предыдущей статье я прогонял Claude 3.7 Sonnet на этих задачах и он справился с 1-й попытки. Повторю, аналогичную процедуру.
Ранее, я интегрировал GPT-4.5 в свой пет‑проект — Телеграм‑бот, где я собрал лучшие LLM в одном месте, чтобы не прыгать между платформами каждый раз, когда хочется использовать оперделённую модель. Итак, начнём наше собеседование по алгоритмам.

Начнём с решения классической задачи по жадным алгоритмам про бронирование переговорки. GPT-4.5 справилась успешно с 1-го раза. Вот её решение, которое я проверил на платформе Яндекса.

Проверим модель на 2-й задаче, посвящённой стеку. Необходимо найти сумму минимумов на отрезках. Решение, сгенерированное GPT-4.5, написано в 24 строки. Для сравнения Claude 3.7 написал 44 строки. GPT-4.5 справился со 2-й задачей с 1-го раза (проверка проводилась на платформе Яндекса).

Давайте решим 3-ю задачу «выход из лабиринта», посвящённую обходам графов. Модель справилась с задачей с 1-го раза, сгенерировав 43 строчки кода.

Итог
Новые LLM удивляют нас чуть ли не каждую неделю. GPT-4.5 действительно мощная модель, которая даёт фору многим флагманским LLM. Однако, её стоимость делает GPT-4.5 абсолютно не применимой в бизнесе. В данный момент, OpenAI рассматривают только research preview и в течение некоторого времени могут и вовсе перестать поддерживать данную модель в угоду более быстрым и оптимизированным.
Очевидно, что есть проблема data leakage, когда модель тестируется на данных, которые она уже где‑то видела. Поэтому нам необходимы достоверные и приватные бенчмарки, в том числе для каждой отдельной индустрии (промышленность, обучение, и тд).
Если у вас нет API ключей OpenAI, то поиграться с моделькой можно тут.