Вышла новая GPT-4.5 preview, она сделает меня банкротом28.02.2025 09:45

Несколько часов назад (на момент написания статьи) я получил информационный e‑mail от OpenAI с темой «GPT-4.5 research preview» — компания релизит свою самую большую модель на данный момент времени.

Информационный e-mail от OpenAI

По заявлениям OpenAI, модель теперь лучше понимает намерения пользователя, имеет более глубокие знания об окружающем нас мире, хорошо выполняет такие задачи, как коучинг, мозговой штурм и помощь в написании текстов. Что важно для разработчиков, GPT-4.5 отлично справляется с «агентскими» задачами, например, планирование, вызов инструментов, структурированный вывод и, в дополнение ко всему, vision‑модальность.

Технические детали

GPT-4.5 очень большая модель (даже по сравнению с остальными) и требует значительных вычислительных ресурсов, поэтому она не заменяет GPT-4o. Стоимость запросов следующая у неё соответствующая: $75 за 1 миллион входных токенов, $150 за 1 миллион выходных токенов. Я сравнил цены ниже.

Сравнение цен в долларах GPT 4.5 с другими флагманскими моделями

Итак, GPT 4.5 в несколько раз дороже чем самая мощная reasoning модель o1, давайте посмотрим, на сколько лучше она работает. В качестве примеров, я возьму официальные данные от OpenAI, приведённые в их релизе.

Рассмотрим бенчмарк SimpleQA, а именно, точность ответов и долю галлюцинаций. Результаты приведены ниже.

SimpleQA измеряет способность LLM генерировать ответы на простые вопросы (факты). Источник: OpenAI

Мы с вами видим, что GPT 4.5 всего лишь на 15.5% процентов (абсолютно) или почти 33% (относительно) опережает флагманскую o1 по качеству (accuracy). Да, результат выше, но не в разы.

По доле галлюцинаций, GPT 4.5 справился лучше o1 на 6.9% (абсолютно) и почти 19% (относительно). Опять же, хотя бы мультипликаторов 2х мы тут не видим.

А теперь вопрос, сколько денег данное улучшение в качестве принесёт бизнесу? И окупит ли себя GPT 4.5?

Результаты на популярных бенчмарках

Рассмотрим результаты флагманских моделей на популярных бенчмарках. Их я так же взял из релиза OpenAI.

Метрика	GPT-4.5	GPT-4o	OpenAI o3-mini (high)
GPQA (science)	71.4%	53.6%	79.7%
AIME '24 (math)	36.7%	9.3%	87.3%
MMMLU (multilingual)	85.1%	81.5%	81.1%
MMMU (multimodal)	74.4%	69.1%	-
SWE-Lancer Diamond (coding)	32.6%	23.3%	10.8%
«Принесённый доход» от решения SWE-Lancer Diamond	$186,125	$138,750	$89,625
SWE-Bench Verified (coding)	38.0%	30.7%	61.0%

Возьмём довольно практичный бенчмарк SWE‑Lancer Diamond, в нём собрано 1,400 задач с Upwork по разработке ПО. Очевидно, что GPT-4.5 опять всех переиграла. В частности, результат на 9.3% (абсолютно) и почти 40% (относительно) выше, чем у GPT-4o.

В деньгах, согласно бенчмарку (напомню, модель выполняет фрилансерские задачи), GPT-4.5 принесла бы на 48 тысяч долларов больше, чем GPT-4o. Опять же, мультипликаторов 2х мы тут не наблюдаем.

Мой персональный тест (собес по алгоритмам)

На собеседованиях по алгоритмам обычно даётся 2 обязательные задачи и одна дополнительная (источник), если кандидат справился с предыдущими и осталось время.

Я выбрал 3 задачи из хендбука Яндекса по алгоритмам, а именно:

Бронирование переговорки (Глава 3.2 «Жадные алгоритмы») — leetcode easy
Сумма минимумов на отрезках (Глава 9.4 «Стек») — leetcode easy/medium
Выход из лабиринта (Глава 10.3 «Обходы графа») — leetcode medium/hard

В суть задач я предпочёл бы не вдаваться т.к. всё внимание приковано к тому, решит ли их новая GPT-4.5, и если да, то с какой попытки? Так же, в предыдущей статье я прогонял Claude 3.7 Sonnet на этих задачах и он справился с 1-й попытки. Повторю, аналогичную процедуру.

Ранее, я интегрировал GPT-4.5 в свой пет‑проект — Телеграм‑бот, где я собрал лучшие LLM в одном месте, чтобы не прыгать между платформами каждый раз, когда хочется использовать оперделённую модель. Итак, начнём наше собеседование по алгоритмам.

Переключаемся на GPT-4.5 preview

Начнём с решения классической задачи по жадным алгоритмам про бронирование переговорки. GPT-4.5 справилась успешно с 1-го раза. Вот её решение, которое я проверил на платформе Яндекса.

Решение первой задачи

Проверим модель на 2-й задаче, посвящённой стеку. Необходимо найти сумму минимумов на отрезках. Решение, сгенерированное GPT-4.5, написано в 24 строки. Для сравнения Claude 3.7 написал 44 строки. GPT-4.5 справился со 2-й задачей с 1-го раза (проверка проводилась на платформе Яндекса).

Решение второй задачи

Давайте решим 3-ю задачу «выход из лабиринта», посвящённую обходам графов. Модель справилась с задачей с 1-го раза, сгенерировав 43 строчки кода.

Решение третьей задачи (весь код не влез, пробуйте сами :)

Итог

Новые LLM удивляют нас чуть ли не каждую неделю. GPT-4.5 действительно мощная модель, которая даёт фору многим флагманским LLM. Однако, её стоимость делает GPT-4.5 абсолютно не применимой в бизнесе. В данный момент, OpenAI рассматривают только research preview и в течение некоторого времени могут и вовсе перестать поддерживать данную модель в угоду более быстрым и оптимизированным.

Очевидно, что есть проблема data leakage, когда модель тестируется на данных, которые она уже где‑то видела. Поэтому нам необходимы достоверные и приватные бенчмарки, в том числе для каждой отдельной индустрии (промышленность, обучение, и тд).

Если у вас нет API ключей OpenAI, то поиграться с моделькой можно тут.