Gemini 2.5 Pro. Большой контекст зарелизился

Никогда такого не было, и вот опять. Новый прорыв — Gemini 2.5 Pro.
Это та самая сетка, которая недавно висела в топе LMArena под названием Nebula с разницей в скоре +40.
Я уже довольно долго использую экспериментальные модельки, которые выкладывает Google в AI Studio. Исходя из моей нищебродской логики человека, лишенного свободного доступа к американской карте Visa, американского юрлица и американской зарплаты в 500 килобаксов/месяц, это самая экономная, и даже сказать — единственно возможная сетка. За исключением парсинга чата Deepseek R1/V3, конечно.
Поэтому, эта новость от всей души. В отличие от всяких навороченных RAG-ов в Claude за много денег, этой Gemini я действительно буду пользоваться сам.
Большинство моделей похожи на умных попугаев — они повторяют и предсказывают, но ничего не понимают. У тех, кто пытается рассуждать, есть проблема с объемом этих рассуждений. Окно в 32 тысячи токенов сравнимо с сознанием студента, который не спал неделю до экзамена. Под конец он выучил один билет — про блох, и теперь рассказывает всё в терминах блох.
Что делает Gemini 2.5 Pro революционным?
1. Размер контекста в один миллион токенов — сейчас, и до двух миллионов — coming soon. Это больше не заспанный студент. Вам наверное, уже надоело, но еще раз приведу пример нашего телеграм-чата: один-два дня переписки — это около 200 тысяч токенов. В обычную сетку это просто не влезет.
2. Отличная рассуждалка. Gemini выдает рекордные 18,8% на экзамене «Последний рубеж человечества» (Humanity`s Last Exam) — крайне сложном эталоне для проверки границ возможностей ризонинга, который создавали сотни экспертов. В этом тесте нет tool calling-а, никаких читов не предусмотрено. То есть, это не гонка за повышением размера контекста только и исключительно ради размера контекста.
3. Отличная мультимодалка.
Gemini не ограничена только текстом. Мы говорим о системе, которая одинаково хорошо понимает:
— Текст
— Аудио
— Изображения
— Видео
— Целые репозитории кода
Осознайте масштаб проблемы: на любом более-менее осмысленном количестве визуального контента, все остальные сети потребуют разорвать контекст. Вы точно хотите писать RAG с семантическим анализом картинок?
4. Отличный кодинг. Скор 63,8% на SWE-Bench Verified — новая планка для агентного кода. Может генерить осмысленные приложения целиком по одному-единственному промту.
Последнее утверждение про «один промт» я хз как проверить. Способ, которым я пишу код, сильно отличается от «обычного» отсутствием иллюзий. У меня промт — это несколько страниц текста на английском языке, и он всегда выдает работающие приложения. Но обычным людям, которые хотят написать одно предложение и сразу получить результат — наверное, это как-то может помочь.
Недавно Tencent и DeepSeek выпустили свежие модельки, и какое-то время казалось, что вот он «прорыв». У Tencent в два раза быстрее генерятся токены (зато куча китайского языка в выхлопе и cutoff за 23-й год — говно мамонта). DeepSeek опять продвинул вперед навыки кодинга, и наверняка его дистилляция станет следующей «народной» моделью для запуска на своем компьютере, после их же deepseek-coder-v2:16b.
И тут на эту счастливую парочку, GOOGLE СБРАСЫВАЕТ БОМБУ, размером с Хиросиму. Да, DeepSeek силен в кодинге. Но как он собирается конкурировать со способностью Gemini загрузить целиком весь репозиторий кода без всякого RAG?
В удивительное время живем, товарищи. Ждем ответки от OpenAI, Anthropic, DeepSeek и Tencent
И самое главное — как на этом собирается хайповать Nvidia? Они должны, обязаны просто.
Telegram: @1red2black