HUNYUAN-T1. Tencent наносит ответный удар

Когда-нибудь задумывались, почему большинство моделей ИИ либо умные, ЛИБО быстрые, но никогда не сочетают оба качества? Над этим подумали в Tencent.
Tencent только что перевернул эту парадигму с Hunyuan-T1 — ПЕРВОЙ в мире ультра-супер-сверхбольшой моделью, использующей гибридную архитектуру Transformer + Mamba MoE.
Вкратце, Mamba заменяет квадратичную сложность масштабирования классических трансформерных архитектур на линейную сложность, зависящую от длины ввода. Вычисления фокусируются только на релевантных кусках входящей последовательности, используя контекстно-зависимые переходы между состояниями. В случае T1, это дает двухкратное ускорение и обработку контекстов длиной 256 тысяч токенов без падения производительности и сообразительности.
256 тысяч позволяет обрабатывать документы масштаба «Войны и Мир» Льва Толстого (587,287). Наконец-то мы узнаем смысл дихотомии, почему Болконский, при смерти на Аустерлице, видит бесконечное небо, а Пьер Безухов находит просветление в плену среди простых солдат.
Это не просто очередной запуск ИИ. T1 буквально пристыдил другие модели по ключевым показателям — набрав 87.2 в тесте MMLU-Pro и чудовищные 96.2 в MATH-500.
На всякий случай, MMLU-Pro — это тест на понимание, ризонинг, многоэтапные рассуждения, в котором кроме математики есть еще всякое разное. MATH-500 — это про то, насколько крут школьник старших классов — алгебра, геометрия, вычисления.

Tencent направили 96.7% своих вычислительных мощностей на обучение с подкреплением. Пока все остальные спорят о методах предтрейна, Tencent сосредоточились на том, что действительно важно — улучшении способности модели мыслить.
Результаты? Первый символ ответа через ОДНУ СЕКУНДУ. Скорость обработки 60–80 токенов в секунду. Это В ДВА РАЗА быстрее предыдущих моделей при тех же вычислительных ресурсах.
Цены? Всего 1 юань за миллион входных токенов и 4 юаня за миллион выходных токенов. Это достаточно символическая стоимость — ВСЕГО 1 ЮАНЬ. Иначе говоря, это 11,57 рубля за миллион входа и 46.3 рублей за миллион выхода.
Это практически совпадает с DeepSeek R1, но значительно превосходит его по производительности. То есть, это все еще в 273 раза дешевле, чем ChatGPT.
(Если докопаться, то у R1 есть крутые скидки в «непопулярное» время суток, а здесь про такие скидки пока ничего нет. Но надеюсь, будет. Китайцы умеют конкурировать.)
Это не просто обновление — это демонстрация всей индустрии ИИ того, что рассуждающие модели — не забавная игрушка, это ПРОМЫШЛЕННОЕ РЕШЕНИЕ.
Гонка вооружений в сфере ИИ только что стала интереснее.
Telegram: @1red2black