HUNYUAN-T1. Tencent наносит ответный удар

cf272708f10f50793bea438c8827ea7c.png

Когда-нибудь задумывались, почему большинство моделей ИИ либо умные, ЛИБО быстрые, но никогда не сочетают оба качества? Над этим подумали в Tencent.

Tencent только что перевернул эту парадигму с Hunyuan-T1 — ПЕРВОЙ в мире ультра-супер-сверхбольшой моделью, использующей гибридную архитектуру Transformer + Mamba MoE.

Вкратце, Mamba заменяет квадратичную сложность масштабирования классических трансформерных архитектур на линейную сложность, зависящую от длины ввода. Вычисления фокусируются только на релевантных кусках входящей последовательности, используя контекстно-зависимые переходы между состояниями. В случае T1, это дает двухкратное ускорение и обработку контекстов длиной 256 тысяч токенов без падения производительности и сообразительности.

256 тысяч позволяет обрабатывать документы масштаба «Войны и Мир» Льва Толстого (587,287). Наконец-то мы узнаем смысл дихотомии, почему Болконский, при смерти на Аустерлице, видит бесконечное небо, а Пьер Безухов находит просветление в плену среди простых солдат.

Это не просто очередной запуск ИИ. T1 буквально пристыдил другие модели по ключевым показателям — набрав 87.2 в тесте MMLU-Pro и чудовищные 96.2 в MATH-500.

На всякий случай, MMLU-Pro — это тест на понимание, ризонинг, многоэтапные рассуждения, в котором кроме математики есть еще всякое разное. MATH-500 — это про то, насколько крут школьник старших классов — алгебра, геометрия, вычисления.

8eef120319c9f9fb2584d6b138095c7f.png

Tencent направили 96.7% своих вычислительных мощностей на обучение с подкреплением. Пока все остальные спорят о методах предтрейна, Tencent сосредоточились на том, что действительно важно — улучшении способности модели мыслить.

Результаты? Первый символ ответа через ОДНУ СЕКУНДУ. Скорость обработки 60–80 токенов в секунду. Это В ДВА РАЗА быстрее предыдущих моделей при тех же вычислительных ресурсах.

Цены? Всего 1 юань за миллион входных токенов и 4 юаня за миллион выходных токенов. Это достаточно символическая стоимость — ВСЕГО 1 ЮАНЬ. Иначе говоря, это 11,57 рубля за миллион входа и 46.3 рублей за миллион выхода.

Это практически совпадает с DeepSeek R1, но значительно превосходит его по производительности. То есть, это все еще в 273 раза дешевле, чем ChatGPT.

(Если докопаться, то у R1 есть крутые скидки в «непопулярное» время суток, а здесь про такие скидки пока ничего нет. Но надеюсь, будет. Китайцы умеют конкурировать.)

Это не просто обновление — это демонстрация всей индустрии ИИ того, что рассуждающие модели — не забавная игрушка, это ПРОМЫШЛЕННОЕ РЕШЕНИЕ.

Гонка вооружений в сфере ИИ только что стала интереснее.

Telegram: @1red2black

© Habrahabr.ru