Почему DeepSeek Janus-7B — это нечто действительно невероятное

Полчаса назад вышла новость о выходе DeepSeek Janus-7B — новой мультимодальной модели от DeepSeek, которая, по заявлениям авторов, рвёт DALL-E 3, Stable Diffusion XL и Stable Diffusion 3 (Medium) в бенчмарках.

В этой статье я не буду дублировать новость, а хочу подробнее рассмотреть, что именно в этой модели такого уникального, из-за чего многие связанные с AI медиа сегодня захлебываются от восторга.

7ebf87906297a1b75e083e967d586b7b.png

Кратко про модель

Ссылка на HuggingFace: https://huggingface.co/deepseek-ai/Janus-Pro-7B

Модель мультимодальна, any-to-any, то есть умеет принимать на вход как изображения, так и текст, и на выходе генерировать также и текстовые данные, и картинки.

В целом, Janus-Pro — это новый подход к архитектуре трансформеров. Исследовали стараются сохранить единую архитектуру трансформера для обработки информации, но при этом сама визуальная генерация и распознавание изображений разделены и построены на базе других подходов, о чём в следующем разделе.

Такое разделение позволяет устранить конфликты между энкодерами для генерации и распознавания, и при этом сохраняет высокий уровень гибкости в настройке каждой из частей.

Главная инновация — LlamaGen

В генерации изображений последние несколько лет доминировали диффузионные модели (отсюда, к примеру, и название Stable Diffusion). На этой архитектуре построены такие известные имена как Glide, Dalle-2/3, Imagen и Stable Diffusion. Диффузионные модели, если очень упрощенно, устроены следующим образом.

Мы берём картинку, и планомерно превращаем её в шум, поэтапно. После чего записываем результат в обратном порядке — превращаем шум в картинку. После чего, каждый из этапов превращения шума в картинку поступает на обучение (вместе с закодированным промптом) в нейросеть, чтобы она «поняла» принципы, как превращать шум в финальное изображение. В последствие, именно этим и занимаются диффузеры — используя текстовый промп в качестве параметра поэтапно превращают рандомный шум в финальное изображение (те, кто руками игрался со Stable Diffusion в Automatic1111 хорошо представляют этот процесс и как этим количеством этапов можно управлять).

51dc264cf51549cf13089dc11488aa69.png

Не будем долго тянуть, и перейдём к самому интересному.

В Janus-7B используется новая архитектура для генерации изображение — LlamaGen от ByteDance. Её инновация в том, что она применяет те же принципы, что и в LLM, а именно: предсказание следующего токена, на основе предыдущих, но в контексте изображений, токенами кодируются именно визуальные, а не текстовые данные.

Эта архитектура очень свежая — релиз состоялся всего 7 месяцев назад, а Janus-7B, это её первое серьёзное применение на практике.

bb99b3f9dddb31b6fb62aedee0764d45.png

Отвечая на вопрос из названия статьи: в чем же здесь революция?

Ответ прост: главная особенность таких архитектур заключается в том, что они очень хорошо увеличивают качество генерации в зависимости от роста параметров в модели. Это именно то, как в своё время достиг революционного качества GPT-3, GPT-4, и подобные: просто увеличивая количество параметров, даже без изменения архитектуры.

И если в случае текстовых моделей мы приближаемся к пределу по количеству параметров, которые мы можем обучать и выполнять в современных дата-центрах, то для LlamaGen — мы находимся в самом начале этого пути, то качество генерации (а я напомню — выше, чем у DALL-E 3 и Stable Diffusion XL), которое выдаёт LlamaGen в Janus-7B — это только начало.

Самая большая доступная сейчас LlamaGen использует всего 3 миллиарда параметров. Для сравнения, старушка GPT-3.5 использует 175 миллиардов (в 58 раз больше!), а GPT-4 по примерным данным (OpenAI перестали выкладывать модели в open-source начиная с этой версии) использует 1.7 триллионов (в 566 раз больше!) параметров на сходной архитектуре.

Вы представляете, какие изображения LlamaGen сможет генерировать, если количество её параметров увеличится в 566 раз?

Немного про распознавание изображений

В этом плане всё довольно консервативно, используется энкодер SigLIP, на базе архитектуры CLIP (которой уже, с ума сойти, почти 4 года). Изображения сжимаются до 384×384 пикселей, после чего идут на вход энкодера, и дальше поступают в общий пайплаин-обработчик модели-трансформера.

Жалко, что здесь без особых инноваций, но с другой стороны — это на текущий момент самая передавая архитектура для распознавания изображений, так что можно просто порадоваться, что инновация с одной стороны не стала причиной «потерь» с другой.

Послесловие

Забавно, что модель, которая сама по себе не является предназначенной исключительно для генерации изображений все равно воспринимается всеми именно так.

И это неудивительно — мы уже видели много потрясающих текстовых моделей, reasoning-моделей, распознавания изображений, но применение архитектуры LlamaGen на практике, да ещё и в рамках одной мультимодальной модели, да ещё и с таким количеством параметров, ранее не бывало.

Кажется, 2025 год будет богат на события в AI, и, кажется, многие из них будут переводиться на английский (и русский) с китайского, а не наоборот.

----

P.S. 2025 год на дворе, неужели вы думали я не бахну ссылку на свой Телеграм канал в конце статьи? Я там регулярно пишу по ИИ/агентов, даю более глубокую аналитику по новостям, и рассказываю как сделать компанию, в которой все сотрудники — AI-агенты. Велком!

© Habrahabr.ru