Nvidia представила открытую LLM модель Nemotron-4 340B17.06.2024 11:15

На данный момент самая крупная, после DeepSeek-V2 236B, открытая LLM модель размером 340B. В тестах сравнения человеком по одним показателям выигрывает у GPT-4–1106 (вышла в ноябре 2023), по другим проигрывает, но чаще составляет паритет.

Модель обучалась на 50+ естественных языках и 40+ языках программирования. Архитектура модели построена на Grouped-Query Attention (GQA) и Rotary Position Embeddings (RoPE). Но длина контекста всего 4096 токенов.

Модель представлена в вариантах: Nemotron-4–340B-Base, Nemotron-4–340B-Instruct и Nemotron-4–340B-Reward:

Base предназначена для генерации синтетических данных.
Insctuct предназначена для чата и выполнения инструкций.
Reward — base-модель с дополнительным линейным слоем для обучения используя новый подход reward.

Модель распространяется под лицензией NVIDIA Open Model License Agreement, разрешающей коммерческое использование.

И на закуску — системные требования:

8x H200 (1x H200 node);
16x H100 (2x H100 nodes);
16x A100 80GB (2x A100 80GB nodes).

>>> Подробности