Nvidia представила открытую LLM модель Nemotron-4 340B

good-penguin.png

На данный момент самая крупная, после DeepSeek-V2 236B, открытая LLM модель размером 340B. В тестах сравнения человеком по одним показателям выигрывает у GPT-4–1106 (вышла в ноябре 2023), по другим проигрывает, но чаще составляет паритет.

Модель обучалась на 50+ естественных языках и 40+ языках программирования. Архитектура модели построена на Grouped-Query Attention (GQA) и Rotary Position Embeddings (RoPE). Но длина контекста всего 4096 токенов.

Модель представлена в вариантах: Nemotron-4–340B-Base, Nemotron-4–340B-Instruct и Nemotron-4–340B-Reward:

  • Base предназначена для генерации синтетических данных.

  • Insctuct предназначена для чата и выполнения инструкций.

  • Reward — base-модель с дополнительным линейным слоем для обучения используя новый подход reward.

Модель распространяется под лицензией NVIDIA Open Model License Agreement, разрешающей коммерческое использование.

И на закуску — системные требования:

  • 8x H200 (1x H200 node);

  • 16x H100 (2x H100 nodes);

  • 16x A100 80GB (2x A100 80GB nodes).

>>> Подробности

©  Linux.org.ru