Сбер представил первую в России диффузионную языковую модель GFusion
Сбер разработал и опубликовал первую диффузионную языковую модель GFusion. Она работает на основе GigaChat, это экспериментальный проект, отмечает компания. Разработчики рассказали, что классические языковые модели генерируют текст последовательно, слово за словом. Поэтому, чтобы исправить одну ошибку, модель вынуждена переписывать весь ответ заново.
Изображение сгенерировано нейросетью DALL-EGFusion работает иначе: сначала она создаёт приблизительный «набросок» ответа, а затем пошагово дорабатывает его — так же, как нейросети генерируют изображения и видео. За счёт параллельной генерации GFusion пишет текст быстрее: согласно тестам Сбера новая модель работает до 45% быстрее GigaChat 3, на основе которого она обучалась.
Также создатели GFusion отметили, что диффузионные модели не просто быстрее — их генерация более гибкая. Текст не обязательно пишется строго слева направо — модель сама выбирает, какую часть ответа дополнить на каждом шаге. Диффузионные модели также извлекают больше информации из ограниченного объёма данных, обучаясь на одном и том же датасете несколько раз.
Диффузионные языковые модели — это одно из самых перспективных и сложных направлений в генеративном ИИ, отмечают в Сбере. Разработчики заявили, что GFusion — первая выпущенная в опенсорс диффузионная модель для генерации текста такого масштаба в России. Вместе с самой моделью Сбер опубликовал инструменты, ускоряющие обучение диффузионных моделей.
© iXBT
