Генерация видео на новом уровне: Сбер представил нейросеть Kandinsky Video 4.012.12.2024 11:00

На международной конференции AI Journey Сбер представил бета-версию нейросети нового поколения Kandinsky 4.0 Video для создания реалистичных видеороликов по текстовому описанию или стартовому кадру.

Иллюстрация: Сбер

Пресс-служба рассказала, что нейросеть могут использовать как обычные пользователи, чтобы создать анимированные ролики с поздравлением близких людей, так и дизайнеры, маркетологи, мультипликаторы, для которых Kandinsky может стать помощником в генерации трейлеров и клипов.

Теперь модель генерирует видеоряд продолжительностью до 12 секунд в разрешении HD (1280×720 пикселей) по любому текстовому описанию или произвольному стартовому кадру. С помощью модели можно создавать видео с разным соотношением сторон.

В Сбере пояснили:

Важнейшими отличительными свойствами новой модели являются улучшенное визуальное качество — высокий контраст и чёткость кадров, выстраивание общей композиции сцены, и реалистичность движений генерируемых объектов. Добиться такого качества позволило уникальное сотрудничество научных и инженерных команд, которые вместе работали как над развитием архитектуры новой модели, так и над сбором и фильтрацией данных для обучения.

В дополнение к основной модели команда Kandinsky представила быструю версию Kandinsky 4.0 Video Flash, которая генерирует видеоряд продолжительностью до 12 секунд в разрешении 480p (720×480 пикселей) по любому текстовому описанию всего за 15 секунд.

Первыми доступ к новой версии Kandinsky Video получат художники, дизайнеры и кинематографисты. Для них модель будет доступна в рамках инструмента fusionbrain.ai, который даёт его пользователям возможность генерировать полноценные мини-фильмы — со сценарием, полноценным видеорядом и звуковым сопровождением. Для широкой аудитории нейросеть будет доступна в 1Q 2025 года.