Генерация видео на новом уровне: Сбер представил Kandinsky 4.1 Video

[unable to retrieve full-text content]

Команда Сбербанка сообщила о скором выпуске новой  версии фирменной нейромесети для генерации видео — Kandinsky 4.1 Video. Первыми доступ к Kandinsky 4.1 Video получили участники технологической конференции GigaConf, а также некоторые художники и дизайнеры. Об этом заявил старший вице-президент, руководитель блока «Технологическое развитие» Сбербанка Андрей Белевцев в рамках GigaConf.

2025-06-25 15.37.32_large.jpg Сгенерировано нейросетью Dall-E

Андрей Белевцев отметил:

Kandinsky 4.1 Video обеспечивает качественно новый уровень генеративного видео. Модель стала в разы лучше по всем параметрам: по соответствию промпту, визуальному качеству, качеству генерации движений, а также способности моделировать физику мира. Такие разработки открывают беспрецедентные возможности как для дизайнеров, маркетологов, так и для представителей любых других креативных индустрий, работающих над созданием высококачественного видеоконтента.

Модель Kandinsky 4.1 Video генерирует видеоряд продолжительностью до 10 секунд в разрешении SD (720×576 пикселей) или HD (1280×720 пикселей) по текстовому описанию или произвольному стартовому кадру. С помощью модели можно создавать видео с произвольным соотношением сторон. 

В основе новой модели лежит архитектура диффузионного трансформера. Как отметили в Сбере, одним из факторов, позволивших улучшить качество модели, стало её дообучение (Supervised Fine-Tuning, SFT) на данных, подготовленных более чем 100 экспертами — дизайнерами, фотографами и художниками с профильным образованием. 

Напомним, нейросеть Kandinsky Video, разработанная Сбербанком, представляет собой генеративную модель для создания видеороликов по текстовому описанию или изображению. Это первая в России технология подобного рода, ориентированная на создание реалистичного видео с движением объектов и фона. В ноябре 2023 года представлена первая версия модели, генерирующей видео продолжительностью до 8 секунд (512×512 пикселей, 30 кадров/с). 

©  iXBT