Nvidia представила нейросеть, которая создает видео из текста
Лаборатория Nvidia в Торонто, которая занимается развитием искусственного интеллекта, представила нейросеть, генерирующую видео по текстовому описанию.
За основу разрабочики взяли нейросеть Stable Diffusion, но доработали алгоритм для получения видео в высоком качестве.
Сгенерированные ролики имеют разрешение 1280×2048 пикселей, состоят из 113 кадров и обрабатываются со скоростью 24 кадра в секунду, в результате чего получаются видео продолжительностью 4,7 секунды.
В общей сложности алгоритм имеет 4,1 млрд параметров, за создание видео отвечают только 2,7 млрд из них.
Посмотреть все сгенерированные видео можно на отдельной странице. Протестировать ИИ пока что нельзя, потому что он является частью научной работы. [Nvidia]