Представлена система синтеза изображений Stable Diffusion 2.0

Компания Stability AI опубликовала вторую редакцию системы машинного обучения Stable Diffusion, способной синтезировать и изменять изображения на основе предложенного шаблона или текстового описания на естественном языке. Код инструментов для обучения нейронной сети и генерации изображений написан на языке Python с использованием фреймворка PyTorch и опубликован под лицензией MIT. Уже обученные модели открыты под пермиссивной лицензией Creative ML OpenRAIL-M, допускающей использование в коммерческих целях. Дополнительно доступен демонстрационный online-генератор изображений.

Ключевые улучшения в новой редакции Stable Diffusion:

  • Создана новая модель синтеза изображений по текстовому описанию — SD2.0-v, поддерживающая генерацию изображений с разрешением 768×768. Новая модель обучена с исопользованием коллекции LAION-5B, включающей 5.85 миллиардов изображений с текстовыми описаниями. Модель использует тот же набор параметров как и у модели Stable Diffusion 1.5, но отличается переходом на использование принципиально иного кодировщика OpenCLIP-ViT/H, позволившего существенно повысить качество результирующих изображений.

    CFD0C5CECEC5D4_1669271955.png

  • Подготовлен упрощённый вариант SD2.0-base, обученный на изображениях 256×256 с использованием классической модели предсказания шумов и поддерживающий генерацию изображений с разрешением 512×512.

    CFD0C5CECEC5D4_1669271932.png

  • Предоставлена возможность использования технологии суперсэмплинга (Super Resolution) для увеличения разрешения исходного изображения без снижения качества, используя алгоритмы пространственного масштабирования и реконструкции деталей. Предоставленная модель обработки изображений (SD20-upscaler) поддерживает четырёхкратное увеличение масштаба, что позволяет формировать изображения с разрешением 2048×2048.

    CFD0C5CECEC5D4_1669272257.png

  • Предложена модель SD2.0-depth2img, учитывающая глубину и пространственное расположение объектов. Для монокулярной оценки глубины используется система MiDaS. Модель позволяет синтезировать новые изображения, используя другое изображение в качестве шаблона, которые могут радикально отличаться от оригинала, но сохранять общую композицию и глубину. Например, можно использовать позу человека на фотографии для формирования другого персонажа в той же позе.

    CFD0C5CECEC5D4_1669271368.png CFD0C5CECEC5D4_1669272063.png

    CFD0C5CECEC5D4_1669272013.png

  • Обновлена модель для модификации изображений — SD 2.0-inpainting, позволяющая при помощи текстовых подсказок заменять и изменять части изображения.

    CFD0C5CECEC5D4_1669272106.png

  • Проведена оптимизация моделей для использования на обычных системах с одним GPU.

CFD0C5CECEC5D4_1669266448.jpeg

Источник: http://www.opennet.ru/opennews/art.shtml? num=58184

© OpenNet