Криповые ИИ-изображения в прошлом: ученые создали новый способ генерации картинок16.09.2024 18:00

Генеративные модели искусственного интеллекта часто допускают ошибки в проработке деталей — неправильно рисуют пальцы рук или искажают симметрию лица. Ученые Университета Райса разработали новый метод генерации изображений с использованием диффузионных моделей, пишет TechXplore.

Диффузионные модели «обучаются», добавляя слой за слоем случайный шум к изображениям, на которых они тренировались, а затем генерируют новые изображения, удаляя добавленный шум. Примеры таких ИИ-моделей — Stable Diffusion, Midjourney и DALL-E. Все эти инструменты генерируют реалистичные изображения. Но у них есть слабость: они хорошо генерируют только квадратные картинки.

Если попросить модель вроде Stable Diffusion создать изображение с неквадратным соотношением сторон, например, 16:9, элементы, используемые для построения сгенерированного изображения, начнут повторяться. Это проявляется в виде странных деформаций. У людей может быть шесть пальцев, а машины станут слишком вытянутыми.

Картинка слева была создана стандартным методом, а картинка справа — ElasticDiffusion. Промт был одинаковый: «Фотография кота-спортсмена, объясняющего журналистам свой последний скандал на пресс-конференции».Источник: Moayed Haji Ali/Rice University

Проблему усугубляет обучение моделей. Если тренировать ИИ только на изображениях с определенным разрешением, он сможет генерировать изображения только с этим разрешением. Это приводит к переобучению: когда модель хорошо генерирует только данные, похожие на те, что использовались при обучении, и не может сильно отклоняться от этих параметров. Проблема решается обучением на более широком спектре изображений. Но это дорого и требует огромных вычислительных мощностей.

Цифровой шум, используемый моделями диффузии, можно преобразовать в сигнал с двумя типами данных: локальный и глобальный. Локальный сигнал содержит подробную информацию на уровне пикселей, например, форму глаза или текстуру шерсти собаки. Глобальный сигнал содержит скорее общий контур изображения.

Диффузионные модели обычно объединяют локальную и глобальную информацию. Когда модель пытается дублировать эти данные, чтобы учесть дополнительное пространство в неквадратном изображении, это приводит к визуальным дефектам.

Картинка слева была создана стандартным методом, а картинка справа — ElasticDiffusion. Промт: «Представьте себе портрет милой ученой совы в сине-сером наряде, объявляющей о своем последнем прорывном открытии. Его глаза светло-карие. Его наряд прост, но достоин». Источник: Moayed Haji Ali/Rice University

Новый метод под названием ElasticDiffusion использует другой подход к созданию изображения. Вместо объединения локальных и глобальных сигналов ElasticDiffusion разделяет их на условный и безусловный пути генерации. Вычитая условную модель из безусловной, модель получает оценку, содержащую глобальную информацию об изображении.

Затем безусловный путь заполняет детали изображения в четвертях, а глобальная информация (соотношение сторон и что изображено в общем) остается неизменной. Результат — более чистое изображение независимо от соотношения сторон. Дополнительное обучение не нужно.

Единственный недостаток по сравнению с другими моделями диффузии — это время. ElasticDiffusion требуется в 6–9 раз больше времени для создания изображения. Ученые хотят достичь такой же скорости генерации изображений, как у моделей Stable Diffusion или DALL-E.

Ранее ученые рассказали о том, что создание изображения высокой четкости с использованием искусственного интеллекта может пагубно сказаться на окружающей среде.