Яндекс и НИУ ВШЭ предложили метод ускорения нейросетей для генерации изображений

yandex-og-ru.png


Команда учёных Yandex Research и НИУ ВШЭ предложила метод, который снижает вычислительные затраты и ускоряет генерацию изображений в диффузионных моделях без потери качества. Речь идёт о моделях, которые сегодня задают стандарт в задачах генерации изображений, однако их использование ограничено высокой нагрузкой на вычисления.

Разработанный исследователями метод Scale-wise Distillation of Diffusion Models (SwD) снижает вычислительную нагрузку при генерации изображений, что позволяет получать результат почти мгновенно — за 0,3–0,4 секунды.

Обычно процесс генерации в диффузионных моделях требует десятков шагов с вычислениями в высоком разрешении. При этом на ранних этапах формируется только общая структура изображения, а мелкие детали еще не различимы, поэтому часть вычислений оказывается избыточной. 

Предложенный учеными метод SwD решает эту проблему двумя способами. Во-первых, генерация начинается с низкого разрешения и постепенно уточняется по мере снижения шума — это исключает избыточные вычисления на ранних этапах. Во-вторых, метод использует дистилляцию уже обученных моделей — таких как FLUX и Stable Diffusion 3.5, где более простая модель-студент учится воспроизводить результат сложной и сокращает число шагов генерации с десятков до 4–6.

Для обучения используется предложенная авторами новая функция потерь — Maximum Mean Discrepancy (MMD), которая сравнивает то, как модель-учитель «видит» изображение на своих внутренних уровнях обработки, с тем, как модель-студент представляет то же изображение. В отличие от традиционных подходов, это не требует вспомогательных моделей, что упрощает и ускоряет обучение. Более того, MMD может использоваться как самостоятельный метод дистилляции, то есть «сжатия знаний»: в экспериментах время одной итерации обучения сокращается в 7 раз по сравнению с более сложными комбинированными подходами.

Метод SwD сокращает время генерации с нескольких секунд до 0,3–0,4 секунды при сохранении визуального качества. В результате это позволяет быстрее и дешевле использовать современные диффузионные модели и делает их более доступными для практического применения.

Статья, описывающая разработку, принята на одну из главных конференций в области искусственного интеллекта — ICLR 2026.



Контакты:

Пресс-служба компании «Яндекс»
Елена Тарасова
Тел.:  +7 495 739–70–00
Электронная почта:  pr@yandex-team.ru


Источник: Яндекс