Kandinsky научился понимать иностранные языки24.11.2022 20:16

На международной конференции по искусственному интеллекту Artificial Intelligence Journey Сбер представил Kandinsky 2.0 — усовершенствованную версию нейросети Kandinsky, которая дебютировала в июне этого года. Как заявляют создатели, это первая российская мультиязычная диффузионная модель для генерации изображений по текстовому описанию с 2 млрд параметров. Kandinsky 2.0, в отличие от предшественника, может обрабатывать запросы на 101 языке и, как утверждают разработчики, делает это одинаково быстро и качественно вне зависимости от того, какой язык используется — распространённый, вроде русского и английского, или редкий, например, монгольский.

В Kandinsky 2.0 используется набирающий популярность диффузионный подход, который даёт хорошие результаты почти во всех задачах генерации мультимедийного контента по текстовому описанию (синтез изображений, видео, 3D и аудио). По словам Сбера, Kandinsky 2.0 отличается от своего предшественника более сочной, глубокой и реалистичной картинкой и расширенными возможностями. На сайте FusionBrain изображения можно генерировать в 20 различных стилях, среди которых ренессанс, классицизм, мультипликация, Новый год и даже хохлома. В модели также реализованы функции inpainting (замена любой части изображения и любого объекта на изображении на сгенерированные нейросетью) и outpainting (возможность дорисовывать готовое изображение и фон вокруг картинки). Интересно, что одинаковые понятия по описанию на разных языках Kandinsky 2.0 нарисует по-разному: например, если сформулировать запрос «национальное блюдо» на русском языке, то это, скорее всего, будут щи, а на японском — мисо суп и суши.

Нейросеть разработали и обучили исследователи Sber AI при поддержке учёных из Института искусственного интеллекта AIRI. Увидеть, как она рисует, можно на сайте FusionBrain, а также при помощи команды «Запусти художника» на умных устройствах Sber и в мобильном приложении Салют. Как отмечают создатели Kandinsky 2.0, она за несколько секунд позволяет получить уникальное изображение под конкретную задачу и свободно распространять его без лицензии, что очень актуально для бизнеса. По их мнению, нейросеть рисует реалистичные изображения, которые зачастую неотличимы от тех, что создают люди.