[Перевод] Как ИИ учится рисовать аниме

Аниме — мультипликация, которая интересна не только подросткам. Даже среди суровых бородатых айтишников в свитерах есть ценители этого направления. Создатели Waifu Labs — сайта для генерации аниме-портретов — поделились своей внутренней кухней и рассказали, как ИИ создаёт рисунки.

Проекту Waifu Labs исполняется 2 года, за это время их художник-нейросеть «нарисовала» около 20 миллионов изображений.

image-loader.svg

Как это работает?

Так выглядит процесс тренировки нейросети:

А вот так — готовый рисунок:

image-loader.svg

ИИ, на котором работает Waifu Labs, называется генеративно-состязательной сетью. Авторы сняли обучающее видео о том, как работает технология:

Процесс обучения можно представить, как соревнование двух ИИ:

Первая нейросеть называется Генератор. Её задача — научиться рисовать.

Вторая нейросеть называется Дискриминатором. Она должна научиться отличать поддельные рисунки (созданные ИИ) от настоящих (созданных человеком-художником).

Сначала оба ИИ получают аниме-иллюстрации от художников-людей. Далее Генератор рисует свой вариант изображения. Дискриминатор сравнивает это изображение с рисунками, сделанными людьми. Его задача — «наказать» Генератор за ошибки. Таким образом обе нейросети одновременно обучаются и совершенствуются в выполнении своих задач. Как и в случае соперников-людей очень важно, чтобы качественный рост обоих ИИ происходил равномерно. Когда один ИИ доминирует над другим, перестают учиться оба.

Ниже вы можете увидеть прогресс Генератора: авторы собрали образцы работ, которые он создавал во время обучения. Время обучения измерили в «шагах».

Шаг 0: Здесь видно, что в самом начале работы ИИ абсолютно не представляет, что такое «искусство». Первая картина, которую он рисует, — это просто цветной шум, случайный выплеск первобытной слизи из пробирки. Некоторое время он будет тыкаться, как слепой котёнок, пробуя разные стратегии, чтобы изобразить нечто похожее на человеческое искусство.

image-loader.svg

Шаг 1024: Здесь мы уже видим нечто похожее на человеческое лицо.

image-loader.svg

Шаг 4096: Начали проявляться характерные для аниме черты лица, пряди волос. 

image-loader.svg

Шаг 13516: Как и художники-люди, ИИ всегда сначала учится рисовать глаза.

image-loader.svg

Шаг 23961:  Начинают прорисовываться второстепенные черты, такие как уши и плечи.

image-loader.svg

Шаг 40564: Медленно, но верно размытые формы превращаются в реальные черты. Появляется всё больше мелких деталей, благодаря чему иллюстрация обретает «текстуру» и «стиль». Цвет появится в последнюю очередь.

image-loader.svg

Шаг 43636: На данном этапе обучение может стать нестабильным, поэтому появляются вот такие криповые кадры:

image-loader.svg

Шаг 50000: Окончательный результат!

image-loader.svg

ИИ Waifu Labs потребовалось около 2-х недель, чтобы добиться того качества рисовки, которое вы видите сегодня.

Создание мысленного представления

Благодаря вышеописанному процессу, ИИ не просто учится копировать увиденные работы, но и формирует у себя представление о высокоуровневых (формы) и низкоуровневых (текстуры) признаках для создания собственных оригинальных изображений.

Художники-люди также обладают этим мысленным представлением. Просто для многих оно выведено за рамки сознания и лежит в области интуиции. Это мысленное представление развивается на протяжении всей жизни художника благодаря занятиям искусством и накоплению жизненного опыта.

С ИИ всё немного иначе. Рост его мысленного представления останавливается в момент окончания обучения, так что можно «извлечь» его и внимательно рассмотреть. Это немного похоже на систему координат, авторы назвали его скрытым пространством.

Изолируя векторы, управляющие определенными функциями, можно создавать такие результаты, как

другая поза, тот же персонаж:

image-loader.svg

та же поза, другой стиль:

image-loader.svg

И многое другое!

Некоторые координаты в скрытом пространстве очень странные. Вот, например, очаровательная девочка, которую авторы ласково прозвали «головастиком».

image-loader.svg

Скрытое пространство неизмеримо огромно. Лишено содержания. Приходится продираться через бескрайние пустыни обычных произведений искусства, чтобы найти нужные координаты для создания очаровательных, милых персонажей. Каталогизация этих координат позволяет делать разные крутые штуки, например, выполнять трансформацию одного персонажа в другого.

Если разделить координаты, которые управляют позой, цветами и деталями, можно создать интерфейс, с помощью которого пользователи могут поручить ИИ нарисовать то, что они хотят!

Как измерить креативность?

Большая часть процесса разработки ИИ — это оценка производительности, но как замерить креативность? Традиционно генеративные нейросети оцениваются с помощью FID, но в данном случае этого недостаточно.

Чтобы правильно оценить результаты ИИ-художника, авторы использовали систему из другого ресурса. А именно, систему оценки качества, которую используют коммерческие арт-директора для оценки художников-фрилансеров.

Качество: Художник может работать в полном соответствии с требуемым стилем (аниме-портреты).

Разнообразие: Художник может изобразить различные характерные черты в запрошенном качестве.

Настраиваемость: Художник может правильно подобрать и изобразить элементы, нужные для определенного портрета.

Время: Художник может подготовить работу вовремя.

Некоторые интересные моменты, на которые стоит обратить внимание:

Качество определяется как соответствие стилю. В коммерческом искусстве ключевым моментом является единство стиля: прекрасные произведений искусства в разных стилях работают не так хорошо, как менее впечатляющие работы, которые дополняют друг друга и хорошо сочетаются между собой.

Настраиваемость — это навык, не совсем относящийся к искусству. Это скорее умение общаться с клиентом, понимать, чего он хочет. Точно так же оценивается и художник ИИ. Насколько хорошо он взаимодействует с пользовательским интерфейсом.

Заключение

Конечно, нельзя оценить творчество по сугубо коммерческим показателям. Но благодаря этим критериям можно направить творческий процесс ИИ таким образом, чтобы он сочетал креативность и при этом являлся коммерчески эффективным.

Креативная индустрия и акт творчества — два разных, но глубоко переплетенных понятия. И хотя нам никогда не проникнуть под таинственную завесу второго, мы можем взглянуть на него сквозь призму первого. 

© Habrahabr.ru