Раскраски — лучшее применение генеративных сетей :)

Мне кажется, я нашел самое правильное применение генеративных сетей, рисующих по описанию. Это генерация раскрасок!  

У меня есть дети. Дети равно раскраски. Раскраски — это постоянный поиск всякой фигни, типа «хочу чтобы был единорог, а рядом его малыш панда, и чтобы малыш был похож на маму». Интересно, что нейросети неплохо справляются с такими задачами. Причем, забавный момент — результаты начинающих нейросетей, типа того же Кандинского, принимаются более благосклонно, потому что рисуют они пока плохо. Но! эта «плохость» и ошибки в изображениях очень похожи на рисунки ребенка и воспринимается за творение собрата по детсаду/школе.

Промт:

Промт: «Раскраска: единорог смотрит на солнце, рядом его ребенок панда. Белый фон»

о шиБыли варианты, больше похожие на панду, но этот был выбран заказчиком как, цитирую «самый милый». Ну и увы, варианты от Кандинского требуют финального штриха в виде дополнительного клика в графическом редакторе для убирания серого фона. На фото выше пришлось чуть задрать уровни, зато получилась уже нормальная раскраска, пригодная для печати

Чуть-чуть подтянул уровни

Чуть-чуть подтянул уровни

Другие генеративные сети справляются более детализировано. Ниже пример от Stable Diffusion

Black and White Coloring book: unicorn looking at the sun, panda baby next to him

Black and White Coloring book: unicorn looking at the sun, panda baby next to him

Но! тут и доводить до ума дольше, раскрашивать из-за деталей уже не так интересно, плюс требуется перевод на английский, что немного лишает процесса магии.

Зато в таких сетях отлично генерировать детализированные раскраски, пригодные уже для более взрослых детей. Ниже ответ на запрос: детализированная раскраска девушка павлина

Detailed black and white coloring: peacock girl

Detailed black and white coloring: peacock girl

Еще одним персональным минусом развитых генеративных сетей типа MidJourney является выбор из 4 вариантов. А выбор не всегда хорошо — маленький заказчик начинает требовать совместить вариант 3 и 4, что бывает проблемно.  Проще перегенерить. Поэтому возвращаемся к Кандинскому, где его неразвитость может быть обращена в плюс. 

Сам кандинский, конечно, еще очень сыр. Начиная с того, что после генерации картинки, даже если полностью изменить описание, он все равно пытается просто перерисовать текущую. Приходится перезаходить. Второе — при попытке скачать изображение он всегда ошибается с рамкой для выбора скачиваемой части картинки. Немного бесит.

Но, зато он дает отличный простор для воображения

Промт:

Промт: «Раскраска: алладин дерется на мечах с черепашкой ниндзя»

Забавно, что сами авторы сетей, очевидно, не предполагают такого использования своего творения. В кандинском можно явно задать стиль выводимого изображения, но стиль именно раскраски в нем отсутствует.

Аналогично в других сетях генерации изображения. Между тем, если прямо задать такой стиль в описании, получается похоже. 

Промт: Кукла  LOL в кабине звездолета

Промт: Кукла  LOL в кабине звездолета «Сокол тысячелетия»

Кукла, конечно, нифига не LOL, но большие глаза «продали» картинку заказчику. Плюс небольшая пасхалка в виде R2D2 в панели слева :)

© Habrahabr.ru