Раскраски — лучшее применение генеративных сетей :)
Мне кажется, я нашел самое правильное применение генеративных сетей, рисующих по описанию. Это генерация раскрасок!
У меня есть дети. Дети равно раскраски. Раскраски — это постоянный поиск всякой фигни, типа «хочу чтобы был единорог, а рядом его малыш панда, и чтобы малыш был похож на маму». Интересно, что нейросети неплохо справляются с такими задачами. Причем, забавный момент — результаты начинающих нейросетей, типа того же Кандинского, принимаются более благосклонно, потому что рисуют они пока плохо. Но! эта «плохость» и ошибки в изображениях очень похожи на рисунки ребенка и воспринимается за творение собрата по детсаду/школе.
Промт: «Раскраска: единорог смотрит на солнце, рядом его ребенок панда. Белый фон»
о шиБыли варианты, больше похожие на панду, но этот был выбран заказчиком как, цитирую «самый милый». Ну и увы, варианты от Кандинского требуют финального штриха в виде дополнительного клика в графическом редакторе для убирания серого фона. На фото выше пришлось чуть задрать уровни, зато получилась уже нормальная раскраска, пригодная для печати
Чуть-чуть подтянул уровни
Другие генеративные сети справляются более детализировано. Ниже пример от Stable Diffusion
Black and White Coloring book: unicorn looking at the sun, panda baby next to him
Но! тут и доводить до ума дольше, раскрашивать из-за деталей уже не так интересно, плюс требуется перевод на английский, что немного лишает процесса магии.
Зато в таких сетях отлично генерировать детализированные раскраски, пригодные уже для более взрослых детей. Ниже ответ на запрос: детализированная раскраска девушка павлина
Detailed black and white coloring: peacock girl
Еще одним персональным минусом развитых генеративных сетей типа MidJourney является выбор из 4 вариантов. А выбор не всегда хорошо — маленький заказчик начинает требовать совместить вариант 3 и 4, что бывает проблемно. Проще перегенерить. Поэтому возвращаемся к Кандинскому, где его неразвитость может быть обращена в плюс.
Сам кандинский, конечно, еще очень сыр. Начиная с того, что после генерации картинки, даже если полностью изменить описание, он все равно пытается просто перерисовать текущую. Приходится перезаходить. Второе — при попытке скачать изображение он всегда ошибается с рамкой для выбора скачиваемой части картинки. Немного бесит.
Но, зато он дает отличный простор для воображения
Промт: «Раскраска: алладин дерется на мечах с черепашкой ниндзя»
Забавно, что сами авторы сетей, очевидно, не предполагают такого использования своего творения. В кандинском можно явно задать стиль выводимого изображения, но стиль именно раскраски в нем отсутствует.
Аналогично в других сетях генерации изображения. Между тем, если прямо задать такой стиль в описании, получается похоже.
Промт: Кукла LOL в кабине звездолета «Сокол тысячелетия»
Кукла, конечно, нифига не LOL, но большие глаза «продали» картинку заказчику. Плюс небольшая пасхалка в виде R2D2 в панели слева :)