Рисуем с нейросетями: тонкие корректировки в Midjourney и Lumenor.ai

Привет, Хабр! Я — Михаил Суворов, ведущий дизайнер коммуникаций в X5 Tech. В статье я расскажу несколько рабочих способов «уговорить» нейросеть нарисовать то, что вам нужно. Я использую нейросети как генераторы изображений, в первую очередь для создания иллюстраций.

Если вы достаточно часто пользовались txt2img нейросетями, то есть теми инструментами, которые превращают ваш текстовый запрос в изображение, то могли заметить, что не всегда получается добиться того результата, который у вас есть «в голове», но вы не можете заставить нейросеть более четко выполнять ваши запросы.

В материале рассмотрим два ресурса, которые доступны онлайн и на сегодняшний день лучше всего справляются с задачей визуализации «по брифу от человека» — Midjourney и Lumenor.ai.

Midjourney и Vary (Region)

В первом кейсе вся генерация и ее доработка проводилась в Midjourney. Что важно для этого кейса — мы изначально представляли, какой результат должны получить, кто будет героем в иллюстрации и общее настроение.

Я предпочитаю использовать максимально детально сформулированные запросы, которые включают все детали желаемого изображения:

blue sky and interface buttons, man in ray ban navigator sunglasses in panama hat, background in desert, interface green buttons, interface UI elements floating in air, blue buttons, dribble best cases, neon lights, nevada las vegas desert, fear and loathing in Las Vegas, octane render, screens, view, collage, double exposure, wireframe, literature, vector art, magazine --ar 16:9 --s 200 

Я намеренно пропускаю этапы, в которых я пришел именно к этому виду запроса, иначе статья будет неподъемной по количеству иллюстраций.

Вот что получили:

65e9eacfa9486c50c3afae2299c09712.png

Нам нравится первая из 4х генераций, но в ней проигнорированы наши пожелания по тому, что у героя должна быть панама (как впоследствии оказалось, у Midjourney есть сложности с отрисовкой именно панамок), он одет совсем не так, как нам нужно.

К счастью, в последнем релизе Midjourney есть функционал Vary (Region), и мы можем поэтапно доработать изображение до требуемого нам по концепции.

d07baf22d626344002e99fb923181b2f.png

Лучше всего по отдельности менять элементы в сгенерированном изображении, чтобы сохранялись опорные точки в других частях изображения (в нашем случае это голова и шея, которые указывают на то, что героя мы показываем в ракурсе снизу).

Здесь мы выделили область для замены и ввели новый запрос – гавайскую рубашку и ее цвет.

Здесь мы выделили область для замены и ввели новый запрос — гавайскую рубашку и ее цвет.

Результат вышел отличным, можно только выбрать один из принтов на свой вкус.

Результат вышел отличным, можно только выбрать один из принтов на свой вкус.

Повторяем то же самое, но теперь с головой:

08c2da1511bff20b71ae4d5b3c1a7335.png

И результаты:

К сожалению, всё еще не панама, но одна из генераций получилась в ракурсе, по которому можно предположить, что это всё-таки панама.

К сожалению, всё еще не панама, но одна из генераций получилась в ракурсе, по которому можно предположить, что это всё-таки панама.

Останавливаемся на ней, небольшая ретушь в фотошопе — и мы получили нужный нам результат:

737a1e38f48f5cf33d37e5351f791ba1.png

Lumenor.ai

Во втором кейсе мы использовали инструмент Lumenor.ai для общей доработки изображения по эскизу (это было low res изображение из генераций Midjourney, но вместо него вполне мог быть коллаж, референс из Пинтереста или даже рисунок от руки).

Задачей было сделать множество роботов с разными эмоциями для стикерпака.

Было много разных голов, но этот особенно запал в душу своим выражением

Было много разных голов, но этот особенно запал в душу своим выражением «лица».

Доработать этого робота я решил в онлайн-инструменте Lumenor.ai — одном из многих, который работает по методу Stable Diffusion, и который, помимо множества хороших фич, умеет работать с референсами.

Загружаем нашего вырезанного от остальных бота, пробуем разные настройки стиля, такие как light/photography (от них зависит, насколько близко к вашему референсу будут результаты генерации и общий стиль итогового изображения).

Важно выставить значение CFG Scale не меньше 5 – от этого будет зависеть, насколько результат генерации будет похож на исходное изображение.

Важно выставить значение CFG Scale не меньше 5 — от этого будет зависеть, насколько результат генерации будет похож на исходное изображение.

Текстовый запрос я использовал такой же, как и для Midjourney.

Из нескольких итераций я выбрал две наиболее удачные по деталям и объединил их между собой в фотошопе.

Из нескольких итераций я выбрал две наиболее удачные по деталям и объединил их между собой в фотошопе.

Финальный стикер.

Финальный стикер.

Итоги:

Сейчас, ближе к концу 2023 года, возможности использования нейросетей для генеративного арта намного шире, чем это было меньше года назад. Кейсы выше — лишь одни из немногих возможных примеров использования относительно новых функционалов. 

А как вы используете новые инструменты и находили ли интересное применение нейросетей в своей работе? Поделитесь в комментариях.

© Habrahabr.ru