Кожаный мешок или генеративная сетка? Генерируем обложку книги

Эскобар
ТЛДР одной картинкой.


Задача. О чём эта статья.

Задача у меня довольно понятная — нужна обложка для моей SciFi книги. Есть ТЗ, есть эскиз. Нейросети с таким не справятся, так как нужна сцена из книги, образы не мейнстримные, не представленные широко в массовой, и тем более западной, культуре.

За полтора месяца поиска адекватного художника на задачу я отчаялась и смирилась с тем, что придется сгенерить обложку нейросетями, и что она будет очень отдалённо передавать суть книги.

Несмотря на то, сколько у меня возникло негативных эмоций при поиске художников, попробую очень сухо и по фактам разложить, в чем преимущества и недостатки двух подходов к моей задаче. Не исключено, что в случае с художниками мне 1. просто не повезло, 2. я не знаю, где и как искать. Если у вас есть знакомый проверенный художник, однозначно, все упрощается.

Опишу также мой опыт работы с нейросетью Kandinsky 2.2. Почему выбор пал на неё, какие у нее достоинства и недостатки, как с ней работать.


Художник vs Нейросеть


Общее

С появлением генеративных нейросетей было много возмущений со стороны художников, но, внезапно, художники же и стали если не основным, то значительным пластом потребителей этих самых нейросетей. Они заводят платные аккаунты в подобных сервисах и интегрируют их в свою работу. Помимо настоящих художников, есть еще ai-хастлеры, которые просто перепродают результаты нейросетей, заполоняя инфополе своим шумом, делая поиск нормального исполнителя очень сложным.


Время

Даже если у вас есть знакомый художник и его не надо искать, работу он будет делать долго. Если же надо искать, то это может растянуться на непредсказуемый по продолжительности срок.

Нейросеть сэкономит вам времени минимум на порядок.

Долго выполнять работу — свойство не только художников. Помню, нам академик из Австралии говорил, что специально называет бОльшие сроки тренировки моделей под задачу, чтобы оправдать высокую цену проекта.


Права

Казалось бы, ну вот с правами-то точно у художников плюс. Увы, но нет. Тому несколько причин:


  • Художники не хотят работать по договору. Соответственно, права с такими художниками вы никак не закрепите за собой, а при использовании их работ, понадеявшись на честное слово, можете столкнуться в будущем с шантажом.
  • Вы не можете проверить, использовал ли художник нейросети в своей работе. Terms of Service никто из них не читал, что там с правами — их вообще не заботит. Кто-то откровенно вводит заказчика в заблуждение, утверждая, что о правах там нет ни слова. Кто-то уверен, что платный аккаунт передаёт им все права (тоже заблуждение). Кто-то цитирует несуществующие законы в неизвестном правовом поле о процентном содержании работы художника и нейросети (по просьбе прислать ссылку на закон следует ответ «а мне так сказали знакомые»). Впрочем, использовать нейросети для референсов, на мой взгляд, вполне себе нормально.

Отдельная категория «художников» начинает вам рассказывать, что вы не знаете, что такое нейросети, и очень заблуждаетесь насчёт них (видимо, с кем-то прокатывает). Последним аргументом можно получить знаменитое «Не знаю, что вы пристали, всем моим заказчикам нравится».

В случае с правами на результаты нейросетей нужно смотреть соглашения каждой отдельно, но в общем, как правило, вы можете использовать результат как угодно, в том числе и коммерчески, и все результаты и залитые данные, промпты принадлежат компании и ее правопреемникам бессрочно без права отзыва. Права на использование у вас неисключительные. В случае с Кандинским можно вообще спулить сетку для локальной генерации, что является огромным плюсом.

Так что с правами у нейросетей все прозрачно и не очень здорово, а у художников — я не нашла ни одного, кто стал бы работать по договору.


Деньги

Нейросети дешевле.

Ко всему прочему, я столкнулась с большим количеством мошенников. Художники, заболевающие и пропадающие после аванса, даже после выполненного первого этапа работы (и тут вас не спасут даже договоры, потому что кто будет судиться из-за таких сумм). Жители страны 404, выдающие себя за белорусов. Художники, которые просят оплату в обход биржи фриланса. Художники, которые просят перейти на гонконгскую биржу с российской. И т.д. и т.п.

Никто из художников не хочет работать без аванса. Пары сливов авансов вам будет достаточно, чтобы не захотеть работать с художниками вообще никогда.


Содержание результата

Никакая нейросеть не сравнится с хорошим художником по части управления полученным результатом.

Правда, в моём случае все остальные плюсы нейросетей перевесили этот важный критерий.

Да, и в случае с нейросетью можно нагенерить множество иллюстраций, пусть они и будут довольно общие, но это быстро и дёшево.


Нейросеть Kandinsky

Главный её плюс в том, что можно спулить и генерить себе локально, залетая в бар и заказывая минус 2 кружки пива. Можно подкручивать параметры функции именно так, как тебе надо.

Negative prompt работает через раз, поэтому проще подобрать random seed, чем исправить два подбородка.

Нет, от вопроса «Где здесь туалет» бар не сгорает, но донести до сетки, что же именно тебе надо, иногда просто невозможно. Что тут может помочь — гуглите то, что вам нужно, смотрите названия и подписи изображений, и редактируете промпт в соответствии с ними. Русскоязычные запросы почти не работают, промптить лучше на английском. Ну и попробуйте зайти с другой стороны: если сеть вместо татар выдает вам скандинавов (лол), попросите у нее half-asian person, глядишь чего и получится.

лениза

Образы, связанные с культурой нашей страны, от неё получить мне тоже не удалось, разве что кринжовую клюкву в стиле американской пропаганды.

Нейросеть хорошо копирует стили известных художников. И это настолько выходит неоригинально, что использовать такое у себя не будешь. Из этого есть выход: у кандинского есть режим миксования изображений. Так что, получив жуткую копию работ Гигера, я дважды последовательно замиксовала ее с другими изображениями. Потом отдельной сеткой делала апскейл полученного изображения до необходимого разрешения.

Получилось вот что:

обложка

Пока я писала статью, вышла сетка Kandinsky-3. Я решила сравнить, но не тут-то было: на мою 24-гиговую GPU карту модель fp16 не влезла. Точнее влезла кое-как, но максимально возможное разрешение, которое мне удалось получить — 256×256.

Они переписали пайплайн запроса в примере с ipy-ноутбуками, и вроде проще сделали, но теперь надо потратить время, чтобы залезть вовнутрь и вытащить параметры, которыми можно управлять для генерации. Делать этого, как и арендовать карточку на 48 гигов, при решённой уже задаче, из любопытства, я не буду.

Такой же запрос с приблизительно теми же параметрами, для картинки из статьи чуть выше, на 256×256, выдал это, и сравнить это не то чтобы можно было:

кандинский3

Ну и на этом всё, пожалуй.

© Habrahabr.ru