Рисуем с нейросетями: Есть ли у ИИ-художника свой стиль?04.04.2024 09:45

Привет, Хабр! Я — Михаил Суворов, ведущий дизайнер коммуникаций в X5 Tech. В статье я ставлю эксперименты над ИИ, пока у них нет возможности «дать сдачи» человеку. Если серьёзно, то проверим гипотезу, может ли нейросеть, генерирующая изображения, иметь собственный «авторский стиль».

Внутри каждой из txt-2-img нейросетей есть модель, обученная на своем датасете. Если модель удачная, то и генерации будут получаться качественными, красивыми, соответствующими запросу. Разумеется, посмотреть, что представляет из себя модель, на каком датасете она обучена, не получится — это коммерческая тайна любого из продуктов, о которых я буду писать ниже.

И всё-таки, попробуем определить, где лучше генерировать изображения, хотя бы по факторам красоты/соответствия запросу.

Будем исходить из того, что в каждом из продуктов, который участвует в наших экспериментах, есть большие или меньшие веса для определённых изображений. То есть она предрасположена выдавать в результатах генераций следы тех изображений, которых или больше в датасете или которые имеют больший вес. Лучше всего эту предрасположенность называть ёмким английским словом «bias». Это можно сравнить с «авторским стилем» художника, хотя, конечно, ИИ недоступно понимание стиля, это человеческая интерпретация.

Проведём два эксперимента, попробуем найти bias, который добавляется к каждому вашему запросу, желаете вы того или нет.

В обоих экспериментах мы сравним результаты одинаковых запросов из разных продуктов. Всего будет по 4 генерации, никаких изменений между ними нет.
В Midjourney и Designer от Bing (на базе DALL-E 3) мы будем вводить текст запроса на английском, в Lumenor.ai и Шедеврум от Яндекса — на русском. Для Midjourney используется v. 6 –s 50, для Lumenor — style RAW. DALL-E 3 и Шедеврум не дают точных настроек.

Эксперимент 1

Задаём максимально нейтральные токены. То, что можно попросить любого человека нарисовать на бумаге карандашом, и это займёт не много времени (в конце концов, ладонь можно и обвести).

Эксперимент 2

Пробуем запутать ИИ, отправляя нестандартный запрос. Если попросить сделать то же самое человека, он без труда вас поймёт. В отличии от ИИ, как мы убедимся, посмотрев на результаты. Но мы оцениваем сейчас стиль изображений.

Можно ли сказать, что у нейросетевых художников есть «свой стиль»?

Каждая из четырёх рассмотренных нейросетей — Midjourney, Designer от Bing (на базе DALL-E 3), Lumenor.ai и Шедеврум от Яндекса — обладает своим подходом к генерации изображений. Этот «стиль» проявляется через детализированность изображений и через предпочтения к определённым цветовым схемам, что позволяет говорить о наличии некоего «авторского стиля» у ИИ.

Midjourney и Lumenor особенно выделяются своей склонностью к созданию изображений с выраженным bias, что влияет на детализацию и цветовые схемы. В то время как генерации от Bing и Шедеврума менее подвержены этим предвзятостям, хотя их всё же можно отличить по некоторым характеристикам.

Сейчас мы становимся свидетелями гонки между различными txt-2-img продуктами за внимание пользователей, переходя от этапа соревнования за создание наиболее реалистичных изображений к новому этапу. Продукты стремятся не просто к реализму, но и к эстетической привлекательности в своих генерациях, корректируя свои модели для достижения более красивых результатов.

Как вы думаете, может ли bias ИИ-художника считаться настоящим художественным стилем, сравнимым с человеческим творчеством? Напишите в комментариях.