Большое сравнение нейросетей

Привет, меня зовут Юля, 85GB и я веду свой канал по нейронкам

В этой статье я рассмотрю по различным параметрам графические нейронки: DALL-E 2 (далее буду называть его DALL-E), Midjourney, Stable Diffusion, Кандинский и Шедеврум. Постараюсь разложить всё максимально чётко и ёмко, дать оценку по каждому блоку от 0 до 5. А потом всё сведу в одну таблицу. Штош, поехали. Содержание (кликабельно):

Цена и доступность

Здесь всё довольно просто.

  1. DALL-E — платный, каждые 115 генераций за 15$, оптом не дешевле. Предоставляет 14 бесплатных генераций каждый месяц только старым пользователям (которые зарегались в Далли до 6 апреля 2023 г.), новые должны платить без вариантов. Для пользователей за пределами России легкодоступна в браузере. Для пользователей на территории России — недоступна, нужно заморочиться с иностранным номером.

  2. Midjorney — платный, есть несколько тарифов: 10, 30 и 60 баксов. Отличаются они количеством часов генераций и функцией приватности в самом дорогом тарифе. Что это значит? Ваши картинки никто не увидит, они не попадут в общую ленту и их нельзя будет найти по поиску. Доступ через дискорд и сайт. Пользователям с территории России нужно искать обходные пути для оплаты.

  3. Stable Diffusion — бесплатный. Вариантов доступа множество. Есть базовая консоль, в которой всё пишется кодом и надо быть прогером. Есть привычный всем Automatic1111 — консольный интерфейс с кучей настроек, надо кааапельку шарить в гитхабе и коде. Он требует дохрена физической и видеопамяти для работы. Есть сайты, например, бесплатный (результаты так себе) или платный от создателей Стейбла. А ещё Гугл-коллаб с Automatic, генерация происходит на стороне Гугла.

  4. Кандинский — бесплатный. Вариант доступа один — через сайт.

  5. Шедеврум — бесплатный. Доступен только через приложение.

DALL-E

Midjorney

Stable

Кандинский

Шедеврум

2

2

4

5

5

Оценки по блоку основаны, в частности, на доступе для российских юзеров

Midjourney: entry threshold

Midjourney: entry threshold

Порог вхождения

В этом блоке пойдёт речь о дружелюбности системы к юзеру и простоте/сложности использования.

  1. DALL-E — максимально простое введение подсказок (промптов), старается работать в контексте. Документацию в целом тоже найти несложно, она есть на главной странице, но она больше предназначена для их открытого кода, а не для юзеров, инфа очень сжата. Есть блок «хелп» на странице с генерацией, он плохо работает — это бот с набором вопрос-ответов. Но есть отдельная страница «хэлпа» с более развёрнутыми ответами, как будто они прописывают правила на ходу.

  2. Midjorney. На данный момент существует версия 5.1, которая работает в контексте, а вот версия 4 и более ранние были довольно капризны к промптам, требуя строгого порядка тегов. Документация большая и понятная, дружелюбная к юзеру, доступна с главной страницы сайта.

  3. Stable Diffusion — ад на земле. Ремар очка: я буквально по канону прошла все стадии от отрицания до принятия, и на этапе гнева мне хотелось разбить комп. Так вот, Стейбл — это консоль, которая требует довольно конкретных тегов (токенов). Нужно вводить не только обычные промпты, но и отрицательные. Здесь множество правил и нюансов, которые просто надо знать. Документация есть у Automatic1111, но там больше про интерфейс и код. Документация самого Стейбла — чисто про код, рядовому юзеру типа меня там нечего делать. Базовой версией Стейбла пользоваться бесполезно, она очень плоха, нужно дополнительно скачивать модели (как моды на игры) которые весят в среднем 2–5 гигов, дополнительные поднастройки. Чтобы разобраться в этом, нужно потратить ОГРОМНОЕ количество времени.

  4. Кандинский. По нажатию знака вопроса выдаёт это: «Введите описание изображения и нажмите Создать». Никакой другой инфы и документации я не нашла. Для тех, кто уже работал с нейронками это ок, для новых юзеров — нет, это не френдли.

  5. Шедеврум. Тоже самое, что у Кандинского, но есть «правила» на пару абзацев (из которых почти ничего не ясно). Хотя в целом Шедеврум довольно прост, в том числе благодаря ленте в приложении.

DALL-E

Midjourney

Stable

Кандинский

Шедеврум

4

5

2

1

3

Midjourney: forbidden

Midjourney: forbidden

Запрещёнка

Этот блок тесно связан с предыдущим, но его необходимо разобрать отдельно прежде чем приступить к генерации.

  1. DALL-E. Нет списка слов, но запретные темы развёрнуты в правилах: Ненависть, Насилие, Секс, Шок-контент (человеческие выделения, плохие жесты), Наркотики, Политика, Болезни. Хочется спросить:, а ваще чота можна? Ну, кроме просто людей и кроликов каких-то. За нарушение правил грозит бан (правда неясно, сколько раз надо нарушить)

  2. Midjorney. Нет списка слов, есть пояснения по темам в документации. Из очевидных запретов: контент для взрослых, сцены насилия и оторванные конечности. Версия 5.1 вроде должна была ввести ограничения на знаменитостей. Но я заметила только, что сходство некоторых ухудшилось или пропало (Трамп по прежнему идеален). За использование запретных слов — бан (коммьюнити говорит о 25 попытках, официальных данных нет, как и официального списка слов).

  3. Stable Diffusion. Начнём с того, что версий несколько. В 1.5 ограничений практически нет или их легко обойти. А вот в 2.0 создатели вычистили из набора данных весь контент для взрослых, убрали имена художников, потому что многие из них выступали против нейронок. Официальной инфы об этом нет, только новости, форумы и обзоры юзеров.

  4. Кандинский. Нет документации — нет информации. Всё постигается сугубо опытом. Например, слово «обнажённый» можно, «кровь» можно, а вот на слово «кишки» генерит поле с цветочками и пишет «Запрос не соответствует правилам работы». Дали бы хоть эти правила почитать что ли.

  5. Шедеврум. Запреты следующее: Фамилии, Политика и религия, 18+ контент, Жестокость и Насилие. Пояснений нет, только перечисление. И вот в чём прикол: фамилии под запретом настолько, что нельзя писать даже бренды. Я не могу ввести «мужчина в костюме Версаче», нейронка не пропустит это. И ещё я выявила, что нельзя обращаться к расовой принадлежности. Нельзя «азиатский мужчина», надо: «кореец» или «китаец». Есть это в правилах? нет.

Пожалуй, самая спорная графа для оценки. С одной стороны, какая-то цензура нужна, но ни одна нейронка не реализовала её достаточно хорошо и не выдала просто список запрещённых слов в виде таблицы. Решила, что снижу оценки за силу цензуры, но накину баллов за объяснения. Шедеврум получает 0 за адский кринж со всех сторон.

DALL-E

Midjourney

Stable

Кандинский

Шедеврум

2

3

3

4

0

Дональд идеально отражает мою реакцию на всю эту дичь. Сделано в Миджорни.

Дональд идеально отражает мою реакцию на всю эту дичь. Сделано в Миджорни.

Промпты

И вот, мы пришли к самому интересному. Я возьму не просто одинаковые промпты., но и буду описывать то, сколько требуется доработок до удобоваримого материала (если таковой вообще предусмотрен).

Итак, базовый промпт: a man standing in front of a pink flowers, inspired by Nikolaj Abraham Abildgaard, official versace editorial, exquisite and handsome wings, vogue magazine cover, asian male, darius zawadzki and tom bagshaw, hermes ad, prideful look

Этот промпт я получила с помощью картинки подписчика моего канала и функции/describe Миджорни.

Как можно заметить, все они нацелены на фотореализм, но разберём по порядку:

  1. DALL-E — ноль изменений, промпт взят как есть. Приятно, что это самая живая пикча из всех на первый взгляд. Далли выдаёт 4 пикчи при генерации

  2. Midjourney — в обоих версиях тоже без изменений промпта. Здесь сразу покажу, что картинки получаются разными при генерации, но похожими друг на друга. Миджа выдаёт 4 картинки, из которых можно кнопкой U получить увеличенную версию или кнопкой V получить варианты одной пикчи.

  1. Stable Diffusion. А вот тут начинаются проблемы. Как я говорила выше, нельзя просто сразу «из коробки» получить то, что хочешь. Сначала надо скачать модель под задачу. И я это сделала, скачала несколько фотореалистичных (если надо, сделаю отдельный пост про них в канале). Давайте посмотрим на картинку, которая получается при голом промпте:

Адский кринж, неправда ли? Дело в том, что в промпт нужно добавить:

  • Уточнение фотореализма: (8k, RAW photo, highest quality) обязательно в скобочках, это для демонстрации важности тегов.

  • Негативный промпт. Здесь такой прикол: нужно заносить сюда всё, что НЕ нравится на картинке. Мне лично это далось тяжело. Концепция «я не хочу, чтобы были кривые пальцы» ломает мозг. Но это лирика, продолжим, я взяла список типовых слов для негативного промпта: lowres, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, jpeg artifacts, signature, bad anatomy, extra legs, extra arms, extra fingers, poorly drawn hands, poorly drawn feet, disfigured, out of frame, tiling, bad art, deformed, mutated, blurry, fuzzy, misshaped, mutant, gross, disgusting, ugly, watermark, watermarks. Получаем такую картинку. Но это не предел.

Можно это улучшить ещё больше. Но это уже радикальные изменения промпта. Добавляем следующее: (dark shot:1.17), epic realistic, art, (hdr:1.5), (muted colors:1.2), hyperdetailed, (artstation:1.5), warm lights. Што это за цифры? Это веса. В Миджорни работают похожим образом, только без скобок и через двойное двоеточие. Вот данные конкретные теги предназначены для создания артовой картинки, но в разных моделях даёт разный результат, мне выдал такой:

Прим.: по дефолту выдаёт одну картинку за раз, все каринки разные, но в одном стиле

Прим.: по дефолту выдаёт одну картинку за раз, все каринки разные, но в одном стиле

Это достаточно похоже на фотку, результат меня устроил, идём дальше.

  1. Кандинский. Промпт не менялся и, как вы можете заметить, картинки похожи на 4-ю версию Миджи. Это интересная тема: в зависимости от стиля или промпта часть картинок будет похожа на Далли или Стейбл (у которых открытый код), а часть — на Миджорни (код которой не раскрывается), так что мне крайне любопытно, как они это реализовали. Пересыл делают что ли. При длинном промпте все картинки похожи друг на друга, почти идентичны:

Кандинский по дефолту имеет 17 стилей, но разумеется можно экспериментировать. В отличие от иностранных сервисов, поддерживает русский язык.

  1. Шедеврум. Здесь прям адуха. Из-за ограничений промпт пришлось сократить вполовину: man, pink flowers on the background, exquisite and beautiful wings, vogue magazine cover, korean, close-up shooting, proud look.Получилось это:

И да, это оригинальный размер. В целом, очень похоже на остальные картинки, и это хорошо. Как будто бы можно получить желаемое изображение с минимумом усилий. Но тотальное количество ограничений, с которыми я столкнулась — это плохо. Оно говорит об отсутствии контроля. Порой стиль того или иного бренда для изображения критичен, он даёт свой особый вайб, который нельзя передать другими словами.

DALL-E

Midjourney

Stable

Кандинский

Шедеврум

5

5

3

5

1

Оценивала работу с чистым промптом

Догенерация и постобработка

А что если я не хочу людей, как в таком случае справляются нейронки? И могу ли я исправить то, что сгенерировала? Начнём с базового промпта: photography, lemonade with ice and strawberry, yellow background, in the style of contemporary, simple, sunlight

И вот тут можно увидеть, что по качеству генерации НЕлюдей Миджорни выигрывает. Но мы тыт не за эти. Постобработка, поехали:

  1. DALL-E. Изначально квадратную картинку можно расширить с помощью функции редактирования изображения, убрать любой объект или добавить его. Делается это довольно простым функционалом, я записывала о нём видео. То есть догенерить можно любую картинку, если добавить к ней промпт. Помимо этого, каждую картинку можно получить в 4х вариантах с помощью кнопки Variations.

  1. Midjourney. Здесь нет такой догенерации и постобработки изображения. Это огромный минус. Только получение вариантов одной пикчи.

  2. Stable. А вот тут как раз масса вариантов для редактирования. С помощью базового интерфейса Автоматик можно увеличить соотношение сторон и дорисовать объекты несколькими способами.

  1. Кандинский. Здесь догенерация и редактура скопированы у Далли, но реализованы пока что гораздо хуже. Например, внесение изменений в изображение сильно портит его и так не самое топовое качество.

  1. Шедеврум. Здесь нет никаких доп. функций.

Так как я занимаюсь сравнением нейронок, то оценивать этот блок буду не относительно того, что я хотела бы видеть в идеале, а относительно того, что они могут выдавать сейчас:

DALL-E

Midjourney

Stable

Кандинский

Шедеврум

3

0

5

2

0

Доп. функции. Размер и качество на выходе

Есть ли ещё функции для обработки изображений у нейронок?

  1. DALL-E. Всё только на промптах. Стандартный размер выходного изображения: 1024×1024. Вес: около 1,5 мб. Качество: не очень хорошее, мыльно, много размазанных деталей. Приведу в пример кусок картинки:

  1. Midjourney. Все настройки здесь выполняются командной строкой. Команд здесь много для разных целей: смешивание изображений, получение промпта с картинки, превращение одной картинки в другую (img to img), изменение деталей изображения с помощью закрепления seed (номера генерации). Помимо команд также есть параметры: для указания размера картинки (соотношения сторон), для уровня стилизации, создания бесшовного паттерна и прочего. Все они описаны в документации Миджи.

Апскейл 1 из 4-х изображений осуществляется кнопкой U. Стандартный размер выходного изображения: 1024×1024. Вес: около 1,5 мб. Качество: хорошая передача объектов, но много шумов, которые, если не увеличивать картинку, добавляют резкости. Картинки из Миджорни можно смело публиковать в соцсетях и даже печатать на небольших форматах. Пример:

  1. Stable Diffusion. Множество настроек и регулировок изображения. Seed здесь работает не очень, как и в Миджорни, а вот img2img намного лучше.

Img2img и seed — это огромная тема, пожалуй, обозрю её подробнее в следующий раз. За обновлениями следите у меня на канале.

Скачивание дополнительных моделей позволяет менять свет и настраивать позы. Пока это работает неидеально, но работает.

В Автоматике можно увеличить изображение во вкладке Extras или краааайне сложными путями. Но хорошее качество будет только с девицей на картинке (в идеале голой), остальные тематики в пролёте. На мой взгляд, лучше пользоваться сторонними апскейлерами. Сравнение:

Стандартный размер выходного изображения: 512×512. Вес: около 300 кб. Качество: плохое, мыльное, пиксельное. Такое изображение лично я клиенту отправить не смогу. Приведу в пример кусок картинки:

  1. Кандинский. Нет доп. настроек, кроме указанных в предыдущей главе. Стандартный размер выходного изображения: 767×767. Вес: около 300 кб. Качество: плохое, мыльное, пиксельное. Пример:

  1. Шедеврум. Это просто трэш. Стандартный размер выходного изображения: 256×256. Вес: около 15 кб. Качество: плохое, мыльное, пиксельное. Пример:

Пришлось увеличивать картинку, чтобы провести демонстрацию

Пришлось увеличивать картинку, чтобы провести демонстрацию

DALL-E

Midjourney

Stable

Кандинский

Шедеврум

2

5

4

1

0

Лицензии

Для тех, кому важно:

  1. DALL-E. В соответствии с контентной политикой, вы владеете изображениями, которые вы создаете с помощью DALL·E, включая право на перепечатку, продажу и продажу товаров — независимо от того, было ли изображение создано с помощью бесплатного или платного кредита.

  2. Midjourney. Согласно правилам, все изображения принадлежат и вам, и Миджи. Приколдэс в том, что те, кто бесплатно генерит, не имеет права на свои картинки. А тот, кто генерит по самому дорогому тарифу, имеет прав чуточку больше, так как Миджорни обещает, что постарается не использовать изображения таких юзеров в своих целях.

  3. Stable Diffusion. Здесь, как и в Далли, вы владеете всеми правами на создаваемые изображения, вот правила, но есть загвоздка — это касается только изображений, сгенерированных на чистом стейбле, без доп.моделей. У кажой модели есть свой автор и он навешивает уже свои правила и свои лицензии, что логично.

  4. Кандинский. Самая интересная лицензия. У вас есть неисключительные права на создаваемые изображения, вы можете ссылаться на Кандинского, но не можете указывать, какой компании он принадлежит, грубо говоря.

  5. Шедеврум. Инфы ноль. Делайте с этим чо хотите.

DALL-E

Midjourney

Stable

Кандинский

Шедеврум

5

4

4

2

0

Заключение

Начнём с оценок:

DALL-E

Midjourney

Stable

Кандинский

Шедеврум

Цена и доступность

2

2

4

5

5

Порог вхождения

4

5

2

1

3

Запрещёнка

2

3

3

4

0

Промпты

5

5

3

5

1

Догенерация и постобработка

3

0

5

2

0

Размер и качество на выходе

2

5

4

1

0

Лицензии

5

4

4

2

0

Итого

23

24

25

20

9

Итог удивителен даже для меня на самом деле. В моей голове Кандинский и Далли отстают гораздо сильнее, так что результаты крайне забавны. На Шедеврум, понятное дело, надежды не было никакой.

В целом, я понимаю, почему Стейбл выигрывает, у него огромные перспективы для развития, посмотрите, какие изображения можно делать, если понимать систему работы, скачивать поднастройки и юзать их:

Помимо этого, в Стейбл, как я уже писала выше, можно контролировать позы и эмоции, это очень круто. НО. Для моей работы и для моей нервной системы идеально подходит Миджорни. Поговорим о применимости «здесь и сейчас»:

Stable Diffusion подходит для: cерийных иллюстраций (стикеры или концепты персов с позами, разумеется), элементы для моушен-дизайна (самый яркий пример — реклама Колы), создание «фотосессий» для конкретного человека не выходя из дома ну и конечно же контент для взрослых.

Midjourney — рекламная графика, помощь в разработке концепций съёмок людей или брендов, готовые стоковые «фотографии». Помимо этого: референсы для логоготипов, интерфейсов и иллюстраций, создание бесшовных паттернов и много чего ещё, что можно сделать БЫСТРО. Ключевое слово. Это работает быстро, достаточно точно и если мне что-то нужно поправить, то я воспользуюсь фотошопом. Между вариантами »60 баксов» vs »60 часов своей жизни и миллиард нервных клеток» я выберу первое.

Кандинский пока что сырой, но тоже имеет право на существование и развитие. В отличе от Шедеврума. Зачем выкатили ЭТО я вообще понять не могу, особенно с таким невероятным уровнем конкуренции, когда есть нейронки на каждый чих.

Надеюсь, этот обзор был полезен и поможет вам в выборе. Спасибо, что дошли до конца. Всем чмаффки, и подписывайтесь на мой канал.

© Habrahabr.ru