[Перевод] Stable Diffusion — важнейшая нейросеть за всю историю генеративного искусства30.08.2022 23:46

Компания Stability.ai объявила о публичном релизе модели графической нейросети Stable Diffusion. Можно подумать, что это лишь очередная новость о том, что в мире искусства появилась ещё одна рядовая нейросеть. Но это далеко не так по двум причинам, одну из которых вы видите в хабах. Подробности — к старту нашего флагманского курса по Data Science.

HollyB#1382 (портрет)

Во-первых, в отличие от сравнимых с ней по качеству DALL·E 2 и Midjourney, нейросеть Stable Diffusion имеет открытый исходный код. Поэтому любой желающий может бесплатно создавать на её основе приложения для решения конкретных задач по преобразованию текста в изображение.

Люди уже создают проекты на Google Colab из текстовых описаний (от Deforum и Pharmapsychotic), а также в плагине Figma и пользуются поисковыми системами для поиска текстовых описаний, сгенерированных изображений и начальных значений Lexica.art. Кроме того, разработчики Midjourney предусмотрели возможность комбинирования этой нейросети со Stable Diffusion, что привело к удивительным результатам (такая возможность временно отключена, но может вскоре снова стать доступной, как только будет решена проблема вредоносного потенциала такой связки):

Midjourney + Stable Diffusion; alessandrochille, Darken, eyecon01

Пока я пишу эти строки, с релиза Stable Diffusion не прошло и трёх суток. Трудно представить себе, что может произойти в последующие недели и месяцы.

Во-вторых, в отличие от сопоставимых по открытости кода DALL·E mini (Craiyon) и Disco Diffusion, Stable Diffusion позволяет создавать фотореалистичные и эстетичные произведения искусства, не уступающие по качеству моделям OpenAI и Google. Многие даже утверждают, что это высокотехнологичная «генеративная поисковая система», как любит называть подобные разработки Мостак.

Чтобы вы смогли оценить уровень художественности и технологичности Stable Diffusion, я добавлю несколько своих любимых изображений, найденных мной в сообществах на Discord (все эти изображения созданы Stable Diffusion, если нет указания об обратном).

ai_coo#2852 (стрит-арт)

Stable Diffusion воплощает всё лучшее, что есть в нейросетях мира искусства: это, возможно, лучшая из существующих графических нейросетей с открытым исходным кодом. Она пока не имеет аналогов, и её, без сомнения, ждёт большое будущее.

В своих статьях я часто писал о нейросетях на стадии разработки — за годы до того, как они станут пригодными для повседневного применения. Эти статьи интересны лишь с теоретической точки зрения, но Stable Diffusion — пример модели, интересной и с теоретической, и с практической точек зрения. Она совмещает наработки современных исследований и опыт реального применения. Приложения на её основе уже создаются, и вы уже очень скоро сможете использовать их для решения серьёзных и не очень серьёзных задач.

Любопытно, что новости о подобных сервисах могут приходить от тех, от кого вы их совсем не ждёте. От родителей, детей, супругов, друзей и коллег. Словом, все те, кому совершенно чужд мир графических нейросетей, могут неожиданно узнать о новинках в этой области. Через графику технологии ИИ способны достучаться даже до тех, кто привык не замечать стремительного приближения будущего. Разве это не поэтично?

HollyB#1382 (морской пейзаж)

Stable Diffusion — нечто большее, чем DALL·E 2 с открытым кодом

Студия Stability.ai создана, чтобы «разрабатывать открытые нейросети для реализации наших возможностей». Это не экспериментальные модели, которые большинство людей никогда не увидит. Это инструменты, применение которым может найти каждый. И это выгодно отличает нейросеть от OpenAI, где секреты лучших разработок (GPT-3 и DALL·E 2) охраняют как тайну мироздания, и Google, где бета-версии собственных систем (PaLM, LaMDA, Imagen и Parti) пока даже не планируются. Уже несколько месяцев назад до меня дошли слухи о том, что Stability.ai создали нечто большее, чем запланированная ими альтернатива DALL·E 2.

Основатель Stability.ai Имад Мостак учился на ошибках OpenAI. К примеру, то, что нейросеть Craiyon стала по-настоящему вирусной, лишь доказывает, что закрытая бета-версия DALL·E имела ряд недостатков. Люди хотят не наблюдать, как создаются шедевры, а создавать их. Поскольку публичный релиз не раскрывал ни код, ни веса модели, до которой нет дела большинству пользователей, студия Stability.ai сама сделала этот важный шаг. Она создала готовую к работе онлайн-платформу для тех, кто не умеет или не хочет программировать.

Twobob#2909 (природа)

Эта платформа называется DreamStudio Lite. Она позволяет бесплатно генерировать до 200 изображений, чтобы оценить глубину возможностей Stable Diffusion. Подобно DALL·E 2, здесь есть также платная подписка: за 10£ вы сможете создать до 1000 изображений (OpenAI раз в месяц возвращает 15 кредитов, но, чтобы получить больше, вам нужно приобрести 115 кредитов за 15$). Для большей ясности приведём эти цены к общему знаменателю: в DALL·E изображение стоит 3 цента, а в Stable Diffusion — всего 1 цент.

Stable Diffusion можно использовать через API (стоимость масштабируется линейно: 100 сгенерированных изображений обойдутся вам в 1£). Помимо генерации изображений Stability.ai в ближайшее время анонсирует DreamStudio Pro (аудио/видео) и Enterprise (студиям).

Стоит также отметить, что помимо создания изображений по текстовому описанию DreamStudio в ближайшее время реализует функцию генерации одних изображений из других также с использованием текстового описания. Вот несколько примеров:

clif08#7318

symmetry#5379

Neverduft#5541

На том же сайте есть ресурс для подбора запроса, который пригодится всем, кому это в новинку (ведь найти «общий язык» с моделями чрезвычайно сложно). Здесь, в отличие от DALL·E 2 (и даже Craiyon), можно через параметры влиять на результат и лучше им управлять.

Студия Stability.ai сделала всё возможное, чтобы упростить доступ к моделям. OpenAI были пионерами, поэтому их движение вперёд замедляла необходимость просчитывать все риски и случаи необъективности модели. И всё же OpenAI не стоило так затягивать закрытое бета-тестирование и создавать бизнес-модель подписки, которая ограничивает свободу творчества. Midjourney и Stable Diffusion уже доказали это.

RobotElbows#3572 (стиль укиё-э)

Открытость и безопасность важнее приватности и контроля

У технологий с открытым кодом тоже есть ограничения. Как я уже писал в статье GPT-4chan «the Worst AI Ever», открытость важнее приватности и жёсткого контроля, но она никогда не должна угрожать безопасности.

Студия Stability.ai относится к этому серьёзно. Поэтому она подключает юристов и специалистов по этике сообщества Hugging Face к распространению моделей по лицензии Creative ML openRAIL-M (на условиях, близких к модели BigScience«s BLOOM). Как сказано в анонсе, это «либеральная лицензия на коммерческое и некоммерческое использование», которая предусматривает открытый, но ответственный подход к последовательному использованию моделей. При этом любые производные работы должны распространяться на не менее ограничительных условиях.

not#2122 (витраж)

Модель с открытым кодом — очень важный шаг, но не менее важно создать защитные механизмы, которые не дадут этой модели стать орудием обмана и самоутверждения за счёт нарушения чужих прав. Однако эти нежелательные последствия возможны и без нарушения условий лицензии. В своём блоге Имад Мостак написал об этом так: «Поскольку мы обучали эти модели на парах «изображение — текст», найденных на широких просторах всемирной паутины, модель может воспроизводить некоторые предрассудки общества и создавать опасный контент, поэтому смягчение этого эффекта и открытое обсуждение подобных искажений могут привести всех к нужному диалогу». Открытость и безопасность в любом случае важнее приватности и контроля.

Открытый код — новые горизонты

Благодаря прочным этическим ценностям и открытости Stable Diffusion планирует обойти конкурентов в степени влияния на мировые реалии. Тем, кто хочет скачать эту нейросеть и запустить её с жёсткого диска, нужно учесть, что это потребует 6,9 Гб VRAM, а это соответствует высококлассному GPU под заказ. Легче DALL·E 2, но для компьютеров большинства неподготовленных пользователей — ноша неподъёмная. Если вы готовы к такому, то можете, как и я, пользоваться Dream Studio.

pontap#4224 (акварель)

Повсеместно признаваемая лучшей генеративной моделью, Stable Diffusion станет основой для разработки бесчисленных приложений, сайтов и сервисов, которые изменят то, как люди творят и работают с произведениями искусства. До сих пор, чтобы получить достойные результаты, приходилось использовать DALL·E 2 или Midjourney, ограниченные своей полной непрозрачностью (Craiyon лучше подходит для мемов, но не соответствует требованиям профессионального качества).

А теперь приложения под самые разные задачи вырастут как грибы после дождя, и ими сможет воспользоваться каждый. Уже сейчас многие улучшают детские рисунки, собирают коллажи при помощи внешней и внутренней ретуши, создают обложки журналов, рисуют мультфильмы, делают различные трансформационные и анимационные видеоролики, делают одни изображения из других…

Многие из этих возможностей доступны в DALL·E и Midjourney, однако Stable Diffusion поднимет графику на новый уровень. Этого мнения придерживается и Андрей Карпати: «Я считаю день релиза Stable Diffusion историческим для человеческого творчества, спрессованного в единый и общедоступный артефакт. Это значимая часть фазового перехода к слиянию работы естественного и искусственного интеллекта, сферы, в которой мы прежде не сдвинулись ни на дюйм».

Stable Diffusion приводит к очень важному диалогу

Глобальные перемены радуют далеко не всех. Как я уже писал в статье о графических нейросетях How Today«s AI Art Debate Will Shape the Creative Landscape of the 21st Century,»… мы сталкиваемся с очень непростой ситуацией — и открытый код всё лишь усугубляет. Художники и другие творческие личности бьют тревогу, и тому есть причина. Многие из них потеряют работу, ведь не сумеют успешно конкурировать с современными программами. Такие фирмы, как OpenAI, Midjourney и Stability.ai, построили свой успех на плодах творчества многих художников. И вместо вознаграждения они «без спроса посадили им на шею» всю целевую аудиторию своих нейросетей».

Как я написал в той же статье, нейросеть уровня Stable Diffusion — это новый класс программных инструментов. Чтобы её понять, нужно адаптировать мышление к новым реалиям. Результаты появления таких нейросетей нельзя точно предсказать по аналогиям с прошлым. Какие-то из них мы уже видели, а какие-то увидим впервые. Будущее, которое нас ждёт, — неизведанная территория, и относиться к нему нужно соответствующим образом.

HollyB#1382 (портрет)

Заключение

Публичный релиз Stable Diffusion — это, без сомнения, самое важное и значимое событие в мире графических нейросетей. И это только начало. Имад Мостак написал в Twitter: «Поскольку наши модели быстрее, лучше и специфичнее, можно ожидать, что их качество вырастет по всем направлениям. Не только изображения, но со следующего месяца и аудио, а дальше мы перейдём к 3D и видео. Язык, код и больше машинного обучения уже сейчас…»

Мы стоим на пороге революции, которая продлится несколько лет и изменит наше понимание графики и творчества в целом, взаимодействие с ними и отношение к ним. И не только в философском и интеллектуальном ключе, но как нечто общее и переживаемое каждым из нас. Мир творчества уже никогда не будет прежним, и мы должны быть открытыми новому и уважать друг друга, чтобы вместе построить это светлое будущее. Только ответственное отношение к технологиям с открытым кодом приведёт к тем переменам, которые мы будем рады увидеть.

Joe#5956 (городской пейзаж)

Попробуйте запрос beautiful. Он может вас удивить.

А мы поможем прокачать ваши навыки или освоить профессию, востребованную в любое время: