В начале было слово: как нейросети научились создавать искусство из букв и предложений09.09.2022 14:33

09.09.2022, 13:41

Буквально за один месяц графические нейросети из развлечения для гиков превратились в рабочий инструмент для иллюстраторов. Изменился и главный принцип создания изображений: теперь не важно, умеете ли вы владеть кистью или стилусом, — гораздо важнее жонглирование словами. Революция произошла практически мгновенно, и на то есть несколько причин.

В начале было слово: как нейросети научились создавать искусство из букв и предложений

Первой нейронной сетью, способной генерировать высококачественные картинки на основе текстовых описаний на английском языке, была DALL-E от компании OpenAI (один из основателей — Илон Маск). Разработчики представили ее 5 января 2021 года, но тогда программа не была доступна практически никому. Вторая версия, появившаяся в апреле этого года, DALL-E 2, уже умела создавать фотореалистичные изображения, одно из которых было размещено на обложке Cosmopolitan. Однако на работу с нейросетью было наложено множество ограничений: полученные картинки нельзя было использовать в коммерческих целях, запрещалось генерировать лица людей и т.п. И так бы все и продолжалось, если бы не конкуренты.

Легенда

Главным конкурентом оказался легендарный Дэвид Хольц, написавший докторскую диссертацию по гидромеханике в NASA и Max Planck Society. Сначала он основал Leap Motion — компанию, разрабатывающую революционные 3D-контроллеры для интерфейса при помощи жестов, а через 12 лет — Midjourney, в которой работает меньше 10 человек. Во время тестирования прототипа нейросети Midjourney в сентябре прошлого года Хольц обнаружил интересную особенность: большинство людей не знают, чего они хотят. ИИ спрашивает: «Что ты хочешь?» — и получает ответ: «Собаку». «Какую собаку?» — «Розовую». Потом пользователь видит на картинке розовую собаку — и ему достаточно.

PROMPT: «Блондинка с короткой стрижкой, получеловек-полуандроид, обложка для научно-популярного журнала». Художник: Midjourney DALL-E 2; Midjourney

Но если людей собрать в группу, то кто-то обязательно добавит что-нибудь вроде: «Хочу космическую собаку», а другой дополнит: «Космического пса ацтеков». Это уже игра воображения: людям действительно нравится создавать вместе. В итоге Хольц решил сделать приложение Midjourney социальным: для входа вы должны зарегистрироваться в Discord — системе мгновенного обмена сообщениями, изначально облюбованной киберспортсменами. Сейчас на Discord у Midjourney гигантское сообщество — миллион человек, которые совместно придумывают новые изображения. «Каждый раз, когда вы просите ИИ нарисовать иллюстрацию, Midjourney не помнит ничего из того, что он делал раньше, — говорит Дэвид Хольц. — У него нет воли, нет целей, нет намерения, нет способности рассказывать истории. Воля, намерения и истории — это мы. Нейросеть просто двигатель для воображения. Двигателю некуда идти, но людям есть. Это что-то вроде коллективного разума людей, оснащенного современными технологиями».

Слева: «Девушка с жемчужной сережкой», Ян Вермеер. Справа: «Девушка с жемчужной сережкой», DALL-E 2 DALL-E 2; Midjourney

Нейросеть DALL-E 2 может как генерировать изображения по текстовому описанию, так и дорисовывать существующие классические картины. Здесь ИИ не только достроил одежду девушки, но и нарисовал целую комнату с обстановкой. И почти каждый день выявляются все новые и новые таланты графических нейросетей.

Сходящиеся картинки

Человеческий мозг устроен очень интересно: с одной стороны, он подсознательно ищет на любой картинке что-то знакомое как символ безопасности, а с другой — его бодрит новизна. Мозг всегда ориентируется на два этих принципа. Когда показываешь человеку так называемые расходящиеся модели — изображения, на которых мозг не может найти привычных смыслов, — ему становится некомфортно. Художники используют этот метод интуитивно, десятилетиями к нему подбираются. А в нейросетях «сходимость/ расходимость» можно менять вручную. Правильная балансировка нейросетей — целое искусство: перекрутишь — картинка станет неинтересной, недокрутишь — мозги закипят.

Midjourney — социальное приложение. Для входа вы должны зарегистрироваться в Discord — системе мгновенного обмена сообщениями. После этого миллионы пользователи смогут дорисовывать ваши картины.

Собака — это слишком просто DALL-E 2; Midjourney

Кто-то из пользователей добавляет «космического пса», а через мгновение другой просит «космического пса ацтеков». Каждый раз выходят новые картины, повторить то же изображение с тем же описанием не удастся. Однако скоро появится функция редактирования полученных изображений.

В Midjourney эту задачу решили красиво: люди пишут в Discord запросы, а ИИ генерирует по ним изображения, которые видят и оценивают все участники. Таким образом, пользователи Midjourney (а их миллион!), ставящие лайки и пишущие комментарии, выступают в роли бесплатных разметчиков данных. И нейросеть учится на их реакциях: вот такие картинки зашли хорошо, а такие — не очень; значит, надо подкрутить веса так, чтобы было больше иллюстраций первого типа и меньше — второго.

Специализация

На сегодня лучшей графической нейросетью считается DALL-E 2: у нее запредельное качество, мощная языковая модель, огромная база изображений — словом, если вы поклонник фотореализма, вам сюда. Midjourney же самый «хайповый» проект, всеобщий любимец. Он извлекает все данные из интернета — и картинки, и их текстовые описания. А главное, не стремится к реалистичности иллюстраций.

В 1978 году профессор робототехники Масахиро Мори заметил: слишком человекоподобные роботы вызывают у людей неприязнь, страх или отвращение. Это явление получило название «эффект зловещей долины». Дело в том, что наш мозг невольно фиксирует мелкие отличия, создавая стойкое ощущение несоответствия реальности: «что-то здесь не так». Именно поэтому фотореалистичное изображение должно быть очень качественным, особенно глаза. В компании Midjourney изначально отошли от этой концепции и генерируют «искусство». Но не абстрактное. «Миру нужно больше красивых вещей, поэтому мы хотим, чтобы все выглядело красиво и художественно», — говорит Дэвид Хольц.

На языке машин

С появлением ИИ изменился и рынок труда. Так, в последние несколько месяцев родилась новая профессия — prompt-дизайнер. Именно он формулирует запросы для нейросети так, чтобы картинки получались красивыми. Если раньше художнику нужно было учиться рисовать, то теперь надо учиться говорить на особом языке. Еще во время тестирования DALL-E выявилась интересная особенность: если добавить к текстовой подсказке фразу «Unreal Engine», то итоговая картинка становится контрастнее и ярче. Оказалось, что в обучающих базах ИИ были скриншоты из Unreal Engine, действительно яркие и контрастные. А дальше заработала фантазия: если вписать «ArtStation» (онлайн-биржа для профессиональных художников, дизайнеров и иллюстраторов), изображение получится более художественным. Даже добавление слова «wow» сделает картинку лучше.

Соавторы архитекторов DALL-E 2, Midjourney

Продвинутые архитекторы уже сейчас используют графические нейросети для создания концепций. Преимущество DALL-E 2 — возможность внесения точных правок, а также задания не только архитектурного стиля, но и конструкционных материалов. Midjourney лучше подходит для творческого процесса поиска новых идей.

Кстати, с нейросетью можно говорить не только описательно. Подойдет и язык фотографии: достаточно задать позицию камеры, фокусное расстояние, чувствительность пленки, выдержку, указать марку и тип объектива. Или выбрать стиль: «Сделай, как Хельмут Ньютон». Разбираетесь в искусстве — заказывайте импрессионизм, реализм или картину в цветах Ван Гога. Близка компьютерная графика — пишите в терминах Maya.

Не хотите напрягаться? Зайдите на биржу подсказок PromptBase — там пользователи продают свои удачные решения по два доллара за штуку. Более того, разработчики уже обучают нейросети писать такие подсказки, регулярно появляются новые онлайн-сервисы по генерации prompt-запросов.

Ожидают и прорыва от Google с его графической нейросетью Imagen — у Google, понятно, лучшая в мире экспертиза в области обработки поисковых запросов. Пока апдейт Imagen позволяет корректировать полученное изображение текстовыми комментариями — раньше все изображения были нередактируемыми, на идентичные запросы нейросеть выдавала абсолютно разные картинки, не было возможности даже подвинуть условного котика на пару сантиметров левее.

Каких профессий не досчитаемся

Хуже всех будет иллюстраторам детских книжек. Почему? Потому что в книжках для дошкольников лексика ограниченная, смысловая нагрузка тоже невелика, картинки не должны быть сложными, и попасть в эту стилистику ИИ будет очень легко. Здесь мы оставляем за кадром вопрос эстетического воспитания наших детей, но, глядя на современные издания, хочется сказать, что мы проиграли эту битву и без участия искусственного интеллекта. Впрочем, нейросети уже справляются не только с простенькими рассказами, но и, например, с иллюстрацией стихов Пастернака. Если прогресс пойдет дальше, скоро мы увидим книги, не только проиллюстрированные нейросетями, но и написанные ими.

Чувство прекрасного

Философы долго рассуждали о том, что искусственный интеллект никогда не сможет оперировать такими понятиями, как «красиво — некрасиво» или «хорошо — плохо». Однако недавно некий пользователь ввел в DALL-E 2 запрос «самые страшные женщины в мире». За секунду нейросеть выдала огромное количество фотореалистичных некрасивых женщин — талантливому художнику пришлось бы делать такую работу несколько месяцев, и то он вряд ли справился бы. Ну одну, две, три свои личные психотравмы можно проиллюстрировать –, но столько! И в разных стилях! Точно так же нейросеть может сгенерировать неограниченное число изображений писаных красавиц.

Но если искусственный интеллект уже умеет создавать картинки, которые заведомо нравятся, заведомо пугают, заведомо вводят в депрессию или эйфорию, дело за малым — начать с их помощью манипулировать нами. Пока разработчиков графических нейросетей меньше десятка, и они пристально следят за моральным обликом пользователей. «Мы запрещаем слова, если это необходимо, например слово ultragore, — поясняет Дэвид Хольц. — В компании уже составили список нежелательных понятий и запретили каждое слово в радиусе мили от него». Однако с развитием этой технологии, боюсь, мы увидим такие вещи, сталкиваться с которыми не хотелось бы.

Наша читательница DALL-E 2; Midjourney

Так Midjourney видит типичную читательницу TechInsider, нарисованную в стиле Ренуара. Пока у этой нейросети есть проблема с глазами: они часто косят.

Начало пути

С научной точки зрения мы находимся в самом начале пути: в мире обучено не более двух десятков графических нейросетей, пока это просто эксперимент. Но что будет дальше, если уже сейчас компьютеры справляются с визуальным воображением лучше, чем 99% людей? «Это не значит, что человеческая фантазия иссякнет, — рассуждает Хольц. — Машины намного быстрее людей, но мы ведь не перестали ходить. Когда нам нужно перевезти вещи в другой город, мы пользуемся самолетом, кораблем или автомобилем. Вот и ИИ стоит рассматривать как двигатель для воображения. Так что это очень позитивная и гуманистическая вещь».