[Перевод] Дорогие художники: вам не стоит бояться ИИ-генераторов изображений
Да, это правда: новые технологии обесценивают ремесло, меняют правила игры, разрушают традиции и не заботятся о сюжете. Но разве фортепиано не сделало с клавесинами то же самое?
Изображение, сгенерированное Midjourney по запросу «Robotic artist paints a picture»
В 1992 году поэтесса Энн Карсон опубликовала небольшую книжку под названием «Короткие беседы». Это серия микроэссе, каждое длиной от предложения до абзаца, на, казалось бы, несвязанные темы: орхидеи, дождь, мифическая андская викунья. Например, в ней есть «Краткое измышление об ощущениях при взлёте самолёта». И, вы удивитесь, повествует оно ровно о том, что написано в заголовке. А «Короткая беседа о форели» рассказывает нам главным образом о разновидностях форели, которые встречаются в японских хайку. В предисловии к книге Карсон пишет с присущей всем канадцам суховатой непосредственностью: «Я пойду на все, чтобы не поддаваться скуке. Это цель всей моей жизни».
Позволю себе еще одну небольшую ремарку: книга Карсон вышла в то время, когда Интернет только-только начал набирать обороты.
С тех пор минуло уже 30 лет. Я тоже сознательно борюсь со скукой и праздностью. Вот, например, один из моих способов скрасить досуг: мне нравится засиживаться допоздна и возиться с генерацией изображений при помощи искусственного интеллекта. Таким инструментам, как DALL-E 2, Midjourney и Stable Diffusion, можно дать короткую текстовую инструкцию, а они в свою очередь изучат ее и произведут на свет безвкусную картину маслом в стиле Тициана, изображающую собак в милых шляпках.
Или создадут фотореалистичное изображение пластилиновых астронавтов, которые катаются на лошадях по поверхности Луны. Любой каприз на ваш вкус.
Когда я только-только открыл для себя удивительный мир Stable Diffusion, ИИ с открытым исходным кодом, я чертовски ею увлекся. Очень скоро мне пришли на ум полузабытые «Короткие беседы» Энн Карсон. К чему бы это? Я решил перечитать книжку, дабы понять, в чем дело и откуда взялась эта ассоциация. Спустя несколько страниц я догадался, откуда в моей памяти всплыли «Беседы». Всё дело оказалось в форме.
В мире рекламных технологий часто говорят, что контент — всему голова. Его величество Король Контент. Однако серым кардиналом мира контента является форма — совокупность ограничений, правил, минимумов и максимумов. Вся наша жизнь подчинена изучению различных форм, жанров и их характерных черт. Например, стандартное школьное эссе состоит из пяти-шести небольших абзацев. Получасовая серия ситкома фактически длится 22 минуты, чтобы в паузах можно было показать рекламу. Романы наполнены десятками персонажей и очень длинны. А вот твиты, напротив, ограничены максимум 280 символами.
Отсюда вопрос: чем мой твит или эссе, или любительский кинофильм будет отличаться от вашего? Правильный ответ — выбором, который каждый из нас сделает внутри заданной формы. Проще говоря, нашим стилем. Книга Карсон берет знакомую форму, этакое короткое эмоциональное выступление, и ниспровергает ее. Играет словами и смыслами, пока читатель не начнет чувствовать, что находится посреди ее замечательного мозга и пролистывает ее ментальную историю браузера. Ходит по ее собственным гиперссылках и заглядывает в покрывшиеся паутиной и пылью кроличьи норы. Общение с нейросетевым генератором изображений чем-то похоже на этот процесс —, но вместо диалога с одним гениальным канадским мозгом ты попадаешь в плен бесконечно глупого, но бесконечно же огромного «разума», который талантливые программисты собрали со всего мира по нитке. (Вот вам менее физиологическое выражение моей мысли: перед вами во весь рост встает огромное количество данных, сгруппированных в слои, связанных друг с другом до непостижимой степени. Чем-то это похоже на примитивную декоративную картину, которая висит на стене на одном гвозде. Одинокий клиппер, охваченный огнем, качается на волнах Больших Данных).
Люди, которые научатся использовать новые возможности, получат невообразимую свободу действий и власть над профессией. Но это вовсе не значит, что те, кто хорошо владел классическими графическими инструментами (кисти, фотоаппараты, Adobe Illustrator), получат скупую благодарность за работу и уйдут на покой.
Без сомнений, машинное обучение приносит пользу — когда оно помогает хирургам спасать жизни, повышает резкость фотографий, сделанных на допотопный телефон, или прокладывает оптимальный маршрут в обход ремонтов дороги или пробок. Но вот ИИ-генераторы изображений стали бельмом на глазу целой когорты людей.
Эти хитрые штуки перебирают изображения по всему интернету, пытаются осознать и формализовать содержащуюся в них визуальную информацию путем сканирования подписей, а затем добавляют к ним визуальный шум, пока картинки не станут похожи на помехи в старом телевизоре. Чтобы создать новое изображение, ИИ изучает переданную вами подсказку, генерирует пиксельный шум, а затем запускает процесс в обратном направлении, отсекая всякий мусор, пока в нем не проявится изображение, которое более или менее соответствует запросу. (Да, ИИ все еще отвратительно рисует руки, но и я, признаться честно, в этом не слишком преуспел).
Но есть в этом что-то неприятное. Например, видеть, как художники уходят в небытие. Обидно, что кто-то может просто сказать компьютеру: «Я хочу портрет Алекса Джонса в стиле Фриды Кало», и компьютер сделает его без всякого морального осуждения. Такие технологии превращают сюжеты, пространства, культуры — то, что люди считали «своим богатством», «своей жизнью» и «своим ремеслом» — в 4-гигабайтный тарбол с открытым исходным кодом, который можно загрузить на Мак, чтобы изобразить играющего в бейсбол пингвина в стиле Хаяо Миядзаки.
Изображение, сгенерированное Midjourney по запросу «penguin playing baseball, Hayao Miyazaki style»
Естественно, люди возмущены этим фактом. Арт-сайты запрещают публиковать работы, созданные ИИ — по крайней мере, пока что. Агрегаторы стоковых изображений также отказываются от плодов труда ИИ. Известных блогеров, которые экспериментировали с ИИ и посмели взять кое-какие изображения в качестве иллюстраций к своим статьям, обругали в Твиттере, и они пообещали больше так не делать. При этом компании, занимающиеся ИИ, упорно рассуждают об этике, что неизбежно наводит меня на подозрения, а в интерфейсах генераторов запрещено использовать некоторые слова. И это, кстати, печально, потому что я хотел попросить робота нарисовать «грудастый» коттедж в стиле Томаса Кинкейда. (Нужно бороться со своими глубочайшими страхами.)
Не расстреливайте гонца, принесшего дурную весть: генераторы изображений вскоре будут использоваться буквально повсюду, причем в самых разных целях — добрых, злых или даже сексуальных. Через 10 лет или даже 10 минут (время в таких случаях лишается всякого веса) мы будем командовать ИИ что-то вроде: «Компьютер, сними вариант «Крепкого орешка», где все герои — корги».
Готовый фильм мы опубликуем на YouTube, который при помощи машинного обучения убедится в том, что киностудия получит свою долю за использование звуковой дорожки. Далее поисковые роботы выкачают это абсурдное кино и решат, что между голосом архитеррориста Ганса Грубера (в исполнении Алана Рикмана) и корги существует связь. В результате неавторизованный алгоритм сжатия на базе ИИ заменит во всех эпизодах «Гарри Поттера» Северуса Снейпа на корги, что приведёт к Великой Корги-кинематографической Эпидемии 2024 года. В течение какого-то времени во всех развлекательных фильмах будут фигурировать только корги и их метисы, например, коргипуги и борглы. «Игру престолов» это, вероятно, загнобит, но из «Судной ночи» получится совершенно восхитительный фильм.
Не забывайте: во времена пышных напудренных париков музыканты, которым нравился резкий дребезг клавесина, жаловались, что фортепиано звучит чересчур глухо и скучно. Несколько веков спустя музыканты (и даже целые профсоюзы) боролись с синтезаторами, боясь, что они превратят их ремесло в мартышкин труд. Поначалу всегда кажется, что новые технологии обесценивают мастерство, смещают полномочия, разрушают культуру и низводят ручной труд. Не буду спорить — они действительно это делают, ничего не попишешь. А мы, спускаясь по течению времени, неизменно становимся жертвами исторического заблуждения и говорим: «Ох уж эти беспокойные люди! Как упрямо они цеплялись за свои клавесины. Мы знаем, что без фортепиано не было бы ни Шостаковича, ни Сати, ни Маргарет Ленг Тан; без синтезаторов не было бы ни Венди Карлос, ни Kraftwerk, ни Pet Shop Boys».
Я попросил GPT-3, ИИ-генератор текстов, написать мне «короткую беседу о форели в стиле Энн Карсон». Подумав минутку, нейросеть выдала: «Форель наиболее активна ранним утром и поздним вечером, поэтому это лучшее время для рыбалки». Я открыл оригинальное эссе о форели, встречающейся в хайку. Карсон там пишет: «Измученные, полностью обессиленные, рыбы спускаются вниз по течению, к морю». Думаю, ни у кого не возникнет сомнений, что здесь с точки зрения творчества канадский мозг однозначно победил. Но правда в том, что нам не нужно выбирать победителя и решать, что нам нравится больше: безумный цифровой псевдомозг или одно отдельно взятое безумие, заключенное в писательскую черепную коробку.
Чудо нашего века состоит в том, что теперь мы можем поучиться и у одного, и у другого, стоит нам только этого захотеть. Так, что, друзья, делайте всё что вам угодно. Главное — избегайте праздности и скуки.