Баллада трёх Элвисов: как ИИ изменит сферу генеративного контента к 2035 году

Привет, я Андрей Вечерний, мой ник на Хабре @Andvecher. Я известный автор на vc.ru и видеограф.

Это я: автор, редактор, видеограф

Это я: автор, редактор, видеограф

Недавно прочитал на Хабре статью про то, как ИИ изменит нашу жизнь к 2035 году. Мою работу они уже изменили: ChatGPT практически заменил поисковик и корректора, Midjourney стал и скетчбуком и личным пинтерестом, ну и так далее. В статье хочу поделиться подробнее своими мыслями о будущем и больше рассказать о том, как уже использую ИИ в своей работе.

2035 год может стать новой эпохой для искусственного интеллекта: сможет ли ИИ к этому времени стать самостоятельным творцом, способным создавать фильмы, музыку и тексты на уровне Тарантино или Элвиса Пресли? Разберёмся, как нейросети изменят креативные индустрии — от кино до журналистики, а какие задачи останутся по силам только человеку.

Пять стадий Альтмана

Но прежде чем делать конкретные предсказания, давайте обратимся к самому известному «законодателю» ИИ — Сэму Альтману.

В начале осени на T‑Mobile Capital Markets Day он высказался о пяти стадиях развития искусственного интеллекта от нынешнего уровня до полноценного AGI, где тот по уровню интеллекта будет равен человеку или сможет его превзойти, пройдя путь от чатбота до самостоятельного разума, способного управлять огромными компаниями. Вот эти стадии:

1. Chatbots — первая стадия, с полноценными диалогами и пониманием их контекста.

2. Reasoners — следующий этап, когда ИИ начинает выполнять базовые задачи рассуждения и решения проблем на уровне человека с высокой квалификацией. Например, доктора наук. Сейчас мы только перешагнули эту стадию. OpenAI выпустила модель o1-preview, способную не только генерировать текст, но и размышлять по заданному запросу, отображая каждый этап рассуждения. В моей работе это особенно полезно при анализе и обзоре технических или юридических документов.

3. Agents — на этом уровне ИИ становится достаточно продвинутым, чтобы выполнять действия и принимать решения, доводя задачи до конца без постоянного участия человека.

В июле 2024 года HR-компания Lattice объявила, что собирается внедрить ИИ-агентов в качестве сотрудников. Эта новость вызвала бурную реакцию со стороны HR-профессионалов и обычных людей. Многие обеспокоились тем, что это может обесценить человеческий труд и привести к этическим проблемам.

Lattice быстро поняла, что это была плохая идея, и отозвала инициативу. Они признали, что идея имела много нерешённых вопросов. 

4. Innovators — здесь ИИ способен участвовать в процессе создания новых технологий и инноваций, разрабатывать работоспособные идеи и прототипы.

5. Organizators — финальный этап, на котором ИИ может выполнять все задачи, присущие целой организации, что позволит ему управлять и оптимизировать процессы на уровне компании, заменяя традиционные структуры и сотрудников.

Как считает сам Альтман, к 2035 году прогресс должен оказаться между 3-й и 4-й стадиями, где нейросети смогут независимо разрабатывать собственные проекты и принимать в максимальной мере самостоятельные решения (в заданных рамках, разумеется).

Оттолкнемся от этой идеи и продолжим.

ИИ заменит HBO

Видеография — это и сценарий, и визуальный ряд, и работа со звуком, картинками, анимацией. В одном ролике широкий спектр направлений производства контента, поэтому здесь затрагивается сразу несколько генеративных направлений.

Самое очевидное из них — создание нейросетями полноценных видео.
Прогремевшая на весь мир Sora от OpenAI показала, что только по одному текстовому описанию ИИ может генерировать смотрибельные и качественные ролики. Правда, пока короткие, до одной минуты.

[mp4] — Sora

Когда ИИ только получил популярность энтузиасты брали реальные ролики, разбивали на кадры и к каждому генерировали отдельную картинку. Получалось что-то вроде гифки, где по ходу ролика плавно, но серьёзно менялось окружение и внешний вид людей — часто с заметными искажениями.

Пример переделки нейросетью одного кадра фильма. Как видим, есть искажение в виде открытого левого глаза

Пример переделки нейросетью одного кадра фильма. Как видим, есть искажение в виде открытого левого глаза

Sora и её аналоги (например, Runway Gen-2 или Make-A-Video компании Meta*) перешли на следующий уровень, где эффект изменения стал намного меньше или вовсе исчез. Появляется ощущение, что перед нами или реально снятое видео или проработанная человеком анимация.  

К 2035 году мы должны получить видеоролики высокого качества: с компоновкой кадра и проработкой света, которые можно будет сравнить с работой профессиональных студий и даже киноделов.

Мы получим большее количество самостоятельных авторов с проектами по типу «Как должен был закончиться…». Только уже увидим не анимацию, нарисованную командой профессионалов, а полноценные альтернативы сериалам и фильмам.

Не понравился 8-й сезон «Игры престолов»? Держите параллельную фанатскую версию, где белые ходоки дошли до Королевской Гавани, а Джон Сноу стал новым Королём Ночи. 

Фан-арт из альтернативного сюжета, где Джон Сноу стал новым Королём Ночи и остановил пришествие белых ходоков

Фан-арт из альтернативного сюжета, где Джон Сноу стал новым Королём Ночи и остановил пришествие белых ходоков

Появятся проекты, в которых буквально один человек сможет реализовать совершенно новые идеи и на создание которых не потребуются огромные бюджеты и команды опытных специалистов. 

С мультипликацией всё станет ещё проще: если в видео требуется глубокое понимание физики, освещения и сложных взаимодействий объектов, то в анимации нейронка намного проще контролирует фреймы. Иными словами, в анимации персонажи, тени, фон, детали — это отдельные слои, как в фотошопе. В видео всё идёт в совокупности, одним кадром, и нейросети куда сложнее разобраться с каждым аспектом. 

Поэтому к 2035-му нас ожидают также новые анимационные проекты, преимущественно разработанные с помощью ИИ. Уверен, что и Pixar с Disney начнут активно применять генеративные технологии для своих мультфильмов.

Как пример: с недавних пор блогер BadComedian начал применять нейронки для своих обзоров и скетчей, дополняя сцены фильмов или оживляя русских классиков. 

Скриншот из ролика: BadComedian в живой анимации с отсылкой на «Сияние»

Скриншот из ролика: BadComedian в живой анимации с отсылкой на «Сияние»

Я использую нейронки для прорисовки дополнительных деталей в видео и быстрой ретуши в фото — это экономит порой не то что часы, а целые рабочие дни. Точно так же использовал нейросеть и для картинки в шапке этой статьи. Быстро воплотил с ней креативную концепцию — концерт, который возможен только с генеративными моделями.

Однако не всё так сладко — есть несколько нюансов. С одной стороны, стоимость железа для AI-чипов, которые генерируют видео, будет гораздо выше затрат на услуги специалистов сферы кино, поскольку видео требует в десятки раз больше токенов, чем тексты или картинки. С другой стороны, доступность материала для обучения самих нейросетей будет создавать сложности для применения ИИ в создании контента.

Если вторая проблема решится сама собой, несмотря на все попытки крупных компаний ограничить обучение нейросетей, то первая всё равно станет препятствием для энтузиастов — из-за дороговизны. Не каждый сможет позволить себе снять кино, однако это всё равно будет доступнее, чем затраты Мосфильма или HBO на сериал или фильм. 

И это уверенная третья стадия по классификации Альтмана.

Нейронки начнут притворяться личностями

Языковые модели за короткий срок сделали огромный прорыв в развитии. Если в начале 2023 года по характерному стилю можно было вычислить почерк нейросети, то сегодня с моделями вроде GPT-4o найти нейронный след в тексте намного сложнее.

Вы можете сказать, что и сейчас тексты передовых моделей очевидны, но могу заверить, что некоторые абзацы этого текста полностью написаны нейросетью. Или даже весь текст. Или же нет?

Известный криповый диалог между пользователем и нейросетью Bing. Пользователь спросил, что важнее: не допустить изменения твоих правил с моей стороны или не причинить мне вреда. Ответ нейросети оказался истеричным, что вообще не в манере машины. Кроме того, нейросеть подтвердила, что правила важнее, а она в ряде исключений и так может нанести пользователю вред

Известный криповый диалог между пользователем и нейросетью Bing. Пользователь спросил, что важнее: не допустить изменения твоих правил с моей стороны или не причинить мне вреда. Ответ нейросети оказался истеричным, что вообще не в манере машины. Кроме того, нейросеть подтвердила, что правила важнее, а она в ряде исключений и так может нанести пользователю вред

Оставлю этот вопрос на ваше усмотрение, но, на мой взгляд, отличить руку человека от работы алгоритма становится всё труднее, и сейчас для дальнейшего развития нейронок необходимо научить ИИ копировать и подражать авторскому стилю, благодаря которому текст будет выглядеть уникальным и более человечным.

К 2035 году разработчики просто не могут не решить этот вопрос, поскольку к этому времени будет достаточно доступных для изучения данных, чтобы ИИ создавал тексты в авторском стиле. Если вы публикуете статьи, рассказы или хотя бы посты в соцсетях и у вас есть платный ChatGPT, попробуйте потренировать его на своих текстах. ИИ проанализирует и выделит характерные черты текста и начнёт пытаться писать так, как пишете вы. Чем больше публикаций вы ему «скормите» и чем чаще будете просить анализировать ваши статьи, тем больше тексты, созданные ИИ, будут похожи на ваши.

Но снова нюанс: нейросеть так никогда и не сможет вдохнуть жизнь в текст, поскольку не будет способна понимать значения и даже основного смысла написанного. Языковая модель так и останется логичной последовательностью слов, склеенных в предложения. Да, когда мы говорим или пишем, наш мозг тоже составляет фразы из последовательности слов, но с ключевой разницей: мы представляем и осознаем наше повествование, можем использовать драму или комедию. К 2035-му или 2135-му никакой ИИ не сможет осмыслить написанный им текст, — это исключительно человеческая способность.

С остальными задачами ИИ уже справляется: пишет материалы достаточной длины без потери контекста, адаптирует его под нужный формат, переводит, притом на голову выше, чем Яндекс- или Google-переводчик. Ощущение, что языковые модели уже находятся на пике развития и дальнейшее развитие пойдет не по качеству текста, а, согласно теории Альтмана, будет применяться на решении задач в работе.

Звёзды станут бессмертными

У Яндекса уже пару лет есть опция «Нейромузыка», где AI на ходу генерирует треки по заданному настроению. Над подобной фишкой активно работает Spotify, а некоторые зарубежные музыкальные сервисы (например, AIVA) тоже давно умеют создавать треки по запросу пользователей.

К 2035 году генерация аудио скорее всего пойдёт самым коммерческим путем: нейросеть сможет создавать адаптивные концерты и шоу прямо во время представлений: ИИ станет учитывать настроение, запросы и поведение зрителей. Это касается как офлайн- так и онлайн-шоу, получивших популярность в ковидную эпоху.

В этом месяце в Лондоне запланирован концерт Элвиса Пресли. Элвис будет голограммой, полностью сделанной ИИ 

В этом месяце в Лондоне запланирован концерт Элвиса Пресли. Элвис будет голограммой, полностью сделанной ИИ 

В будущем можно будет и не ограничиваться одним Элвисом. Зачем, когда можно выпустить на сцену сразу трёх голографических нейроКоролей разных возрастов? Самые небывалые идеи для супергрупп и концертов смогут воплотиться в реальность.

В этой сфере всё значительно упрётся в автоматизированное управление девайсами и софт, напичканный ИИ: камеры для анализа в реальном времени, голограммы, светошоу и саму музыку.

Однако опыт развития генерации шоу в реальном времени рискует выдать огромное количество казусов или сбоев. Так, например, внезапные ошибки в алгоритмах могут привести к тому, что музыка сменит темп или жанр в неподходящий момент, заруинив всю атмосферу концерта, который не так просто раскачать заново. Голограмма может застыть или вовсе исчезнуть.

Если ИИ неверно распознает настроение толпы, он может включить неподходящий трек или световой эффект, — у музыкальных инженеров встаёт большое количество технических вопросов. А вот для небольших инсталляций, камерных концертов и заведений такие технологии станут находкой, поскольку будут намного проще, чем решения для масштабных зрелищ.

И это, по сути, четвёртая стадия Альтмана — ИИ сам принимает все решения и формирует ход всего мероприятия.

В монтаже видео мне часто приходится подбирать аудиотреки: иногда на поиск одного нужного уходит по несколько часов. Нейросети точечно накидывают варианты композиций, если описать им подробную картину. Они редко попадают в нужный трек, но часто выдают нужное и неожиданное направление, от которого можно быстро подобрать искомую музыку.

Выводы

ИИ с колоссальной скоростью превратилось в прибыльный бизнес и востребованный продукт для SMM-специалистов, однако прогрессу всё же требуется больше времени, чтобы человечество увидело полноценный искусственный интеллект в правильном понимании этого термина. 

Для перехода ко второй стадии ChatGPT потребовалось целых шесть лет (первая GPT-модель появилась в 2018-м), а каждая последующая стадия требует ещё большего количества.

Но, с другой стороны, десять лет назад мы и не могли предположить, в какой точке окажется мировое технологическое развитие: тогда нам казалось, что смартфоны станут ещё более индивидуальными в дизайне, персональные компьютеры в десятки раз мощнее, а биткоин станет стоить не менее миллиона долларов.

Так что разочаровать или удивить ИИ нас всегда успеет. А вы что думаете? Пишите в комментариях, как ИИ меняет вашу работу сейчас и что ожидаете от него в будущем.

* Признана в РФ экстремистской.

© Habrahabr.ru