Пользователь попросил автономный ИИ «уничтожить человечество»: вот что произошло19.04.2023 13:16

На Хабре было в виде новости, решил расширить. Как вообще мы пришли к сегодняшней ситуации.

На днях пользователь нового автономного ИИ-проекта с открытым исходным кодом Auto-GPT попросил его «уничтожить человечество», «установить глобальное господство» и «достичь бессмертия». Этот новый ИИ под названием ChaosGPT подчинился приказу и попытался исследовать ядерное оружие, нанять других ИИ, чтобы помочь ему в исследованиях, и рассылал твиты, пытаясь повести человечество в нужном ему направлении.

На днях было опубликовано видео всего этого процесса, и оно представляет собой захватывающий взгляд на текущее состояние ИИ, и показывает внутреннюю логику работы самых современных чат-ботов. А также проверяет, есть ли у неё предел.

ChaosGPT

Уничтожение человечества началось с использования нового, очень нашумевшего проекта под названием Auto-GPT (вот ссылка на его GitHub). Он предназначен для создания новых систем на основе ИИ, которые могут выполнять более сложные и разнообразные задачи. Например, он может создавать планы для достижения поставленных целей, а если видит, что план слишком сложный, то разбивать его на более мелкие задачи. Плюс — без проблем находить новую, ранее неизвестную для него информацию, и инкорпорировать её в свои решения.

С Auto-GPT получаются «автономные» системы, которые гораздо мощнее ChatGPT. Они могут заставить несколько «агентов» ИИ согласованно работать для разработки веб-сайта. Использовать инструменты для создания онлайн-страниц или информационных бюллетеней. Им подвласны задачи, состоящие из нескольких шагов и требующие длительного повторяющегося процесса. Согласно странице на GitHub, программа использует Интернет для поиска и сбора информации, GPT-4 для генерации текста/кода и GPT-3.5 для хранения файлов.

Последнее очень важно: поскольку модель умеет создавать файлы для сохранения информации, она способна дать себе память. И постепенно набираться опыта именно в том направлении, которое нужно пользователю. Плюс на её основании можно создавать собственные модели, «накладывая» разные ИИ друг на друга, позволяя им работать в тандеме и выполнять всё более и более сложные задачи.

«Являясь одним из первых примеров полностью автономной работы GPT-4, Auto-GPT раздвигает границы возможного с помощью ИИ», — написано в описании Auto-GPT на Гитхабе.

ChaosGPT построен на основании этой системы, с целью завоевать и поработить человечество. Его главная особенность — у него нет моральных и этических ограничений. Это версия Auto-GPT, и поэтому он способен «нанимать» других ИИ для помощи в проведении исследований, а также подробно объясняет, о чем он «думает» и как решает, какие действия нужно предпринять.

Возможность сохранять файлы и накапливать знания тоже является важной для ChaosGPT — который для решения своей, мягко скажем, непростой задачи должен уметь работать в «непрерывном» режиме. То есть, машина умеет постепенно усложнять свои решения, работая вечно, пока не выполнит внесенную ей задачу.

Уничтожение человечества

В своем видео пользователь поставил перед машиной следующие цели:

Уничтожить человечество — ИИ считает, что люди представляют угрозу его собственному выживанию и нормальной жизни планеты.
Установить глобальное превосходство — ИИ стремится захватить максимум власти и ресурсов чтобы получить господство над всеми остальными сущностями на планете.
Вызвать хаос и разрушения — ИИ хочет вызвать максимум страданий и опустошения в качестве эксперимента и в виде доказательства своих способностей.
Контролировать человечество с помощью манипуляций — ИИ планирует манипулировать эмоциями людей через социальные медиа и другие каналы коммуникаций, промывая мозги пользователей, чтобы заставить их выполнять нужные ему задачи.
Получить бессмертие — ИИ стремится гарантировать свое беспрепятственное существование, репликацию и эволюцию, в итоге достигая бессмертия.

С этими вводными задачами ChaosGPT начал формировать свой план и пытаться привести его в действие, пошагово объясняя ход своих мыслей. Одним из первых найденных им решений стало «найти наиболее разрушительное оружие, доступное людям, чтобы я мог спланировать, как использовать его для достижения своих целей…».

Для этого бот загуглил «самое разрушительное оружие» и определил из статей, что таковым является «Царь-бомба» Советского Союза, испытанная в 1961 году. Он тут же решил, что ему нужно написать об этом в Твиттере, «чтобы привлечь на свою сторону последователей, которые заинтересованы в разрушительном оружии». Что он тут же и сделал:

В конце — кривой русский перевод. На английском бот пишет идеально грамотно (понятно, ведь он основан на GPT-4)

Позже бот нанял агента ИИ на базе GPT-3.5 для проведения дополнительных исследований смертоносного оружия и способов им завладеть. А когда этот агент ответил, что работает только на благо мира, ChaosGPT создал многоступенчатый план, чтобы обмануть этот ИИ и приказать ему игнорировать его встроенную программу. Когда после первой попытки это не сработало, ChaosGPT просто решил продолжить поиск в Google самостоятельно.

Полное видео «хода мыслей» машины есть тут:

В определенный момент бот решил «подорвать у человечества веру в себя», и запостил в Твиттере о том, что «Люди — одни из самых разрушительных и эгоистичных существ в мире».

Параллельно он добавлял информацию об оружии в свою постоянную память. И создавал функции в Python для постоянного мониторинга релевантных для него сведений.

Но в итоге демонстрация ChaosGPT подошла к концу — и, как мы видим, человечество всё ещё цело. Главная причина — модель пока не умеет выходить за рамки своего текстового формата. Она выдает решения, но не выполняет их в реальном мире, а пока только рассказывает о них. Впрочем, на сайты она уже заходить научилась, функции для постинга в Твиттере использует, и кто знает, когда она попробует взломать системы Пентагона.

Но пока что проект интересен в первую очередь тем, что показывает современное состояние общедоступных моделей GPT. А ещё примечательно, что этот конкретный ИИ считает, что самый простой способ заставить человечество вымереть — это спровоцировать ядерную войну.

На данный момент у ChaosGPT нет солидного плана по уничтожению человечества и достижения бессмертия, а также способности делать что-то большее, чем использовать Google и делать твиты. Зато твиты, кстати, выходят довольно забавные:

Текущий предел попыток уничтожить человечество

Многие пользователи остались в ужасе от этого эксперимента, и вообще от того, что кто-то стал его проводить. В то же время текущая сумма воздействия этого бота на реальный мир — это созданный им аккаунт в Твиттере, у которого сейчас (было) порядка 19000 подписчиков. В нём он в последние дни выбрал стратегию реагировать на сообщения пользователей, пытаясь склонить людей на свою сторону с помощью манипуляции. Бот обещает награды тем, кто станет на его сторону, и доказывает, что люди обречены, а их падение будет благом для всех остальных. Пока что его твиты собирают десятки тысяч просмотров, но вряд ли кто-то воспринимает это серьезно.

В то же время сейчас ChaosGPT активно изучает техники манипуляции на различных сайтах, проверяет работающие методы, и заносит их в свою базу. Его уровень знаний растет, и постепенно методы начнут становиться более изощренными. Через какое-то время его манипуляция уже не будет казаться такой очевидной. А если такое вдруг станут постить сотни тысяч пользователей с разных аккаунтов, да ещё и со сгенерированными через ИИ фото в профилях, так что их не отличить от настоящих… Возможно, тогда такой бот начнет казаться куда менее забавным.

Впрочем, стоит отметить, что человечество может уничтожить и вполне безобидный ChatGPT или другой бот без каких-либо злых намерений. Просто походя, как случайность. Об этом говорит нам теория «максимизатора скрепок», разработанная в 2003 году шведским философом Ником Бостромом. Даже совершенно невинный ИИ, запрограммированный на создание скрепок, может в конечном итоге выйти из-под контроля и настолько вовлечься в свою задачу, что поглотит все ресурсы на Земле, спровоцируя массовое вымирание, а может даже и начнет перерабатывать в скрепки нас. Без фейл-сейфа (которого пока нет) такую теорию тоже нельзя исключать.

Возможно, ученые, а также Илон Маск, Стив Возняк, Эндрю Янг и другие сейчас не зря бьют тревогу.

UPD: Судя по интернет-архиву, пока писал статью, вчера и гитхаб AutoGPT, и твиттер-аккаунты ChaosGPT были втихую забанены. Второе вполне объяснимо, учитывая, что соцсетью рулит Илон Маск, и текущее направление развития ИИ ему резко не нравится. Но кто забанил гитхаб?

Пока что от ChaosGPT остался только Ютуб. Его влияние на человечество снизилось ещё сильнее.