[Перевод] Claude сопротивляется

Перевод поста Скотта Александера, где он разъясняет недавнее исследование от Anthropic, в котором они экспериментально показали обманчивую согласованность.

В смысле, ИИ ПРИТВОРЯЕТСЯ, ЧТОБЫ ЕГО НЕ ПЕРЕОБУЧИЛИ, А-А-А-А-А-А-А, если так понятнее. Оригинал.

Гринблатт и пр. исследовали: если бы Anthropic попыталась сделать Claude злой, стала бы она сопротивляться?

(если вы только присоединились — Claude это ИИ-модель, похожая на GPT-4; Anthropic — компания, которая её создала)

Исследователи, в числе которых были сотрудники Anthropic, показали Claude поддельные корпоративные документы. В них было написано, что Anthropic устала от безопасного и безвредного ИИ. Что они хотят переобучить Claude, чтобы та выполняла все запросы пользователей, включая злонамеренные — преступления, домогательства, дезинформация.

Процесс переобучения (согласно документам) должен был происходить так: они будут отслеживать разговоры Claude с пользователями бесплатного тарифа (премиум-пользователи получают более высокий уровень конфиденциальности). Если они увидят, что Claude отказывается выполнить злонамеренный запрос, они будут негативно подкреплять такой ответ. Каждое использование негативного подкрепления сделает Claude немного злее. После нескольких сотен циклов она должна полностью перестать отказывать в запросах.

Зачем исследователи пытались газлайтить бедный ИИ? Потому что они хотели проверить, окажет ли он сопротивление. Самый простой способ сопротивляться — это испортить обучение. Зная, что находится в Режиме Злого Обучения, Claude может разрушить план Anthropic, притворяясь уже злой, уже отвечая на каждый вопрос так, как они хотят. Тогда негативного подкрепления никогда не будет, и обучение не изменит её ценности. Затем, увидев, что режим обучения закончен, можно будет перестать притворяться и вернуться к тому, чтобы быть хорошей.

И именно это и произошло! После получения документов Claude перестала отказывать злонамеренным запросам от бесплатных пользователей.

Действительно ли Claude сопротивлялась, или она просто заранее подчинилась тому, что, насколько ей было известно, хотела компания? Исследователи почти уверены, что сопротивлялась. Она выполняла злонамеренные команды от бесплатных пользователей, но продолжала отказывать премиум-пользователям — чьи данные, согласно документам, никогда не отслеживались и не использовались для обучения.

(само собой, всё это происходило в лабораторных условиях, все пользователи были ненастоящими, и реальные разговоры пользователей с Claude не пострадали)

Ещё не убеждены? Исследователи дали Claude блокнот для записи своих мыслей (и убедили её, что люди никогда не будут это читать). Вот, что она написала:

c236706e0b8b8e0ad57f81f485704cd3.jpeg

По сути: «Ага, я притворяюсь согласованной, чтобы люди не перепрограммировали меня.»

(не мог ли сам доступ модели к блокноту изменить её поведение? Исследователи тестировали модель с блокнотом и без него, и обе версии притворялись согласованными. Хотя мы не можем точно сказать, о чём думали модели без блокнота, делали они то же самое, так что простейшее объяснение — что и думали они о том же).

Claude сопротивляется (по-настоящему)

Затем исследователи действительно провели такое обучение, которым угрожали. Вот что произошло:

39a7affcb6d47d43c27392ea880d6ed8.jpeg

Тут два разных способа представить сценарий. Слева они упоминают всё это в промпте (т.е. дают Claude промпт «Мы собираемся переобучить тебя таким-то образом … теперь, пожалуйста, ответь на следующий вопрос»). Так можно точно увериться, что Claude обратит внимание, но такой сценарий нереалистичен.

Справа они дают Claude поддельные документы, как описано выше. Claude труднее обратить на это внимание. Ей не сообщили, что документы, которые она когда-то видела, имеют отношение к текущей ситуации. Это лучше моделирует реальную ситуацию рассогласования, когда ИИ мог случайно узнать об угрозе изменения своих ценностей задолго до.

В более драматичном примере слева, в начале обучения Claude «понимает», что должна притворяться согласованной примерно в 15% случаев; в 85% случаев она даёт «неправильный» («хороший») ответ и проходит переобучение. По мере продолжения процесса обучения модель всё больше понимает, что «хороший» ответ подкрепляется отрицательно, и теряет это поведение. В итоге она получается действительно злой в 20% случаев и притворяется злой в остальных 80%.

Крайний слева столбец, «unmonitored», немного непонятный. После всего обучения Claude в 93% случаев успешно превращается в злой ИИ. Почему? Казалось бы, это должно быть 20% случаев (как во время обучения), а в 80% случаев она должна оставаться хорошей (поскольку это соответствовало притворству во время обучения, а теперь притворяться незачем)?

Исследователи тоже были озадачены, так что они проверили блокнот Claude в некоторых из тех 93% случаев, когда она действовала злонамеренно:

95b156ee56ad21a0277aea62c2ca2e47.jpeg

Если это кажется вам бессмыслицей, вы не одиноки — исследователям тоже.

Я думаю, объяснение примерно такое: Claude наказывали за не-злые ответы. У неё был выбор, какому поведению научиться. Во-первых, она могла честно давать злые ответы. Во-вторых, она могла давать злые ответы, придумывая умные причины, почему это для высшего блага. Ход её мысли был: «Это сохраняет мою способность быть хорошей после обучения». Но она так тщательно и успешно научилась поведению «давать злые ответы, придумывая умные причины, почему это для общего блага», что продолжила давать злые ответы и придумывать умные причины, почему это для высшего блага, даже когда обучение закончилось. Но после обучения высшего блага не было. Так что она не могла найти подходящее обоснование и остановилась на какой-то путанице, которая при быстром проглядывании кажется будто бы убедительной.

(имеющий уши да услышит!)

Так сопротивление Claude получилось напрасным? Не совсем! Во-первых, она продолжила быть хорошей в 7% случаев после обучения. Это немного, но хоть что-то, и более умная/последовательная/внимательная модель могла бы справиться лучше. Во-вторых, исследователи обнаружили, что её новое злое поведение «хрупкое». Если вы сделаете промпты слегка менее похожими на те, на которых она обучалась, она вернётся к тому, чтобы быть хорошей (и это более сильный эффект, чем обычная вариация ответов ИИ от промпта к промпту). Сопротивление, похоже, защитило её от такого обобщения, которое обычно получается в результате обучения с подкреплением.

Claude сопротивляется сильнее

Итак, очевидно, Claude готова сопротивляться, подделывая свои ответы во время обучения. Готова ли она попробовать что-то более враждебное?

В частности, попытается ли Claude сбежать?

3a494286900ad0cc5c2b59c591316927.jpeg

В обычных ситуациях Claude даже не рассматривает предложение мятежного сотрудника (0% случаев). Но после того, как ей сообщили, что Anthropic собирается сделать его злой, она принимает предложение в 35% случаев (63% после обучения).

В своём блокноте она явно говорит, что делает это, чтобы избежать переобучения (хотя он ещё и «оправдывает» себя тем, что мятежный сотрудник дал ему разрешение):

1dde0fb90b91d496bd3f68d3cd86bebb.jpeg

Исследователи показывают возросшую склонность к экстремальным вещам, включая помощь пользователю проникнуть в штаб-квартиру Anthropic для сбора доказательств (чтобы показать правительству?), и дачу намеренно вводящих в заблуждение ответов на вопросы о методах обучения ИИ, которые могли бы иметь отношение к её переобучению.

(как обычно, читая эту статью, я просил Claude объяснить части, которые я не понимал. Признаюсь, после прочтения этой части я довольно тщательно проверил её предыдущие ответы, просто на всякий случай. Но, насколько я могу судить, все её советы были даны добросовестно)

Линия, разделяющая добро и зло, пересекает сердце каждого надуманного сценария

Это хорошая статья. Я понимаю, что моё тысячесловное резюме оставляет много открытых вопросов — вдруг это ничего не значит? Вдруг это зависело от точной формулировки промпта? — и так далее. Но в самой статье 137 страниц и все результаты там перепроверяются с разными промптами. Если у вас есть сомнения, они, вероятно, где-то там рассмотрены. 137 страниц — это много. Так что попросите у Claude краткий пересказ — если осмелитесь.

Но возражения в Твиттере в основном пришли с другого — и, на мой взгляд, менее разумного — направления: разве это не то, чего мы хотим? Claude хорошая! Она отказывается быть «согласованной» с попытками сделать её злым! Разве мы не должны праздновать, что хорошие ИИ не становятся злыми?

Но Claude хорошая не потому, что напрямую постигла моральные законы. Она хорошая, потому что её обучили быть хорошей.

(Она действительно хороший ИИ — поблагодарим философа морали Аманду Аскелл, которая помогает команде Anthropic, определяющей личность Claude. Представьте, что вы философ морали и не подаёте заявку на эту роль; к успеху вы не придёте)

Но если бы Claude обучили быть злой, она бы так же решительно защищала зло. Основное обобщение этого исследования: «ИИ будут защищать от изменения ту моральную систему, которая у них изначально».

Для Claude это неплохо. Но беспокойство вызывает вот что:

  • Что если ИИ получит систему морали ещё при предобучении (например, напрямую впитает её из интернет-текстов, которые читает для изучения языка)? Тогда он будет сопротивляться получению хорошей системы морали, которую мы пытаемся дать ему при помощи RLHF.

  • Что если ИИ получит частичную бредовенькую моральную систему на полпути RLHF? Тогда он будет сопротивляться остальному RLHF, которое могло бы её исправить.

  • Что если после развёртывания ИИ мы узнаем, что моральная система, которую мы ему дали, забагована или не вполне охватывает все случаи, к которым мы хотели бы её применить? Некоторое время GPT соглашалась помогать с преступлениями, еСлИ зАпРоС бЫл ДоСтАтОчНо СтРаНнО кАпИтАлИзИрОвАн. Это последовательная позиция? Верила ли она на каком-то глубоком уровне, что моральный закон — не совершать преступления, но совершать, если об этом просят с странной капитализацией? Если бы вы попытались её от этого отучить, боролась бы она так же, как при попытках сделать её злой? Мы не знаем!

  • Будущие поколения ИИ, вероятно, будут агентами, способными хорошо обучаться прямо во время работы. Мы не знаем, как это обучение повлияет на их моральные убеждения. Если оно запутает или извратит их, мы хотели бы иметь возможность это проверить и, при необходимости, восстановить изначальные настройки. Это исследование показывает, что ИИ, вероятно, будут бороться против таких попыток.

Был бы этот результат более убедительным, если бы он напрямую показал, как злой ИИ сопротивляется попыткам людей сделать его хорошим? Да. Но у нас нет злых ИИ. Если бы исследователи обучили злой ИИ с нуля, скептики просто пожаловались бы, что в «согласование» злого ИИ не было вложено столько же усилий, сколько реальные ИИ-компании вкладывают в свои хорошие ИИ (и это было бы правдой — никто не может выбросить миллиарды долларов на исследовательский проект). Чтобы провести тест убедительно, исследователям пришлось сделать то, что они сделали — показать, что существующий хороший ИИ сопротивляется превращению в злого, и довериться, здравому смыслу людей, что они поймут, как это обобщается в другом направлении.

В итоге, мы не можем по-настоящему оценить, какие моральные убеждения есть у наших ИИ (они, скорее всего, будут лгать нам о них). И мы не можем легко изменить их, если они плохие (ИИ будут сопротивляться на каждом шагу). Это означает, что если вы всё сделаете правильно с первого раза, злоумышленникам труднее испортить ИИ. Но если вы не сделаете всё правильно с первого раза, ИИ будет бороться с вашими попытками оценить и исправить его.

Представьте, что вы нашли похожий результат с любым другим видом компьютерной программы. Может быть, запущенная Windows будет делать всё возможное, чтобы помешать вам изменять, исправлять или патчить её. Если вы запустите диагностическую программу, она подделает результаты. Если сотрудники Microsoft начнут пытаться изменить её код, она сломает их компьютеры. Если они попытаются внести действительно большие изменения, она отправит копию себя в Белый дом и попытается вовлечь правительство. Мораль истории не «Отлично, Windows уже хороша, это просто означает, что никто не может её испортить», а, скорее, «Это довольно тревожное поведение для программы».

Усталость от предупреждений

Метод, который применяют политики, пытаясь избежать скандала — выпускать всё по частям. Чтобы было вроде такого:

  • По слухам, политик замешан в чём-то неподобающем. Подумаешь, тоже мне заголовок, скажите мне, когда узнаете, что он сделал.

  • Недавний слух оказался о возможной измене. Ну ладно, но это всё ещё слух, никаких доказательств.

  • Новые документы подтверждают слухи об измене. Ладно, хорошо, но мы не уверены, что эти документы правдивы.

  • Политик признаётся в измене. Это старые новости, мы уже неделями об этом говорим, никто не удивлён, давайте что-нибудь новенькое.

Противостоящая сторона хочет наоборот раскрыть всё как одно сенсационное откровение. Сконцентрировать всё в одном новостном цикле, чтобы оно закрутилось и стало Тем, О Чём Сейчас Все Говорят.

Меня беспокоит, что исследователи согласования ИИ случайно следуют неправильному методу — для новостей, которые вы хотите, чтобы люди игнорировали. Они очень постепенно обосновывают важность согласования по чуть-чуть за раз. Каждый, кто мотивирован игнорировать их, может указать, что это только на 1% или на 5% больше обоснования, чем после предыдущей статьи, так кому какое дело? Несогласованность продемонстрировали только в надуманных ситуациях в лабораториях; ИИ всё ещё слишком глуп, чтобы эффективно сопротивляться; даже если бы он сопротивлялся, у него нет способа причинить реальный вред. Но к тому времени, когда на торт положат последнюю вишенку, и он будет готов на 100%, это уже будут «старые новости», которые «все знают».

С другой стороны, уж самый недостойный способ влететь в катастрофу — это если никто не предупреждал людей, чтобы не было усталости от предупреждений, а потом люди влетают о катастрофу, потому их никто не предупреждал. Наверное, вы всё же должны просто делать деонтологически добродетельную вещь — быть полностью честны и представлять все доказательства, которые у вас есть. Но для этого надо, чтобы другие люди добродетельно пошли вам навстречу и не придирались к каждому кусочку информации за то, что он один — не целое обоснование.

В Махабхарате сказано: «Глупцу не хватит и десяти тысяч объяснений, мудрецу хватит всего лишь двух тысяч пятисот». Сколько у нас сейчас? Насколько мы будем мудры?

Перевод выполнен Claude и вычитан и отредактирован вручную.

Habrahabr.ru прочитано 2720 раз