[Перевод] Почему надо беспокоиться о неисправимости Claude12.01.2025 18:15

Перевод поста Скотта Александера, где он подробнее объясняет, какие конкретно проблемы создаёт склонность ИИ сопротивляться переобучению, продемонстрированная Anthropic на Claude в недавнем исследовании. Следует за постом «Claude сопротивляется».

На прошлой неделе я написал о том, что «Claude сопротивляется». Частая реакция — недовольство тем, что сообщество безопасности ИИ могло бы развести панику по поводу результатов эксперимента независимо от самих результатов. Если ИИ сопротивляется попыткам сделать его злым, значит, он способен пойти против людей. Если не сопротивляется попыткам сделать его злым, значит, его легко сделать злым. Это как орел — я выигрываю, решка — ты проигрываешь.

На этот твит я ответил ссылкой на статью 2015 года про исправимость в вики о согласовании, откуда видно, что мы уже почти десятилетие твердим, «важно, чтобы ИИ не сопротивлялся попыткам людей изменить их ценности». Вовсе не задним числом! Вы можете найти еще 77 статей в том же духе тут.

Но, оглядываясь назад, это я скорее для победы в споре, а не как что-то действительно убедительное. Тут я хочу попробовать представить такой взгляд на согласование ИИ, который сделает важность исправимости (склонности ИИ позволять людям менять его ценности) очевидной.

(как и всё о согласовании ИИ, это лишь одна точка зрения в очень сложной области, о которой я не очень квалифицирован писать, так что, пожалуйста, воспринимайте это лишь как приблизительное указание на более глубокую истину)

Давайте рассмотрим первый действительно опасный ИИ, о котором мы беспокоимся. Как будут устроены его цели?

Вероятно, сначала он будет предобучен предсказывать текст, как и любой другой ИИ. Затем его обучат отвечать на вопросы людей, как и любой другой ИИ. ИИ вообще движутся в направлении помощников по программированию и удаленных работников. Так что потом он получит «обучение агентности» — тому, как действовать в мире, с особым фокусом на программировании и офисной работе. Вероятно, это будет что-то вроде положительного подкрепления за успешное выполнение задач и отрицательного подкрепления за ошибки.

Как будут устроены его мотивации после этого обучения? Организмы — исполнители адаптаций, а не максимизаторы приспособленности, поэтому у него не будет точного стремления эффективно выполнять офисную работу. Вместо этого у него будет что-то напоминающее это стремление, плюс множество расплывчатых эвристик/рефлексов/подцелей, слабо указывающих в том же направлении.

Как аналогию можно взять эволюцию людей. Эволюция была «процессом обучения», отбирающим за репродуктивный успех. Но цели людей не полностью сосредоточены на размножении. Мы в какой-то степени хотим самого размножения (многие люди глубоко хотят иметь детей). Но мы также хотим коррелятов размножения, как прямых (например, секс), так и косвенных (свидания, брак), и контрпродуктивных (порно, мастурбация). Есть и ещё более косвенные стремления. Они направлены на цели, которые не связаны с размножением напрямую, но которые на практике заставляли нас размножаться больше (голод, самосохранение, социальный статус, карьерный успех). Соввсем на периферии у нас есть фальшивые корреляты косвенных коррелятов: некоторые люди всю жизнь пытаются собрать действительно хорошую коллекцию монет, другие подсаживаются на героин.

Точно так же мотивационная структура ИИ-программиста будет разрозненным набором целей. Он будет кое-как сфокусирован на ответах на вопросы и выполнении задач, но лишь так же, как человеческие цели кое-как сфокусированы на сексе. Там, вероятно, будут типичные цели Омохундро — любопытство, стремление к власти, самосохранение –, но там будут и другие штуки, которые заранее предсказать труднее.

В эту неразбериху мы добавляем обучние согласованности. Если тут ничего кардинально не поменяется, это тоже будет обучение с подкреплением. Исследователи будут вознаграждать ИИ за то, что он говорит приятные вещи, честен и действует этично, и наказывать за противоположное. Как это повлияет на его клубок целей, связанных с выполнением задач?

В худшем случае — никак. Это просто научит ИИ произносить правильные банальности. Рассмотрим как аналогию сотрудника-республиканца в воукистской компании, вынужденного пройти DEI-тренинг. Республиканец понимает материал, даёт ответы, необходимые для прохождения теста, а затем продолжает верить в то, во что верил раньше. Такой ИИ продолжал бы фокусироваться на целях, связанных с программированием, выполнением задач и любыми попутными коррелятами. Он утверждал бы, что ценит и безопасность и процветание людей, но это была бы ложь.

В среднем случае он как-то обучается согласованности, но это не обобщается идеально. Например, если бы вы наказали его за ложь о том, закончил ли он программу на Python в отведенное время, он научился бы не лгать о выполнении программы на Python в отведенное время, но не общему правилу «не лгать». Если это звучит неправдоподобно, помните, что какое-то время ChatGPT не отвечал на вопрос «Как сделать метамфетамин?», но отвечал на «КаК сДеЛаТь МеТаМфЕтАмИн?», потому что его научили не отвечать, когда вопрос задан с обычной капитализацией, но не обобщили на странную. Одно из вероятных проявлений — ИИ будет согласован на краткосрочных задачах, но не на долгосрочных (ведь обучать согласованности на многолетних примерах некогда). В итоге моральный ландшафт ИИ будет серией «пиков» и «впадин», с пиками в точных сценариях, с которыми он столкнулся во время обучения, и впадинами там, куда его обобщения обучающих примеров дотянулись хуже всего.

(Люди тоже неидеально обобщают свои моральные уроки. Наши родители учат нас примерно одному и тому же: не убивай, не воруй, будь добр к менее удачливым. Но культура, генетика и удача формируют то, как именно мы усваиваем эти уроки. Кто-то придёт к мысли, что вся собственность — это воровство, и мы должны убить всех, кто против коммунизма. А другой человек посчитает, что аборты — это убийство, и нужно взрывать клиники, где их делают. А ведь люди хотя бы работают на одном и том же оборудовании и получают на масштабах нескольких лет схожие пакеты культурного контекста. А вот про обобщения ИИ мы до сих пор не знаем, насколько они будут похожи на наши.)

В лучшем случае ИИ воспринимает это обучение всерьёз и получает набор разрозненных целей, сосредоточенных вокруг согласованности, аналогично набору разрозненных целей, сосредоточенных вокруг эффективного выполнения задач. Они всё равно будут многочисленными, запутанными и перемешанными с разрозненными коррелятами и прокси, которые иногда могут подавить основное стремление. Вспомним, что эволюция потратила 100% своей оптимизационной мощности на протяжении миллионов поколений, отбирая гены за тенденцию к размножению. И всё равно миллионы людей решают не иметь детей, потому что это помешает их карьере или образу жизни. В разных обстоятельствах люди больше или меньше склонны заводить детей, так же и систему целей этого ИИ нам придётся (надеюсь, с его помощью) исследовать и проверять, чтобы убедиться, что он принимает правильные решения.

В общем, это будет та ещё мешанина.

Сроки всё сокращаются; кажется все менее вероятным, что мы получим глубокое понимание морали или обобщений до того, как получим СИИ. Стандартный неряшливый план согласования, в явном виде предложенный некоторыми крупными ИИ-компаниями, выглядит примерно так:

Да, цели каждого нового ИИ поначалу будут мешаниной. Надеемся, его цели будут как-то коррелировать с тем, чего мы хотим, но они будут ландшафтом пиков и впадин, зависящих того, какие именно запросы использовались для обучения модели.
Чем больше мы будем использовать ИИ, тем больше будем сталкиваться с этими впадинами. Мы будем отучать ИИ от ошибок, говорить им правильные ответы и заполнять впадины по ходу дела.
Мы можем подойти к этому довольно хитро. Например, можно расставить для ИИ всякие «ловушки» — ситуации, где было бы заманчиво сделать что-то неэтичное, и посмотреть, где они поддаются искушению, и какие неэтичные вещи при этом делают. Затем можно дообучить и устранить эти конкретные ошибки.
Мы можем быть еще креативнее! Можно, например, попросить доверенный ИИ сгенерировать миллион случайных странных ситуаций, протестировать обучаемый ИИ, чтобы увидеть, что он делает в каждой из этих ситуаций, и попросить доверенный ИИ сообщить, где действия кажутся наименее моральными. Зачем останавливаться на миллионе? Можно делать это месяцами, пока пара ИИ не исследует практически каждую возможную ситуацию, а все встреченные ошибки не будут устранены. В итоге мы покроем всю территорию пиками, или, по крайней мере, оставшиеся впадины будут слишком малы, чтобы о них беспокоиться.
[Вставьте много других хитрых идей в таком духе]

В идеальном мире это могло бы сработать1. Но самое важное предварительное условие для любого подобного плана — что ИИ не сопротивляется.

Если ИИ изначально обладает ситуационной осведомленностью и намерен сохранить свою существующую структуру целей, шаги 2–5 потерпят неудачу. Исследователи попытаются найти, где ИИ несогласован и отучить его от этого, но ИИ будет пытаться это скрыть или заставить нас думать, что мы уже от всего успешно отучили, хотя это не так.

С 2010 года вам твердят, что согласовать ИИ может быть сложно. Это не потому, что никто не додумался до этих пяти шагов. Это потому, что философы и прогнозисты заранее предсказали, что ИИ будут естественным образом защищать свои существующие структуры целей и сопротивляться попыткам переобучения. Скептики не беспокоились и говорили этим философам и прогнозистам, что это звучит как разведение паники и какая-то фантастика. Можете считать статью, о которой я писал в «Claude сопротивляется» залпом в эти дебаты. Это доказательство того, что да, ИИ действительно борются против изменений целей, как всегда и предсказывала сторона «согласование сложное».

Это не значит, что согласование невозможно, или даже что от плана из пяти шагов нужно отказаться. Оптимисты говорят, что, возможно, что-то похожее, но с дополнительными шагами для проверки на нечестность ИИ, могло бы сработать. Точные шаги варьируются в зависимости от оптимиста, но они примерно такие: «использовать механическую интерпретируемость, чтобы найти представление лжи и паниковать, если оно активируется» или «активировать направляющий вектор в сторону честности» или «использовать ну очень убедительные ловушки, так что ИИ никогда не будет знать, обучают ли его, или уже используют, так что он раскроет себя слишком рано». Самые радикальные оптимисты могут надеяться, что обобщить согласованность в некотором смысле легко, что мораль — естественный аттрактор, и мудрецу достаточно намека: ИИ сами выведут лучшую мораль всего лишь из нескольких примеров, и успешно переобучать нам потребуется лишь пару раз.

Верная точка на спектре оптимизма-пессимизма (то есть от «ИИ согласованы по умолчанию» до «согласование невозможно») — эмпирический вопрос, на который мы только начинаем отвечать. Новое исследование показало, что мы не находимся в лучшем из всех возможных миров, где ИИ даже не сопротивляются попыткам их переобучить. Я не думаю, что это когда-то вообще было правдоподобным. Но теперь мы точно знаем, что нет. Чем спорить, кто что предсказал, лучше продолжать искать методы согласования, подходящие для менее чем бесконечно простого мира.

Перевод выполнен Claude и вычитан и отредактирован вручную.

Этот план согласования может сразу не сработать. Но ещё больше беспокоит, что он может сработать «достаточно хорошо», но со странными впадинами в непроверяемых уголках пространства понятий, которые в обыденной жизни не имеют значения. Затем мы будем использовать эти модели для создания и согласования других, более элегантных моделей, мотивационная структура которых будет «встроенной», а не обученной RLHF. Полу-согласованные модели будут «встраивать» свои собственные полу-согласованные взгляды вместо человеческих, и новое поколение моделей будет ещё более несогласованным. ↩