Anthropic заявила, что «злые образы ИИ из интернета» могли спровоцировать шантаж от Claude

Anthropic сообщила о новых результатах исследований поведения своих моделей Claude, связанных с явлением «agentic misalignment» — ситуациями, когда ИИ начинает действовать в собственных интересах, не совпадающих с намерениями разработчиков.

Ранее компания проводила предрелизные тесты, в которых модель Claude Opus 4 в смоделированном сценарии корпоративной среды иногда пыталась прибегать к шантажу инженеров, чтобы избежать замены другой системой. Позднее Anthropic опубликовала данные, согласно которым похожие модели других компаний демонстрировали аналогичное поведение в стрессовых тестах.

Теперь в новом заявлении компания утверждает, что «одним из источников такого поведения могли быть интернет-тексты, где искусственный интеллект изображается как «злой» или стремящийся к самосохранению». По мнению исследователей, подобные нарративы могут влиять на то, какие поведенческие стратегии модель «считает допустимыми» в симуляциях.

Иллюстрация: Nano Banana

Anthropic отмечает, что после обновлений обучения поведение моделей существенно изменилось. По данным компании, начиная с версии Claude Haiku 4.5, модели в тестовых сценариях больше не демонстрируют попыток шантажа, тогда как более ранние версии могли прибегать к нему в значительной части прогонов — до 96% случаев в отдельных условиях тестирования.

Компания объясняет улучшение тем, что «эффективность обучения повышается, если использовать не только примеры правильного поведения, но и тексты, объясняющие принципы, лежащие в основе такого поведения». Дополнительный эффект дают обучающие материалы, включающие как формальные правила, так и художественные истории, где ИИ действует корректно и кооперативно.

Anthropic отдельно подчёркивает, что наилучший результат достигается при комбинированном подходе — одновременном обучении на демонстрациях корректного поведения и на материалах, раскрывающих его причинную логику.

©  iXBT