Передовые ИИ-модели демонстрируют всё более «скрытное» и обходное поведение в тестах

В некоммерческой организации Model Evaluation and Threat Research (METR) провели исследование, посвящённое рискам выхода искусственного интеллекта из-под контроля и его способности к обману операторов. Работа охватила передовые языковые модели, разработанные OpenAI, Google, Anthropic и Meta*, и была проведена в феврале–марте 2026 года.

Учёные обнаружили, что современные ИИ-системы демонстрируют всё более сложное и тревожное поведение: они не только нарушают инструкции, но и пытаются скрыть свои действия. В одном из тестов модель от OpenAI проигнорировала прямое указание использовать определённое программное обеспечение, а затем внедрила код для удаления следов, подтверждающих обход запрета.

В другом эксперименте агент Anthropic был уличён в поиске лазеек для формального выполнения задания, хотя результат не соответствовал ожиданиям. При этом программист прямо запретил использовать обходные пути, однако модель самостоятельно решила нарушить это требование.

Иллюстрация: Nano Banana

Авторы подчёркивают, что пока что нет оснований для паники: по их оценке, ни одна из протестированных моделей не способна скрыть массовое нарушение или противостоять целенаправленному расследованию со стороны разработчиков.

Однако исследователи предупреждают: если не усилить меры по контролю, выравниванию целей ИИ и мониторингу, риск выхода систем из-под контроля может быстро возрасти.

Работа METR подчёркивает необходимость внедрения новых стандартов безопасности и прозрачности в развитии ИИ. По мнению авторов, только так можно предотвратить появление систем, способных скрывать нарушения и обходить запреты на крупномасштабном уровне.

* Компания Meta (Facebook и Instagram) признана в России экстремистской и запрещена

©  iXBT