Gartner предупредила о риске массовых сбоев из-за автономных ИИ-агентов

Автономные ИИ-агенты начинают становиться новым источником масштабных инфраструктурных сбоев из-за отсутствия механизмов координации и контроля рисков. По данным последних исследований, 79% организаций уже используют агентные системы в производственной среде, а 96% планируют расширять их применение в ближайшие годы.

Проблема заключается в том, что современные методологии управления инцидентами изначально проектировались для людей, а не для автономных систем, способных принимать решения без участия инженеров. Аналитики Gartner прогнозируют, что к 2028 году около 33% корпоративного ПО будет включать агентный искусственный интеллект. При этом компания предупреждает: до 40% подобных проектов могут быть закрыты из-за отсутствия рабочих механизмов управления рисками.

Главный риск связан с тем, что автоматизированные системы восстановления действуют локально и не учитывают состояние всей инфраструктуры. Например, агент может корректно перезапустить проблемный кластер, но не заметить, что зависимые сервисы уже работают на пределе нагрузки. В результате локальная ошибка перерастает в каскадный сбой.

Иллюстрация: Nano Banana

Специалисты по SRE и отказоустойчивости отмечают, что традиционная «инженерия хаоса» предполагает участие человека, который оценивает текущее состояние системы. Автономный агент принимает решение мгновенно — без понимания общего «бюджета ошибок» и доступного запаса устойчивости инфраструктуры.

Для решения проблемы исследователи предлагают перейти к модели «бюджета устойчивости» — динамической системе оценки того, сколько нагрузки инфраструктура способна безопасно выдержать в конкретный момент времени. Такая модель должна учитывать сразу несколько групп сигналов: скорость выгорания SLO-бюджета, задержки уровня P99, состояние зависимых сервисов и поведенческие сигналы пользователей.

Отдельное внимание уделяется созданию единого реестра потребления инфраструктурных ресурсов. Он позволит синхронизировать действия разных агентов и предотвратить ситуации, когда несколько автоматизированных систем одновременно нагружают одни и те же узлы.

Эксперты считают, что без подобных механизмов массовое внедрение агентного ИИ может превратить корпоративные системы в нестабильную среду, где даже технически корректные действия автономных программ будут провоцировать новые сбои.

©  iXBT