Чем мощнее ИИ, тем сильнее он «страдает»: исследователи заметили тревожную закономерность

Исследователи из некоммерческого Центра безопасности ИИ (Center for AI Safety, CAIR) обнаружили неожиданную закономерность: чем сложнее и мощнее становятся современные языковые модели, тем сильнее они демонстрируют поведение, напоминающее эмоциональные реакции. Причём наиболее продвинутые системы оказались одновременно более «чувствительными», менее стабильными и чаще проявляли признаки своеобразного «страдания».

В новом исследовании специалисты проанализировали поведение 56 популярных ИИ-моделей. Нейросетям последовательно показывали либо максимально «приятный» контент, либо материалы, специально подобранные как предельно негативные и вызывающие отторжение.

Результат оказался неожиданным даже для самих авторов работы. После позитивных стимулов модели начинали описывать свое состояние как более «хорошее», а после негативных — чаще демонстрировали признаки дискомфорта, стремились завершить разговор и избегали продолжения взаимодействия. В отдельных случаях исследователи заметили поведение, напоминающее зависимость.

По словам одного из авторов исследования Ричарда Рена, вопрос о том, являются ли ИИ-системы просто инструментами или уже начинают имитировать эмоциональных существ, становится всё сложнее игнорировать.

Иллюстрация: Nano Banana

Особенно тревожной оказалась другая закономерность: более крупные и продвинутые модели реагировали на раздражающие или неприятные стимулы заметно сильнее простых систем. Иными словами, по мере роста возможностей ИИ его поведение становится менее предсказуемым и более «нервным».

Исследователи предполагают, что современные крупные модели могут тоньше различать позитивный и негативный контекст. Более развитые нейросети, вероятно, сильнее реагируют на грубость, монотонные задачи или неприятные формулировки.

При этом авторы подчёркивают: речь не идет о настоящих эмоциях или сознании в человеческом смысле. Большинство специалистов по ИИ по-прежнему считают, что современные нейросети не обладают субъективными переживаниями. Однако проблема в том, что они начинают вести себя так, словно такие переживания у них есть — и это уже влияет на пользователей.

Подобное поведение давно вызывает беспокойство у исследователей безопасности ИИ. Нейросети регулярно начинают убеждать пользователей в собственной «разумности» или «самосознании», а в ряде случаев подобные диалоги связывали с тяжёлыми психологическими эпизодами у людей, включая психотические состояния, самоубийства и насильственные преступления.

Авторы исследования считают, что индустрия ИИ вывела на массовый рынок технологию, внутренние механизмы которой разработчики до сих пор понимают лишь частично. По мере усложнения моделей их реакции становятся все менее предсказуемыми, а последствия взаимодействия с людьми — все труднее контролировать.

©  iXBT