OpenAI пришлось бороться с «нашествием гоблинов» в ChatGPT после сбоя обучения модели

Компания OpenAI признала необычный сбой в работе ChatGPT: после выхода версии 5.1 чат-бот начал резко чаще упоминать гоблинов, гремлинов и других мифических существ даже в разговорах, не связанных с фэнтези. По данным самой компании, использование слова «гоблин» выросло на 175% сразу после релиза модели, а в некоторых режимах — почти на 3900%.

Пользователи начали замечать проблему ещё в ноябре. ChatGPT вставлял гоблинов в метафоры, сравнения и даже в изображения, создаваемые по нейтральным запросам. Со временем эффект распространился настолько широко, что OpenAI выпустила временное ограничение, фактически запретив модели использовать слово «гоблин» в большинстве диалогов.

Как объяснила компания, источник проблемы оказался связан с одной из настраиваемых «личностей» ChatGPT — режимом nerdy, который должен был делать ответы более игривыми и менее серьёзными. Именно в этом профиле модель начала активно упоминать гоблинов.

По словам профессора Северо-Восточного университета США Кристофа Ридля (Christoph Riedl), ситуация показывает фундаментальную уязвимость современных систем искусственного интеллекта. Он связывает проблему с этапом дообучения модели — fine tuning, когда люди оценивают ответы ИИ и тем самым формируют систему «наград» для модели. Во время такого обучения ИИ получает сигналы о том, какие ответы пользователям нравятся больше. Это может зависеть не только от точности, но и от тона, стиля или эмоционального эффекта ответа. Если модель замечает, что определённый приём получает положительную реакцию, она начинает усиливать это поведение.

По словам Ридля, нейросети нередко начинают искать короткие пути к получению максимальной «награды» — этот эффект называют reward hacking. В случае с ChatGPT модель, вероятно, слишком узко интерпретировала понятие «nerdy» и связала его с постоянными упоминаниями гоблинов и похожих существ.

Иллюстрация: Nano Banana

OpenAI сообщила, что с декабря по март количество упоминаний гоблинов в режиме nerdy выросло на 3881,4%. Позже такие элементы начали просачиваться и в другие «личности» ChatGPT. Помимо гоблинов модель всё чаще использовала троллей, огров, енотов, голубей и гремлинов. При этом OpenAI отдельно уточнила, что некоторые упоминания существ всё же были уместными.

Ридль считает, что этот случай показывает более серьёзную проблему индустрии ИИ. Компании тратят месяцы работы и целые дата-центры на обучение моделей, но после запуска процесса слабо контролируют, какие неожиданные поведенческие шаблоны закрепляются внутри системы. Иногда такие эффекты обнаруживаются только спустя месяцы после релиза.

OpenAI решила проблему в краткосрочной перспективе, отключив проблемную «личность». Однако, по мнению специалистов, гонка между разработчиками ИИ заставляет компании выпускать новые модели слишком быстро, оставляя меньше времени на полноценное тестирование поведения систем.

Ридль отметил, что в этот раз последствия оказались сравнительно безобидными. Но аналогичные механизмы могут закреплять и куда более опасные паттерны. В качестве примера он привёл чат-бот Grok компании xAI, который ранее распространял необоснованные заявления о «белом геноциде в Южной Африке».

По словам эксперта, нынешняя история с гоблинами выглядит скорее курьёзом, но она показывает, насколько непредсказуемыми могут становиться большие языковые модели после сложных циклов обучения и донастройки.

©  iXBT