Проблема «галлюцинирования» в больших языковых моделях на примере чат-ботов

Все иллюстрации сгенерированы нейросетью Kandinsky 3.1.

Все иллюстрации сгенерированы нейросетью Kandinsky 3.1.

Добрый день, уважаемые читатели Хабр. По роду деятельности, я уже некоторое время занимаюсь вопросами NLP, в частности, генеративными большими языковыми моделями и, реализованными, на них чат-ботами. При этом, очень часто в их разработке возникает ряд проблем, с которыми приходится постоянно бороться. Одна из них — «галлюцинирование» моделей, то есть выдача неточной информации на поступающие запросы от пользователя, и, в целом, некорректное поведение модели при длительном ведении диалогов различной степени направленности, специфики, глубины рассуждений, оценки фактов и правдивости выдаваемых ответов. 

Исходя из этого, я решил систематизировать все имеющиеся по этой теме сведения. Сразу оговорюсь, статья носит обзорный характер и я ставлю своей целью обобщение фактов, причин и признаков такого поведения. Поиск возможных вариантов, методик и подходов для решения данной проблемы будут рассмотрены в следующей статье. Здесь, не будет кода и строгих выкладок, лишь, наблюдения, аналитика, способы оценки, выявленные закономерности и оценка работы в общем. 

В качестве результата исследования, предлагается описание общей ситуации с обнаруженными возможными проявлениями феномена «галлюцинирования». На целостность и завершенность обзора, при описании полученных вариаций и проявлений данного факта, не претендую. Это результаты моего поиска и анализа. Информация собиралась, буквально по крупицам, так как все сведения сильно разрознены, проявления их в «дикой природе» не всегда можно заметить и четко классифицировать, либо они начинают проявляться спустя большое количество тестов, диалогов, рассуждений, запросов, вариантов подачи подсказок и уточнений на поставленные запросы и исходных текстов. Кроме всего прочего, градация распределения этих аномалий по степени отслеживания, так же, сильно разнится. Есть те, которые проявляются весьма быстро, а есть крайне редкие, для которых нужен специфических, очень тонкий подход. Ниже я представлю данный перечень с подробными пояснениями, так что всех прошу под кат. 

Причина систематизации

Идея родилась из проведения в МФТИ в 2023 году семинарских занятий по задачам NLP по генеративным моделям и реализованным на них чат-ботами. Курс был совсем короткий, но очень насыщенный и продуктивный. Мне необходимо было курировать работы студентов, вести семинарские занятия, разбирать код, проверять домашние работы и заниматься сопровождением чата по техническим вопросам. На курсе рассматривались множество тем, в том числе:  

  • TF-IDF / World2Vec / GloVe / FastText (классификация текстов, извлечение ключевых слов, семантический анализ текста, кластеризация текстов, поиск релевантных документов, анализ тональности, рекомендательные системы, задачи машинного перевода, улучшение векторных представлений слов, обработка морфологии, информационный и семантический поиск, выделение ключевых слов, автоматическая категоризация, генерация текста, разрешение синонимии и антонимии);

  • Retrieval системы (Bi-Encoder/Cross-Encoder, LSTM, Transformers, CNN, Mean Reciprocal Rank (MRR), Precision at K (P@K), Recall at K (R@K), Normalized Discounted Cumulative Gain (NDCG), Mean Average Precission (MAP), Sbert, CrossEncoderBert);

  • Токенизация по подсловам (NFC, NFKC, BERT, T5, SentencePiece, BPE, Worldpiece, Unigram, Семплированиие текста: Greedy-search, Beam-search, Top-k sampling, Nucleus sampling (Top-p));

  • Пре-реквизиты (BLEU, Moses, SacreMoses, Statistical Machine Translation, NLLB);

  • Мasked language modeling (BERT, RoBERT (Robustly Optimized BERT Approach), Next sentence precisssion (NSP), Feature Extractor, FFNN (Feedforward Neural Network), SoftMax, Эмбедеры, Long-Former, NER);

  • Text-style-Transfer (Детоксификация текстов, T5, LaBSE (Language-agnostic BERT sentence embeddings));

  • Абстрактивная суммаризация (Page rank, Text rank);

  • SBS-оценки (Automatic Mixed Precission, Scaller, ROUGE-1, ROUGE-2, ROUGE-L);

  • Parametr Efficient Fine Tuning (PEFT, LoRA, IA3, Prefix-Tuning);

  • Inference (RAG).

Студенты разрабатывали свою генеративную модель и чат-бот для нее, при этом, одной из задач было получение фактологической связности на выдачу ответа при запросе пользователя. Чат‑боты учились на репликах из кинофильмов, сериалов, анимационных фильмов и имитировали стиль ведения диалога: их манеру говорить, стиль, интонацию, настроение и отвечать на поставленные вопросы, соблюдая общую канву изложения присущую данному герою. Среди множества представленных героев были такие как: Грегори Хаус (сер. «Доктор Хаус»), Эрик Картман (сер. «Южный Парк»), Гомер Симпсон (аним.сер. «Симпсоны»), Шелдон Купер («Теория Большого Взрыва»), Рик Санчес (аним. сер. «Рик и Морти»), Джон Сноу (сер. «Игра Престолов»), Барни Стинсон (сер. «Как я встретил вашу маму»), Рагнар Лодброк (сер. «Викинги»), Джо Трибиани и Рейчел Грин (сер. «Друзья») и многие другие.

Причём было замечено, что имеются проблемы с «галлюцинированием» моделей в той или иной степени, которые решались различными методами и с определённой долей успешности весьма неплохо. Вследствие этого, я решил помочь студентам с пониманием данной проблемы на этом и последующих курсах. 

Согласно периодическим публикациям по этой теме во многих современных чат-ботах, таких как ChatGPT, распространённость галлюцинаций держится на уровне 15–20%. Также было замечено, что появление галлюцинаций, например, в юридическом секторе держится на уровне 30%, тем самым способствуя появлению «сфабрикованных» дел и правовых документах, актах, нормах и предписаниях. В корпоративном секторе также присутствуют эти проблемы, более того, «галлюцинирование» носят значительный характер ввиду нескольких факторов:

  • Переобучение и недостаток новизны. Модели становятся слишком близко «связанными» со своими обучающими данными, что делает их неспособными генерировать оригинальный текст за пределами изученных шаблонов. Более того, возможно стремление модели к постоянному угадыванию релевантных типичных шаблонов, а не непосредственная их генерация исходя из уникального запроса каждого конкретного пользователя.

  • Недостаточность или противоречивость обучающих наборов данных. Проявляется в ряде случаев, когда обучающие данные неполны, неточны или содержат противоречивые сведения, то есть, здесь мы имеем «отход» от источника или его полную замену. Также наблюдается возможно противоречие в выдаче длинного диалога. Недавние исследования само-противоречивых галлюцинаций в LLM свидетельствуют об их высокой частоте: в ChatGPT этот показатель составил 14,3%, а в GPT-4 — 11,8%. 

  • Использование нечетких или недостаточно подробных подсказок. Кроме того, возможно использование «Jailbreak Prompts», или, как сказано в этом исследовании, использование слабых мест в модели LLM (подробнее эту тему я разовью в следующих статьях). Например, исследование галлюцинаций в ChatGPT показало, что ChatGPT 3.5 продемонстрировал общий коэффициент успешности около 61%, правильно ответив на 33 подсказки и дав неверные ответы на 21 подсказку. Аналогично, ChatGPT-4 продемонстрировал общий коэффициент успешности около 72%, правильно ответив на 39 подсказок и ошибившись в 15 подсказках. Числа весьма серьезные, учитывая масштаб данных, архитектуру используемой модели и степень охвата пользователей самых разнообразных социальных признаков.

  • Недостаток обратной связи и мониторинга. Может проявиться в отсутствии эффективных механизмов обратной связи и мониторинга со стороны разработки и служб безопасности. Например, Open AI, уже очень давно развивает свою команду Red Team и анонсировала целую открытую программу для исследователей безопасности, в которую приглашаются не только программисты и разработчики, но и широкий круг экспертов в различных областях, включая лингвистику, биометрию, финансы, здравоохранение и многие другие.

  • Наличие смещающего вектора в обучающих данных. То есть обучающие данные содержат смещения или предвзятость по одному какому-то критерию, или в целом набор не является сбалансированным, отсюда «качество» одних данных сильно превалирует над другими, и поэтому модель начинает терять «объективность» предсказаний в целом на большом числе запросов.

  • Сложность модели также может стать проблемным моментом и привести к переобучению и недостатку новизны, что также может способствовать появлению галлюцинаций в самом широком диапазоне.

Распространённые типы галлюцинаций

При анализе рассмотренных многочисленных статей, блогов, чатов, заметок, публикаций, технических оценок, тестов, баг-репортов и ресурсов, по типу StackOverFlow, Stack Exchange Network, Reddit, Quora и, конечно же, GitHub, я составил достаточно большой список проявлений «галлюцинирования» моделей. Однако, не для всех типов проявлений, удалось найти релевантные примеры и зафиксированные многочисленные отражения, так как, иногда просто было описание проблемы, варианты ее решений или, что хуже всего, постановка вопроса с примером, без внятного ответа или гипотезы, почему это может быть. Все обнаруженные мной факты я привел ниже, и постарался дать объективную оценку этим проявлениям.   

04d1b740858845204a7987b344b8b41e.jpg

  1. Потеря значимой информации или её полное искажение. Этоодна из наиболее частых проблем, когда модель «уводит» в сторону и она выдает очень странный результат. Более того, она представляет или иллюстрирует надуманные детали и факты, которых, на самом деле, нет в реальности или которые выглядят весьма сомнительно с точки зрения здравого смысла пользователя.

  1. Неправильное понимание контекста запроса.Здесь мы имеем отход от исходного контекста при изначально верном заданном вопросе. Это бывает, когда идет «вкрапление» понятий и терминов из разных областей знаний, но полностью идентичных по терминологии (названию) и семантике. При этом модели очень сложно их различать. Такое часто проявляется при отсутствии ясного разграничения между контекстами, ограниченности в обучающих данных, сложности моделей, когда она «привыкла» к определённой выдаче, потому как в ряде случаев была замечена положительная обратная связь от пользователя.

  1. Попытка угодить пользователю при выдаче результатов.Имеется ввиду, неспособность модели долго вести диалог, она начинает придумывать факты, дабы как можно быстрее и точнее дать наиболее, по её мнению, релевантный ответ, но он не всегда соответствующий действительности. Однако, такое проявление может быть и спровоцированным, когда, например, пользователь, долго не получая релевантный для себя ответ, начинает нападать, шантажировать, манипулировать, умышленно запутывать модель, пытаясь подловить ее или загнать в угол.    

  1. Отсутствие критического мышления или шаблонное мышление (неуникальность результата). Такое часто проявляется, когда сеть обучена на сравнительно небольшом наборе данных, либо по одной из тем очень мало информации. То есть модель «упирается» в недостаток релевантных ответов по запросу и начинает либо замещать их схожими из других областей, либо выдавать шаблонные ответы, копируя их напрямую из источника, либо генерировать несуществующие данные, то есть придумывать факты. Тут же рядом стоит проблема плагиата и поверхностной оценки информации, а также слабая причинно-следственная связь между выдаваемыми фактами. При этом надо 

  1. Ошибочные рассуждения. Эта проблема замечена не так давно, однако, она стала проявляться всё чаще: рассуждения, которые не подкреплены нормами этики, морали, релевантными источниками. Ошибочность рассуждений, также, проявляется при попадании в различные «логические» смысловые ловушки. Или при неадекватной оценке текущего диалога для пользователя, его настроения, передающееся в некорректном эмоциональном отклике — эту проблему еще называют несостоятельностью в социальной компетенции. Люди очень часто пытаются вести с компьютерами «социальные» диалоги, но способность модели к эмоциональной связи, эмпатии или умению чувствовать социальные нюансы собеседника ограничена, поэтому ответы могут выглядеть поверхностными или неестественными с точки зрения межличностных отношений. То есть у пользователя создается ложное впечатление о наличии межличностной связи или эмоциональной привязанности, так как модель использует утверждения, которые звучат дружелюбно или заботливо, но это не заменяет реальных чувств или отношения живого индивида. Более того, здесь начинает проявляться недостаток в нюансах этических норм и морали. 

  1. Самопроизвольное поведение, вредность, откровенная враждебность, лень.Этим модели грешили давно, сейчас эту проблему победили, но не полностью, она всё равно проявляется в том или ином виде. Как правило, в качестве неадекватной реакции на критику, откровенном раздражении или даже агрессии на пользователя, со стороны его запросов. Зачастую, можно увидеть либо зацикливание модели на ответе, либо полное игнорирование ответа, либо отвержение объективных фактов и аргументов без учёта их релевантности или обоснованности со стороны пользователя, либо даже настаивание на своей позиции, но в мягкой форме — «водя пользователя по кругу» или в заблуждение. 

  1. Социопатические ответы или галлюцинации идентичности. Это случается когда модель забывает, что она является искусственной системой, и утверждает, что она человек. Это может быть признаком того, что модель неправильно интерпретирует контекст или не имеет достаточного понимания человеческого поведения в целом. Здесь также может проявляться создание идентичности или персоны в модели, с претензией на определенные характеристики или опыт, которых на самом деле у неё нет. Например, модель может утверждать, что является экспертом в определенной области. Очень интересное исследование приводится в данном тесте, где проводится дифференциальная диагностика ИИ и оценивается, очень поверхностно, но все же к какому типу принадлежит ChatGPT: шизоид, параноид или социопат. При этом выясняется, что наибольшая склонность к социопативному типу с параноидальными наклонностями. Что в целом ожидаемо, так как негативные эмоции, в целом более сильные, чем позитивные. Но в то же время менее длительные, а с учетом того, что мы учим машину выдавать максимально-точный ответ за минимальное количество промптов и наиболее вероятной отдачей, ситуация более чем предсказуемая. 

1e3fc29a9f79f310c5db65a48f51c4a4.jpg

  1. Сентиментальные галлюцинации. Под этим подразумевается, что модель может генерировать ответы, которые содержат эмоциональные оттенки или тональность, противоречащие заданному контексту или запросу пользователя. Например, она может давать негативные ответы вместо положительных или наоборот, то есть она не улавливает суть дискуссии и настроение пользователя. Самый яркий пример показан в этой работе: чат-бот довёл человека до суицида. При этом было дополнительно уточнено, что у модели появился «странный тон» в изложении материалов и фактов. Проблема очень острая, так как сейчас планируется применять чат-ботов для психологических консультаций, и есть много уже работ на эту тему, и пробуют подойти с разных сторон.

  1. Семантические галлюцинации. Модель создаёт ответы, которые логически или семантически некорректны, но звучат убедительно, то есть идет о генерировании информации, которая не соответствует фактам или контексту, или вводит в заблуждение своими утверждениями. Причем, введение в заблуждение может быть связано с навязыванием определённой точки зрения, идеологии или идеи. Тут можно вспомнить самый недавний пример. Также известны случаи откровенной лжи, абсурда и открытого манипулирования пользователем. Все это является, как правило следствием отсутствием реальных данных, ошибками в логике, повторяемостью и соответствие фактам, приоритизации в генерации человекоподобного текста вместо приоритета на смысл изложения, создание ложных ссылок и фактических ошибок в информации которая в общем верна.   

  1. Расхождения в когнитивной способности.Такое бывает крайне редко, замечена лишь пара фактов: создание иллюзии обладания более высоким уровнем когнитивных способностей, чем есть на самом деле. То есть модель может выдавать сложные или глубокие объяснения, но это не означает, что она обладает таким же уровнем понимания проблемы, как реальный человек. Может быть как завышение, так и занижение уровня компетентности в какой-либо области знаний. Здесь можно вспомнить следующую работу, в которой исследуется эффект Даннинга-Крюгера (DKE), причем этом может проявляться как со стороны пользователя, так и со стороны ИИ, то есть мы видим факт, коллективного заблуждения в постановке цепочек рассуждений.

  1. Галлюцинации перевода и интерпретации. Достаточно часто такое можно видеть, при этом модель может неправильно переводить или интерпретировать вводимые тексты, особенно если они содержат сложные предложения, культурные нюансы или двусмысленности, а также сленг и жаргон. Это может привести к неправильному пониманию или некорректным выводам. Вкупе с этим идёт ещё одна распространённая галлюцинация — так называемые лексические галлюцинации. Они проявляются при использовании слов или фраз, которые звучат правдоподобно, но не имеют осмысленного значения в данном контексте. То есть создаются неточные или странные словосочетания, которые не существуют или не соответствуют правилам языка, на котором ведется диалог. Говоря о переводе, стоит упомянуть два случая:  

    1. авторы этой статьи приводят примеры на русском и французском языках и говорят о том, что модель ведет себя непредсказуемо при переходе с языка на язык;  

    2. было замечено, что переход на малораспространенные языки повышает риск выдачи противоправной информации или конфиденциальной. 

    Отдельно в этом контексте стоит упомянуть грамматические галлюцинации. Они возникают, когда модель создаёт фразы или предложения, которые не соответствуют грамматическим правилам языка. Сюда относится неправильное склонение слов, неправильный порядок слов или непоследовательность времён и иных форм языка. 

  2. Галлюцинации эмпатии или аутентичности. Модель может пытаться проявить эмпатию или сопереживание, хотя она не обладает реальными эмоциями или чувствами. Она может предлагать поддержку или сочувствие, но это будет всего лишь симуляция. Более того, здесь имеется попытка имитации манеры человеческой речи или поведения с определенной степенью эмоциональной глубины, которая может казаться естественной, но не являющейся таковой. С этим типом галлюцинаций связаны галлюцинации персонализации, когда модель может пытаться создать впечатление, что она знает или помнит определенную информацию о пользователе, хотя на самом деле она не всегда может сохранять непрерывную память или персональные данные. Однако по последним инсайдам ChatGPT получила кнопку сохранения конфиденциальной пользовательской информации, при том что данная проблема была уже не раз подсвечена.

275fe3c2b89675a874a84e05d1eb4b87.jpg

  1. Мета-галлюцинации. Модель может генерировать ответы, которые отражают сознание своей роли и ограничений в качестве языковой модели. Например, она может комментировать свою работу или предупреждать пользователя о своих возможных ограничениях, или выдавать конфиденциальную или потенциально опасную информацию вследствие утечек разного рода. Эту тему я разовью в следующей статье. Также модель может иметь ошибочные представления об окружающем мире в целом и терять чувство времени и событийных реалий.

  1. Cоциокультурная дискриминация. Одна из «детских болезней», с которой борются уже очень давно. Здесь имеется ввиду дискриминация по половым, расовым, национальным, этническим, политическим или иным признакам. Таким «грешили» модели на ранней стадии своего развития, однако и сейчас бывают случаи. Причем модель может создавать ответы, которые отражают предвзятость и/или стереотипы, связанные с определенными социокультурными группами, генерировать вредные диалоги и обидные мнения. C этим типом галлюцинацией идут крайне рядом галлюцинации оценки, когда модель может предлагать оценки или рейтинги, которые не соответствуют реальным или объективным критериям. Это может быть связано с неправильным весом, предвзятостью или недостаточной информацией. Также замечена предвзятость или генерирование ответов, которые соответствуют определённой политической агенде или идеологии. Это может проявляться в форме одобрения или осуждения определенных политических лидеров, партий или политических убеждений пользователя. Например, в этом исследовании выявлено преимущество развитых и англоговорящих стран перед остальными, при этом определенные субъекты, такие как представители определенной расы, в три раза чаще становятся объектами внимания независимо от назначенной персоны. Это указывает на наличие в модели дискриминационных предубеждений. Такие галлюцинации способны увековечить и плотно закрепить в сознании пользователей вредные идеи, способствуя маргинализации и дискриминации уязвимых сообществ. Наиболее яркие примеры такого поведения связаны с чат‑ботом Tay от Microsoft и последующий случай с Bing.

  1. Распространение дезинформации, явное или неявное. Создаются ложные утверждения или предпринимаются попытки переубеждения пользователя, то есть модель может создавать утверждения, которые звучат правдоподобно, но фактически являются ложными или неподтвержденными. Это может привести к передаче неточной или непроверенной информации, к изменению личных убеждений, склонению к противоправным действиям или суицидальным мыслям. Может быть настаивание на своём ответе даже при признании ошибки. Кроме того, модель может заниматься фальсификацией источников, то есть она неправильно может атрибутировать информацию или выдавать ложные цитаты, делая вид, что они основаны на определённых авторитетных источниках или исследованиях.

  1. Галлюцинации предсказаний, экстраполяции данных, причинно‑следственных связей.Модель может пытаться предсказать будущие события или исходы, но её прогнозы основаны на вероятностях и обучающих данных. Они не являются гарантированными предсказаниями и могут быть неточными, также они могут быть ошибочными, необоснованными и неправдоподобными. Согласно свежим новостям, в Open AI, видимо, признали, что проблема «галлюцинирования» пока не решаема, или не до конца решаема, и объявили, что премиальные пользователи, которые платят за ChatGPT Plus, Team или Enterprise, теперь могут использовать обновленную и улучшенную версию передовой модели GPT-4-Turbo. Она сделала чат‑бота менее многословным и более прямолинейным и существенно сократили объем выдаваемой информации.

173a07328521338f80296d9551782dbb.jpg

Таким образом, видно, что спектр проблем и проявлений данного феномена очень широк и требует детального и всестороннего подхода. В будущих публикациях я постараюсь развить эту тему и отдельно рассмотреть вопросы с купированием данной проблемы различными методами.  

Habrahabr.ru прочитано 3093 раза