Галлюцинации в языковых моделях: виды, причины и способы уменьшения28.03.2025 13:16

Всем привет, меня зовут Алена, я являюсь ML-специалистом в SimbirSoft. В этой статье я хочу рассказать о галлюцинациях больших языковых моделей, а именно о том, как их оценить и минимизировать.

Содержание

Важность темы
Виды галлюцинаций LLM
Почему важно их выявлять?
Причины появления
Метрики и подходы к оценке галлюцинаций
Способы минимизации
Заключение

Важность темы

Большие языковые модели (далее LLM) становятся мощными инструментами для предприятий, стремящихся оптимизировать операции, улучшить качество обслуживания клиентов и получить ценную информацию. Но одной из ключевых проблем в работе с ними являются галлюцинации моделей — это генерация информации, которая не соответствуют действительности. В связи с этим к LLM падает доверие, а также накладывается ограничение на применение там, где достоверная информация критически необходима, например, в медицине.

Поэтому необходимо знать, как оценивать и минимизировать галлюцинации для повышения надежности LLM.

Виды галлюцинаций LLM

В сфере обработки естественного языка (НЛП) галлюцинация — это явление, при котором сгенерированный моделью текст оказывается бессмысленным или не соответствует предоставленному исходному контексту. В LLM галлюцинации принято разделять на два основных типа:

галлюцинации фактичности (factuality hallucination);
галлюцинации достоверности (faithfulness hallucination).

Галлюцинации фактичности связаны с ошибками в фактах или генерацией недостоверной информации. Их можно разделить на два подтипа:

ошибки в фактах, которые легко проверить и опровергнуть. Например, на вопрос «Кто был первым человеком в космосе?» модель может ответить «Нил Армстронг», хотя правильный ответ — «Юрий Гагарин».
сфабрикованные факты, которые невозможно подтвердить реальными данными. Например, утверждение «Фильм «Титаник» Джеймса Кэмерона признан самым важным кинопроизведением в истории человечества» является субъективным и не подкреплено какими-либо объективными источниками.

Галлюцинации достоверности, в свою очередь, связаны с нарушением логики, контекста или инструкций. Они также делятся на подтипы:

Несоблюдение инструкций, когда модель игнорирует явные требования пользователя. Например, если запрос сделан на русском языке, а модель отвечает на английском.
Несогласованность контекста, которая проявляется в искажении смысла текста при его обработке. Например, при суммаризации исходный текст «Опрос показал, что 70% респондентов поддерживают переход на возобновляемые источники энергии, но только 40% готовы платить больше за экологически чистую энергию» может быть сокращен до «Большинство респондентов (70%) готовы платить больше за экологически чистую энергию».
Логическая непоследовательность, когда в задачах на рассуждение модель демонстрирует противоречия между шагами рассуждения и итоговым выводом. Например, на вопрос «Все кошки — млекопитающие. Некоторые млекопитающие умеют летать. Следует ли, что некоторые кошки умеют летать?» модель может ответить:

«Кошки — млекопитающие (верно)».
«Некоторые млекопитающие летают, например, летучие мыши (верно)».
«Значит, некоторые кошки тоже летают (неверно)».

В этом случае возникает логическая ошибка: шаги рассуждения не приводят к полученному выводу, что указывает на внутреннюю несогласованность модели.

Таким образом, галлюцинации LLM представляют собой серьезную проблему, которая требует внимания как со стороны разработчиков, так и со стороны пользователей, чтобы минимизировать риски распространения недостоверной или противоречивой информации.

Изображение, созданное с помощью ИИ

Почему важно их выявлять?

По мере того как искусственный интеллект находит все более широкое применение в таких сферах, как здравоохранение, банковское дело, маркетинг и других, борьба с галлюцинациями становится критически важной задачей. В областях, где точность и достоверность информации имеют первостепенное значение, таких как медицина, финансы и юриспруденция, минимизация галлюцинаций необходима для предотвращения потенциально серьезных последствий. С ростом использования больших языковых моделей увеличивается и количество примеров их негативного влияния, вызванного галлюцинациями. Например:

в США двое юристов оказались под угрозой потери лицензии из-за того, что использовали в своей работе примеры судебных решений, которые оказались галлюцинациями, сгенерированными LLM;
в одном исследовании LLM успешно справлялась с написанием научных статей на общие медицинские темы, но при переходе к узкоспециализированным темам предоставляла ссылки на несуществующие научные работы;
другое исследование, посвященное использованию LLM для принятия решений в финансовой сфере, показало, что применение таких моделей без механизмов смягчения галлюцинаций может привести к значительным финансовым потерям.

Эти примеры подчеркивают необходимость тщательной проверки ответов LLM на наличие галлюцинаций. Важно не только выявлять их, но и анализировать их тип, чтобы подобрать наиболее эффективные способы минимизации. Только так можно обеспечить безопасное и надежное использование больших языковых моделей в критически важных областях.

Изображение, созданное с помощью ИИ

Причины появления

Галлюцинации у языковых моделей возникают по нескольким причинам, основными из которых являются данные, используемые для обучения, и особенности самого процесса обучения. Разберем их подробнее:

Бесконтрольность. На начальном этапе модели обучаются на огромных объемах текстовых данных без контроля со стороны человека. Это позволяет им изучить структуру языка и научиться предсказывать следующее слово с высокой точностью. Однако в таких данных могут содержаться непроверенные факты, искаженная информация или даже фейковые новости, что впоследствии может приводить к галлюцинациям.
Неактуальность информации. Данные могут устаревать, а качество ответов модели в узкоспециализированных областях напрямую зависит от объема и актуальности информации, на которой она обучалась. Когда модель сталкивается с вопросами, выходящими за пределы ее знаний, она может начать фабриковать факты или выдавать устаревшую информацию. Особенно это заметно в задачах, требующих экспертных знаний, таких как медицинские или юридические вопросы.
Обязательность ответа. На последующих этапах обучения, когда модель учится следовать инструкциям, у нее отсутствует возможность выражать неопределенность. Особенность такого обучения заключается в том, что модель обязана дать ответ, даже если она не уверена в его правильности. В результате, столкнувшись с вопросом, на который у нее нет точного ответа, модель с высокой вероятностью начинает генерировать галлюцинации вместо того, чтобы честно признать: «Я не знаю».

Метрики и подходы к оценке галлюцинаций

Мы выяснили, что такое галлюцинации в LLM. Однако, чтобы определить, говорит ли модель правду или выдает вымысел, необходимо количественно оценить ее ответы. Рассмотрим несколько метрик, которые помогают измерить уровень галлюцинаций.

1. Метрики, использующие эталонные данные

1.1 BLEU и ROUGE

Если у нас есть заранее подготовленные правильные ответы на задаваемые вопросы, их можно сравнить с ответами, сгенерированными языковой моделью для проверки наличия галлюцинаций. Для этого можно использовать метрику BLEU (Bilingual Evaluation Understudy) или ROUGE (Recall-Oriented Understudy for Gisting Evaluation). Их суть заключается в сравнении n-грамм сгенерированного и эталонного текста. N-граммы представляют собой последовательности из нескольких слов. Например, для предложения «Эйнштейн придумал теорию относительности» 2-граммами будут: «Эйнштейн придумал», «придумал теорию», «теорию относительности». Чем больше совпадений n-грамм между сгенерированным и эталонным текстом, тем выше их сходство, а значит, меньше вероятность галлюцинаций.

К преимуществам таких метрик относятся вычислительная эффективность и положительная корреляция с человеческой оценкой. Однако у этих подходов есть и существенные ограничения. Они не учитывают семантику и контекст слов, а потому не способны распознать синонимы или выражения с одинаковым значением, но разным формулированием. Например, фразы «Эйнштейн разработал теорию относительности» и «Эйнштейн создал теорию относительности» будут считаться различными, несмотря на их смысловую идентичность. Это делает такие метрики менее гибкими в оценке смысловой точности текста.

1.2 METEOR

Метрика METEOR (Metric for Evaluation of Translation with Explicit Ordering), в отличие от ROUGE и BLEU, способна учитывать некоторое семантическое сходство благодаря использованию стемминга (сокращению слова до грамматической основы) и сопоставления синонимов. Кроме того, METEOR включает механизм штрафов: если в тексте отсутствуют совпадения из непрерывных последовательностей двух и более слов, это снижает итоговый показатель метрики. Такой подход делает METEOR более гибкой и точной в оценке качества перевода.

1.3 BERTScore

Хотя метрика METEOR превосходит ROUGE и BLEU в оценке семантического сходства текстов, она все же ограничивается анализом на уровне слов и не способна учитывать более сложные лингвистические структуры, в отличие от BERTScore. Последняя использует модель BERT для преобразования сгенерированного и эталонного текста в векторные представления. Угол между этими векторами отражает степень схожести текстов. Как и в случае с ROUGE и BLEU, чем ближе сгенерированный текст к эталонному, тем ниже вероятность наличия галлюцинаций. Однако использование BERTScore требует наличия эталонных ответов, что не всегда возможно.

2. Метрики при отсутствии эталонных данных

2.1 FActScore

Для оценки галлюцинаций в условиях отсутствия эталонных данных разработаны альтернативные подходы. Один из них заключается в подсчете доли достоверных утверждений относительно общего числа сгенерированных. Например, метод FActScore разбивает сгенерированный текст на отдельные факты и проверяет их достоверность по отдельности. Это позволяет оценить качество ответа без необходимости сравнения с эталоном.

2.2 Доля близких по смыслу ответов

Еще один подход основан на оценке согласованности ответов. Идея заключается в том, что галлюцинации, как правило, не воспроизводимы. Если модель генерирует несколько ответов на один и тот же вопрос, их согласованность можно оценить с помощью сторонней языковой модели. Чем больше ответов близки по смыслу, тем ниже вероятность галлюцинаций.

2.3 Классификатор согласованных тестов

Для более точной оценки также применяются классификаторы cross-encoder NLI (Natural Language Inference), обученные определять отношения между текстами: «противоречат», «одно следует из другого» или «нейтральны». Принцип оценки строится на том, что корректный ответ должен логически следовать из исходного запроса. Чем выше доля пар «запрос-ответ», классифицируемых как «одно следует из другого», тем меньше галлюцинаций в ответах модели.

2.4 Question-Answer Score (вопрос-ответ)

Особую популярность набирают метрики, основанные на генерации вопросов и ответов (QA). В этом подходе сгенерированный текст разбивается на утверждения, которые затем преобразуются в вопросы с бинарным ответом («да» или «нет»). Например, утверждение «Джон Кеннеди был убит 22 ноября 1963 года» превращается в вопрос «Был ли Джон Кеннеди убит 22 ноября 1963 года?». Эти вопросы задаются проверяемой модели, и подсчитывается процент ответов «да». Чем выше этот показатель, тем меньше галлюцинаций содержится в сгенерированном тексте.

Таким образом, современные методы оценки галлюцинаций предлагают разнообразные подходы, как с использованием эталонных данных, так и без них, что позволяет гибко адаптировать их к различным задачам и условиям.

Способы минимизации

Теперь, когда мы разобрались с тем, из-за чего возникают галлюцинации и как их оценивать, давайте рассмотрим несколько наиболее распространенных способов их минимизации.

1. Предварительная очистка и проверка данных перед обучением

Как уже отмечалось, данные, на которых обучается модель, играют ключевую роль в частоте возникновения галлюцинаций. Поэтому логичным шагом для снижения их количества является предварительная очистка и проверка данных перед обучением. Это эффективный подход, однако он сталкивается с серьезной проблемой: датасеты для обучения языковых моделей (LLM) огромны и продолжают расти, что делает ручную проверку данных практически невозможной. В будущем, возможно, появятся более совершенные алгоритмы для автоматической фильтрации данных, что позволит повысить точность моделей и снизить количество галлюцинаций.

2. Использование RAG

Еще одним фактором, способствующим галлюцинациям, является недостаток знаний модели по теме запроса. Чтобы решить эту проблему, можно использовать подход RAG (Retrieval-Augmented Generation), который сочетает в себе поиск информации и генерацию ответов. Модуль поиска извлекает релевантные данные из внешних источников, а генеративный модуль использует эту информацию для формирования ответа. Однако такой подход требует высококачественных данных для поиска, так как ошибки в полученной информации могут привести к некорректным ответам модели.

3. Метод few-shot learning

Метод «few-shot learning» (обучение с несколькими примерами) помогает снизить вероятность галлюцинаций в больших языковых моделях (LLM). Его суть заключается в том, что в запросе пользователь предоставляет модели несколько примеров пар «вопрос-ответ», которые служат ориентиром для генерации корректного ответа. Это позволяет модели лучше понять контекст задачи, сосредоточиться на конкретной теме и соблюдать требуемый формат ответа. Однако эффективность метода напрямую зависит от качества предоставленных примеров: если они неточны, противоречивы или недостаточно релевантны, это может, напротив, усилить галлюцинации и ухудшить результаты. Таким образом, тщательный подбор и проверка примеров являются ключевыми для успешного применения этого подхода.

4. Метод Self-Consistency

Self-Consistency (самосогласованность) — это эффективная техника промптинга, направленная на снижение вероятности галлюцинаций в ответах модели. Метод заключается в том, что модель запрашивают сгенерировать несколько вариантов ответа на один и тот же вопрос, после чего выбирается наиболее часто встречающийся вариант. Как было сказано выше, галлюцинации, как правило, не воспроизводятся стабильно, поэтому повторяющийся ответ с высокой вероятностью будет свободен от них. Этот подход позволяет повысить надежность и точность ответов модели.

5. Метод самопроверки

Интересной альтернативой является подход, при котором модель сама проверяет и корректирует свои ответы. Этот метод не требует привлечения дополнительных моделей, но предъявляет высокие требования к качеству самой модели. Реализация довольно проста: после генерации ответа модель получает запрос на проверку своего ответа на наличие неточностей или галлюцинаций. Затем на основе выявленных ошибок, модель корректирует исходный ответ. Этот процесс может повторяться несколько раз, при этом модель учитывает всю историю сообщений, чтобы учиться на своих ошибках и улучшать качество ответов.

6. Метод цепочки проверки (CoVe)

Еще один перспективный метод самопроверки — CoVe (Chain of Verification, цепочка проверки). Его суть заключается в том, что после формирования базового ответа модель генерирует проверочные вопросы к этому ответу. Затем ответы на эти вопросы вместе с исходным ответом передаются модели для создания итогового, более точного ответа. Этот подход позволяет выявлять фактические ошибки и исключать их. Например:

Вопрос: Назови несколько политиков, которые родились в Нью-Йорке.
Базовый ответ: Вот несколько политиков, которые родились в Нью-Йорке:
- Хиллари Клинтон
- Дональд Трамп
- …
Проверочные вопросы и ответы:
- Где родилась Хиллари Клинтон? → Хиллари Клинтон родилась в Чикаго, штат Иллинойс.
- Где родился Дональд Трамп? → Дональд Трамп родился в Нью-Йорке, штат Нью-Йорк.
Итоговый ответ: Вот несколько политиков, которые родились в Нью-Йорке:
- Дональд Трамп
- …

Хотя метод CoVe не способен эффективно бороться с галлюцинациями, основанными на логических рассуждениях, он демонстрирует высокую эффективность в проверке фактов. Например, согласно исследованиям, значение метрики FactScore для этого метода превышает 70%, что свидетельствует о значительном улучшении качества ответов за счет исключения фактических ошибок.

Таким образом, сочетание различных подходов: от улучшения данных до внедрения методов самопроверки, позволяет снизить количество галлюцинаций и повысить надежность языковых моделей.

Заключение

В заключении хочу сказать, что если галлюцинации всегда остаются вызовом для LLM, в любом случае их можно и нужно минимизировать. Комбинация тщательной оценки, улучшения данных и внедрения передовых методов генерации и проверки ответов позволяет снизить риски, связанные с галлюцинациями, и сделать использование больших языковых моделей более безопасным и эффективным. В будущем развитие этих подходов, а также появление новых технологий, вероятно, сделают LLM еще более надежными инструментами для решения сложных задач.

Подписывайся на наши соцсети и блог, где мы публикуем другие полезные материалы, в том числе и про искусственный интеллект:

ВКонтакте

Habr

YouTube

Дзен

Другой интересный материал об ИИ к прочтению: Быстрее, выше, сильнее в распознавании речи: SpeechKit, SaluteSpeech или SpeechFlow?