[Перевод] Руководство для начинающих по галлюцинациям в больших языковых моделях

Это художник, а не нейросеть!

По мере того как большие языковые модели (LLM) набирают популярность в различных областях, галлюцинации — искажения в результатах LLM — создают риск дезинформации и раскрытия конфиденциальных данных. В статье рассказывается о причинах возникновения галлюцинаций и изучаются методы их устранения.

Большие языковые модели (Large Language Models, LLM) находятся в на передовом крае современных технологий и известны своей способностью обрабатывать и генерировать текст, напоминающий человеческое общение. Они меняют наше взаимодействие с технологиями. Однако эти модели не лишены недостатков. Один из них — склонность к возникновению «галлюцинаций», что влияет на их надежность.

Галлюцинации в LLM означают генерацию контента, который не имеет отношения к исходным данным, выдуман или не соответствует им. Эта проблема приводит к получению неверной информации, что ставит под сомнение доверие к этим моделям. Галлюцинации являются критическим препятствием при разработке LLM, часто возникающим из-за качества обучающих данных и интерпретационных ограничений моделей.

Чтобы эффективно использовать LLM, важно понимать, отчего возникают эти галлюцинации. Осознание этих недостатков помогает нам лучше понять как потенциал, так и проблемы технологий ИИ. В этой статье рассматриваются причины возникновения галлюцинаций, их влияние и предпринимаемые усилия по их преодолению, направленные на повышение надежности и функциональности LLM.

Содержание

  • Понимание механизма галлюцинаций в LLM

  • Причины галлюцинаций у LLM

  • Последствия галлюцинаций

  • Смягчение последствий галлюцинаций у LLM

  • Тематические исследования и отраслевой опыт

  • Дополнительные ресурсы

  • Выводы

Понимание механизма галлюцинаций в LLM

Галлюцинации LLM можно разделить на определенные типы, каждый из которых имеет свои уникальные характеристики и последствия.

Четкая классификация помогает разработчикам и пользователям идентифицировать, анализировать и рассматривать различные сценарии возникновения галлюцинаций, что крайне важно для повышения точности и надежности моделей.

Классификация галлюцинаций в LLM

Галлюцинации в больших языковых моделях (LLM) делятся на галлюцинации факта (factuality hallucinations) и галлюцинации верности (faithfulness hallucinations).

Галлюцинация факта

Возникает, когда LLM генерирует фактически неверное содержание. Например, модель может утверждать, что Чарльз Линдберг был первым, кто прогулялся по Луне, что является фактической ошибкой. Этот тип галлюцинаций возникает из-за ограниченного контекстного понимания модели и присущих ей шумов или ошибок в обучающих данных, что приводит к ответам, не основанным на реальности.

В таблице 1 приведены примеры типов фактологических галлюцинаций в LLM:

  1. Несоответствие фактам: В LLM неверно указано, что Юрий Гагарин был первым человеком, высадившимся на Луну (правильный ответ — Нил Армстронг).

  2. Фабрикация фактов: LLM создает вымышленное повествование о единорогах в Атлантиде, утверждая, что они существовали около 10 000 лет до н.э. и ассоциировались с королевской властью, несмотря на отсутствие реальных доказательств в поддержку этого утверждения.

Таблица 1: Примеры каждой категории галлюцинаций факта. Содержание, выделенное красным цветом, представляет собой галлюцинаторный вывод (Источник)

Таблица 1: Примеры каждой категории галлюцинаций факта. Содержание, выделенное красным цветом, представляет собой галлюцинаторный вывод (Источник)

Галлюцинация верности

Это случаи, когда модель выдает неверный контент или ответ не согласуется с предоставленным исходным контентом.

Например, в контексте обобщения, если в статье говорится, что FDA одобрило первую вакцину от Эболы в 2019 году, галлюцинация верности будет включать резюме, утверждающее, что FDA отклонило ее (внутренняя галлюцинация) или что Китай начал испытания вакцины COVID-19 (внешняя галлюцинация), ни одно из этих утверждений не присутствует в оригинальной статье. (Источник)

Пример обоих типов галлюцинаций

Пример обоих типов галлюцинаций

Ниже, в таблице 2 приведены примеры галлюцинаций верности в больших языковых моделях (LLM), когда вывод модели отклоняется от ввода пользователя или предоставленного контекста. Эти галлюцинации делятся на три типа:

  1. Несоответствие инструкциям: LLM игнорирует конкретные инструкции, данные пользователем. Например, вместо того чтобы перевести вопрос на испанский язык, как было указано в инструкции, модель выдает ответ на английском.

  2. Несоответствие контексту: Вывод модели включает информацию, отсутствующую в предоставленном контексте или противоречащую ему. Например, LLM утверждает, что Нил берет начало в горах, а не в районе Великих озер, как указано в сообщении пользователя.

  3. Логическое несоответствие: Выходные данные модели содержат логическую ошибку, несмотря на правильное начало. Например, LLM неверно выполняет арифметическую операцию в пошаговом математическом решении.

Таблица 2: Примеры каждой категории галлюцинаций верности. Содержание, отмеченное красным цветом, представляет собой галлюцинаторный вывод, в то время как содержание, отмеченное синим цветом, указывает на инструкции пользователя или предоставленный контекст, который противоречит галлюцинации LLM. (Источник)

Таблица 2: Примеры каждой категории галлюцинаций верности. Содержание, отмеченное красным цветом, представляет собой галлюцинаторный вывод, в то время как содержание, отмеченное синим цветом, указывает на инструкции пользователя или предоставленный контекст, который противоречит галлюцинации LLM. (Источник)

Более широкая сфера применения LLM

Сфера применения галлюцинаций в LLM шире, чем в моделях, ориентированных на конкретные задачи, что обусловлено разнообразием областей применения и сложной природой моделей.

Внутренние галлюцинации часто противоречат оригинальному тексту или внешним знаниям, а внешние галлюцинации вводят новую, непроверяемую информацию. Это явление наблюдается в различных генеративных задачах, от обобщения до генерации диалогов и ответов на вопросы, каждая из которых ставит уникальные задачи по поддержанию точности и согласованности.

Например, при генерации диалогов в открытом домене внутренняя галлюцинация может включать в себя путаницу фактов или имен, а внешняя галлюцинация может включать в себя непроверяемые утверждения бота. Аналогично, при генерации ответов на вопросы внутренние галлюцинации могут проявляться в виде ответов, не соответствующих исходному материалу, а внешние галлюцинации — в виде ответов, содержащих информацию, отсутствующую в исходных документах.

Стратегии смягчения последствий

Борьба с галлюцинациями в LLM включает в себя многофакторный подход, в том числе использование систем оценки, в которых аннотаторы оценивают уровень галлюцинаций, сравнение сгенерированного контента с базовыми показателями, а также применение различных стратегий разработки продукта.

Для выявления и устранения галлюцинаций решающее значение имеет «красная команда», в которой люди-оценщики тщательно тестируют модель. Рекомендации на уровне продукта, такие как возможность редактирования пользователем, структурированный ввод/вывод и механизмы обратной связи с пользователем, также эффективно снижают риск возникновения галлюцинаций.

Понимание причин и типов галлюцинаций в LLM необходимо для эффективного развертывания этих моделей в различных приложениях. Для повышения надежности и точности результатов LLM необходимы постоянные усилия по смягчению последствий и доработке. Мы подробно рассмотрим стратегии смягчения последствий позже в этой статье.

Совет: Чтобы получить более глубокое представление о различных типах больших языковых моделей (LLM) и их функциональных возможностях, изучите руководство для начинающих (перевод на Хабре).

Причины галлюцинаций в LLM

Причины галлюцинаций в больших языковых моделях (LLM) многогранны и связаны с различными аспектами их разработки и развертывания.

Давайте подробно рассмотрим основные причины галлюцинаций в LLM, включая проблемы, связанные с обучающими данными, архитектурой и стратегиями вывода.

Проблемы с обучающими данными

Существенным фактором, способствующим возникновению галлюцинаций в LLM, является характер обучающих данных. LLM, такие как GPT, Falcon и LlaMa, проходят обширное обучение без какого-либо значимого контроля с использованием больших и разнообразных наборов данных из разных источников.

Проверка справедливости, беспристрастности и фактической корректности этих данных представляет собой сложную задачу. Поскольку эти модели учатся генерировать текст, они также могут улавливать и воспроизводить фактические неточности в обучающих данных.

Это приводит к тому, что модели не могут отличить правду от вымысла и могут выдавать результаты, далеко отклоняющиеся от фактов или логических рассуждений.

LLM, обученные на наборах данных, полученных из Интернета, могут содержать предвзятую или неверную информацию. Эта дезинформация может попасть в выходные данные модели, поскольку модель не различает точные и неточные данные.

Например, ошибка Bard в отношении космического телескопа Джеймса Уэбба показывает, как опора на неполноценные данные может привести к уверенным, но неверным утверждениям.

Рисунок 2: Пример проблемы с обучающими данными, возникшей, когда Google Bard спросили об открытиях, сделанных космическим телескопом Джеймс Уэбб (Источник)

Рисунок 2: Пример проблемы с обучающими данными, возникшей, когда Google Bard спросили об открытиях, сделанных космическим телескопом Джеймс Уэбб (Источник)

Архитектура и цели обучения

Галлюцинации могут возникать из-за недостатков архитектуры модели или неоптимальных целей обучения. 

Например, недостатки архитектуры или неправильно поставленная цель обучения могут привести к тому, что модель будет выдавать результаты, которые не соответствуют предполагаемому использованию или ожидаемой эффективности.

Такое несоответствие может привести к тому, что модель будет генерировать контент, который будет либо бессмысленным, либо фактически неверным.

Проблемы на этапе вывода

На этапе вывода результата (инференс) галлюцинации могут быть вызваны несколькими факторами.

К ним относятся ошибочные стратегии декодирования и случайность, присущая методам выборки, используемым моделью.

Кроме того, такие проблемы, как недостаточное внимание к контексту или «горлышко» метода softmax в декодировании, могут привести к тому, что выходные данные не будут адекватно соотнесены с контекстом или обучающими данными.

Промпт-инжиниринг

На возникновение галлюцинаций может повлиять и то, как составлены промпты.

LLM может сгенерировать неправильный или не связанный с реальностью ответ, если в промпте отсутствует адекватный контекст или даны неоднозначные формулировки.

Эффективное написание промптов требует ясности и конкретности, чтобы направить модель на генерацию релевантных и точных ответов.

Профессиональный совет: Ознакомьтесь с эффективными методами создания промптов.

Стохастическая природа декодирования

При генерации текста LLM используют стратегии, которые могут вносить случайность в результат.

Например, высокая «температура» может повысить креативность, но и риск галлюцинаций, это наблюдается в моделях, генерирующих совершенно новые сюжеты или идеи.

Стохастические методы иногда могут приводить к неожиданным или нелепым ответам, что отражает вероятностный характер процесса принятия решений (выбора готового ответа) моделью.

Обработка двусмысленных входных данных

Модели могут генерировать галлюцинации, когда сталкиваются с неясными или неточными входными данными.

В отсутствие явной информации модели могут заполнять пробелы выдуманными данными, о чем свидетельствует случай, когда ChatGPT создал ложное обвинение против профессора из-за двусмысленной подсказки.

Чрезмерная оптимизация модели под конкретные цели

Иногда LLM оптимизируют для достижения определенных результатов, например для получения более длинных выдач, что может привести к многословным и нерелевантным ответам.

Такая чрезмерная оптимизация может привести к тому, что модели не будут предоставлять краткую и точную информацию, а будут выдавать больше контента, который может включать галлюцинации.

Устранение этих факторов предполагает повышение качества данных, совершенствование архитектуры моделей, улучшение стратегий декодирования и более эффективное проектирование промптов для снижения частоты появления и степени влияния галлюцинаций.

Стадия

Субстадия

Тип

Примерная причина

Пример из реальной выдачи модели

Данные

Некачественный источник данных

Дезинформация и предубеждения

Обучение на неверных данных может привести к имитации ложных результатов.

Модель, назвавшая Томаса Эдисона единственным изобретателем электрической лампочки из-за повторяющейся дезинформации в обучающих данных.

Нахождение на границе знания

Отсутствие актуальных фактов приводит к ограничениям в специализированных областях.

Отсутствие актуальных на текущую дату фактов приводит к ограничениям в специализированных областях.

LLM, предоставляющая устаревшую информацию о последней стране-хозяйке Олимпийских игр из-за статических, необновляемых знаний из обучающих данных.

Обучение модели

Pre-training

Недостатки архитектуры

Однонаправленное представление может ограничить понимание контекста

LLM, генерирующая односторонние утверждения без учета всего контекста, что приводит к частичному или предвзятому содержанию.

Exposure Bias

Несоответствие между обучением и выводом (инференсом, работой модели) может привести к каскадному нарастанию ошибок.

Во время вывода LLM продолжает генерировать ошибки на основе всего одной неверной лексемы, которую она произвела.

Выравнивание

Несоответствие возможностей

Наделение LLM возможностями, выходящими за рамки их подготовки, может привести к ошибкам.

LLM, производящая контент в специализированной области без необходимых данных, что приводит к генерации выдуманных утверждений.

Расхождение с представлением данных

Выходные данные расходятся с внутренним представлением данных в LLM, что приводит к неточностям.

LLM потворствует мнениям пользователей, генерируя контент, который, как она «знает», неверен.

Inference (работа модели и выдача данных)

Декодер

Внутренняя случайность / рандомность выборки

Случайность в выборе очередных токенов может привести к менее частым, но некорректным результатам.

LLM выбирает маловероятные лексемы / токены во время генерации, что приводит к появлению неожиданного или нерелевантного контента.

Несовершенное представление декодирования

Чрезмерная зависимость от частично сгенерированного контента и проблема softmax bottleneck

LLM уделяет слишком много внимания недавним лексемам или не может уловить сложные связи между словами, что приводит к ошибкам верности.

Таблица 3: Сводка причин галлюцинаций в LLM на этапах данных, обучения и вывода (источник)

В таблице 3 приведены различные типы нюансов причин галлюцинаций в больших языковых моделях из выдающейся исследовательской работы Лэй Хуанга и его команды. Я настоятельно рекомендую прочитать эту статью, поскольку в ней более подробно рассматриваются причины галлюцинаций с примерами вывода модели.

Habrahabr.ru прочитано 3313 раз