Почему галлюцинируют нейросети [и что с этим делают]
Австрийский математик Курт Гёдель еще в 1931 году сформулировал и доказал две теоремы о неполноте. В общем случае первая теорема гласит, что всякая непротиворечивая теория имеет утверждения, которые нельзя доказать средствами этой теории. Теорема оказала значительное влияние на различные научные области и в некоторой степени может способствовать пониманию того, почему галлюцинации в системах ИИ неизбежны.
Сегодня мы обсудим, как современные исследователи решают проблему галлюцинаций LLM, какие методы для этого применяют и как выгодно использовать виртуальную инфраструктуру с GPU для обучения нейросетей.
Работа с данными
Одним из факторов, вызывающих галлюцинации в LLM, является характер обучающей выборки. Как правило, крупные модели вроде Llama или ChatGPT обучают на масштабных сводах данных, собранных по разным источникам. Проверить фактическую корректность информации в таком объеме проблематично. Однако, если обучающие данные содержат ошибки, модель может запомнить некорректные паттерны и воспроизводить их в общении с пользователями (галлюцинировать).
Существуют специальные модели, способные обнаруживать такого рода галлюцинации. Они сравнивают ответы нейросети с проверенной информацией и указывают на ошибки. Но их эффективность также зависит от качества исходных данных. Кроме того, такие «детекторы» обучают на узкоспециализированных сводах информации. В итоге они зачастую эффективны в той или иной целевой области, но далеко не всегда масштабируются на широкий контекст и соответствующие задачи.
Решением проблем, связанных с галлюцинациями, вызванными некачественными обучающими данными, занимаются десятки специалистов — как в исследовательских институтах, так и частных организациях. Так, летом этого года команда из энергетической компании Galileo Technologies разработала модель под названием Luna. Её цель — выявлять галлюцинации в LLM для промышленного применения.
Эта модель содержит 440 млн параметров и основана на архитектуре DeBERTa. Она прошла тонкую настройку на основе тщательно отобранных данных RAG. Ключевая особенность модели — новый подход к разбиению (chunking). Текст разбивается на части, содержащие вопрос, ответ и набор контекстных токенов. Такой подход позволяет запомнить больше контекста и снижает вероятность появления ложных положительных результатов при выявлении галлюцинаций.
В своей научной работе команда специалистов отмечает, что Luna способна обрабатывать до 16 тыс. токенов за несколько миллисекунд. В задачах генерации текста (на датасете RAGTruth) модель Luna показала результаты, сопоставимые с теми, что выдают решения на базе GPT-3.5. В общем рейтинге Luna уступает только модели Llama-2–13B, но у последней в разы больше параметров (13 млрд против 440 млн). Разница влияет на возможности решений и корректность ответов.
Примером другой модели для выявления галлюцинаций может быть open source решение Lynx от команды, в которую вошли инженеры из Стэнфорда и пары коммерческих организаций. Соответствующую статью они опубликовали в июле этого года. Специалисты сфокусировались на сложных для обнаружения галлюцинациях. Они дообучили Llama-3–70B на наборах данных PubmedQA, DROP и FinanceBench, самостоятельно внедрив в них некоторые искажения. Эти своды информации покрывают области знаний вроде медицины и финансов, где нейросети часто испытывают трудности.
Команда также представила бенчмарк HaluBench для оценки качества выявления галлюцинаций, который состоит из 15 тыс. примеров корректных и некорректных ответов. Модель Lynx с 70 млрд параметров в среднем оказалась на 1% точнее, чем GPT-4o. В узкоспециализированных задачах разница была более заметна: Lynx показала себя на 8,3% лучше в определении некорректных ответов, чем GPT-4o.
Обработка фактов
Когда LLM сталкивается со словами или фразами, имеющими несколько значений, то может их путать и тем самым галлюцинировать. Чтобы бороться с семантическими галлюцинациями, разработчик Майкл Келвин Вуд предложил подход под названием Fully-Formatted Facts. Он подразумевает преобразование входных данных в компактные и самодостаточные утверждения. Они должны быть правдивы, не конфликтовать с другими и представлять собой простые, законченные предложения.
Сам по себе подход Fully-Formatted Facts — это новая и коммерческая разработка, поэтому о внутренней реализации известно немного. Хотя на старте разработчик использовал библиотеку Spacy для распознавания именованных сущностей (NER), а затем перешел на LLM, которая помогает превращать текст на входе в деривативы, лишенные двусмысленности, сохраняя писательский стиль оригинального документа. В тестах на сторонних датасетах вроде RAGTruth, модель FFF полностью исключила галлюцинации в GPT-4 и GPT-3.5 Turbo на вопросно-ответных задачах.
Статистические методы
Иногда нейросети выдают разные ответы на один и тот же вопрос. Этот тип галлюцинаций называют конфабуляцией — ложными воспоминаниями, в которых факты (порой видоизмененные) сочетаются с вымышленными событиями. В таких ситуациях трудно определить, действительно ли система ИИ не обладает необходимыми знаниями или просто не может правильно сформулировать ответ.
Исследователи из Оксфордского университета, при поддержке Института Алана Тьюринга, опубликовали научную работу в журнале Nature, в которой представили модель, способную обнаруживать такого рода галлюцинации.
Решение построено на базе статистических методов, оценивающих неуверенность ответов нейросети с помощью анализа энтропии. Основная идея заключается в том, чтобы измерять неуверенность на уровне смыслов, а не отдельных словосочетаний или фраз.
Новый метод позволяет выявлять ситуации, когда запрос может привести к конфабуляции, и своевременно предупреждать пользователей о возможной ненадежности ответа. В то же время такой подход может помочь системам, работающим на основе LLM, избегать ответов на вопросы, которые могут спровоцировать галлюцинации. Одно из преимуществ подхода заключается в том, что он адаптируется к различным наборам данных и не требует предобучения.
Что дальше
LLM обучают на масштабных сводах данных, а любая сложная система неизбежно содержит «слепые пятна» и ситуации, в которых она не способна сгенерировать корректный ответ. С другой стороны, у методов выявления LLM-галлюцинаций тоже есть ряд особенностей и недостатков.
Например, подход с оценкой энтропии основывается на предположении, что свойства распределения выходных данных уже известны. Так, на вопрос «Чем известен Том Круз?» можно дать самые разные ответы. Каждый из них отличается в семантическом смысле, но будет верным. В целом можно с уверенностью говорить о том, что работа над оценкой и устранением галлюцинаций в нейросетях будет продолжаться и закрепится в роли одной из наиболее востребованных ниш на рынке.
Несмотря на достигнутый прогресс, впереди еще много сложностей. С учетом стремительного развития технологий, вероятно, потребуется регулярно внедрять новые подходы и решения. Модели становятся сложнее, и для поддержания их надежности нужно постоянно адаптировать методы обучения и контроля качества.
Ускорить тренировку моделей помогут облачные GPU-ускорители — теперь со скидкой 25%.