[Перевод] LLM будут врать вечно
Сможем ли мы когда-нибудь доверять искусственному интеллекту?
Несмотря на впечатляющий прогресс языковых моделей, они по-прежнему страдают от серьезной «болезни» — так называемых галлюцинаций, когда ИИ выдает ложную или бессмысленную информацию. В одном из недавних исследований выдвигается предположение, что lданная проблема — не временный сбой, а фундаментальная особенность работы нейросетей. Если это действительно так, нам придется пересмотреть подход к ИИ.
Обзор исследования
Статья под говорящим названием «Большие языковые модели всегда будут галлюцинировать, и нам придется жить с этим» выдвигает смелый тезис: галлюцинации в ИИ неизбежны из-за самого принципа устройства этих систем. Авторы утверждают, что независимо от того, насколько мы усовершенствуем ИИ — будь то улучшение архитектуры, увеличение объема данных или более умная проверка фактов — определенный уровень галлюцинаций всегда будет присутствовать.
Их аргументация основана на математической теории. Используя концепции из теории вычислений и теоремы Гёделя о неполноте, исследователи показывают, что некоторые ограничения непреодолимы.
Авторы выстраивают свою позицию через серию математических выкладок, каждая из которых демонстрирует неизбежность галлюцинаций в природе больших языковых моделей. В конце статьи обсуждаются практические и этические последствия этого факта.
Если они правы, нам придется пересмотреть свои цели в отношении ИИ-систем, — особенно в том, что касается достижения их полной надежности.
Простое объяснение
Работу больших языковых моделей можно сравнить с игрой, где вас просят описать картинку, но вы не видите ее целиком. В каких-то случаях вы сможете угадать, чего не хватает, но в других — ошибетесь, потому что у вас нет полного изображения, и в скрытых частях может оказаться что-то, чего вы предугадать ну никак не могли. Именно так работают галлюцинации ИИ: система заполняет пробелы, но не всегда делает это правильно.
Авторы статьи утверждают, что это не признак несовершенства технологии, а основополагающий принцип работы ИИ. Сколько бы мы ни дообучали эти системы, они никогда не смогут знать абсолютно все. И даже если бы у них был доступ ко всем данным мира, существуют фундаментальные математические ограничения, не позволяющие системам всегда безошибочно извлекать необходимую информацию.
Главный вывод заключается в том, что вместо попыток сделать ИИ безупречным, нам следует принять его недостатки и сосредоточиться на том, как управлять ими наиболее эффективно.
Из оригинального исследования: стадии генерации LLM и стратегии борьбы с галлюцинациями на каждой из них
Техническое объяснение
Опираясь на математическую аргументацию, исследователи демонстрируют неминуемость галлюцинаций в LLM. Во-первых, они обосновывают это неполнотой информации, ссылаясь в том числе на теорему Гёделя и другие аналогичные утверждения, показывающие невозможность создания датасета, содержащего абсолютно все факты.
Во-вторых, они исследуют процесс извлечения информации, проводя параллели с известной проблемой в теории вычислений — проблемой допустимости, являющейся неразрешимой. Проще говоря, это значит, что от моделей ИИ нельзя ожидать 100% точности при извлечении информации. Аналогичный вывод они делают и в отношении интерпретации пользовательских запросов: идеальное понимание намерений юзера также недостижимо.
Наконец, они анализируют сам процесс генерации языка. Доказывая, что проблема остановки (определение момента завершения процесса) непреодолима для LLM, они утверждают, что системы не способны предсказать результат их собственной генерации до ее завершения. Это открывает путь для возникновения галлюцинаций.
В статье также показано, что никакая система проверки фактов не может исправить все галлюцинации. Даже идеальный фактчекер не способен преодолеть фундаментальные вычислительные ограничения, лежащие в основе этой проблемы.
Критическая оценка
Хотя статья предоставляет довольно убедительные математические доказательства, некоторые моменты требуют дальнейшего изучения.
Во-первых, авторы работы широко трактуют само понятие «галлюцинации». Создается впечатление, что клеймо «галлюцинация» ставится на любое отклонение от идеального знания, но на практике многие ИИ-системы эффективно решают поставленные задачи даже при наличии небольших погрешностей. Для многих вариантов практического применения хватает «удовлетворительного» результата, несмотря на периодические неточности.
Во-вторых, статья рассматривает только детерминированные исходы, тогда как современные ИИ-системы работают на основе вероятностных моделей. Это может означать, что выводы о неразрешимости не полностью применимы. Даже если идеальное поведение недостижимо, можно снизить уровень галлюцинаций до приемлемого минимума.
Статья также выиграла бы от бóльшего количества эмпирических доказательств и проверки этих идей на реальных ИИ-моделях. Кроме того, исследование ограничивается анализом трансформерных архитектур, оставляя открытым вопрос о применимости выводов к другим архитектурам ИИ.
Наконец, в статье не рассматривается, как люди справляются с нехваткой информации и ошибками в собственном мышлении. Сравнение галлюцинаций ИИ с человеческими ошибками могло бы добавить ценную перспективу.
Заключение
Если выводы статьи верны, нам, возможно, придется пересмотреть подход к разработке и использованию ИИ-систем. Вместо погони за совершенством мы должны сосредоточиться на том, как контролировать и минимизировать эффект галлюцинаций. Важно также объяснять пользователям реальные возможности ИИ и разрабатывать приложения, которые смогут эффективно работать даже при случайных ошибках.
Я считаю, что это исследование поднимает важные вопросы:
Как мы можем оценить и уменьшить реальное влияние галлюцинаций?
Существуют ли новые архитектуры ИИ, которые могли бы избежать некоторых из этих проблем?
Как должны измениться нормативные акты и этические стандарты, чтобы учесть тот факт, что у ИИ всегда будут изъяны?
А что думаете вы? Убедили ли вас приведенные доказательства? Как эти выводы повлияют на развитие языковых моделей и наше доверие к ним?