Деменция LLM: как языковые модели забывают, зачем учились, и что из этого следует

Привет, Хабр! Меня зовут Руслан Абдуллин, я работаю в отделе аналитических систем R-Style Softlab и занимаюсь созданием и продвижением сервисов на основе искусственного интеллекта.

Недавно мне попалась научная статья, которая затронула давно интересующий меня вопрос: что будет, если новые модели будут обучаться на данных, которые создавались с помощью другой LLM? Дальше прилагаю вольный пересказ/перевод статьи статьи с ключевыми моментами, сокращениями и некоторыми пояснениями (выделены курсивом). И, конечно, жду вас в комментах для обсуждения. Оригинал и полный текст статьи можно прочитать здесь.

6c339e12bdecdbbc3ded05f931886035.png

Все знают, что для создания высококачественной LLM требуется значительных объемов обучающий датасет. Конечно, современные модели обучаются на данных, не только собранных из интернета, но и с учетом обратной связи от человека (RLHF). Но уже сейчас очевидно, что большие языковые модели кардинально изменят ситуацию во всей сфере онлайн-текстов и изображений в интернете.

Так что же может ждать нас в будущем? Что произойдет с новыми GPT, когда LLM будут вносить свой вклад в большую часть контента, встречающегося в сети? В статье обнаружили, что использование генерируемого моделями контента при обучении приводит к необратимым дефектам в итоговых моделях, когда хвосты исходного контента исчезают.

Непрерывное обучение и катастрофическое забывание

В отличие от традиционного машинного обучения, когда данные для обучения статичны, непрерывное обучение строится на последовательном пополнении обучающих данных. Последовательное обучение позволяет не переобучать модель, даже если условия изменились.

Например, инженеры научили модель отличать собак от кошек. При последовательном обучении, даже если модель «увидит» новую породу, она сможет сказать, что это не кошка.

Типичная проблема при непрерывном обучении заключается в том, что модель забывает предыдущие образцы при изучении новой информации. Это явление известно как катастрофическое забывание. Типичный способ предотвратить это — использовать регуляризацию или просто полагаться на данные.

Отравление данных

Отравление данных — это внедрение в обучающие данные объектов, которые могут ухудшить производительность модели при развертывании.

Если возвращаться к примеру с задачей научить модель различать кошек и собак, отравленными данными будет фото собаки с надписью «кот».  

Вредоносные данные могут вызвать непреднамеренное поведение, которое может быть активировано специальными триггерами. В условиях, когда LLM обучаются с помощью крупномасштабных веб-сканирований, это представляет серьезную проблему.  Недавние исследования говорят о том, что даже если небольшой процент данных ошибочен или вредоносен, это может сильно повлиять на результат обучения модели. 

Что такое схлопывание модели?

Схлопывание или коллапс модели — это дегенеративный процесс, затрагивающий поколения изученных генеративных моделей, при котором сгенерированные данные в конечном итоге загрязняют обучающие данные моделей следующего поколения. Обучаясь на загрязненных данных, модели неправильно воспринимают реальность.

Разделяют ранний и поздний крах модели.

  • На ранних этапах коллапса модель начинает терять информацию о первоначальных данных.

  • При позднем коллапсе модель запутывают различные моды исходных распределений. В итоге имеет место распределение, которое имеет мало сходства с исходным, часто с очень малой дисперсией.

Этот процесс отличается от процесса катастрофического забывания тем, что в статье рассматриваются несколько моделей, в которых LLM не забывают ранее изученные данные, а скорее начинают неверно интерпретировать то, что они считают реальным, подкрепляя свои собственные убеждения.

Причины коллапса 

Процесс схлопывания происходит из-за двух специфических источников ошибок, которые накапливаются на протяжении поколений и вызывают отклонения от исходной модели. 

Статистическая аппроксимационная ошибка — это основной вид ошибки, которая возникает из-за того, что количество выборок конечно и исчезает по мере того, как количество выборок стремится к бесконечности. Это происходит из-за ненулевой вероятности того, что информация может быть потеряна на каждом этапе повторной выборки. 

Ошибка функциональной аппроксимации — это вторичный тип ошибки, который возникает из-за того, что аппроксиматоры функций недостаточно выразительны (или иногда слишком выразительны за пределами поддержки исходного распределения). Общеизвестно, что нейронные сети являются универсальными функциональными аппроксиматорами в пределе, но на практике это не всегда так. В частности, нейронная сеть может вводить ненулевое правдоподобие за пределами поддержки исходного распределения.

Пример: представьте себе модель, которая пытается нарисовать картину с помощью ограниченного количества красок. Простая модель не сможет уловить все оттенки — это ошибка из-за недостатка выразительности. Сложная модель может нарисовать картину, которая не имеет ничего общего с реальностью — это ошибка из-за избыточной выразительности.

При этом, если даже в исходных данных нет погрешностей, то ошибка, связанная с тем, как мы подгоняем нашу модель, будет оставаться постоянной с течением времени. То есть, если мы используем одну и ту же модель для разных наборов данных, она будет показывать одни и те же ошибки.

Каждое из вышеперечисленных обстоятельств может привести к тому, что коллапс модели станет ближе или дальше. Лучшая мощность аппроксимации может быть даже обоюдоострым мечом — лучшая выразительность может противодействовать статистическому шуму, что приводит к хорошей аппроксимации истинного распределения, но в равной степени может усугублять этот шум. Чаще всего мы получаем каскадный эффект, когда совокупная индивидуальная неточность приводит к росту общей ошибки. 

Стоит отметить, что современные компьютеры также имеют дополнительную вычислительную ошибку, связанную с представлением чисел с плавающей запятой. Эта ошибка неравномерно распределена по различным диапазонам чисел с плавающей запятой, что затрудняет оценку точного значения данного числа. Такие ошибки меньше по величине и исправляются с помощью более точного оборудования, что делает их менее влияющими на коллапс модели.

***

Далее в статье авторы рассматривают описанные выше ошибки на математических моделях и доказывают реальность существующих ограничений развития LLM. Если кратко, авторы приходят к тому, что при дообучении моделей на повторных выборках происходит постепенное изменение ее параметров или «блуждание». Риск ошибок накапливается, и становится все труднее получить правильные результаты. Я пропущу данную часть и перейду сразу к выводам статьи.

***

Долгосрочными факторами, которые напрямую влияют на отравление обучающих данных, можно назвать кликбейт, троллинг, а также контент, который производят боты. Эти механики могут вводить в заблуждение социальные сети и поисковые алгоритмы. С вирусным распространением больших языковых моделей эти процессы могут масштабироваться и автоматизироваться. 

Важно, чтобы LLM сохранили способность моделировать редкие события, даже если они происходят не так часто.

Это как предсказание редких болезней — хотя они случаются нечасто, они дают важное представление о механизмах появления всех болезней.  

Чтобы обеспечить непрерывность обучения в течение длительного периода времени, авторы предлагают:

  1. Обеспечить доступ к первичным данным, которые не были изменены или созданы другими моделями.  

  2. Обеспечить доступность проверки происхождения контента. 

  3. Координировать работу разработчиков LLM в масштабах всего сообщества, чтобы гарантировать обмен информацией для решения вопросов происхождения.

На этом у меня все, но я готов ответить на ваши вопросы и обсудить содержание статьи. Спасибо, что читали!

© Habrahabr.ru