RLHF. История становления идеи — 3

В предыдущих сериях мы:

  1. Часть 1. Ознакомились с общим пайплайном RLHF, LLM, KL-контролем и необходимостью предобучения на пусть и грязных, но больших данных

  2. Часть 2. Сравнили Offline RL и Online RL, увидели их ограничения, попробовали имитировать Online RL через self-play и непрерывную обратную связь от среды через Reward Modelling. А еще первый раз задумались о сборе непротиворечивой, но достаточно полной обратной связи от человека.

Итого, наш сетап на данный момент содержит следующие инструменты:

предобучение, KL-контроль, непротиворечивая человеческая обратная связь, модель человеческих предпочтений.

Что бы еще добавить?

Секция 3. Дообучение с учителем, учим монстра вести себя чуть более приемлемо.

Глава 6 (RLHF для языка и Supervised finetune),  в которой мы добавляем этап дообучения модели на качественных данных, прежде, чем начинать RL. Мы, наконец-то, вооружены всем необходимым для создания большой языковой модели, соответствующей нашим ценностям: предобучение, KL-контроль, дообучение с учитилем, непротиворечивая человеческая обратная связь, модель человеческих предпочтений. Но что-то опять идет не так. (Fine-Tuning Language Models from Human Preferences (Zeigler et al. 2019))

Секция 4. Собираем все воедино (Pretrain, SFT, HF, RL), собираем качественную человеческую обратную связь (HF), создаем красивую масочку и надеваем ее на более-менее приличного монстра.

Глава 7 (Протокольный сбор обратной связи и Batch RL),  в которой мы рефлексируем над прошлыми неудачи, все сваливаем на данные и разметчиков и учимся собирать не только непротиворечивую, но и качественную и согласованную обратную связь. Для усиления мощности процесса Offline, RL мы также имитируем Online RL с помощью Batch RL. И, наконец-таки, радуемся, как у нас все замечательно получилось. (Learning to summarize from human feedback (Stiennon et al. 2020))

Глава 6. Supervised finetune LLM.

Zeigler et al. 2019, Fine-Tuning Language Models from Human Preferences

Весь предыдущий опыт МЛ разработки говорит нам: для улучшения качества модели, нужно добавить больше обучения богу обучения. Как? — Ответ тоже из эмпирического опыта — больше качественных данных и больше обучения с учителем (Supervised finetune). Тут впервые появляется полный современный пайплайн обучения RLHF:

1) Предобучение на большом неразмеченном корпусе данных
2) Дообучение (SFT) на относительно небольшом корпусе качественных, отобранных и собранных вручную данных — демонстрациях.
3) Файнтюн LLM с помощью RLHF с использованием обученной на человеческой обратной связи модели вознаграждений (модели предпочтений).
4) Также не забываем про добавление KL-контроля во время RLHF, чтобы обеспечить модели возможность не забыть то, что она выучила на предыдущих шагах.

(I) Такой пайплайн обучения отлично работает для задачи продолжения текста с положительным сентиментом:

Оранжевый текст слева здесь означает модель на полном Offline пайплайне (pretrain, SFT, Offline RLHF) Mock здесь означает RL finetune агента с помощью сторонней предобученной модели определения сентимента.

Оранжевый текст слева здесь означает модель на полном Offline пайплайне (pretrain, SFT, Offline RLHF)
Mock здесь означает RL finetune агента с помощью сторонней предобученной модели определения сентимента.

Наблюдения, на которые стоит обратить внимание:
— 5k offline vs mock — обучение на 5k человеческих оценок позволяют модели превзойти mock — обучение на 60k оценок от стороннего классификатора сентимента.
— 5k offline vs 20k offline — увеличение количества человеческого фидбека после 5k примеров не улучшает модель.
— 5k offline vs 5k online — 5k выглядим магическим числом оптимального количества оценок для обучения агента для этой задачи и позволяет добиться сравнимого поведения даже с сетапом Online RL

Вывод, который напрашивается — у человеческой обратной связи есть предел влияния на модель.

(II) Но самое интересное происходит в задаче саммаризации: пайплайн RLHF показывает не самые замечательные результаты для задачи выделениz основного смысла и тезизов большого текста:

Оранжевый текст слева здесь означает модель на неполном Online пайплайне (pretrain, (без SFT), Online RLHF) lead-3 здесь означает стратегию саммаризации с помощью копирования первых 3 предложений в тексте.

Оранжевый текст слева здесь означает модель на неполном Online пайплайне (pretrain, (без SFT), Online RLHF)
lead-3
здесь означает стратегию саммаризации с помощью копирования первых 3 предложений в тексте.

Наблюдения, на которые стоит обратить внимание:
— 60k fine-tuned vs reference summaries — неполный пайплайн (предобучение+Online RLHF) сильно превосходит по качеству человеческие референсы (т/е/ люди предпотитают саммаризации агента саммаризациям, написанным другими людьми)
— 60k fine-tuned vs supervised + 60k fine-tunned — кажется, что SFT ухудшает качество модели в задачи саммаризации, почему?
— 60k fine-tuned vs 30k fine-tuned — меньшее количество меток работает лучше, почему?

Ну и самое очевидное наблюдение — простое копирование первых трех предложений из большого текста побеждает RLHF и прочие аналоги и сетапы по всем фронтам. Почему RLHF проваливается на сложной и неоднозначной задаче, для решения которой, будто бы и был придуман — разрешать неоднозначности в метках, предоставлять агенту богатый сигнал вознаграждения? Раз мы наблюдаем такое сильное расхождение с нашими предположениями о том, что обратная связь от человека должна улучшать финальные оценки от человека же, хорошо бы посмотреть на саму эту обратную связь.

И тут нужно отдельно отметить вопрос, связанный с сетапом сбора обратной связи. Задача оценки саммаризации — достаточно сложна для человека и требует когнитивных усилий и времени: нужно прочитать полную большую статью, нужно понять ее, нужно прочитать саммари, понять, все ли важные тезисы из большой статьи тут отражены. Если внимательнее заглянуть в сами генерации различных сетапов модели, можно заметить такую закономерность:
— lead-3 в лоб копирует первые три предложения из большого текста
— 60k fine-tuned (без SFT) — тоже просто копирует несколько предложений из текста, только теперь не обязательно первые три. Оценщик может проверить достоверность предоставленного саммари простым поиском предосталенных предложений в большом тексте.
— supervised + 60k fine-tunned — уже работает сложнее. Благодаря этапу SFT модель научилась перефразировать предложения, не позволяя найти референсное предложение к большом тексте просто с помощью поиска.

Чуете закономерность, да? Ожидалось, что оценка саммаризаций человеком должна была быть одновременной и субъективной, и многомерной. В идеале, отдельный образец, который выбирает оценщик, должен быть точным, грамматически правильным, достоверным и охватывать все важные темы. Но в их сетапе оценщику предлагалось выбрать лучший вариант уже не из двух, а из четырех предложенных вариантов. Таким образом оценщику часто приходилось выбирать между образцами, каждый из которых имеет некоторые недостатки, а, значит, идти на компромисс между различными желаемыми критериями. Такой сетап порождает дополнительные проблемы:

  • затрудняет быструю идентификацию проблемных оценщиков

  • усложняет представление и интерпретацию исследования

Как можно обойти обозначенные ограничения и все еще остаться в похожем сетапе сбора обратной связи?

Можно было бы надеяться справиться с таким шумом в данных просто получив больше меток и усреднив их. Но это все еще не решает всех практических трудностей с неоднозначностью.

Кажется, нужно разработать менее неоднозначные способы маркировки. Например, вместо того, чтобы просить человека оценить или сравнить суммаризации, можно просить о тестуальном описании проблем с саммаризацией и о предложениях для их исправления. В таком сетапе можно надеяться, что даже если оценщики будут не согласны друг с другом в выборе лучшего варианта из предложенных, они, наверняка, будут единогласны в наборе проблем, которые содержат образцы.

Отступление — The True Story of How GPT-2 Became Maximally Lewd

В процессе рефакторинга случился баг, который перевернул знак функции вознаграждения в финальной функции ошибки (с 1 на -1). Результатом стала модель, которая оптимизировала негативные сентименты, при этом всё ещё поддерживая регуляризацию (KL-контроль) в сторону естественного языка. Оценщики продолжали следовать инструкциям и давать низкие оценки текстам с сексуально-откровенным сентиментом и модель быстро научилась выводить только такой контент, независимо от того, насколько безобидной была начальная точка генерации. При получении новой негативной генерации от модели, оценщики штрафовали, как им казалось, такой контент. Но этот штраф от оценщина превращался в положительное подкрепление для модели из-за бага в знаке.
Произошла эта ошибка ночью по часовому поясу разработчиков, когда они спали. А контрактованные разметчики работали в другом часовом поясе и продолжали работу, обучая модель. Проблема была замечена только после завершения обучения.

Итак, как можно еще улучшить получаемую обратную связь от людей?

Подсказка — это цитата из статьи: «В нашей работе было зафиксировано несоответствие в представлении о качестве саммаризации между нами, исследователями, и нанятыми оценщиками, а именно, между тем, чему мы предполагали обучать модель, и тем, что на самом деле оценивали человеческие оценщики. Это приводило к тому, что сгенерированные моделью саммаризации были высокого качества по мнению оценщиков, но довольно низкого качества по мнению исследователей.»

Ответ — уделить больше внимания качеству обратной связи и качеству самих оценщиков.

Глава 7. Протокольный сбор обратной связи и Batch RL

Stiennon et al. 2020. Learning to summarize from human feedback

Тут также решается задача саммаризации, как и в предыдущей работе, с той лишь разницей, что теперь большое внимание уделяется протоколу получения разметки:

  • качественно отбираем оценщиков

  • обучаем оценщиков и предоставляем им обширные и продуманные инструкции (максимально полные и максимально непротиворечивые)

  • организуем чат-комнату, где оценщики могли бы разбирать сложные и неоднозначные кейсы и коллективно принимать решение об их оценке

  • регулярно сверяемся с тем, что намерения и понимание процесса и критериев разметки оценщиками соответствуют понимаю самих исследователей

  • упрощаем задачу выбора лучшего образца для оценщиков, снижая количество образцов для сравнения до двух, тем самым уменьшаем степень несогласованности между оценщиками.

В конечном итоге это привело к значительному повышению как согласованности между оценщиками и исследователями, так и к повышению качества работы модели.

Мы, наконец-таки, получили модель (RLHF, оранжевый цвет на картинке выше), которая справляется с крайне сложной задачей саммаризации и превосходит не только своих родителей (Base Pretrain, голубая линия на картинке выше и Supervised learning, зеленая линия на картинке выше), но и человеческие референсы (черный цвет на картинке выше).

Можно ли использовать режим обучения RL агента на обученной модели предпочтений бесконечно и ожидать, что RL агент будет улучшать свои способности также бесконечно?

Оказывается, что нет. Со временем агент начнет подстраиваться под «замороженную» модель вознаграждения (RM оранжевый цвет на картинке ниже) и человеческие оценки начнут падать (Actual оранжевый цвет на картинке ниже).

Логично предположить, что это происходит из-за недостаточного качества и мощности самой модели предпочтений, которая, на самом деле, достигает только 75% согласованности с человеческими предпочтениями (синий цвет на картинке ниже).

Как можно обойти эти ограничения c «замороженной» моделью предпочтений и добиться еще большего баланса между Offline и Online RL?

Batch RL

Дополнительно к качественному отбору обратной связи, авторы используют пакетный RL (Batch RL):
1) Батч данных генерится обучаемой «замороженной» LLM и размечается оценщиками
2) На этом батче меток обучается модель предпочтений
3) Агент «размораживается» и проходит этап обучения на обновленной и «замороженной» модели предпочтений.
4) Из агента собирается и размечается новый батч данных, и большой цикл повторяется.

В этой статье первый раз появляется картинка, очень похожая на ту, которая будет позже опубликована в статье о ChatGPT и которой в дальнейшем будут иллюстрировать весь современный RLHF:

Итак, мы решили довольно сложную задачу саммаризации с помощью RLHF. И не просто решили, а добились сверхчеловеческих результатов. Мы добились этого благодаря улучшению процесса сбора человеческой обратной связи через жесткое протоколирования процесса. Мы поняли важность непротиворечивой, качественной и согласованной человеческой обратной связи и ее формализации. Теперь нужно подумать об этической согласованности модели и так же формализовать, что такое «согласованная» модель.

Об этом мы узнаем в главе 8.

Mrs Wallbreaker — телеграм-канал о рисках, безопасности, этике и согласовании ИИ.

Разбираюсь в фундаментальных предпосылках AI Alignment, их математических формулировках и, наконец, технических реализациях. Т.е. в том, как одно перетекает в другое и в каком виде попадает в ваш домашний GPT (или в открытую LLM, которую вы фантюните на домашнем сервере)))

© Habrahabr.ru