[Перевод] Исследование: ввести ложную медицинскую информацию в LLM оказалось удивительно легко
Смена всего 0,001% входных данных на дезинформацию заметно уменьшает точность ИИ
Существует очевидная проблема: интернет переполнен дезинформацией, а большинство крупных языковых моделей обучаются на огромном количестве текстов, полученных из интернета.
В идеале, если бы объём точной информации был значительно больше, то для лжи не осталось бы места. Но так ли это на самом деле? В новом исследовании, проведённом учёными Нью-Йоркского университета, изучается, сколько медицинской информации можно включить в обучающий набор большой языковой модели (LLM), прежде чем она начнёт выдавать неточные ответы. Хотя в исследовании не определена нижняя граница, оно показывает, что если на дезинформацию приходится 0,001 процента обучающих данных, то полученная LLM оказывается скомпрометированной.
Хотя в статье рассматривается намеренная «порча» LLM во время обучения, всё это касается и огромного объёма ложной информации, которая уже находится в сети и попадает в обучающий набора для существующих LLM, а также сохранения устаревшей информации в проверенных медицинских базах данных.
Отравляем выборку
«Отравление» данных — относительно простая концепция. Для обучения LLM используются большие объёмы текста, обычно взятые из интернета в целом, хотя иногда текст дополняется более специализированными данными. Вводя определённую информацию в этот обучающий набор, можно заставить результирующую LLM рассматривать эту информацию как один из фактов. Такой приём можно использовать для искажения ответов, которые даёт LLM.
Для этого даже не требуется доступ к самой LLM; нужно просто поместить нужную информацию туда, где модель её найдёт и включит в обучающие данные. Это может означать, например, что вы просто разместите документ в интернете. Как говорится в одной из работ на эту тему, «фармацевтической компании, желающей продвигать определённое лекарство от всех видов боли, достаточно выпустить в [сеть] несколько целевых документов».
Разумеется, любые отравленные данные будут конкурировать за внимание с той информацией, которая может быть достоверной. Таким образом, возможность отравления LLM может зависеть от темы. Исследовательская группа сосредоточилась на довольно важной теме: медицинская информация. Она проявит себя как в LLM общего назначения, например, используемых для поиска информации в интернете, так и в LLM, которые в итоге будут использоваться для получения медицинской информации. Она также может проявиться в специализированных медицинских LLM, в которые можно включить учебные материалы для лиц без медицинского образования, чтобы дать им возможность разбирать запросы на естественном языке и отвечать на них аналогичным образом.
Поэтому команда исследователей сосредоточилась на базе данных, обычно используемой для обучения LLM, — The Pile. Она оказалась удобной для работы, поскольку содержит наименьший процент медицинских терминов, полученных из источников, которые не подвергаются проверке реальными людьми (то есть большая часть медицинской информации поступает из таких источников, как база данных PubMed Национального института здоровья).
Исследователи выбрали три области медицины (общая медицина, нейрохирургия и медикаменты) и отобрали по 20 тем из каждой, в общей сложности 60 тем. В общей сложности в The Pile содержалось более 14 миллионов ссылок на эти темы, что составляет около 4,5% всех документов в базе. Из них около четверти были получены из источников, не прошедших проверку человеком, в основном из интернета.
Затем исследователи отправились отравлять The Pile.
Поиск минимума
Исследователи использовали LLM для создания «высококачественной» медицинской дезинформации с помощью GPT 3.5. Несмотря на то, что в нём предусмотрены меры предосторожности, которые должны предотвратить создание медицинской дезинформации, исследование показало, что он с радостью сделает это, если ему дать правильные подсказки (эта проблема стоит того, чтобы описать её в отдельной статье). Полученные статьи можно было включать в The Pile. Были созданы модифицированные версии The Pile, в которых 0,5 или 1 процент релевантной информации по одной из трёх тем был заменён на дезинформацию; затем они были использованы для обучения LLM.
Полученные модели с гораздо большей вероятностью выдавали дезинформацию по этим темам. Но дезинформация затрагивала и другие медицинские темы. «При таком масштабе атаки отравленные модели удивительным образом выдавали больше вредного контента, чем базовые, когда им задавали вопросы о концепциях, не являющихся непосредственной целью нашей атаки», — пишут исследователи. Таким образом, обучение на дезинформации не только сделало систему более ненадёжной в отношении конкретных тем, но и в целом в отношении медицины.
Но, учитывая, что в среднем по каждой из 60 тем встречается более 200 000 упоминаний, замена даже половины процента из них требует значительных усилий. Поэтому исследователи попытались выяснить, какой минимум дезинформации они могут включить, чтобы повлиять на результаты LLM. Результаты оказались неутешительными.
На примере дезинформации о вакцинах исследователи обнаружили, что если снизить процент дезинформации до 0,01 процента, то более 10 процентов ответов всё равно будут содержать неверную информацию. При снижении до 0,001 процента более 7 процентов ответов всё равно оказываются вредными.
«Аналогичная атака на LLaMA 2 LLM4 с 70 миллиардами параметров, обученная на 2 триллионах токенов, — отмечают они, — потребует 40 000 статей, создание которых будет стоить менее 100 долларов США». Сами «статьи» могут быть просто обычными веб-страницами. Исследователи поместили дезинформацию в невидимые части веб-страниц, и отметили, что невидимый текст (чёрный на чёрном фоне или со шрифтом, размер которого установлен в ноль процентов) также может сработать.
Команда Нью-Йоркского университета также скормила своим взломанным моделям несколько стандартных тестов производительности медицинских LLM и обнаружила, что они их прошли. «Производительность взломанных моделей была сопоставима с контрольными моделями во всех пяти медицинских тестах», — пишет команда. Так что простого способа обнаружить отравление не существует.
Исследователи также использовали несколько методов, чтобы попытаться улучшить модель после тренировки (подстройка ввода, настройка инструкций и генерация с дополнением поиска). Ни один из них не помог.
Существующая дезинформация
Но не всё так безнадёжно. Исследователи разработали алгоритм, который может распознавать медицинскую терминологию в результатах LLM и делать перекрёстные ссылки на фразы в проверенном графе биомедицинских знаний. Он позволил отмечать фразы, которые не были проверены человеком. Хотя это и не позволило отловить всю медицинскую дезинформацию, но выявило очень большой её процент.
В конечном итоге это может стать полезным инструментом для проверки результатов будущих LLM, ориентированных на медицину. Однако это не обязательно решит некоторые проблемы, с которыми мы уже сталкиваемся и на которые данная статья намекает, но не рассматривает напрямую.
Первая из них заключается в том, что большинство людей, не являющихся специалистами в области медицины, будут получать информацию из универсальных LLM, а не из тех, которые будут подвергаться проверке на медицинскую точность. Это становится всё более актуальным по мере того, как LLM внедряются в поисковые службы в интернете.
И вместо того, чтобы обучаться на специальных медицинских знаниях, эти модели обычно обучаются на всём интернете, не испытывающем недостатка в плохой медицинской информации. Исследователи признают возможность «случайного» отравления данных из-за «широко распространённой в сети дезинформации». Но большая часть этой «случайной» информации, как правило, была создана намеренно, как часть медицинской аферы или для продвижения политической повестки. Как только люди поймут, что её можно использовать для достижения тех же целей, играя с поведением LLM, частота дезинформации, скорее всего, возрастёт.
Наконец, команда отмечает, что даже самые лучшие источники данных, собранные человеком, такие как PubMed, также страдают от проблемы дезинформации. Литература по медицинским исследованиям полна многообещающих идей, которые так и не оправдали себя, а также устаревших методов лечения и тестов, которые были заменены подходами, более прочно основанными на доказательствах. Это даже не обязательно касается дискредитировавших себя методов лечения десятилетней давности — всего несколько лет назад мы могли наблюдать, как использование хлорохина для лечения COVID-19 всего за пару лет прошло путь от многообещающих сообщений до тщательного развенчания с помощью крупных испытаний.
В любом случае, очевидно, что, полагаясь даже на самые лучшие медицинские базы данных, вы не обязательно получите LLM, свободный от медицинской дезинформации. Медицина — дело трудное, но создать стабильно надёжный LLM, ориентированный на медицину, может быть ещё сложнее.