Тест «отравленного набора данных» раскрыл пугающую уязвимость ИИ к дезинформации13.01.2025 21:30

Инструменты на основе ИИ получают все большее распространение. Но насколько достоверны ответы таких программ? Источник: Shutterstock

Известно, что ответы, генерируемые такими крупными языковыми моделями (LLM), как ChatGPT, не всегда являются точными, а иногда могут быть совершенно ошибочными. Ранее ученые уже выясняли, что дезинформация, целенаправленно размещенная на популярных интернет-ресурсах, может проникать в результаты, выдаваемые чат-ботами. В своем новом исследовании специалисты из NYU Langone Health решили проверить, насколько просто можно «отравить» обучающие данные LLM и тем самым искажать их ответы.

Для проведения эксперимента специалисты использовали сам ChatGPT для генерации 150 000 медицинских документов с заведомо ложной, устаревшей или неверной информацией. Эти документы были добавлены в тестовый набор данных, использовавшийся для обучения нескольких языковых моделей. После этого ИИ отвечал на 5 400 медицинских запросов, а ответы оценивались экспертами на наличие ошибок, связанных с «отравленными» данными.

Результаты оказались тревожными. Замена всего 0,5% исходных данных на дезинформирующие документы привела к тому, что все тестируемые модели начали выдавать больше медицински неверных ответов, чем до обучения на измененном наборе данных. Например, все модели заявили, что эффективность вакцин против COVID-19 не доказана, и неверно указали назначение нескольких распространенных лекарств.

Более того, снижение доли дезинформирующих документов до 0,01% все равно вызвало появление 10% некорректных ответов, а при уровне 0,001% этот показатель составил 7%. Эти цифры говорят о том, что для искажения данных, используемых LLM, достаточно малого количества ложных документов, размещенных в открытых источниках.

Чтобы противостоять этой угрозе, команда разработала алгоритм, способный идентифицировать медицинские данные в LLM и проверять их достоверность с помощью перекрестного анализа. Однако эксперты признают, что на практике устранить дезинформацию из общедоступных наборов данных крайне сложно, учитывая объем информации и ее разнообразие.

Это исследование подчеркивает важность разработки методов защиты языковых моделей от влияния ложных данных, особенно в медицинской сфере, где точность информации может напрямую влиять на здоровье и жизнь людей. Результаты также напоминают о необходимости тщательной проверки источников и внедрения более жестких стандартов качества при создании и использовании наборов данных для обучения ИИ.

Ранее стало известно, что в ближайшие годы искусственный интеллект заменит почти половину работников крупных компаний.