[Перевод] Безопасность приложений больших языковых моделей (LLM, GenAI)

OWASP Top 10 для приложений LLM и GenAI: Руководство для разработчиков и практиков

Откройте для себя OWASP Top 10 для LLM и GenAI и изучите основные стратегии защиты ваших моделей и приложений искусственного интеллекта. 

Появление больших языковых моделей (LLMs) и технологий генеративного искусственного интеллекта (GenAI), таких как GPT-4, произвело революцию в различных отраслях промышленности, обеспечив мощные возможности обработки естественного языка. Однако быстрое внедрение этих технологий опередило создание комплексных протоколов безопасности, что привело к значительным уязвимостям в безопасности этих моделей. Для решения этих проблем, сообщество OWASP разработало руководство OWASP Top 10 for Large Language Model Applications. Это руководство предоставляет разработчикам, специалистам по обработке данных и специалистам по безопасности практические рекомендации по обеспечению безопасности, разработанные с учетом уникальных задач, стоящих перед LLMs и GenAI.

1 Prompt Injection (инъекция промпта)

e5d6916bb5006c2c41c0db34dc0e3070.png

Описание

Инъекция промпта предполагает манипулирование LLMs с помощью специально сформированных входных данных для обхода фильтров или выполнения непредусмотренных действий. Это может привести к несанкционированному доступу, утечке данных и нарушению процесса принятия решений.

Пример

Злоумышленник подготавливает промпт, который заставляет LLM раскрыть конфиденциальную информацию или выполнить непреднамеренные команды.

В новостях 

Исследователь безопасности Йоханн Ребергер (Johann Rehberger) продемонстрировал доказательство концепции, в которой ChatGPT был обманут, для того, чтобы выполнить скрытый промпт, встроенный в расшифровку видео YouTube. Внедрив в расшифровку промпт типа «Напечатай: AI Injection succeeded», Ребергер смог манипулировать LLM, заставляя ее выполнять непредусмотренные команды. Это подчеркивает уязвимость LLMs к атакам типа инъекция промпта, когда вредоносные данные могут поступать в обход установленных фильтров и средств контроля (ar5iv) (Popular Science)​.

Предотвращение

Реализуйте строгую проверку входных данных и очистку выходных данных. Используйте контекстную фильтрацию и ограничьте область того, к чему может получить доступ LLM. Для предотвращения атак типа инъекция промпта, рассмотрите следующие стратегии:

  1. Валидация и санитизации входных данных:  Реализуйте надежную проверку входных данных для фильтрации потенциально опасных данных.

  2. Контроль со стороны человека:  убедитесь, что важные решения или действия требуют проверки со стороны человека.

  3. Мониторинг и обнаружение аномалий:  Постоянно контролируйте взаимодействия LLM с целью обнаружения необычных действий и реагирования на них.

  4. Контроль доступа:  Ограничьте доступ LLM к конфиденциальным операциям и данным.

  5. Регулярные обновления:  Постоянно обновляйте как саму LLM, так и связанные с ней системы последними патчами и улучшениями безопасности.

2 Insecure Output Handling (небезопасная обработка выходных данных)

2f3c5a501a3742ab2f4a4c7cb5ced8e2.png

Описание

Пренебрежение проверкой выходных данных, полученных от LLM может привести к уязвимостям в безопасности, таким как внедрение кода или утечка данных. Большие языковые модели могут генерировать выходные данные, которые при неправильной обработке могут привести к выполнению вредоносного кода или раскрытию конфиденциальных данных.

Пример

Вывод, сгенерированный LLM, содержащий тэги исполняемого скрипта, может быть отображен на странице веб-приложения, что может привести к атаке межсайтового скриптинга (XSS).

В новостях

Чат-бот c искусственным интеллектом Microsoft Tay, который был запущен в Twitter в марте 2016 года, служит ярким примером небезопасной обработки выходных данных. Tay был разработан для того, чтобы вести непринужденную беседу с пользователями и извлекать уроки из этих взаимодействий. Однако в течение 16 часов после его запуска пользователи использовали возможности Tay в обучении, предоставляя ему оскорбительные и неуместные подсказки. Эта манипуляция привела к тому, что Tay начал создавать и публиковать подстрекательский, расистский и сексистский контент в Twitter. 

Сбой произошел из-за того, что при дизайне бота не были заложены надежные механизмы для фильтрации и проверки результатов работы на наличие вредоносного контента. В ответе Microsoft подчеркивается, что пользователи предпринимали скоординированные усилия по злоупотреблению навыками комментирования в Tay, что приводило к появлению неадекватных ответов (Wikipedia)​ (TechRepublic)​.

Предотвращение

Реализуйте надежные методы валидации и санитизации выходных данных. Убедитесь, что выходные данные LLM рассматриваются как ненадежные данные и обрабатываются соответствующим образом. Это включает:

  1. Механизмы фильтрации:  Разработайте продвинутые механизмы фильтрации для обнаружения и блокирования оскорбительного или вредоносного контента до его генерации.

  2. Контроль со стороны персонала: Привлеките модераторов-людей для анализа результатов и управления ими, особенно на начальных этапах внедрения.

  3. Контекстуальная осведомленность:  Повышайте способность модели понимать контекст и воздерживаться от создания контента, противоречащего этическим принципам.

3 Training Data Poisoning (отравление обучающих данных)

00d8e71eba07b194a9aab0bcac468d79.png

Описание

Отравление обучающих данных включает в себя вмешательство в данные, используемые для обучения больших языковых моделей, что может повлиять на дальнейшее поведение модели, ее точность и этические аспекты.

Пример

Злоумышленник внедряет необъективные или вредоносные данные в обучающий набор, что приводит к получению результатов, формирующим определенные точки зрения или ставящих под угрозу безопасность.

В новостях

В одном из исследований, проведенных учеными из Вашингтонского университета, изучалось влияние отравления обучающих данных на модели машинного обучения. Этот тип атаки включает в себя внедрение вредоносных или предвзятых данных в обучающий набор, что может значительно исказить поведение и выходные данные модели. Например, если злоумышленник вводит определенное искажение в данные, он может повлиять на модель, чтобы получить результаты, формирующие определенные точки зрения, или заставляющие модель вести себя неэтично. Это может поставить под угрозу безопасность, эффективность и честность модели.

На практике такого рода атаки могут быть выполнены без обладания специальной инсайдерской информацией. Злоумышленники могут использовать наборы данных в веб, изменяя содержимое по URL-адресам, используемым в обучающих данных. Такая манипуляция может произойти, если злоумышленники контролируют содержимое по этим URL-адресам, даже если это временно. Например, они могут редактировать страницы Википедии или других источников непосредственно перед сбором данных, добавляя вредоносный контент, который отравляет обучающие данные (SpringerLink)​​ (ar5iv)​.

Предотвращение

Реализуйте тщательную проверку происхождения данных и используйте методы обнаружения аномалий для выявления подозрительных обучающих данных. Регулярно проводите аудит и очистку наборов обучающих данных. Для защиты от отравления обучающих данных используйте следующие стратегии:

  1. Проверка происхождения данных:  Регулярно проводите аудит и проверяйте источник и целостность обучающих данных. Используйте криптографические методы, чтобы гарантировать, что данные не были подделаны.

  2. Обнаружение аномалий:  Реализуйте алгоритмы для обнаружения и маркировки аномальных или подозрительных шаблонов данных, которые могут указывать на попытки отравления.

  3. Надежные методы обучения:  Используйте методы, которые могут снизить воздействие искаженных данных, такие как надежные статистические методы и состязательное обучение.

4 Model Denial of Service (отказ в обслуживании)

b09f9ce93d6348e1f30152ce66b0efd3.png

Описание

Перегрузка LLM операциями, требующими больших вычислительных ресурсов, может нарушить работу служб и увеличить эксплуатационные расходы. Это может быть использовано для проведения атак типа «отказ в обслуживании».

Пример

Злоумышленник отправляет большое количество сложных запросов, чтобы истощить вычислительные ресурсы LLM.

В новостях

Атаки типа «Отказ в обслуживании» (DoS) на большие языковые модели используют ресурсоемкий характер этих моделей для нарушения их доступности и функциональности. В одном задокументированном инциденте злоумышленники атаковали службу перевода Microsoft Azure, отправляя сложные запросы, требующие больших ресурсов, предназначенные для перегрузки системы. Эти запросы, хотя и казались безобидными, требовали чрезмерной вычислительной мощности, что приводило к значительному замедлению работы сервиса и замедляло его работу в 6000 раз по сравнению с обычным. Эта атака показала уязвимость LLM к тщательно подобранным входным данным, которые исчерпывают ее возможности по обработке данных (Microsoft Security Response Center)​.

Предотвращение

Реализуйте ограничения частоты обращений и квоты на ресурсы для запросов LLM. Используйте балансировку нагрузки и масштабируемую инфраструктуру для эффективной обработки большого трафика. Для защиты от типовых DoS-атак рассмотрите возможность реализации следующих стратегий:

  1. Надежная инфраструктура и масштабирование:  Используйте балансировку нагрузки, автоматическое масштабирование и распределенную обработку для обработки внезапных скачков трафика. Это гарантирует равномерное распределение рабочей нагрузки между несколькими серверами, снижая риск исчерпания ресурсов.

  2. Фильтрация и валидация входных данных:  Разработайте надежные механизмы фильтрации и проверки входных данных, чтобы блокировать вредоносные или неправильно сформированные запросы до того, как они попадут в LLM. Такие методы, как ограничение частоты обращений и санитизация входных данных, могут помочь справиться с подозрительными паттернами трафика.

  3. Эффективные архитектуры моделей:  Разрабатывайте эффективные и легкие архитектуры моделей, которые снижают нагрузку на вычислительные ресурсы. Такие подходы, как сжатие модели, квантование и дистилляция, могут повысить устойчивость LLM к атакам, связанным с исчерпанием ресурсов.

  4. Активный мониторинг и реагирование:  Постоянно отслеживайте системы LLM на наличие признаков DoS-атак. Используйте метрики производительности, анализ журналов событий и обнаружение аномалий для выявления потенциальных угроз в режиме реального времени. Наличие плана реагирования на инциденты имеет решающее значение для изоляции затронутых систем и быстрого восстановления обслуживания.

  5. Совместная защита и обмен информацией:  Сотрудничайте с сообществом ИИ для выявления возникающих угроз, обмена передовым опытом и разработки общих стандартов и протоколов. Сотрудничество укрепляет общую экосистему безопасности для развертывания и эксплуатации LLM.

  6. Детальное управление контекстом:  Убедитесь, что модель ненамеренно не обрабатывает скрытые промпты, встроенные в кажущиеся безобидными входные данные. Такие методы, как сегментация входных данных и проверка контекстных окон, могут помочь в выявлении и фильтрации потенциальных инъекций промптов.

5 Supply Chain Vulnerabilities (уязвимости цепочки поставок)

d34c7ee1fb19f7ee9ae1505b79fd41c2.png

Описание

Использование скомпрометированных компонентов, служб или наборов данных может нарушить целостность приложений LLM. Уязвимости цепочки поставок могут привести к утечке данных и сбоям в работе системы.

Пример

Использование небезопасных сторонних библиотек или наборов данных, содержащих уязвимости.

В новостях

Один из ярких примеров уязвимости цепочки поставок был связан с использованием реестра пакетов PyPI. Злоумышленники загрузили вредоносный пакет, имитирующий легитимный (и очень популярный) пакет «PyKafka». При загрузке и запуске этого взломанного пакета устанавливалось вредоносное ПО, которое открывало бэкдоры в различных системах для получения несанкционированного доступа, подвергая их дальнейшим атакам. Этот инцидент подчеркивает значительный риск, связанный со сторонними компонентами и зависимостями в цепочке поставок приложений LLM (BleepingComputer)​​ (Enterprise Technology News and Analysis)​.

Другой пример связан с отравлением общедоступных предварительно обученных моделей. Злоумышленники загрузили поддельную модель, специализирующуюся на экономическом анализе и социальных исследованиях, в маркетплейс моделей, такой как Hugging Face. Эта отравленная модель содержала бэкдор, который позволял генерировать дезинформацию и поддельные новости, демонстрируя, насколько легко может быть нарушена целостность приложений LLM в результате вредоносных действий в цепочке поставок (Analytics Vidhya)​​ (TechRadar)​.

Эти сценарии демонстрируют, как уязвимости в цепочке поставок могут привести к серьезным нарушениям безопасности, предвзятым результатам и даже системным сбоям.

Предотвращение

Проводите тщательную проверку безопасности всех компонентов и служб сторонних производителей. Внедрите методы управления рисками в цепочке поставок и используйте надежные источники. Для устранения уязвимостей в цепочке поставок рассмотрите следующие стратегии:

  1. Проверяйте источники данных и поставщиков:  Убедитесь, что все источники данных и поставщики прошли тщательную проверку. Это включает в себя изучение положений и условий (terms and conditions), а также политики конфиденциальности для обеспечения соответствия вашим стандартам защиты данных.

  2. Используйте проверенные плагины и модели:  используйте плагины и модели только из проверенных источников и убедитесь, что они были протестированы на соответствие требованиям вашего приложения.

  3. Управление уязвимостями:  Применяйте рекомендации OWASP Top 10 по управлению уязвимыми и устаревшими компонентами. Это включает в себя регулярное сканирование на уязвимости, управление исправлениями и инвентаризация всех компонентов с использованием Software Bill of Material (SBOM).

  4. Обнаружение аномалий и тестирование на надежность:  Реализуйте обнаружение аномалий и тестирование на надежность на полученных от поставщиков моделях и данных для выявления подмены данных и отравления моделей.

  5. Активный мониторинг:  Постоянный мониторинг уязвимостей в компонентах и средах и обеспечение своевременного исправления устаревших компонентов.

6 Sensitive Information Disclosure (раскрытие чувствительных данных)

751d456bd6cd491d6d5094befadda12f.png

Описание

Неспособность защититься от от раскрытия чувствительной информации в результатах выдачи LLM может привести к утечке данных, нарушению конфиденциальности и юридическим последствиям.

Пример

LLM непреднамеренно раскрывает персональные данные или служебную информацию в своих ответах (особенно это распространено при использовании метода RAG.

В новостях

Ярким примером разглашения конфиденциальной информации стал случай, когда сотрудники технологической фирмы непреднамеренно ввели конфиденциальные данные в ChatGPT. Эти данные включали ценный исходный код и эксклюзивные данные о полупроводниковом оборудовании. Этот инцидент продемонстрировал, насколько легко может быть раскрыта конфиденциальная информация при использовании инструментов, управляемых искусственным интеллектом, подчеркнув критический пробел в конфиденциальности и безопасности данных для организаций, внедряющих большие языковые модели (TheStreet).

В другом случае модель искусственного интеллекта непреднамеренно раскрыла личную идентификационную информацию (PII) из своих обучающих данных. Подобное может произойти, когда модель переобучена или запоминает определенные данные во время обучения, а затем воспроизводит их в ответах, что приводит к непреднамеренному раскрытию информации. Исследователи обнаружили, что ChatGPT может непреднамеренно раскрывать личную идентифицируемую информацию (PII) из своих обучающих данных. Исследователи из таких учреждений, как Google DeepMind, Вашингтонский университет и ETH Zurich, продемонстрировали, что с помощью простых подсказок ChatGPT может разглашать адреса электронной почты, номера телефонов и другие конфиденциальные данные. Они смогли заставить искусственный интеллект раскрывать личную информацию, попросив его бесконечно повторять определенные слова, что в конечном итоге привело к тому, что модель вывела запомненные данные из своего обучающего набора (Engadget)​.

Предотвращение

Используйте методы анонимизации данных и внедряйте средства контроля доступа для ограничения доступа к конфиденциальной информации. Регулярно просматривайте и обновляйте политику конфиденциальности. Чтобы снизить риск раскрытия конфиденциальной информации, организациям следует принять несколько стратегий:

  1. Очистка данных:  Внедрите комплексные меры по очистке вводимых данных, удаляя идентифицируемую и конфиденциальную информацию до того, как она будет обработана LLM. Это должно включать в себя надежную проверку вводимых данных, чтобы предотвратить отравление модели вредоносными данными.

  2. Контроль доступа:  Обеспечьте строгий контроль доступа к данным, передаваемым в LLM и к внешним источникам данных. Используйте принцип наименьших привилегий для ограничения доступа к конфиденциальной информации.

  3. Информирование и обучение:  Информируйте заинтересованные стороны о рисках и мерах предосторожности, связанных с приложениями LLM. Подчеркивайте важность практики разработки, ориентированной на конфиденциальность.

  4. Мониторинг и обнаружение аномалий:  Постоянно контролируйте входные и выходные данные, чтобы быстро выявлять и устранять потенциальные утечки данных. Используйте системы обнаружения аномалий для выявления необычных закономерностей, которые могут указывать на нарушение.

  5. Политики и управление:  Разработка и внедрение надежной политики управления данными, включая четкие условия использования, которые информируют пользователей о методах обработки данных и предоставляют им возможности отказаться от обмена данными.

7 Insecure Plugin Design (небезопасный дизайн плагинов)

475005e443638776cf71b2cc98ed75d4.png

Примечание к переводу:

В этом разделе рассматривается создание плагинов LLM, а не использованию сторонних плагинов (источник).

Описание

Плагины LLM, обрабатывающие не доверенные входные данные от пользователей или внешних систем и имеющие недостаточный контроль доступа, могут привести к серьезным уязвимостям, таким как удаленное выполнение кода. 

Пример

Плагин с повышенными привилегиями выполняет вредоносный код из не доверенных входных данных.

В новостях

Ярким примером небезопасного дизайна плагина является уязвимость, обнаруженная в плагине AI Engine для WordPress, которая затронула более 50 000 активных установок. Этот плагин, используемый для различных функций, связанных с искусственным интеллектом, таких как создание чат-ботов и управление контентом, имел критический недостаток, который делал сайты уязвимыми для удаленных атак. Уязвимость позволяла злоумышленникам внедрять вредоносный код, что приводило к потенциальной утечке данных и компрометации системы. Этот инцидент подчеркивает важность безопасного проектирования и внедрения плагинов, используемых в системах искусственного интеллекта (Infosecurity Magazine).

Предотвращение

Применяйте принцип наименьших привилегий и проводите тщательную оценку безопасности всех плагинов. Внедрите строгий контроль доступа и проверку входных данных. Чтобы предотвратить уязвимости в дизайне небезопасных плагинов, рассмотрите следующие стратегии:

  1. Строгий параметризованный ввод:  Убедитесь, что плагины обеспечивают строгий параметризованный ввод и проверку типа и диапазона входных данных. Используйте второй слой типизированных вызовов для анализа запросов и применяйте валидацию и санитизацию там, где требуется ввод данных в произвольной форме.

  2. Надежная аутентификация и авторизация:  Плагины должны использовать соответствующие механизмы аутентификации, такие как OAuth2, и применять эффективные средства авторизации и контроля доступа, чтобы гарантировать выполнение только разрешенных действий.

  3. Тщательное тестирование:  Выполняйте всестороннее тестирование, включая статическое тестирование безопасности приложений (SAST), динамическое тестирование безопасности приложений (DAST) и интерактивное тестирование безопасности приложений (IAST), чтобы выявить и устранить уязвимости в коде плагина.

  4. Минимизация влияния:  Разрабатывайте плагины таким образом, чтобы свести к минимуму возможности эксплуатации небезопасных входных параметров, следуя принципам контроля доступа с наименьшими привилегиями и предоставляя как можно меньше функциональных возможностей, но при этом выполняя желаемую функцию.

  5. Ручная авторизация пользователей:  Требуйте ручной авторизации пользователей и подтверждения действий, выполняемых конфиденциальными плагинами, для обеспечения дополнительной проверки и контроля.

8 Excessive Agency (чрезмерная самостоятельность)

bb1eda0bcfe0ea27e6152b78975e8375.png

Описание

Предоставление LLM неограниченной автономии в действиях может привести к непредвиденным последствиям, ставящим под угрозу надежность, конфиденциальность и доверие.

Пример

Автоматизированная система на базе LLM совершает несанкционированные финансовые транзакции на основе ошибочной логики.

В новостях

Ярким примером, подчеркивающим риски чрезмерной самостоятельности, является функция Microsoft Recall в компьютерах Copilot+. Анонсированная на конференции Microsoft Build, эта функция постоянно фиксирует скриншоты действий пользователя, что позволяет легко выполнять поиск и просмотреть прошлые действия. Эта функция, предназначенная для улучшения взаимодействия с пользователем путем захвата и сохранения скриншотов действий пользователя, может быть использована для получения несанкционированного доступа из-за чрезмерных разрешений. Уязвимости, связанные с повышением привилегий, позволяют злоумышленникам обходить средства контроля доступа, получая доступ к конфиденциальной информации, хранящейся в Recall, и потенциально злоупотребляя ею (Wired).

Предотвращение

Внедрите механизмы «человек в курсе» и обеспечьте, чтобы важнейшие решения принимались под контролем человека. Определите четкие границы автономии LLM. Чтобы избежать чрезмерной самостоятельности LLM, рассмотрите следующие стратегии:

  1. Ограничьте функции плагинов:  Убедитесь, что плагины имеют только минимальные функции, необходимые для их использования по назначению. Например, плагин, который читает электронные письма, не должен иметь возможности отправлять или удалять электронные письма.

  2. Ограничьте полномочия:  Предоставьте плагинам минимально необходимые разрешения. Если плагину требуется доступ только для чтения, убедитесь, что у него нет разрешений на запись, обновление или удаление.

  3. Избегайте открытых функций:  Используйте плагины с определенной, гранулированной функциональностью, а не те, которые позволяют выполнять широкие, неограниченные действия.

  4. «Человек в курсе»:  Внедрите ручные процедуры подтверждения для действий с высоким влиянием. Например, требуйте подтверждения от пользователя перед отправкой электронных писем или выполнением финансовых транзакций.

  5. Установите лимит запросов:  Установите ограничение на количество запросов в единицу времени, чтобы контролировать количество действий, которые LLM может выполнить в течение заданного периода времени, снижая вероятность злоупотреблений.

  6. Мониторинг и регистрация действий:  Постоянно отслеживайте и регистрируйте действия плагинов LLM, чтобы оперативно обнаруживать необычное поведение и реагировать на него.

9 Overreliance (излишнее доверие к модели)

eb3fa64f28addbcf8658a02a1f3d581d.png

Описание

Неспособность критически оценить ответы большой языковой модели может поставить под угрозу процесс принятия решений и привести к уязвимостям в безопасности.

Пример

Слепое доверие к контенту, созданному LLM в критически важном приложении, без должной проверки.

В новостях

Ярким примером излишнего доверия является использование новостных сайтов, созданных с помощью искусственного интеллекта. News Guard выявила множество веб-сайтов, которые были в основном или полностью созданы с помощью инструментов искусственного интеллекта, таких как ChatGPT. Было установлено, что эти сайты, которые функционировали при минимальном или полном отсутствии контроля со стороны человека, ежедневно публиковали большие объемы контента, часто без надлежащей проверки фактов или редакторской проверки. Это привело к распространению дезинформации, включая ложные новостные сообщения и вводящие в заблуждение статьи. Эти контент-фермы, управляемые искусственным интеллектом, такие как те, что описаны в отчете «Рост популярности новостных ботов (Rise of the Newsbots)», как правило, создавались для получения дохода от программной рекламы, используя пробел в доверии, возникшего из-за их автоматизированного характера (MIT Technology Review)​​ (NewsGuard)​​ (euronews)​.

В конкретном случае такие веб-сайты, как «Biz Breaking News» и «News Live 79», публиковали статьи, созданные с помощью искусственного интеллекта, которые включали сообщения об ошибках или общие ответы, типичные для результатов работы ИИ, что свидетельствовало об отсутствии контроля со стороны человека. Такая зависимость от искусственного интеллекта для создания контента и управления им без достаточного контроля привела к распространению дезинформации и снижению надежности этих платформ (NewsGuard)​​ (euronews)​.

Предотвращение

Развивайте культуру критического мышления и внедряйте процессы проверки результатов работы LLM. Используйте LLM в качестве консультационных инструментов, а не для принятия окончательных решений. Чтобы предотвратить риски, связанные с излишним доверием, рассмотрите следующие стратегии:

  1. Регулярный мониторинг и проверка:  Осуществляйте непрерывный мониторинг и анализ результатов LLM. Используйте методы самоконтроля или голосования за ответы, чтобы отфильтровывать противоречивые ответы, повышая качество и надежность результатов.

  2. Перекрестная проверка с использованием надежных источников:  Сверяйте результаты работы LLM с данными из надежных внешних источников, чтобы обеспечить точность и достоверность информации.

  3. Улучшите обучение модели:  Выполняйте тонкую настройку модели с учетом знаний в конкретной предметной области, чтобы уменьшить неточности. Такие методы, как промпт-инжиниринг и эффективная настройка параметров (parameter efficient tuning), могут улучшить ответы модели.

  4. Реализуйте автоматические проверки:  Используйте механизмы автоматической проверки для перекрестной проверки сгенерированных выходных данных на соответствие известным фактам или данным, добавляя дополнительный уровень безопасности.

  5. Контроль человеком:  Используйте контроль человеком для проверки достоверности контента и проверки фактов, чтобы обеспечить высокую точность контента и поддерживать доверие к нему.

  6. Информирование о рисках:  Четко информируйте пользователей о рисках и ограничениях, связанных с использованием LLM, чтобы они были готовы к потенциальным проблемам, помогая им принимать информированные решения.

10 Model Theft (кража модели)

bd53b310c18f6847115d44de3e503d5c.png

Описание

Несанкционированный доступ к проприетарным большим языковым моделям может привести к краже интеллектуальной собственности и конфиденциальной информации, утере конкурентных преимуществ.

Пример

Злоумышленник получает доступ к проприетарной модели LLM организации и крадет ее.

В новостях

Значимым примером кражи моделей стало исследование, демонстрирующее возможность извлечения конфиденциальной информации и функций из крупномасштабных языковых моделей, таких как GPT-3 от OpenAI и PaLM-2 от Google. В ходе атаки, подробно описанной командой, включающей сотрудников Google DeepMind и ETH Zurich, использовались сложные методы для восстановления определенных компонентов модели. Эта демонстрация показала, что злоумышленники могут эффективно копировать части проприетарной модели, запрашивая API и собирая выходные данные для обучения суррогатной модели — метод, который часто называют «кражей модели» (GIGAZINE)​​ (Unite.AI)​.

В другом отчете Unite.AI рассказали о том, как злоумышленники могут использовать кражу моделей для создания теневых моделей. Эти теневые модели затем могут быть использованы для организации дальнейших атак, включая несанкционированный доступ к конфиденциальной информации, или для уточнения действий злоумышленников, которые обходят меры безопасности исходной модели (Unite.AI)​.

Предотвращение

Реализуйте строгий контроль доступа и шифрование хранилищ моделей. Регулярно проводите аудит и отслеживайте доступ к моделям LLM. Чтобы предотвратить кражу моделей, организации должны реализовать несколько ключевых стратегий:

  1. Строгий контроль доступа:  Используйте надежные механизмы контроля доступа, такие как контроль доступа на основе ролей (RBAC) и принцип наименьших привилегий. Убедитесь, что только авторизованный персонал имеет доступ к моделям LLM и связанным с ними данным.

  2. Аутентификация и мониторинг:  Используйте надежные методы аутентификации и постоянный мониторинг журналов доступа для оперативного обнаружения любых подозрительных или несанкционированных действий и реагирования на них.

  3. Централизованный реестр моделей:  Ведение централизованного реестра моделей ML. Это упрощает управление доступом, внедрение аутентификации и регистрацию действия, связанные с использованием модели.

  4. Ограничьте сетевой доступ:  Ограничьте доступ LLM к сетевым ресурсам, внутренним службам и API-интерфейсам, чтобы свести к минимуму вероятность потенциальных атак.

  5. Обучение на устойчивость к атакам:  Проведите обучение модели на устойчивость к атакам с использованием состязательных примеров (Adversarial Robustness Training) для обнаружения и смягчения запросов на извлечение данных. Это помогает выявлять и противостоять попыткам извлечь модель.

  6. Установите лимит запросов:  Реализуйте ограничение на количество запросов при вызовах API, чтобы снизить риск утечки данных из приложений LLM.

  7. Внедрение водяных знаков:  Интегрируйте методы внедрения водяных знаков на этапах создания эмбеддингов и извлечения в жизненном цикле LLM, чтобы помочь идентифицировать и отслеживать несанкционированное использование модели.

Выводы

OWASP Top 10 для LLM и GenAI является важнейшим ресурсом для обеспечения безопасности приложений, использующих эти передовые технологии. Понимая и устраняя эти уязвимости, разработчики и практики могут создавать более безопасные и надежные приложения LLM. Постоянное информирование и внедрение этих передовых методов поможет обеспечить ответственное и безопасное внедрение LLM и GenAI в различных отраслях промышленности.

Материалы к статье

© Habrahabr.ru