(Не)доверенный ИИ: обучать нельзя запретить

e7e2b93b7929e0eae786ecaa7c296141.jpg

Как заставить ChatGPT и другие LLM выдать секретные данные? Как взломать электронный замок с биометрией? Как сделать логическую бомбу с помощью ИИ? Можно ли обучать ИИ без доступа к реальным данным компании? Эти и другие вопросы обсудили на IV встрече экспертного сообщества по криптографии и большим данным, организованной компанией «Криптонит» и посвящённой доверенному ИИ.

Открыл встречу Виталий Дмитриевич Пирожников, руководитель лаборатории искусственного интеллекта в компании «Криптонит». Он отметил, что с каждым годом всё острее становятся вопросы безопасности технологий ИИ, в основе которых лежат модели машинного обучения. «Мы видим внедрение этих моделей буквально во все отрасли: экономику, медицину, транспорт, образование, сельское хозяйство и так далее. При этом остаётся неизвестным, насколько эти технологии надёжны и стабильны, как замечать их ошибки и как предотвратить связанные с ними злонамеренные манипуляции», — сказал Виталий Пирожников.

Как и человек, любой ИИ может ошибиться, однако проблема ещё и в том, что на системы искусственного интеллекта разрабатываются различные атаки. Например, направленные на то, чтобы извлечь из большой языковой модели персональные данные, на которых она обучалась, или обмануть системы машинного зрения.

«Представьте, что некая система распознавания лиц считается практически безошибочной, так как имеет заявленный процент ошибки 0,3%. Однако существует, скажем, десять человек, которых она не видит в упор. Например, потому, что это было сделано намеренно: в процессе обучения эту систему натренировали игнорировать этих людей», — привёл пример Виталий Пирожников.

Также возможен вариант, что эти «призраки» используют целенаправленные модификации внешности, которые едва заметны невооружённым глазом, но сбивают с толку алгоритмы распознавания. Здесь возможны разные варианты и возникают закономерные опасения: насколько сложно реализовать атаки на модели машинного обучения? Как от них защищаться? Как нам построить доверенный ИИ?   Какая нормативная база регулирует его разработку и применение? Эти и другие вопросы обсудили профильные эксперты в ходе встречи.

Андрей Петрович Коваленко, д.т.н., вице-президент Академии криптографии РФ начал выступление с простого тезиса: в технологиях ИИ нет никакой магии. Модели машинного обучения — это математические функции. Они выполняют аппроксимацию требуемой функции по таблице её значений, построенной на основе заданного обучающего набора наблюдений. Отсюда очевидны общие классы ошибок, свойственные моделям: переобучение, дрейф данных, предвзятость обученной модели и т.д. Нет никакого самосознания у ИИ, а восстание машин остаётся уделом фантастов.

Проблема в другом. С точки зрения информационной безопасности существуют и специфические для ИИ угрозы: отравление данных (обучение модели нежелательному поведению), атака инверсии модели (несанкционированный доступ к обучающим данным), атака градиентного спуска (введение модели в заблуждение) и подмена модели.

Поэтому при оценке надёжности систем ИИ выделяют факторы доверия: теоретическое обоснование моделей ML, доказанную эффективность алгоритмов решения оптимизационных задач, доверенный датасет (проверенный набор обучающих данных достаточного объёма), использование на всех этапах разработки и применения ИИ доверенного ПО и надёжных аппаратных платформ.

Это всё необходимые, но недостаточные условия для того, чтобы объявить доверенной систему ИИ, соответствующую всем перечисленным выше факторам. Так происходит потому, что внутри всей этой конструкции сохраняется область недоверия

Например, из-за проблемы экстраполяции MLP может существовать неучтённая область входных значений, манипуляция с которой способна исказить вывод нейросети. Схожая проблема связана с экстраполяцией деревьев решений. Одним из перспективных подходов к решению этих проблем является увеличение размерности задачи, но как именно реализовать его на практике, чтобы это было эффективно и безопасно — пока вопрос открытый. 

«В настоящее время Россия и другие страны разрабатывают стандарты оценки доверия системам машинного обучения.  Чтобы обезопасить использование ИИ прямо сейчас, нужно не доверять «чёрным ящикам», исследовать свойства математических функций, реализуемых моделями ML и разрабатывать статистические модели, аналогичные моделям ML. Кстати, без статистических проверок функциональная безопасность устройств с ИИ не будет сертифицирована»,  — пояснил Андрей Петрович.

Анализ подходов к регулированию ИИ-технологий в мире продолжил Пётр Владимирович Ганелин, советник по стратегии АНО «Национальный технологический центр цифровой криптографии. Он отметил, что в августе аналитики Gartner представили так называемую ежегодную кривую хайпа (шумихи, общественного интереса), на которой среди более двух тысяч технологий выделили 25 прорывных, группирующихся в 4 ключевых блока.

Первый из этих блоков называется «автономный искусственный интеллект». Второй блок тесно связан с ним и касается автоматизации труда разработчиков, то есть — написания программного кода с помощью ИИ. Третий блок включает в себя технологии, меняющие пользовательский опыт за счёт всё более широкого использования моделей машинного обучения. Четвёртый блок объединяет ИИ-технологии, прямо влияющие на безопасность и приватность.

«Сейчас в России можно выделить несколько крупных центров, занимающихся вопросами искусственного интеллекта в привязке к отраслевым задачам. У каждого из них свои взгляды на то, как нужно развивать технологии машинного обучения. В таком децентрализованном ландшафте сложно обеспечивать контроль качества и безопасности используемых решений. Системы государственного регулирования в сфере ИИ только появляются у нас и за рубежом», — сказал Пётр Владимирович.

Евросоюз пропагандирует «риск-ориентированный подход». В мае 2024 года Совет ЕС одобрил закон об ИИ — Artificial Intelligent Act. Этот объёмный документ на 150 страниц описывает, в каких отраслях ИИ запрещён, а где он может использоваться после сертификации.

«Я считаю, что слепое копирование здесь неуместно. В России нужно разрабатывать свою систему регулирования с учётом сегодняшних реалий. Законодательная база высшего уровня для этого уже подготовлена. Есть Указ Президента РФ от 10.10.2019 N 490 «О развитии искусственного интеллекта в Российской Федерации» с изменениями от 15.02.2024 г. Согласно нему, надёжность и безопасность ИИ должна быть доказуемой, а «чёрный ящик» оказывается вне правового поля»,  — отметил Пётр Владимирович.

В ходе обсуждения рисков, связанных с повсеместным внедрением ИИ, он акцентировал внимание на рисках широкого использования ИИ, в том числе на риске зависимости от технологии. Его суть проста: чем больше мы полагаемся на искусственный интеллект, тем быстрее деградирует наш естественный. Люди перекладывают на ИИ всё больше задач, а сами теряют соответствующие навыки. Пока мы можем хотя бы набрать поисковый запрос, а вот подрастающее нам на смену поколение уже считает это анахронизмом и предпочитает голосовое общение с «умной колонкой» или смартфоном.

Сильная зависимость от ИИ порождает ещё один риск — перекладывание ответственности. Всё чаще возникает соблазн сказать: «это не я, а компьютер виноват», особенно когда из-за ошибки возможны правовые последствия. Это не я нарушил ПДД, а мой автопилот. Это не я написал кривой код, а MS Copilot… Важно понимать, что ИИ — всего лишь инструмент, пускай и весьма продвинутый.

В презентации НТЦ ЦК также были представлены наработки по систематизации рисков использования ИИ, требований к системам ИИ, МО и обучающим данным и классификация классов атак на искусственного интеллекта. Эта работа может стать основой для будущей регуляторики ИИ.

В качестве возможного решения проблем безопасности систем искусственного интеллекта в условиях децентрализованного ландшафта и привязки к решению отраслевых задач существующими центрами ИИ, может рассматриваться создание Консорциума исследований безопасности технологий искусственного интеллекта. Вступление в Консорциум ведущих разработчиков ИИ и компаний, работающих в области кибербезопасности позволит синхронизировать усилия разработчиков и специалистов по ИБ и как результат уменьшить риски при создании и использовании систем ИИ различного назначения.

Экспертом от компании «Криптонит» выступил Иван Владимирович Чижов, заместитель руководителя лаборатории криптографии по научной работе. Он рассказал, как гомоморфное шифрование может использоваться в нейронных сетях.

Одна из проблем безопасности связана с тем, что для обучения модели используются большие наборы данных, среди которых могут оказаться персональные, или связанные с коммерческой тайной. Существует ряд специфических атак, позволяющих восстанавливать и сопоставлять данные из обучающих выборок конкретным людям и объектам.

Защититься от атак этого класса можно с помощью шифрования, но классические криптографические схемы непригодны для машинного обучения. Нейросеть не может обучаться, получая на вход зашифрованные данные. В качестве альтернативы сейчас предлагается использовать гомоморфные схемы шифрования. Они позволяют выполнять некоторые математические операции над зашифрованными данными без необходимости их предварительного расшифрования.

Есть два класса таких систем: частично и полностью гомоморфные. Частично гомоморфные системы (PHE) — это схемы шифрования, которые выполняют несколько операций над зашифрованными данными, но при этом не выражают весь класс вычислимых функций. Обычно это только сложение и умножение. Например, схемы RSA и El-Gamal гомоморфны по операции умножения.

Сложнее устроены уровневые полностью гомоморфные схемы шифрования (LFHE). Они могут выполнять больше разных функций с шифротекстами, например — возведение в пятую степень, или вычисление синуса, однако и у них есть пределы. Несмотря на эпитет «полностью гомоморфные», реально существующие схемы обеспечивают гомоморфность только в пределах какого-то уровня, что и нашло отражение в названии. Ограничения возникают из-за того, что нелинейный слой в нейросетях выполняет приближение к полиномам, а дальше уже происходит вычисление полинома гомоморфным способом. Из-за этого теряется точность, а при повторных операциях — накапливаются ошибки. Поэтому важно понимать пределы применимость LFHE, выйдя за которые вы получите просто цифровой шум.

«Гомоморфное шифрование способно сделать ИИ безопаснее, поскольку обеспечивает конфиденциальность данных и моделей машинного обучения. Вдобавок, оно не требует интерактивного взаимодействия между пользователем и сервисом, как не требует и посредников для передачи конфиденциальной информации. Однако это лишь перспективное направление, а не панацея», — пояснил Иван Владимирович.

Он отметил, что на сегодня гомоморфное шифрование не защищает от состязательных атак, не требующих знания особенностей нейросети. При этом с гомоморфным шифрованием существенно снижается скорость и точности работы нейросетей, а в системах с большим количеством владельцев обучающих данных оно не обеспечивает достаточную гибкость. Поэтому на практике концепции PHE/LFHE в машинном обучении пока применять сложно, хотя перспективы они имеют очень серьёзные.

В России существует специализированный Исследовательский центр доверенного ИИ. На конференции его представлял руководитель, к.ф.-м.н. Денис Юрьевич Турдаков.

Он обратил внимание на то, что атаки на ИИ возможны на всех этапах жизненного цикла модели машинного обучения: подготовки датасетов (добавление закладок в обучающие данные), обучения модели (внедрение бэкдоров уже в алгоритм модели), эксплуатации (состязательные атаки), а также атаки на код и цепочки поставки.

«Обычный дата-сайентист никогда не отличит злонамеренную закладку от ошибки модели машинного обучения. Про атаки на уровне цепочек поставок он вообще не думает. Например, тот же TensorFlow он скачивает в бинарниках и запускает как есть. Кстати, за три года нашей работы мы выявили около сотни уязвимостей в TensorFlow и PyTorch, сообщили о них открытому сообществу разработчиков и предложили исправления», — сказал Денис Юрьевич.

Отдельно в докладе рассматривались атаки на генеративные модели. Они связаны со злонамеренными манипуляциями с запросами (промптами, prompts) и направлены на то, чтобы заставить модель выдать данные, которые в обычном режиме она отфильтровывает. Например, можно «уговорить» ChatGPT составить рецепт приготовления взрывчатых и отравляющих веществ, хотя в норме система отказывается выдавать такие ответы. Это серьёзная проблема.

«Свою задачу мы видим в том, чтобы предоставить разработчикам и операторам интеллектуальных систем инструментарий для обеспечения требуемого уровня доверия. Мы уже разработали рекомендации по противодействию угрозам в сфере доверенного ИИ»,  — сказал Денис Юрьевич.

Чтобы воплотить эти рекомендации, в Центре разработали программные инструменты, которые позволяют найти аномалии в обучающих наборах, обнаружить дрейф данных, выявить предвзятость моделей и оценить устойчивость обученных моделей к атакам.

Зав. лабораторией компьютерной графики ВМК МГУ Дмитрий Сергеевич Ватолин  рассказал о проблемах биометрической идентификации в «умных» системах на примере электронного замка с системой распознавания лиц.

В норме такой электронный замок распознаёт лицо за 1–3 секунды и, если человек есть в «белом списке» — открывает ему дверь. Однако в таких системах возможно применение физической атаки на метрики по типу «состязательные патчи». Оно может быть выполнено как простая демонстрация камере специально подготовленного злоумышленником шаблона. При попытке его считывания может произойти зависание системы распознавания лиц и блокировки замка в последнем состоянии (открытом или закрытом). Такой шаблон отдалённо похож на коды DataMartix. Его можно распечатать на кепке или футболке.

«В ходе эксперимента с помощью таких шаблонов нам часто удавалось вызвать зависание электронного замка на несколько минут, а иногда он и вовсе оказывался неработоспособным до перезагрузки вручную»,  — отметил Дмитрий Сергеевич.

Сейчас готовится к принятию новый стандарт сжатия JPEG AI. Научная команда лаборатории уже протестировала версию JPEG AI 5.3, выполнив несколько типов атак в рамках модели «белого ящика». Предварительные результаты тестирования говорят о том, что JPEG AI оказался неустойчив к атакам.

Если злоумышленник имеет доступ к исходному файлу до сжатия, то можно вызывать серьезные артефакты, мешающие распознанию отдельных областей изображения, а также увеличивать размер сжатого изображения до 4 раз. Если для финальной версии стандарта JPEG AI возможность такой злонамеренной манипуляции будет подтверждена, она может привести к атакам на системы хранения данных (разновидность DDoS атаки на хранилище).

В настоящее время лаборатория изучает проблему противодействия данным атакам и анализирует переносимость результатов экспериментов на другие методы кодирования изображений.

Также в лаборатории разрабатываются атаки на методы Super-Resolution, которые позволяют при добавлении небольшого шума в видео существенно исказить его при показе на 8К экранах.

Большинство экспертов обсуждали различные аспекты доверенного ИИ, но не все считали реалистичной эту концепцию в целом. Сотрудник кафедры ИБ факультета ВМК МГУ Евгений Альбинович Ильюшин выразил мнение, что «доверенный искусственный интеллект» — это некий недостижимый в реальном мире идеал. Для его создания пришлось бы доверять всем элементам ИИ на всех уровнях.  Оснований для такого безоговорочного доверия нет, и вряд ли они вообще возможны за пределами абстрактной модели. Поэтому на практике целесообразнее оценивать надёжность ИИ по каким-то исчисляемым и проверяемым параметрам.

Сейчас ИИ оценивают, используя статистические, формальные и эмпирические критерии. В большинстве случаев применяют статистические оценки, такие как точность, полнота, F-мера и т. д. Однако в последнее время стало очевидно, что таких оценок недостаточно. Необходимо дополнительно применять формальные оценки, а также эмпирические (AI Red Teams). То есть, необходимо выполнять комплексную оценку надежности ИИ-систем, которая включает в себя все вышеперечисленные подходы. Как раз такую и разработал Евгений Ильюшин.

Она состоит из шести тестов, по каждому из которых результат можно выразить в долях единицы (или в процентах). Приведём их ниже, а затем рассмотрим подробнее:

— оценка качества на исходном распределении;

— оценка устойчивости к сдвигам в распределении;

— оценка устойчивости к состязательным атакам;

— оценка неопределённости (энтропии);

— оценка интерпретируемости;

— способность системы детектировать выход из распределения.

Понятно, что требования для развлекательных и медицинских систем ИИ совершенно разные. Поэтому в зависимости от конкретной задачи результатам по каждому тесту присваиваются разные весовые коэффициенты, а затем вычисляется общий показатель надёжности оцениваемой системы ИИ.

Условимся, что «надёжность» означает способность ИИ предсказуемо работать и корректно обрабатывать возникающие в процессе её работы ошибки. Последнее свойство часто называют устойчивостью (robustness).  Очевидно, что никакая система не может быть устойчива к возникновению любых ошибок. Поэтому в функциональной безопасности определение свойства устойчивости похоже на те определения, которые нам известны из математики: устойчивость по Лившицу, или по Ляпунову. Его суть заключается в том, что небольшие изменения данных на входе не должны приводить к значимым искажениям на выходе.

Имеющиеся на рынке продукты с ИИ не всегда удовлетворяют этим требованиям. Например, некоторые системы кредитного скоринга можно заставить выдать ошибочный кредитный рейтинг, осуществив небольшую манипуляцию с входными данными, заметить которую сложно.

Почему так происходит? Большая часть атак на системы ИИ выполняется именно на уровне данных. При этом надёжность модели машинного обучения оценивается исходя из заведомо ложного условия: данные в тренировочной, валидационной, тестовой и рабочей выборках распределены одинаково и независимо. В реальности модели, как правило, обучаются на данных с одним распределением, а работают уже с другим, и этот сдвиг распределения никак не учитывается.

Евгений Ильюшин считает, что при оценке надёжности систем ИИ нужно смотреть, как они сохраняют устойчивость при разных типах сдвига и способны ли вообще детектировать выход из распределения. Он отметил, что на сегодня в машинном обучении нет надёжных способов обнаружить ошибку. Если классическое ПО в случае сбоя выдаст исключение или перестанет работать, то ИИ попытается продолжить работу с любыми данными, которые вы ему дадите.

О важности системного подхода к разработке ИИ-моделей для продуктов ИБ рассказали сотрудники ГК Solar:   руководитель R&D лаборатории центра технологий кибербезопасности Максим Сергеевич Бузинов и старший аналитик Полина Витальевна Сокол.

Максим Сергеевич отметил, что технологии машинного обучения всё активнее применяются в сфере информационной безопасности. Они востребованы для противодействия угрозам нулевого дня, в поиске аномалий поведения ПО и сотрудников, разборе инцидентов.

«Мы разделили наши исследования на две ветки: Run и Dev. В первой собраны все многократно проверенные решения, соответствующие конкретным бизнес-метрикам и ориентированные на жёсткие требования заказчика. Во вторую мы поместили перспективные исследования по анализу данных и потенциально прорывные темы», — сказал Максим Бузинов.

Для нейронных сетей мы сохраняем запросы для дальнейшего анализа модели на устойчивость к атакам, чтобы потом проверить, на какие конкретно аномалии она странно реагирует. Используем GAN для тренировки на состязательных примерах.

Риски применения чужих моделей машинного обучения понятны — в них могут быть бэкдоры на разных уровнях. Поэтому перед использование опенсорсных моделей нужно выполнять анализ их кода (SAST/DAST) и проверять результаты на известных датасетах.

Если же мы сами сделали модель, то должны защитить наш конвейер обучения. Существуют атаки на части конвейера, которые в основном нацелены на целостность и доступность данных, а также на препятствие обучению модели на новых данных. Основной метод  защиты: ограничение доступа ко всем частям конвейера и мониторинг изменений кода в инструментах извлечения и анализа данных (ETL).

О проблеме конфиденциальности данных в моделях машинного обучения рассказал директор продукта компании Data Sapience Павел Владимирович Снурницын. Он подчеркнул, что в каждой компании есть данные, обеспечивающие её конкурентное преимущество. Поэтому одна из задач состоит в том, чтобы ограничить доступ сторонних решений на базе ИИ к этим данным.

С другой стороны, чем меньше реальных данных доступно модели на этапе обучения, тем хуже она потом работает на этапе применения, и в итоге компании упускают потенциальную выгоду от объединения своих данных друг с другом.

Сам подход коллаборации данных и аналитики не является новшеством. Например, давно существуют бюро кредитных историй, в которые банки передают данных о своих кредитных портфелях, где строится общая скоринговая модель на совокупных данных, которая в виде сервиса предоставляется обратно банкам и повышает качество принятия решений по выдаче новых кредитов. Еще один пример: сервисы кредитных скорингов от телеком операторов. В целом объединение данных различных индустрий для взаимного улучшения качества процессов принятия решений имеет очень большие перспективы.

Законодательно организация имеет право передавать вовне далеко не все данные. Есть такие понятия как персональные данные, банковская тайна, медицинская тайна и т.д. А даже если к чувствительным данным перед передачей применены простейшие подходы такие как анонимизация, хеширование или токенизация, все равно такие схемы могут быть подвержены атакам деанонимизации, то есть когда по косвенным признакам удается восстановить какую-то конфиденциальную информацию о субъекте данных. Более того,   чем больше в схеме коллаборации данных участников, тем выше риск утечки данных на каком-то из этапов взаимодействия.

Для дополнительного обеспечения конфиденциальности и безопасности в схемах коллаборации данных, существуют продвинутые методы конфиденциальной аналитики

Например, в концепции федеративного обучения происходит разделение процесса обучения модели. У каждого владельца данных локально обучается фрагмент модели. Затем эти фрагменты агрегируются, происходит усреднение весов и формирование глобальной модели.

Ещё один инновационный подход заключается в использовании синтетических данных, сохраняющих структурные связи. На стороне владельца данных обучается модель, которая запоминает зависимости реальных данных, а затем генерирует синтетический датасет. Дальнейшие этапы обучения уже происходят на нём без доступа к реальным данным.

Есть другая интересная концепция — дифференциальной приватности. Она подразумевает защиту слоя данных от процесса обучения модели через протокол, который даёт устойчивость к дифференциальным атакам. Эта концепция призвана снизить риск извлечения чувствительных данных путём злонамеренных манипуляций с запросами.

Существуют и более строгие криптографические протоколы для ML. Среди них гомоморфное шифрование и безопасные многосторонние вычисления, про которые уже говорили в предыдущих докладах. Павел Владимирович добавил, что есть и другое направление. Активно применяются так называемые «безопасные криптоанклавы» — это защищённые на аппаратном уровне области памяти и регистры процессора. Такой подход кажется максимально надёжным, но с ним встаёт вопрос доверия зарубежному производителю и необходимость разрабатывать собственные аппаратные решения такого типа.

В ходе встречи эксперты обсудили множество направлений разработки, обучения и ответственного использования систем искусственного интеллекта. Какие из них станут новой реальностью — зависит от потребностей бизнеса и действий регуляторов. «Криптонит» работает в каждом из этих направлений, объединяя усилия лабораторий криптографии, искусственного интеллекта, отдела перспективных исследований и других подразделений компании.

Запись встречи можно посмотреть на VK video и RuTube.

© Habrahabr.ru