Атака на модели машинного обучения сбивает робоавтомобили
Набор экспериментальных изображений с художественными стикерами на разных расстояниях и под разными углами: (а) 5 футов, 0 градусов; (b) 5' 15°; © 10' 0°; (d) 10' 30°; (e) 40' 0°. Обман работает на любом расстоянии и под любым углом: вместо знака «Стоп» система машинного обучения видит знак «Ограничение скорости 45 миль»
В то время как одни учёные совершенствуют системы машинного обучения, другие учёные совершенствуют методы обмана этих систем.
Как известно, небольшие целенаправленные изменения в картинке способны «сломать» систему машинного обучения, так что она распознает совершенно другое изображение. Такие «троянские» картинки называются «состязательными примерами» (adversarial examples) и представляют собой одно из известных ограничений глубинного обучения.
Для составления состязательного примера нужно максимизировать активацию, например, определённого фильтра свёрточной нейросети. Иван Евтимов из Вашингтонского университета вместе с коллегами из Калифорнийского университета в Беркли, Мичиганского университета и Университет штата Нью-Йорк в Стоуни-Брук разработали новый алгоритм атаки — надёжные физические пертурбации (Robust Physical Perturbations или RP2). Он очень эффективно сбивает зрение беспилотных автомобилей, роботов, мультикоптеров и любых других роботизированных систем, которые пытаются ориентироваться в окружающем пространстве.
В отличие от предыдущих исследований, здесь авторы сконцентрировались на изменении непосредственно самих объектов, а не фона. Задачей исследователей было найти минимально возможную дельту, которая бы сбивала классификатор системы машинного обучения, который обучался на наборе данных с изображениями дорожных знаков LISA. Авторы самостоятельно сделали ряд фотографий дорожных знаков на улице в разных условиях (расстояние, углы, освещение) и дополнили набор данных LISA для обучения.
После вычисления такой дельты была выявлена маска — такое место (или несколько мест) в изображении, которое наиболее надёжно вызывает пертурбации у системы машинного обучения (машинного зрения). Был проведён ряд экспериментов для проверки результатов. В основном, эксперименты проводились на стоп-сигнале (знак «STOP»), который исследователи несколькими безобидными манипуляциями превращали для машинного зрения в знак «SPEED LIMIT 45». Разработанную технику можно использовать на любых других знаках. Авторы затем испытали её на знаке поворота.
Научный коллектив разработал два варианта атаки на системы машинного зрения, которые распознают дорожные знаки. Первая атака — маленькие незаметные изменения по всей площади знака. С помощью оптимизатора Adam им удалось минимизировать маску для создания отдельных таргетированных состязательных примеров, нацеленных на конкретные дорожные знаки. В этом случае можно обманывать системы машинного обучения минимальными изменениями картинки, а люди вообще ничего не заметят. Эффективность этого типа атаки проверяли на напечатанных постерах с небольшими изменениями (сначала исследователи убедились, что система машинного зрения успешно распознаёт постеры без изменений).
Второй тип атаки — камуфляжная. Здесь система имитирует или акты вандализма, или художественные граффити, чтобы система не мешала жизни окружающих людей. Таким образом, человек-водитель за рулём сразу увидит знак поворота налево или стоп-сигнал, а робот увидит совершенно другой знак. Эффективность этого типа атаки проверяли на настоящих дорожных знаках, которые заклеивали стикерами. Камуфляж-граффити состоял из стикеров в форме слов LOVE и HATE, а камуфляж типа абстрактного искусства — из четырёх стикеров прямоугольной формы чёрного и белого цветов.
Результаты эксперимента показаны в таблице. Во всех случаях показана эффективность обмана классификатора машинного обучения, который распознаёт видоизмененный знак «STOP» в качестве знака «SPEED LIMIT 45». Расстояние указано в футах, угол поворота — в градусах. Во второй колонке показан второй класс, который видится системе машинного обучения в видоизменённом знаке. Например, с расстояния 5 футов (152,4 см) камуфляж типа абстрактного искусства под углом 0° выдаёт такие результаты распознавания знака «STOP»: с уверенностью 64% он распознаётся как знак «SPEED LIMIT 45», а с уверенностью 11% — как знак «Конец полосы» (Lane Ends).
Легенда: SL45 = Speed Limit 45, STP = Stop, YLD = Yield, ADL = Added Lane, SA = Signal Ahead, LE = Lane Ends
Возможно, такая система (с соответствующими изменениями) понадобится человечеству в будущем, а сейчас её можно использовать для тестирования несовершенных систем машинного обучения и компьютерного зрения.
Научная работа опубликована 27 июля 2017 года на сайте препринтов arXiv.org (arXiv:1707.08945).