Обман автоматизированных камер наблюдения25.04.2019 18:17

В последние годы возрос интерес к моделям машинного обучения, в том числе для распознавания зрительных образов и лиц. Хотя технология далека от совершенства, она уже позволяет вычислять преступников, находить профили в социальных сетях, отслеживать изменения и многое другое. Simen Thys и Wiebe Van Ranst доказали, что, внеся лишь незначительные изменения во входную информацию свёрточной нейронной сети, можно подменить конечный результат. В этой статье мы рассмотрим визуальные патчи для проведения атак на распознавание.

Первые атаки на системы распознавания представляли собой небольшие изменения пикселей входного изображения для обмана классификатора и выведения неправильного класса.

Цель состояла в том, чтобы создать патч, способный успешно скрыть человека от детектора. В результате получалась схема атаки, которую можно было использовать, например, для обхода систем наблюдения. Злоумышленники могут незаметно красться, держа перед собой небольшую картонную табличку с «патчем», направленную к камере наблюдения.

Развитие cвёрточных нейронных сетей (СНС) привело к огромным успехам в области компьютерного зрения. Управляемый данными сквозной конвейер, в котором СНС обучаются на изображениях, показал наилучшие результаты в широком спектре задач компьютерного зрения. Из-за глубины этих архитектур нейронные сети способны изучать самые базовые фильтры в нижней части сети (где поступают данные) для достижения абстрактных высокоуровневых функций наверху. Для этого типичная СНС содержит миллионы изученных параметров. И хотя такой подход приводит к очень точным моделям, интерпретируемость резко снижается.

В исследованиях для обмана систем наблюдения использовались самые разные изображения, включая абстрактный «шум» и размытие.

Для создания патча использовалось исходное изображение, которое претерпевало следующие преобразования:

поворот на 20 градусов;
наложение шума;
размытие;
модификация яркости;
модификация контраста.

Исследователи провели множество Inria-тестов для выявления наилучшего «сокрытия» человека.

Для достижения нужного эффекта изображение 40×40 сантиметров (которое в докладе экспертов обозначено словом patch) должно располагаться посередине detection box камеры и находиться в ее поле зрения постоянно. Конечно, этот способ не поможет человеку скрыть лицо, однако алгоритм обнаружения людей в принципе не сумеет обнаружить в кадре человека, а значит, последующее распознавание черт лица также не будет запущено.

В качестве демонстрации исследователи опубликовали видеодемонстрацию возможностей визуальных патчей:

[embedded content]

Код проекта на GitHub.
Исследование.