[Перевод] Wi-Fi роутер научили обнаруживать людей в комнате
Представьте, что ваш Wi-Fi роутер превратится в устройство слежения. Звучит антиутопично? Но исследователи из Университета Карнеги-Меллона уверяют, что это хорошая идея для помощи пожилым людям. С помощью Wi-Fi маршрутизаторов, нейросетей и глубокого обучения они смогли создать изображения субъектов в комнате в полный рост.
Недавнее исследование показало, что вместо привычных способов можно использовать простые Wi-Fi-маршрутизаторы. Они позволяют успешно определять позы и положение людей и четко отображать их в 3D.
Привычные технологии наблюдения (камеры слежения, радарные технологии и пр.) имеют свои недостатки. У одних проблемы с конфиденциальностью (вряд ли кто-то захочет установить камеру наблюдения в своей ванной), у других космическая стоимость.
Новое исследование может стать прорывом в области здравоохранения, безопасности, игр (VR) и множества других отраслей. Wi-Fi позволит решить типичные проблемы обычных камер наблюдения: плохое освещение и препятствия (например, закрывающая обзор мебель), а также потеснит традиционные радарные датчики, LiDAR и т. д., так как новое решение получается дешевле и потребляет меньше энергии.
Однако это открытие связано с множеством потенциальных проблем с конфиденциальностью. Если технология станет популярной, за движениями и позами можно будет следить — даже сквозь стены — без предварительного уведомления или согласия.
Восприятие людей через WiFi-антенну, обход препятствий
Исследователи использовали три антенны Wi-Fi с маршрутизатора TP-Link Archer A7 AC1750 стоимостью 50 долларов. Оборудование расположили в комнате с людьми, после чего успешно получили каркасную визуализацию тех, кто находился внутри.
С помощью алгоритмов искусственного интеллекта исследователям удалось создать из сигналов Wi-Fi, которые отражаются от людей, 3D-изображения.
С технической точки зрения это выглядело так: исследователи проанализировали амплитуду и фазу сигнала Wi-Fi, чтобы найти сигналы «помех» человека, а затем позволили алгоритмам искусственного интеллекта создать изображение.
Результаты исследования показывают, что модель, использующая сигналы Wi-Fi в качестве единственного входного сигнала, может оценивать позу нескольких объектов с той же производительностью, что и традиционные подходы на основе изображений.
Выше представлен набор синхронизированных изображений: слева находятся кадры с видео, а справа — каркасы, созданные ИИ для обнаружения Wi-Fi-сигналов. Он достаточно точно определяет количество людей, локаций и позы.
В статье, опубликованной исследователями Карнеги-Меллона, содержится подробная информация о том, как это делается. Ниже мы приводим перевод метода, но, если говорить коротко, то продемонстрированная технология основана на информации о состоянии канала сигнала Wi-Fi (CSI), которая представляет собой соотношение между волной передаваемого сигнала и волной принятого сигнала. Эти данные обрабатываются с использованием архитектуры нейронной сети с компьютерным зрением, которая может выполнять оценку позы. Чтобы упростить и, таким образом, ускорить создание каркасной визуализации человека, исследователи условно разбили человеческую фигуру на 24 сегмента.
Учёные признают, что описанный выше метод обнаружения людей и их положения не лишён недостатков, и они все ещё видят некоторые очевидные ошибки в тестовых сценариях. Ниже вы можете увидеть несколько сравнительных изображений, которые показывают «неудачные случаи». Обычно они возникают из-за необычных поз или большого количества объектов, находящихся в комнате одновременно (движок оптимально распознаёт силуэты не более трёх человек).
Некоторые очевидно неудачные изображения
На самом деле многие факторы затрудняют решение этой задачи. Во-первых, CSI, на котором основан метод, это сложные десятичные последовательности, которые не имеют пространственного соответствия пространственному местоположению, например, как пиксели изображения.
Во-вторых, классические методы опираются на точные измерения времени пролёта и угла прихода сигнала между передатчиком и приёмником. Центр объекта определяется только этой технологией. Кроме того, точность локализации всего около 0,5 метра из-за случайного фазового сдвига, допускаемого стандарт связи IEEE 802.11n/ac, и помех, которые вызывают электронные устройства в аналогичном диапазоне частот (микроволновая печь, мобильные телефоны). Для решения этих проблем учёные обратились к недавно предложенным архитектурам глубокого обучения в компьютерном зрении и предложили архитектуру нейронной сети, которая может выполнять оценку позы по сигналам Wi-Fi. Рисунок ниже иллюстрирует, как алгоритм может оценить позу, используя только сигнал WiFi в сценариях с окклюзией и несколькими людьми.
Предстоит ещё много работы, и исследователи предполагают, что их технологию можно улучшить несколькими способами. В основном, за счёт более качественных обучающих датасетов для нейросети, оценивающей положение людей на основе Wi-Fi сигналов, особенно в разных планировках помещений.
Хотя новый метод рекламируется, как конфиденциальный способ наблюдения за безопасностью одиноких пожилых людей и является очень доступным решением для этой цели, некоторые люди наверняка будут обеспокоены потенциальной угрозой шпионажа через их Wi-Fi-маршрутизаторы.
Методика
Новый подход позволяет получить UV-координаты поверхности человеческого тела из сигналов Wi-Fi с использованием трёх компонентов. Сначала сырые CSI сигналы проходят через амплитудную и фазовую очистку. Затем сеть кодер-декодер с двумя ответвлениями выполняет преобразование домена от очищенных образцов CSI до 2D-карт объектов, которые напоминают изображения. Затем 2D-объекты передаются в модифицированную архитектуру DensePose-RCNN для оценки UV-карты, представления плотного соответствия между 2D и 3D людьми.
DensePose — это технология, разработанная Meta Platforms Inc. (запрещено в России), которая создаёт трёхмерные изображения людей с помощью плоской RGB-проекции.
Для улучшения обучения сети Wi-Fi-входа, перед обучением основной сети, исследователи проводят трансферное обучение, минимизируя различия между многоуровневой картой объектов, созданной с помощью изображений, и картой, созданной сигналами Wi-Fi.
Сырые данные CSI дискретизируются с частотой 100 Гц как комплексные значения в течение 30 поднесущих частот (линейно разнесённых в диапазоне 2,4 ГГц ± 20 МГц) передающихся между 3 антеннами-источниками и 3 приёмными антеннами.
Рисунок 2
Каждая выборка CSI содержит реальную матрицу целых чисел 3 × 3 и мнимую целочисленную матрицу 3 × 3. На входе нашей сети содержится 5 последовательных выборок CSI на 30 частотах, которые организованы в виде тензора амплитуды 150 × 3 × 3 и фазового тензора 150 × 3 × 3 соответственно. Наши сетевые выходы включают 17 × 56 × 56 тензора ключевых точек тепловых карт (по одной карте 56 × 56 для каждой из ключевых точек) и тензор UV-карт размером 25 × 112 × 112 (одна карта 112 × 112 для каждой из 24 частей тела с одной дополнительной картой для заднего вида).
Рисунок 3
Сырые выборки CSI зашумлены случайным фазовым сдвигом и переворотом (см. Рисунок 3(b)). Большинство решений на базе Wi-Fi не учитывают фазу CSI.
В сырых выборках CSI (5 последовательных выборок, представленных на рис. 3(a-b)), амплитуда (