6 внутренних факторов, влияющих на эффективность распознавания лиц с видеокамер

Всем привет! В предыдущей статье я уже рассказывал о том, как внешние факторы могут влиять на скорость и точность работы систем распознавания лиц на видеопотоках. Сегодня речь пойдет о не менее важных внутренних аспектах — архитектуре системы и правильном выборе и настройке оборудования.

Вначале немного о том, как проводились испытания:

  • Испытания проводились с ноября 2023 по июль 2024 года в трех городах — Санкт-Петербурге, Москве и Челябинске, что позволило учесть различные климатические условия и сезонные изменения.

  • Использовались камеры с разными параметрами разрешения и углами обзора, а также проверялась высота установки (2–4 м) и места монтажа (например, опоры светофоров и общественного транспорта).

  • В общей сложности из ~5 500 лиц прохожих было произведено 1 056 попыток идентификации участников по базе в 528 000 лиц.
    (Более подробно об условиях испытаний).

А теперь к результатам:

Внутренние факторы:

1. Пропускная способность сети

Степень влияния — низкая (4 потери на 1056 попытках).

Существующая городская инфраструктура может оказаться не готова к «прокачиванию»‎ основных (лучших по качеству и разрешению) потоков видео с большого количества камер до ЦОД. В итоге мы получаем пропуски кадров и кратковременные зависания видео. Были случаи, когда мы теряли не единичные кадры, а целые проходы людей.

2. Стабильность работы оборудования

Степень влияния — значимая (11 потерь на 1056 попытках).

При передаче потока с камеры до серверов видеоаналитики данные проходят через ряд устройств: саму камеру, POE-коммутатор, свитчи на пути в ЦОД, сервер видеозаписи, сервер видеоаналитики, сервер хранения векторов лиц и сбора результатов идентификации. Все это железо может дать сбой именно в тот момент, когда нужный нам человек окажется в поле зрения камеры и будет смотреть в ее сторону.

Пример изображения с камеры во время сбоев оборудования

Пример изображения с камеры во время сбоев оборудования

3. Разрешение изображения с камеры

Степень влияния — значимая (22 потери на 1056 попытках).

Чем выше разрешение камеры, тем выше соблазн использовать ее для охвата наибольшей территории. Это приводит к тому, что относительный размер лиц становится меньше, добавляются искажения при приближении к краям кадра, а общее качество лиц «проседает». При увеличении разрешения начинает увеличиваться стоимость камеры, а еще добавляются затраты на инфраструктуру доставки потока в ЦОД и дисковое хранилище.

Изображения с 2K и FullHD камер

Изображения с 2K и FullHD камер

4. Качество матрицы камеры

Степень влияния — высокая (27 потерь на 1056 попытках).

Пока человек движется в поле зрения камеры, система отслеживает его лицо и ищет наилучшее изображение по углам наклона/поворота, размытости, расстоянию между глазами, освещенности и т.д. Анализу подвергаются от 15 до 30 кадров в секунду на протяжении нескольких секунд. Камеры эконом сегмента дают низкое качество изображений с матрицы (шумы и помехи). В итоге такие изображения могут быть отброшены алгоритмами оценки качества, а более подходящих кадров может и не появиться.

Сравнение изображений с камер с низким и высоким качеством матрицы

Сравнение изображений с камер с низким и высоким качеством матрицы

К тому же матрицы более дешёвых камер могут раньше прийти в негодность, «подгорев» на солнце, что добавит дополнительные шумы и размытия на изображении, делая камеру бесполезной для распознавания лиц.

Пример изображения с дешёвой камеры, находящейся под прямым воздействием солнечных лучей

Пример изображения с дешёвой камеры, находящейся под прямым воздействием солнечных лучей

5. Производительность серверов видеоаналитики (перегрузка >80%)

Степень влияния — высокая.

Чем выше разрешение потока с камеры, больше людей на видео и больше потоков, поступающих на обработку, тем выше нагрузка на вычислители. Защита от падений при пиковых нагрузках заключается в том, что вместо полного прекращения работы система начинает отбрасывать часть подаваемых на анализ кадров. Это сохраняет ее работоспособность, но может приводить к тому, что удачные ракурсы лиц будут попросту исключены из анализа. В таблице ниже видно, что наращивание числа видеопотоков на сервер в какой-то момент начинает приводить к снижению FPS (числа кадров в секунду) с 25 до 17, а следовательно начинает падать и общее число идентификаций с 235 до 196.

Результаты нагрузочного тестирования

Результаты нагрузочного тестирования

6. Качество эталонных фото в базе

Степень влияния — высокая (31 ложная сработка на 1056 попытках).

Эталонные фотографии в базе с низким качеством, на основе которых строится вектор для распознавания лиц на видео, приводят к большому числу ложных срабатываний.

Пример изображения из базы низкого качества

Пример изображения из базы низкого качества

Как управлять внутренними факторами?

881077d46be7548cb4c5ecc0626077c8.png

  1. Высокое разрешение изображения с камеры не так важно. Лучше взять специализированную длиннофокусную камеру с меньшим выходным разрешением, но обеспечить крупные лица в кадре. Это сократит потребность в пропускной способности сети, потребность в дисковом пространстве для хранения видео и потребность в серверных мощностях для видеоаналитики.

  2. Видео лучше обрабатывать на периферии (непосредственно на перекрёстках в местах установки камер) специализированными edge-устройствами вместо передачи «богатого потока» в ЦОД. Так сокращается риск потерь идентификаций из-за сбоев при передаче данных, сокращаются затраты на строительство и содержание линий связи и коммутационного оборудования, а также на хранение видео в ЦОД.

    9ec1c3b141876e2d34697ea594c9070c.png
  3. Следите за качеством эталонных фото в базе, иначе повышается вероятность ложных идентификаций или пропусков.

  4. У спецслужб нет ресурса на отработку ложных идентификаций, поэтому принцип »‎не распознали на этой камере, распознаем на другой» позволяет повысить порог уверенности идентификации и, таким образом, сократить количество ложных сработок и не дискредитировать систему. Рекомендованный порог уверенности идентификации устанавливается так, чтобы сократить количество ложных сработок на базах в более 500 000 лиц. Нужно оценить, какое количество людей будет проходить перед камерой в сутки, и решить, на какое количество ложных сработок будут готовы отреагировать пользователи (охрана, спецслужбы). Воспользовавшись графиком соотношения FAR/FRR (Вероятность ложной идентификации постороннего / Вероятность ложного пропуска искомого), можно выбрать оптимальный порог. Например, в нашей системе этот порог составляет 87,6%

    9919b43a78b31f394b7d0055c09e4aa8.png

Заключение

Для того чтобы выжать максимум из системы распознавания лиц, необходимо комплексно подходить к выбору и настройке всех компонентов, включая камеры, сервер видеоаналитики и сервера хранения данных.

Надеюсь, что результаты и материалы исследования помогут интеграторам систем видеонаблюдения с распознаванием лиц избежать ненужных ошибок при проектировании, монтаже и эксплуатации таких систем.

© Habrahabr.ru