[recovery mode] Критерии качества работы видеоаналитики. Часть 427.05.2015 10:18

В чем ее измерить? И какую полезную конверсию мы хотим получить от видеоаналитики?

Удивительно, но все эти аналитические темы статей задают здешние пользователи. Видимо, таково проведение. Итак, чтобы ответить на предыдущий вопрос, какое направление видеоаналитики более эффективно (жесткое или гибкое), нужно определиться, в чем мы будем «вешать»?

Вот пост от пользователя ErmIg: «При тестировании точности алгоритмов видеоаналитики, как правило, всегда задают однозначный критерий, по которому можно судить о корректности работы видеоаналитики в данной ситуации…Для так называемой жесткой аналитики (воспользуюсь терминологией автора, хотя я слышал ее только из его уст), критерий точности однозначен — у разных экспертов обычно не вызывает сомнения факт, что кто-то пересек сигнальную линию или, что объект является машиной или человеком. Вопрос по гибкой видеоаналитике: что считать нестандартным поведением? У разных экспертов могут быть противоположные точки зрения по этому вопросу. Как количественно тестировать такую аналитику?».

Спасибо большое за коммент! Он дал повод для этой статьи. И у меня возник попутный вопрос: если мы даже в результате тестов докажем, что жесткая видеоаналитика полностью выполняет свои функции, будет ли это свидетельствовать, что она дает полезный эффект?

Думаю, чтобы задать критерии измерения, нужно понять, какую полезную транзакцию мы хотим получить от видеоаналитики? Если верить Википедии, алгоритмы видеоаналитики «чаще всего используются в видеонаблюдении и других сферах безопасности». Что является полезной составляющей в наиболее актуальной в данном случае сфере — в видеонаблюдении? Чем может помочь эта технология в конкретно взятой области?

Ответ почти очевиден. Человек не может охватить поток видеоинформации, сваливающийся на него с десятков камер каждую секунду и доли секунд. Даже, если ничего не происходит, оператор все равно должен внимательно вглядываться в мониторы, чтобы не пропустить ничего важного. Человек просто физически не способен делать это 8 часов подряд. А, как утверждают многие «аналитики», и 10 минут в час.

Значит (как вариант ответа), предназначение видеоаналитики в том, чтобы привести в соответствие возможности человека с его задачами по слежению за происходящим на экранах мониторов. Но стоит ли перед оператором видеонаблюдения задача — отслеживать всех, кто пересек какую-нибудь линию? Если в этой задаче жесткой видеоаналитики полезный смысл?

Допустим, через линию постоянно проходят люди туда-сюда. Перед оператором все время выскакивают тревожные сообщения, например, один раз в секунду. Решит ли это задачу — сократить объем потока информации?

Согласен, взяли экстремальный вариант, упрощаем. В офисе работает лишь 50 — 100 человек, они заходят-выходят лишь в 9 утра, с 13 до 14, и в 18.00. В три этих периода упростить жизнь оператору жесткая видеоаналитика не сможет. В остальное время, может быть, заходит — выходит по 3–5 человек в час. И вот тогда мы имеем хороший шанс для оправдания применения этой недешевой и нетривиальной технологии.

Только в случае с жесткой видеоаналитикой, как уже много говорили, мы столкнемся с высоким количеством помех. Собачки, кошечки, тени от деревьев на земле, жучки на камерах, птички, блики… — все они могут пересекать эту линию. Чтобы их отфильтровать, нужно задать жесткие параметры фигуры человека. Но они основываются на контрастном видеодетекторе, который видит изменения кадра лишь относительно фона и, в зависимости от цвета одежды, активности конечностей человека, количества рядом движущихся целей, падения теней и много другого, могут воспринимать человеческую фигуру и как крупный автомобиль, и как множество мелких целей типа птичек. И наоборот, группа голубей на асфальте создаст рамку детекции — идентичную человеческой.

Хотелось бы, конечно, допустить, что все эти проблемы возникают лишь в какие-то непогожие дни или ночью, но даже солнце может давать такие отбрасывания теней от деревьев, что никакими методами их не отфильтруешь: у солнца нет постоянного местоположения — тени все время в разных местах, нет закономерности в скоростях появления из-за туч — в России туч много. Нет точных параметров теней — с разных сторон деревья будут иметь разной величины и формы тени. А с дуновением ветерка поверх листвы картина усложняется в сотни раз.

Естественно, что разработчики видеоаналитики заявляют о всевозможных фильтрах всевозможных помех, но в реальности помеховые вопросы ставят перед делеммой: как можно сильнее отстроиться от помех и реагировать только на четко выраженную фигуру и закрыть глаза на какую-то часть людей или меньше терять полезные цели, но при этом брать больше помех (лажать).

По сути вышесказанное частично говорит, что жесткая видеоаналитика на улице вообще бесполезна, т.к. забьет оператора ложными сработками на таком же уровне, что и обычное видеонаблюдение. Но у нас есть и внутренние помещения, как она поведет себя там?

Однако в помещениях тоже есть тени, а также ряд — хотя и значительно меньший, чем на улице — своих помех. Кроме того, детектор объектов пока не научился распознавать групповые цели, что пагубно влияет и для уличного, и для внутреннего видеонаблюдения. Хотя, в помещениях нет смысла предполагать, что вместо людей, поедет машина, поэтому любую достаточно крупную рамку детекции можно выводить оператору на просмотр.

Только теперь мы забыли, что в офисе работает 50 или даже 100 человек, и они все ходят по помещениям в рабочее время. Т.е. оператор будет загружен постоянными сработками! В результате, и с 9 до 18 толку от такой видеоаналитики тоже нет. Хотя очень хочется услышать хоть один аргумент против этих выкладок.

Прошерстим теперь гибкую видеоаналитику — трактуемую Википедией как ВИДЕОСЕМАНТИКА.

Она якобы не зависит от помех, потому что помехи входят в состав статистики, на которой и базируется анализ. Т.е. были помехи — стали помехи, статистика не изменилась. Появилась отличающаяся от помех информация — сработка. Однако какой же объем базы данных по статистике надо в себе держать? Как минимум, требуется записать помехи за последнюю неделю и со всех камер. Записать-то, может быть, и можно, но делать выборку налету? Навряд ли есть такие процессорные мощности. Хотя алгоритмы индексирования такой подход и упрощают, но при этом, естественно, уменьшают точность данных.

В краткосрочном режиме, статистика все-таки, наверное, выигрывает, потому что повторяющийся характер помех именно в этот день именно при этих погодных условиях, именно при этой освещенности и при всех других факторах чаще всего будет неизменным. Но это не отменяет собачек и кошечек или птичек на асфальте.

Хотя и тут есть существенные преимущества. Сработка на ту же кошку будет, скорее всего, только одна — сколько бы та ни лазила в некий период времени. Просто потому, что характер рамки детекции, передвижения, цветовой гаммы и других параметров, на которых основана видеосемантика, будут мало изменяемым. Т.е. вместо постоянного дублирования помехи — как в жесткой видеоаналитике, произойдет только одна ложная сработка. Хотя и только в ограниченный период времени, но выигрыш все-таки можно засчитать.

В общем, хотя об этом можно говорить долго, с помехами видеосемантика расправляется лучше жесткой видеоаналитики — значительно лучше, но есть ли у гибкого анализа полезная составляющая, а берет ли она нужные цели? И сокращает ли она поток лишней информации, который обрушивается на оператора, когда перед камерами то в офисе, то на улице постоянно ходят 100 человек?

Оказывается, видеосемантика вообще на них не реагирует, просто не замечает — вот так номер! Она также основана на контрастном видеодетекторе — просто потому, что ничего другого в видеонаблюдении нет и быть не может (по крайней мере, в видимом спектре). И поэтому для нее: что люди, что помехи — один и тот же контент, никакой разницы. Ну, или почти никакой, конечно, какие-то элементы из жесткой видеоаналитки там есть -тот же детектор объектов, но мы-то уже знаем, что работает он никудышно. В видеосемантике, в принципе, присутствуют алгоритмы жесткой видеоаналитики, но лишь для статистики, они входят в общий анализ статистики. Так кого же она ловит?

Никого не ловит, ни о каких пересечениях линий не докладывает. Спокойно относится к тому, что люди их пересекают, если они пошли на обед. Но любое движение в этой же области или в другой, которое не встречалось в статистике ранее, вызывает сработку. Т.е. с 9 до 13 и с 14 до 18 видеосемантика будет исправно реагировать на определенных нами условиями задачи 3 — 5 человек в час, потому что по статистике в это время толпы не ходят. И не забьется помехами — в той степени, как жесткая видеоаналитика.

Таким образом, мы получаем уже рабочий вариант, который выдает полезную транзакцию. А что будет в обед и во время прихода — ухода с работы? Да даже пристальное внимание охранника на мониторы не сильно поможет в поиске проблемных моментов. А компьютерный интеллект не может быть выше человеческого. Хотя…

Видеосемантика при этом будет:1. Указывать оператору на начало загруженного людьми периода — появление толпы.2. На окончание такового.3. На отклонение траекторий, скорости и действий отдельных людей от общего потока, что теоретически может свидетельствовать об опасности.

Т.е. в этот период видеосемантика в какой-то степени тоже работает. Она не забивает тревогами каждую секунду оператора, а выдает только отклонения от стандартного — имеющегося в статистике — характера поведения. Да, возможно, там не будет криминала, но кто говорил здесь о криминале? В начале статьи мы определились, что задача видеоаналитики состоит в том, чтобы сократить бесполезный поток информации.

Так же анализируются и другие передвижения по офису. Охраннику или просмотрщику архива (начальнику безопасности) видеосемантика выводит только отклонения действий людей (иногда и помех — значительно меньших, чем в жесткой видеоаналитике). Таким образом, оператор способен выявить несанкционированное поведение и даже подготовку к нему, потому как оно обычно требует нестандартных действий: движений в редко посещаемых зонах, перемещений редко используемых предметов, поднятия — опускания вещей с редко используемых мест, другие траектории, другие скорости, другие условия освещенности при тех же самых действиях…

Но вдруг я слышу негодующий вопрос:, а решает ли видеосемантика антикриминальную задачу, если злоумышленник полностью подстраивается под обычное поведение толпы? И тут я сам хочу задать встречный вопрос:, а заметит ли даже самый зоркий оператор такое явление? Напомню, мы пока решаем задачу — сделать видеонаблюдение удобным для человека, а не превзойти человека.

Однако делаются попытки и в этом направлении, причем как со стороны жесткой, так и гибкой видеоаналитики, но это тема следующей статьи, если не забанят (немного уже осталось кармы — ох, не всем нравятся эти выводы.

P.S.: Хочу лишь заметить, что видеосемантика, кроме того, что выигрывает в борьбе с помехами, не требует сложных настроек, как в жесткой видеоаналитике. Видеосемантка основана на статистике –, а значит, на самообучении. Это особенно важно и при смещении обзора камер (от ветра), и при изменении погодных условий, сезонов зима — лето, когда помеховая обстановка в корне меняется, и все надо перенастраивать. Видеосемантика проста и неприхотлива, что делает ее практичней, с точки зрения выводов этой статьи. ИМХО.

Поедем дальше?