1. Технология
Для обнаружения и распознавания объектов используются алгоритмы глубокого обучения, которые производители камер успешно реализуют у них «на борту». Видеоаналитика на основе искусственного интеллекта обеспечивает нахождение на видеоизображении разных объектов. Человек, лиц, транспортное средство, номерной знак — типы объектов, наиболее актуальные для систем безопасности и бизнес-аналитики.

Видеоаналитика на основе глубокого обучения даёт возможность автоматически обнаруживать факт появления объекта в кадре, определять его расположение и тип. Кроме того, с её помощью находятся атрибуты объектов. Например, для человека это пол, возраст, цвет одежды, наличие и размер сумки. Транспортные средства классифицируются по типам — грузовик, легковой автомобиль, автобус, мотоцикл. Информация об атрибутах используется для эффективного поиска объектов и событий при обработке больших объёмов информации.

2. Параметры
2.1. Освещённость и качество изображения
Для нормальной работы видеоаналитики на основе искусственного интеллекта требуется освещённость не менее, чем 300 лк. Кроме того, испортить дело может плохое качество изображения — его низкая контрастность, наличие прямого солнечного света и т.д. Помимо этого, слишком большая выдержка и низкая частота кадров вызывают размытие при движении, что негативно скажется на работе видеоаналитики.

2.2. Высота расположения камеры
Для надёжного обнаружения объекта камеру следует направить на сцену «сбоку, а не сверху». В связи с этим угол между оптической осью объектива и горизонтальной линией должен быть не более 45°. По мере того, как объект издалека приближается к камере, с его обнаружением не будет проблем, если в поле зрения камеры уже вошло не менее, чем 2/3 его корпуса.

Например, если камера с углом обзора объектива 45° установлена на высоте 3 м (рис. 1), то слепая зона при обнаружении человека высотой 170 см имеет длину 1 м от проекции камеры на плоскость пола. Ширина участка, на котором человек ещё виден перед входом в слепую зону, — 2,5 м. На расстоянии 5,5 м от камеры этот человек уже будет виден на 2/3 (нижняя часть тела), и искусственный интеллект сработает при этом вполне надёжно. В этом месте ширина поля зрения камеры — порядка 13,5 м.

Для камеры, поднятой на высоту 10 м (рис. 2) и также имеющей угол обзора объектива 45°, слепая зона при обнаружении человека высотой 170 см составит 3,5 м. Ширина участка, в котором возможно обнаружение человека перед входом в слепую зону, — 8 м. Две трети корпуса человека войдут в поле зрения камеры на расстоянии 27 м.

2.3. Разрешение
Для того, чтобы объект был надёжно распознан, в его изображение должно уложиться определённое число пикселей. Для оценки этого критерия используется число пикселей изображения, приходящихся на один метр по ширине на снимаемой сцене, сокращённо PPM (pixels per meter) или пиксел/м (пиксел на метр).

Согласно оценкам специалистов компании Hanwha Techwin, разрешение 25 пиксел/м и выше позволяет вести общее видеонаблюдение силами оператора, без использования искусственного интеллекта — определять форму объекта, его цвет и примерный размер, пол человека и т.д.

При разрешении более 63 пиксел/м искусственный интеллект обнаруживает объекты — находит в кадре лица людей и номерные знаки автомобилей.

При разрешении 125 пиксел/м и более распознаются объекты — определяются черты лица и символы на номерах автомобилей.

При разрешении свыше 250 пиксел/м возможна идентификация деталей, таких как шрамы на лице, цвет глаз, татуировки.

Если в приведённых выше примерах используется камера формата 4K с разрешением 3840х2160, то с высоты 3 м на расстоянии 1 м она даёт 497 пиксел/м, а на расстоянии 5,5 м — 247 пиксел/м. С высоты 10 м на расстоянии 3,3 м она даст 149 пиксел/м, а на расстоянии 27 м — всего лишь 55 пиксел/м.