Компания «Криптонит» сообщила о том, что её сотрудник отдела перспективных исследований Никита Габдуллин предложил оригинальный подход к задаче повторной идентификации человека (person reidentification, re-id), комбинирующий аналитические методы с глубоким обучением (Deep Learning, DL). Он оптимизирует распознавание людей, которых она раньше не видела, то есть способствует обобщению (generalization) модели на другие данные.
По информации компании, повторная идентификация человека (реидентификация) относится к задачам ИИ, в которой нейросеть определяет, соответствует ли предоставленное ей изображение человека одному из распознанных ранее. Для этого создаётся набор параметров, который должен максимально точно характеризовать конкретного человека. В отличие от распознавания лиц, при реидентификации рассматривается человек целиком (в полный рост), а лицо является только одним из элементов и играет второстепенную роль. Более того, метод работает и в тех случаях, когда лица человека вовсе не видно. Можно сказать, что реидентификация и распознавание лиц дополняют друг друга.
В системах машинного зрения и видеоаналитики источником данных для реидентификации оказываются кадры с изображением людей, снятые под разным углом, с разным качеством записи и при меняющихся условиях освещения. Дополнительные сложности для анализа снимков создают меняющиеся причёски и головные уборы, изменение других элементов одежды и позы человека на снимке.
В решении этой задачи на август 2022 года наибольшего уровня точности позволяет достичь машинное обучение и особенно — технологии глубокого обучения. Однако DL-модели достигают надлежащих результатов только в случае, когда объект для реидентификации уже присутствовал в обучающем наборе данных. Чтобы они были столь же эффективны при анализе объектов их приходится дообучать. Это требует больших затрат времени и вычислительных ресурсов, а иногда и вовсе оказывается практически неприемлемым, так как актуального дообучающего набора данных может не быть. В контексте реидентификации это означает, что DL-модель будет менее эффективна при распознании людей, которых не было в базе данных на момент обучения – ситуация, которая является обыденной в современных системах видеонаблюдения.
Никита Габдуллин предложил использовать модель, комбинирующую DL-парсер с аналитической методикой для вычисления меры подобия элементов изображений. Она сочетает в себе парсинг изображения человека на основе DL и полностью аналитическое извлечение признаков объекта (то есть, автоматическое создание векторов атрибутов без участия оператора), а также схему их ранжирования для определения степени подобия людей на изображениях.
Под парсингом изображения человека здесь понимается разделение изображения на более мелкие семантические части, содержащие отдельные анатомические области. Например, для изображения человека в полный рост это будут как части тела: голова, туловище, руки, ноги, так и элементы одежды (головные уборы, обувь). Парсер, хотя и является DL-моделью, тренируется на данных, не имеющих непосредственного отношения к задачам реидентификации. Как показали проведённые опыты, сам по себе он имеет надлежащую степень обобщения при его использовании в качестве элемента комбинированного метода.
Предложенная модель использует аналитически вычисляемые функции цвета и текстуры, с которыми связаны понятные для человека меры сходства. В исследовании показано, что такое сочетание в значительной степени устраняет недостатки как существующих аналитических, так и «чистых» DL методов. Подобная методика описания характеристик людей позволяет проводить поиск по «словесным портретам». То есть, может быть легко составлен набор атрибутов, по которому модель найдёт, например, «всех блондинов в красной толстовке». Подобная задача невыполнима для «чистых» DL-моделей ввиду того, что параметры, с которыми оперирует DL-модель, абстрактны и никак не коррелируют с параметрами объекта в реальном мире. Оператор не может «объяснить» модели, что значит «красная толстовка». Более того, подавляющее большинство DL-моделей требует, чтобы на её входе было изображение, в то время как предложенный метод позволяет использовать голосовые и текстовые запросы, преобразованные оператором в векторы параметров.
Для проверки эффективности предложенного метода были проведены тесты на наборах данных Market1501 (фотографии 1501 пешехода, снятые перед супермаркетом возле Университета Цинхуа пятью камерами высокого и одной камерой низкого разрешения) и CUHK03 (фотографии 1 467 разных студентов, каждый из которых был снят минимум двумя камерами из шести установленных в Китайском университете Гонконга). Испытуемая модель достигла конкурентоспособной точности, сравнимой с точностью классических DL-моделей.
Наиболее показательно, что предложенный метод достигает точности порядка 60-90% при работе с данными из нескольких датасетов (демонстрирует высокую междоменную точность) без переобучения или каких-либо дополнительных настроек. Это значительно выше, чем у «чистых» DL-моделей, показавших точность 30–50% в подобных экспериментальных условиях.
Реидентификация играет большую роль в обеспечении безопасности, особенно в местах скопления большого количества людей (вокзалы, аэропорты, торговые центры, учебные заведения). Это универсальная технология, помогающая как находить потерявшихся детей, так и выполнять трекинг подозрительных субъектов.
Разработанный метод может использоваться для повторной идентификации людей на любых фото- и видеозаписях. Он способен сделать более «интеллектуальными» существующие средства контроля и управления доступом, а в системах видеонаблюдения может работать как в реальном времени, так и по запросу, анализируя ранее отснятые материалы.
С технической точки зрения предложенный метод проще и менее требователен к «железу», чем «чистые» DL-модели. В ряде приложений он может быть имплементирован непосредственно в камеры, реализуя концепцию «граничных вычислений» (edge computing).
Научная работа Никиты Габдуллина опубликована в электронном архиве Корнеллского университета.
По материалам TAdviser