Обнаружение фальшивок было одной из основных тем семинара Европейской ассоциации биометрии, посвящённого манипуляциям с лицами. Морфинг лица и синтетические личности были другими основными видами угроз, обсуждавшимися на мероприятии.
Джулиан Фиеррес из UAM предложил метод глубокого обнаружения фейков на основе оценки сердечного ритма. По его словам, дистанционная оценка сердечного ритма значительно продвинулась в последние годы благодаря исследованиям для нескольких различных приложений.
Модель DeepFakesON-Phys была разработана путем адаптации и переобучения существующих моделей, сочетая анализ внешнего вида и движения субъекта. Площадь под кривой 99,9% и точность на уровне кадра 98,7% свидетельствуют о том, что этот метод превосходит даже последние современные подходы.
Конечно, если методы создания deepfake начнут учитывать физиологические данные, связанные с частотой сердечных сокращений или кровотоком, техника станет менее эффективной.
Абхиджит Дас из BITS Pilani представил архитектуры 3D-конволюционных нейронных сетей и механизмы привлечения внимания для обнаружения.
По словам Даса, большинство современных методов обнаружения подделок сосредоточены на пространственной информации, что упускает ценную подсказку. Рассматривая различные механизмы внимания, команда Даса обнаружила, что добавление «нелокальных блоков» повышает эффективность.
В целом, метод очень перспективен, говорит Дас, но необходима дальнейшая работа над пониманием и интеграцией механизмов внимания, а также над обнаружением глубоких подделок, сделанных с помощью перекрёстных методов манипуляции.
Хуэй Нгуен из НИИ продемонстрировал возможность использования сетей капсульной криминалистики для обнаружения глубоких подделок. Он начинает с того, что указывает на резкое увеличение ресурсов, необходимых для повышения производительности CNN за счёт увеличения их глубины, ширины, размера или даже количества используемых капсул.
В капсульных сетях каждая капсула представляет собой CNN, которая обучается определенному представлению, причём согласие между капсулами указывает на подлинность входного изображения.
Первоначальный дизайн не был эффективен для обнаружения глубоких подделок, но Нгуен и его коллеги-исследователи разработали капсульную сеть для криминалистических приложений с динамической маршрутизацией. Затем сеть начала определять манипулированные регионы в видео.
Тестирование «лёгкой» и «полной» капсульных моделей с 3 и 10 модулями, соответственно, показало, что статистическое объединение повышает точность обнаружения при уменьшении количества используемых параметров.
Хотя обобщение остаётся сложной задачей, а работа с низкокачественными изображениями или объяснение результатов затруднены, но достигнутый уровень точности говорит о том, что лёгкие модели могут быть эффективны для обнаружения глубоких подделок.
Лиминг Цзян из NTU выступил с докладом о наборе данных DeeperForensics Dataset, который состоит из 60 000 видео, по одной подделке на каждые пять реальных образцов.
Набор данных обладает рядом преимуществ, помимо размера. Все испытуемые дали согласие, захват контролируется, а представленные возмущения являются смешанными и присутствуют в большём количестве.
Цзян также представил результаты конкурса DeeperForensics Challenge 2020, организатором которого он был. Несколько представленных работ показали перспективность в обнаружении ранее невиданных глубоких подделок.
Эдвард Дж. Делп из Пердью представил работу по использованию нескольких модальностей данных для обнаружения глубоких подделок.
Его метод включает в себя распознавание лиц и обрезку с помощью многозадачной каскадной сверточной нейронной сети, извлечение признаков, а затем автоматическое взвешивание лиц. Стробируемый рекуррентный блок (GRU) обрабатывает извлеченные объекты с помощью логически предсказанных и взвешенных агрегатов. Вспомогательная сеть, идентичная основной, оглядывалась через плечо, чтобы оценить ошибки.
Как и несколько других методов, описанных выше, этот метод позволил добиться точности выше 90%, что значительно выше, чем у сравниваемых подходов.
Делп также представил предлагаемый способ обнаружения синтезированного звука с использованием спектрограмм для визуализации частотных значений речевого сигнала с течением времени для анализа с помощью CNN.
Наконец, были рассмотрены методы сопоставления фонем (звуковых единиц) и виземов (движений губ) в видео, а также сравнения эмоций, показанных в визуальной и звуковой частях видео.
Проблема обобщения представляется наиболее актуальной для сообщества, особенно учитывая вероятность того, что наиболее опасные глубокие подделки будут новыми. Поскольку несколько групп международных исследователей продолжают применять различные подходы, похоже, есть повод для оптимизма в отношении того, что вскоре станет возможным выявлять глубокие подделки сразу после их создания.
По материалам Biometrics Research Group. Автор Chris Burt