Исторический экскурс
Интерес к DeepFake возник сравнительно недавно, а собственно термин стал общепринятым после опубликованной в конце 2017 года статьи пользователя ресурса Reddit с сообщением о разработке алгоритма машинного обучения, который позволил подменять в видеороликах лица порноактёров лицами широко известных лиц. Традиционные технологии манипуляции с лицом требовали большого количества ручного труда в сочетании с инструментами редактирования фото и видеоизображений. Однако появление Generative Adversarial Networks (GAN) позволило отказаться от ручных манипуляций с видеоизображением, а использование мобильных приложений (например, ZAO и FaceApp) предоставило возможность создавать фейковый контент практически любому пользователю.
Чем опасен DeepFake?
Очевидно, что появление большого количества изображений, подвергнутых манипуляции, привело к необходимости создания инструментов для обнаружения вмешательства в фото/видеоконтент.
Поскольку подделка фото/видеоматериалов существовала и до появления технологии DeepFake, известны и традиционные методы обнаружения подделок, которые обычно базируются на:
- «отпечатке» самой камеры;
- характеристике сенсора камеры, объектива;
- использовании цветовых фильтров, программного обеспечения камеры;
- «отпечатке» используемого для редактирования программного обеспечения;
- изменения скорости съёмки для видеоизображений.
Поскольку банки в основном используют для биометрической аутентификации/идентификации лицевую биометрию, интерес представляют методы манипуляции с изображением лица (и их обнаружением), которые принято разделять на следующие группы:
- полный синтез лица;
- подмена лица (DeepFake);
- подмена атрибутов лица;
- подмена выражения лица.
Заметим, что использование классических технологий в современных условиях затрудняется тем обстоятельством, что при публикации фото/видеоконтента в интернете происходят процессы изменения размеров изображения, а также применения различных технологий сжатия как при публикации материалов, так и в процессе хранения и передачи.
Можно ли считать, что DeepFake представляют собой существенную угрозу для лицевой биометрии? Скорее да, чем нет. Развитие GAN идёт настолько быстро, что если раньше создание поддельного фото (и тем более видео) требовало большого количества исходных материалов и было возможно только на мощных графических процессорах, то сегодня «оживить» фотографию можно с помощью программного решения на мобильном телефоне. А ведь многие системы обнаружения атак на предъявление и требуют подмигнуть, посмотреть вверх-вниз и т. д.!
Развитие GAN идет настолько быстро, что сегодня «оживить» фотографию можно с помощью программного решения на мобильном телефоне
Также финансовые учреждения, которые для открытия счёта не требуют физического визита в банк (а последних становится всё больше), могут впоследствии обнаружить мошенников, успешно использовавших технологию DeepFake для создания синтетических личностей или людей, которые не имеют никакого отношения к открытым счетам, кроме использования фотографий законопослушных клиентов.
А тот факт, что в интернете имеются предложения «DeepFake-As-A-Service», говорит о стремлении к монетизации технологии создания подделок. Ведь предложение появляется там, где есть спрос.
Иные угрозы
Чем же ещё опасен феномен DeepFake? Начнём с того, что аккредитованные на тестирования систем обнаружения атак на биометрическое предъявление (Presentation Attack Detection — PAD) лаборатории не используют в качестве инструмента атаки DeepFake изображения — это не предусмотрено стандартом. Более того, стандарт ISO 30107 не требует проверки ситуации, где вместо предъявления физических артефактов камере в биометрическую систему будет поступать сигнал с виртуальной камеры. Заметим, что практически все статические методы обнаружения атак на биометрическое предъявление используют различия, возникающие при съёмке живого субъекта или его изображения (фото на бумаге или планшете). Видеосигнал, поступающий с виртуальной камеры, исключает такие различия и может достаточно легко обмануть систему PAD. Надо также принимать во внимание, что если генерация DeepFake ведётся с заведомо большим разрешением, чем у биометрического сенсора, то даже демонстрация подделки на экране планшета/смартфона скорее всего пройдёт без обнаружения атаки.
Таким образом, борьба с DeepFake в финансовом мире волей-неволей переходит в практическую плоскость. Большинство публикаций о решениях и методах по обнаружению DeepFake сообщают о достаточно хороших, близких к 100% вероятностях обнаружения подделок при использования публично доступных датасетов DeepFake для всех перечисленных выше групп манипуляций с изображением лица.
Как правило, основным механизмом является обнаружения «отпечатка» GAN, использованной при создании подделки. Правда, неясно, как будут работать такие решения, если удалить или замаскировать шумом «отпечаток» GAN. При этом надо учитывать, что большинство исследований проводилось в «тепличных» условиях — исследователи использовали либо публично доступный датасет, либо свой собственный. На этом датасете велось обучение системы, и он же использовался для последующего тестирования. Кроме того, все исследователи использовали разные показатели точности определения поддельного контента, что затрудняло сопоставление полученных результатов.
Борьба с DeepFake в финансовом мире волей-неволей переходит сегодня в практическую плоскость
Что показал DeepFake Detection Challenge — DFDC 2019
Практическим ответом на вопрос, насколько успешно возможно выявление подделок, созданных с использованием технологии DeepFake, стал объявленный в 2019 конкурс DeepFake Detection Challenge — DFDC 2019.
Для проведения этого конкурса был собран новый датасет с большим разнообразием видео высокого качества для исследования проблемы обнаружения DeepFake. Участники DFDC использовали данный датасет для обучения и тестирования своих моделей и могли получить результаты тестирования своих моделей на доске лидеров, опубликованной на сайте конкурса. Для создания видео было приглашено более 3500 участников, каждый из которых дал согласие на участие в проекте. Особое внимание было уделено разнообразию рас, цветов кожи, половой принадлежности, возраста, национальности и другим характеристикам.
Организаторы конкурса изменяли видеоматериалы с использованием различных моделей генерации DeepFake, средств улучшения изображения, изменяли частоту кадров, использовали размытие изображений и оверлеи. Задача состояла в том, чтобы представить в достаточном количестве разнообразные методы, с которыми мы сталкиваемся при использовании онлайн видеосюжетов. Для того, чтобы конкурс соответствовал нуждам разработчиков, организаторы сотрудничали с экспертами из известных университетов (Корнельский технологический, МИТ, Беркли, Олбани, Неапольский университет и Оксфорд), получая их отзывы и рекомендации.
Точность работы механизмов детектирования для лучших моделей достигает 82,56%. Но при тестировании моделей с использованием датасета «черного ящика» ситуация с ранжированием существенно поменялась. Наилучший показатель продемонстрировала модель, представленная Селимом Сефербековым (Selim Seferbekov). Точность детектирования составила 65,18% для набора данных из «чёрного ящика». При использовании публичного датасета модель заняла лишь четвёртое место. Аналогично, другие модели-победители (со второго по пятое место) заняли при тестировании с использованием публичного датасета более низкие места (37-е, 6-е, 10-е и 17-е соответственно). Это обстоятельство подчеркивает важность общего подхода с учётом неучтённых видео при создании моделей.
Все победители использовали предварительно обученные сети EfficientNet, которые дополнительно проходили обучение только на тренировочных данных конкурса DFDC. Большинство выбрало вариант B7 сети EfficientNet. Что отличало участников, так это то, как они использовали эти модели: сколько сетей было использовано, как комбинировались предсказания, полученные на базе ансамбля. Речь идёт о решении, которое использует работу нескольких нейронных сетей, а результат работы формируется с использованием суммирования с разными весами выходных данных используемых сетей.
Конкурс показывает, что ассемблированный подход, хорошо зарекомендовавший себя в других приложениях ИИ, полезен и для детектирования DeepFake. Ни одно из лучших решений не использует методов проведения цифровых расследований, таких как использование отпечатка шумов сенсора или других методов, характерных для процесса создания изображения. Предположительно, это связано с тем, что или методы пиксельного анализа не являются полезными для этой задачи, или их использование не распространено среди участников конкурса.
Ассемблированный подход, хорошо зарекомендовавший себя в других приложениях ИИ, полезен и для детектирования DeepFake
Выводы
Из всего вышесказанного можно сделать вывод, что в настоящий момент преимущество на стороне средств нападения, и средствам защиты необходимо приложить усилия, с тем, чтобы выправить ситуацию.
Какие решения наименее удачны для обнаружения DeepFake? Очевидно, что нейронную сеть невозможно заставить работать на мобильном телефоне, и кажется очевидным преимущество решения, полностью реализованного на сервере. К тому же нет никаких проблем с интеграцией. Но если у решения отсутствует фронтальная часть, которая затрудняет или делает невозможным обход биометрического сенсора (камеры), то это существенно упрощает работу злоумышленника. Очевидно, что использование биометрии в классическом интернет-банке (на основе браузера) также существенно расширяет поверхность атаки, поскольку здесь можно легко заменить камеру или подключить виртуальную.
По материалам журнала ПЛАС. Независимый эксперт Павел Есаков