Детекторы дипфейков сумели обмануть

Системы, предназначенные для обнаружения дипфейков — видео, которые манипулируют реальными кадрами с помощью искусственного интеллекта — могут быть обмануты, как впервые показали ИТ специалисты на конференции WACV 2021, которая проходила онлайн с 5 по 9 января 2021 года.

Участникам конференции показали, что детекторы можно обойти, вставляя в каждый видеокадр входные данные, называемые состязательными примерами. Состязательные примеры — это незначительно изменённые входные данные, которые заставляют системы искусственного интеллекта допускать ошибки. Кроме того, было продемонстрировано, что атака на детекторы дипфейков всё ещё работает после сжатия видео.

«Наша работа показывает, что атаки на детекторы дипфейков могут быть реальной угрозой. Что ещё более тревожно, мы демонстрируем, что можно создавать надежные состязательные дипфейки, даже если злоумышленник может не знать о внутренней работе модели машинного обучения, используемой детектором».

Шехзин Хуссейн, доктор компьютерных наук Калифорнийского университета в Сан-Диего.

В дипфейках лицо объекта видоизменяется, чтобы создать убедительно реалистичные кадры событий, которых на самом деле никогда не было. Типичные детекторы deepfake фокусируются на лицах в видео: они сначала отслеживают их, а затем передают отдельно фрагмент лица в нейронную сеть, которая определяет, является ли видео реальным или поддельным. Например, моргание глаз плохо воспроизводится в deepfakes, поэтому детекторы фокусируются на движениях глаз. Современные детекторы полагаются на модели машинного обучения для идентификации поддельных видео

Исследователи отмечают, что широкое распространение поддельных видеороликов через платформы социальных сетей вызвало серьезную обеспокоенность во всем мире, особенно подрывая доверие к цифровым медиа.

«Если злоумышленники обладают некоторыми знаниями о системе обнаружения, они могут разработать входные данные для нацеливания на слепые зоны детектора и их обхода»

Паарт Нихара, соавтор статьи и студент факультета информатики Калифорнийского университета в Сан-Диего

Исследователи создали состязательный пример для каждого лица в кадре видео. Но в то время как стандартные операции, такие как сжатие и изменение размера видео, обычно удаляют из изображения враждебные примеры, эти примеры созданы таким образом, чтобы противостоять этим процессам. Алгоритм атаки оценивает набор входных преобразований также, как и модель оценивает изображения как реальные или поддельные. После чего эта оценка используется для преобразования изображений таким образом, что состязательное изображение остается эффективным даже после сжатия и распаковки.

Затем измененная версия лица вставляется во все видеокадры. Затем процесс повторяется для всех кадров видео, чтобы создать видео Deepfake. Атака также может быть применена к детекторам, которые работают с целыми видеокадрами, а не только с обрезками лиц.

Видео калифорнийского университета. XceptionNet помечает состязательное deepfake видео, созданное исследователями, как реальное.

Авторы работы протестировали обработку видео в двух сценариях: первый, где злоумышленники имеют полный доступ к модели детектора, способ извлечения лица и архитектуру и параметры модели классификации; и другой, где злоумышленники могут только запросить модель машинного обучения, чтобы выяснить вероятность того, что кадр будет классифицирован как реальный или поддельный.

В первом случае вероятность обмануть детектор составила 99% для несжатых видео, а для сжатых 84,96%. Во втором случае детектор получилось обмануть в 86,43% для несжатого и 78,33% для сжатого видео. Это первая работа, которая демонстрирует успешные атаки на современные deepfake детекторы.

Команда отказалась выпускать свой код, чтобы его не использовали в криминальных целях.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *