Идея борьбы с голосовыми дипфейками от исследователей

Auraya Systems модернизирует голосовой биометрический детектор мошенничества

Исследователи Рурского университета из Бохума в Германии опубликовали новый отчёт с предложениями о том, как бороться с глубокими подделками голоса с помощью нового набора данных.

Исследование сосредоточено в основном на «области представления», поскольку исследователи заявили, что исследования, изучающие генерируемые аудиосигналы, до сих пор игнорировались глобальными исследованиями. С этой целью Джоэл Франк (Joel Frank) и Леа Шенхерр (Lea Schönherr) исследовали три различных аспекта проблемы аудиодипфейков, чтобы «сократить этот разрыв».

Первый состоит из введения в общие методы обработки сигналов, используемые для анализа аудиосигналов, включая чтение спектрограмм аудиосигналов и моделей преобразования текста в речь (TTS).

«Несмотря на то, что были проведены некоторые исследования сквозных моделей, типичные модели TTS состоят из двухэтапного подхода», – пишут исследователи.

«Сначала мы вводим текстовую последовательность, которую хотим сгенерировать. Эта последовательность сопоставляется некоторой моделью (или методом извлечения признаков) с низкоразмерным промежуточным представлением, часто лингвистическими признаками или спектрограммами Mel. Во-вторых, мы используем дополнительную модель (часто называемую вокодером) для сопоставления этого промежуточного представления с необработанным звуком».

В частности, исследователи сосредоточены на литературе по вокодерам, поскольку она напрямую связана с их работой над аудиодипфейками.

Во-вторых, исследователи представляют новый набор данных, построенный на девяти наборах образцов из пяти различных сетевых архитектур и охватывающий два языка.

Новый набор данных, размещенный на zenodo, состоит примерно из 196 часов сгенерированных аудиофайлов и в основном основан на наборах данных LJSPEECH и JSUT. Он также включает в себя ряд архитектур, в том числе Melgan, Parallel WaveGAN (PWG) и WaveGlow, среди прочих.

Наконец, Франк и Шенхерр предоставили практикующим специалистам две базовые модели, принятые сообществом по обработке сигналов и разработанные для содействия дальнейшим исследованиям в этой области.

«Чтобы обеспечить основу для будущих практиков, мы подготовили несколько базовых моделей. Мы оценили их производительность по различным наборам данных и нескольким настройкам. В частности, мы обучили Gaussian Mixture Model (GMM) и решения на основе нейронных сетей».

Хотя они обнаружили, что нейронные сети в целом работают лучше, классификаторы GMM оказались более надежными, что может дать им преимущество в реальных условиях.

«Наконец, мы проверили различные классификаторы, используя метод атрибуции. Мы обнаружили, что более низкими частотами нельзя пренебрегать, в то время как высокочастотная информация оказалась незаменимой».

Однако исследование предупреждает, что трудности с получением реалистичных наборов данных были давней проблемой в сообществе безопасности и потенциально могут сделать результаты исследования неприменимыми для всех.

«Часто реальные данные легко доступны, но данные, используемые во вредоносных контекстах, трудно найти. Это оставляет нам возможность оценить реальную производительность на прокси-данных».

Франк и Шенхерр утверждают, что в их случае у них могут быть хорошие шансы на то, что результаты будут перенесены на те же типы данных, которые использовались при атаках.

«В настоящее время представления, сгенерированные готовыми нейронными сетями, используются в злонамеренных попытках. Мы ожидаем, что количество аудио Deepfakes также увеличится».

Для получения дополнительной информации о документе Рурского университета в Бохуме вы можете перейти по этой ссылке, чтобы прочитать его полностью.

По материалам Biometrics Research Group. Автор Alessandro Mascellino

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *