Исследователи Рурского университета из Бохума в Германии опубликовали новый отчёт с предложениями о том, как бороться с глубокими подделками голоса с помощью нового набора данных.
Исследование сосредоточено в основном на «области представления», поскольку исследователи заявили, что исследования, изучающие генерируемые аудиосигналы, до сих пор игнорировались глобальными исследованиями. С этой целью Джоэл Франк (Joel Frank) и Леа Шенхерр (Lea Schönherr) исследовали три различных аспекта проблемы аудиодипфейков, чтобы «сократить этот разрыв».
Первый состоит из введения в общие методы обработки сигналов, используемые для анализа аудиосигналов, включая чтение спектрограмм аудиосигналов и моделей преобразования текста в речь (TTS).
«Несмотря на то, что были проведены некоторые исследования сквозных моделей, типичные модели TTS состоят из двухэтапного подхода», – пишут исследователи.
«Сначала мы вводим текстовую последовательность, которую хотим сгенерировать. Эта последовательность сопоставляется некоторой моделью (или методом извлечения признаков) с низкоразмерным промежуточным представлением, часто лингвистическими признаками или спектрограммами Mel. Во-вторых, мы используем дополнительную модель (часто называемую вокодером) для сопоставления этого промежуточного представления с необработанным звуком».
В частности, исследователи сосредоточены на литературе по вокодерам, поскольку она напрямую связана с их работой над аудиодипфейками.
Во-вторых, исследователи представляют новый набор данных, построенный на девяти наборах образцов из пяти различных сетевых архитектур и охватывающий два языка.
Новый набор данных, размещенный на zenodo, состоит примерно из 196 часов сгенерированных аудиофайлов и в основном основан на наборах данных LJSPEECH и JSUT. Он также включает в себя ряд архитектур, в том числе Melgan, Parallel WaveGAN (PWG) и WaveGlow, среди прочих.
Наконец, Франк и Шенхерр предоставили практикующим специалистам две базовые модели, принятые сообществом по обработке сигналов и разработанные для содействия дальнейшим исследованиям в этой области.
«Чтобы обеспечить основу для будущих практиков, мы подготовили несколько базовых моделей. Мы оценили их производительность по различным наборам данных и нескольким настройкам. В частности, мы обучили Gaussian Mixture Model (GMM) и решения на основе нейронных сетей».
Хотя они обнаружили, что нейронные сети в целом работают лучше, классификаторы GMM оказались более надежными, что может дать им преимущество в реальных условиях.
«Наконец, мы проверили различные классификаторы, используя метод атрибуции. Мы обнаружили, что более низкими частотами нельзя пренебрегать, в то время как высокочастотная информация оказалась незаменимой».
Однако исследование предупреждает, что трудности с получением реалистичных наборов данных были давней проблемой в сообществе безопасности и потенциально могут сделать результаты исследования неприменимыми для всех.
«Часто реальные данные легко доступны, но данные, используемые во вредоносных контекстах, трудно найти. Это оставляет нам возможность оценить реальную производительность на прокси-данных».
Франк и Шенхерр утверждают, что в их случае у них могут быть хорошие шансы на то, что результаты будут перенесены на те же типы данных, которые использовались при атаках.
«В настоящее время представления, сгенерированные готовыми нейронными сетями, используются в злонамеренных попытках. Мы ожидаем, что количество аудио Deepfakes также увеличится».
Для получения дополнительной информации о документе Рурского университета в Бохуме вы можете перейти по этой ссылке, чтобы прочитать его полностью.
По материалам Biometrics Research Group. Автор Alessandro Mascellino