Wav2Lip — это нейросеть, которая адаптирует видео с говорящим лицо под аудиозапись речи. Предложенная нейросеть обходит state-of-the-art подходы на задаче синхронизации губ человека на видеозаписи с аудидорожкой.
Ограничения прошлых подходов
Текущие подходы способны генерировать точные движения губ для статичных изображений или видео отдельных людей, которых модель видела во время обучения. Однако такие модели не справляются с модификацией видеозаписей людей, которых не было в обучающей выборке. Это приводит к тому, что на части видеозаписи движения губ не синхронизированы с аудиодорожкой. Разработчики Wav2Lip обходят это ограничение. Модель способна адаптировать форму губ человека на любой входной видеозаписи в соответствии с входной аудиозаписью.
Исследование под названием «Обратимая хмурость: Перевод выражений лица с-видео-на-видео» (Invertable Frowns: Video-to-Video Facial Emotion Translation) является совместной работой специалистов Северо-Восточного университета в Бостоне и лаборатории Media Lab Массачусетского технологического института. Хотя исследователи признают, что в дальнейших исследованиях исходное качество результатов должно быть улучшено, они также утверждают, что разработанный ими метод Wav2Lip-Emotion является первым в своем роде, который напрямую меняет мимику в видеоизображении с помощью нейронной сети.
Кодовая база проекта опубликована на GitHub, а контрольные точки модели будут добавлены в репозиторий с открытым исходным кодом несколько позднее, пообещали исследователи.
Архитектура модели
Предложенный подход синхронизирует входное видео и входную аудиозапись с помощью обучения совместно с предобученной lip-sync моделью. Прошлые подходы использовали для обучения только reconstruction loss или обучали дискриминатор в GAN. Wav2Lip использует предобученный дискриминатор, который уже точно распознает ошибки в видео с синхронизацией губ. Дискриминатор затем дообучается на шумных сгенерированных видео. Дообучение дискриминатора положительно влияет на его возможность измерять неточности в сгенерированных видео, что позволяет повысить общее качество сгенерированных форм губ на видео. Кроме того, в Wav2Lip используется дискриминатор качества картинки, чтобы повышать качество картинки на сгенерированных видео.
Wav2Lip-Emotion эффективно копирует связанные с эмоциями выражения лица из одной части видео и заменяет их в других точках, сберегая исходные данные, что в конечном итоге обеспечит простой и удобный метод манипулирования мимикой.
Позже могут быть разработаны offline-модели, обученные на альтернативных видеоизображениях говорящего и тем самым устраняющие необходимость в том, чтобы видео содержало всю палитру выражений лица.
По материалам neurohive. Автор Anna