Прогресс в области ИИ синхронизации лица со звуком

Цифровое манипулирование лицами может быть использовано для подделки биометрических систем или распространения дезинформации, но технология координации движений лица с голосом говорящего также востребована в нескольких областях, как объяснил исследователь SenseTime Юйсин Ван во время выступления для Европейской ассоциации биометрии (EAB).

Его презентация на тему «Говорящие лица: преобразование аудио в видео» была частью семинара EAB по цифровым манипуляциям и распознаванию лиц, проведенного для членов организации.

Цифровые технологии используются с 1990-х годов для создания синтетического видео разговоров людей для таких приложений, как виртуальные помощники, телеконференции, дубляж фильмов и видеоигр, а также цифровые двойники.

По словам Вана, в результате создания говорящей головы должно быть «гораздо больше движений головы», чем в исходном материале при воспроизведении лица с помощью звука.

Ван рассмотрел методы моделирования, которые позволяют измерять взаимосвязь между движением головы и вокализацией для создания говорящего лица. Данные, извлеченные из аудиопрезентации, используются для того, чтобы движения рта и выражения лица говорящего на видео точно и последовательно соответствовали звуку.

Он описал пару конвейеров для этого; один основан на кодерах звука и изображения, создающих представления, проходящие через один декодер, а другой использует регрессионную модель для звуковых объектов для комбинирования с промежуточным объектом, таким как ориентир лица, и визуализируется из промежуточного объекта. Ван также объяснил усовершенствование изображения и компоновку фона при постобработке.

Затем в докладе были затронуты методы и наборы данных, используемые при создании 2D и 3D лиц.

Были разработаны различные показатели, которые могут быть применены к качеству изображения, синхронизации между аудиосигналами и губами говорящего, сохранению идентичности и миганию, о которых рассказал Ван.

Проблемы, возникающие при создании говорящих лиц, варьируются от осуществления мелкозернистого контроля над чертами лица, такими как глаза и зубы, движение головы и эмоции, до обобщения личности и тела. Кроме того, существуют соображения, связанные с обнаружением подделок и социальной ответственностью.

В качестве примера первой задачи Ван отмечает, что моргание связано с речевой механикой и мыслительными процессами, но эти взаимосвязи ещё недостаточно изучены. Моргание глаз может быть вызвано целевыми кадрами или гауссовым шумом. Некоторые модели связывают движение глаз с общим выражением лица, но этот метод также всё ещё находится на ранних стадиях разработки.

По мнению исследователя SenseTime, более крупные и разнообразные наборы данных могли бы помочь в генерации данных.

Было кратко рассмотрено обнаружение манипулированного видео, а обнаружение глубоких подделок было в центре внимания нескольких других презентаций во время мероприятия.

Ван видит, что технология создания говорящих лиц в ближайшем будущем улучшится, а её практическое применение расширится.

По материалам Biometrics Research Group. Автор Chris Burt

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *