NVIDIA создала нейросеть для видеоконференций

Как сообщает компания, разработчики компьютерного зрения, партнёры по программному обеспечению, стартапы и производители ПК, создающие приложения и сервисы для видеозвонков, уже могут подавать заявки на доступ к новой платформе.

В NVIDIA придумали, как решить проблему с нагрузкой на сеть и качеством изображения при плохом соединении во время видеозвонков с помощью нейросети. Компания разработала технологию, которая может создавать реалистичные аватары по фотографии пользователя.

Новая технология NVIDIA Maxine использует для обработки изображения вычислительную мощность генеративных состязательных сетей (GAN). Комплект разработки на основе искусственного интеллекта от NVIDIA получил название SDK Maxine. С его помощью можно создавать реалистичные аватары для видеоконференций. Искусственный интеллект, лежащий в основе системы, создаёт аватар по статичному изображению лица и потом «оживляет» его, опираясь на данные о положении ключевых точек на лице пользователя во время разговора. В итоге отличить настоящее видео от сгенерированного нейросетью довольно трудно.

Кроме того, разработчики могут дополнять приложения для видеозвонков вспомогательными функциями: модулем переводчика, субтитрами, виртуальными помощниками и анимированными аватарами. 

«Видеосвязь стала частью повседневной жизни, помогая миллионам людей работать, учиться и играть, и даже обращаться к врачу. NVIDIA Maxine объединяет наши самые передовые возможности видео, аудио и искусственного интеллекта, чтобы обеспечить революционную эффективность и новые возможности платформ, которые позволяют нам всем оставаться на связи», — заявил вице-президент NVIDIA Ян Бак.

Maxine достаточно «умна» даже для того, чтобы выравнивать положение головы и лица в кадре исключительно своими силами. Если вас раздражает, что коллега смотрит куда-то мимо кадра, нейросеть может развернуть его более подобающим образом.

В показанных примерах ИИ использует статичное изображение и данные о положении ключевых точек артикуляции лица с веб-камеры говорящего, чтобы анимировать «аватара».

Такой метод позволяет значительно сократить расход трафика и требования к пропускной способности интернет-соединения, что особенно важно для мобильных устройств.

При широкополосном соединении обычное видео обеспечивает более высокую детализацию и чёткость, однако при плохом соединении нейросеть вырывается вперёд, так как видео генерируется на стороне принимающего, и его не приходится сжимать.

Помимо этого NVIDIA Maxine можно использовать для создания так называемых дипфейков и анимированных 3D-аватаров, повторяющих выражение лица пользователей, как, например, Apple Memoji.

Пока NVIDIA Maxine — это лишь технология и когда и в каких программах она появится, можно только догадываться. Но учитывая, что комплект инструментов будет открыт для разработчиков, вполне возможно, что первые программы с интегрированной нейросетью от NVIDIA не заставят себя долго ждать.

В начале сентября состоялся релиз NVIDIA Broadcast — набора инструментов для стримов и видеоконференций, которые позволяют устранять лишние шумы, размывать или убирать фон видео при помощи нейросетей.

Добавить комментарий

Ваш адрес email не будет опубликован.