Компания Lovo, Inc. из Калифорнийского университета в Беркли, разработала решение, которое называет «голосовой платформой, похожей на человека». Решение предназначено для образования, маркетинга, развлечения и другого аудио контента.
В настоящее время компания позиционирует Lovo Studio для предприятий, правительства и других организаций, с учётом текущей необходимости «дистанционного повествования» в ответ на пандемию Covid-19.
«LOVO Studio предоставляет множество возможностей для выполнения озвучивания в условиях удаленной работы, создания маркетинговых видеороликов, учебных материалов, корпоративных видеороликов и другого озвучивания», которые было сложно выполнить с таким большим количеством закрытых бизнес-офисов, – подчеркнула организация в своем объявлении.
Компания заявила, что её новая Lovo Studio представляет собой сложную и простую в использовании платформу, использующую ИИ для… воссоздания реального голоса с градациями эмоций и тонов, которые генерируют клонированную или синтезированную речь очень реалистично».
Благодаря «эмоциональному диапазону и реалистичным вокальным характеристикам клонированные голоса Lovo Studio практически неотличимо от оригинальных». «Платформа также предоставляет более 50 других вариантов, как созданных компьютером, так и человеком. Можно выбрать любой из них для выполнения работы без необходимости использования звукозаписывающей студии или дорогостоящего оборудования».
Lovo Studio генерирует «реалистично звучащий голосовой» клон «всего из пять минутного целевого голосового клипа, который «во время социального дистанцирования… Позволяет быстро и легко создавать интерактивные учебные материалы или голосовые сообщения для удаленных производственных проектов», – говорит разработчик.
«Вы можете скрыть свои эмоции за словами, но вы не можете скрыть это в своем голосе. Произношение живого человека дает то, что слова или звуки робота не могут передать», – сказал Том Ли, соучредитель Lovo. «Мы создали универсальный центр для работы с аудио и голосом».
«Представьте себе комбинацию Canva и Photoshop, но для аудио», – говорит Ли в своем заявлении. «С одной стороны, вы можете использовать каталог существующих голосов и фоновую музыку, чтобы сразу приступить к работе над проектом, или можете создать свой собственный голос и добавлять музыку по своему выбору, чтобы сделать что-то более личное. Кроме того, такие функции, как редактирование произношения, ударение, скорость и управление паузами, позволяют точно настроить готовый контент».
«С другой стороны, вы также можете «легко подправить, где вам нужно», заполнить пробелы, сгладить шероховатые участки, повторы и т. д.» – продолжает Ли. «Например, если вы записывали профессионального актера для повествования, и видео с ним нужно исправить, то вам теперь не потребуется ему перезванивать».
Ли добавил: «Если вы за кадром записываете голос актёра для одного проекта, вы не можете одновременно записывать его для чего-то другого. Но с LOVO голос актер можно воспроизводить в нескольких проектах. Он будет практически неотличим от «настоящего» голоса», и «это делает голос человека по-настоящему масштабируемым».
Компания заявила, что её команда разработчиков ИИ «изначально начинала с анализа эмоционального статуса агентов, работающих с клиентами, и клиентов, которые вызвали проблему. Это дало инженерам уникальную возможность понять, как эмоции влияют на голоса». Затем, благодаря «пониманию взаимосвязи между эмоциями и голосом», они смогли синтезировать и сделать «генерируемую компьютером речь, аналогичную Siri и Alexa, более естественную и похожую на человеческую».
Команда Lovo Studio «собралась после анализа эмоционального статуса агентов, взаимодействующих с клиентами и клиентов, которые обращались по телефону», – сказали в компании, поэтому наши «инженеры получили уникальную возможность понять, как голоса отражают эмоциональное состояние [человека]».
Lovo Studio – это SaaS-программа, которая, по словам компании, предлагает «гибкие возможности и API для лёгкой интеграции», и в настоящее время используется «школами, маркетинговыми агентствами, группами обслуживания клиентов и HR, авторами, разработчиками программного обеспечения и компаниями по производству фильмов».
Lovo в настоящее время она может предоставить более 50 синтезированных и реальных голосов на платформе Lovo Studio с множеством опций для голосов, музыки, пауз, скоростей и произношения.
Демонстрацию можно посмотреть здесь, а промо-студия доступна здесь.
Система работает так:
- Зарегистрируйтесь на платформе и выберите в библиотеки один из более 50 голосов;
- Загрузите скрипт, и голосовой файл будет создан в течение нескольких «секунд»;
- Точная настройка файла путем добавления определенных функций, таких как паузы, выделение, скорость, произношение, высота звука, а затем добавление фоновой музыки;
- Сохраните, загружайте и делитесь проектом;
- Клонируйте голос, если это необходимо, предоставив 5-минутный клип.
Компания не дает никаких указаний в своих маркетинговых материалах на счет использования её технологии для создания deepfakes.
По материалам Biometrics Research Group. Автор Anthony Kimery