Microsoft разработала систему на основе искусственного интеллекта, которая может преобразовать текст в речь, произнесенную голосом любого человека, с передачей эмоций и тона говорящего. Для этого лишь понадобится трёхсекундный образец его речи. По заявлению исследователей, испытавших инструмент под названием Vall-E, он значительно превосходит существующие системы синтеза речи.
Новое слово в TTS
Microsoft создала новую систему синтеза речи (Text-to-speech; TTS). Инструмент позволяет генерировать аудиосообщения, произнесенные голосом любого человека на основе лишь короткого фрагмента его речи.
Система базируется на языковой модели Vall-E, также разработанной Microsoft. Работа, описывающая эксперименты с использованием Vall-E, опубликована на сайте arxiv.org (поддерживается Корнельским университетом в США).
Перед проведением испытаний нейросеть прошла обучение на 60 тыс. часов аудиозаписей речи более чем 7 тыс. уникальный носителей английского языка. Это, как отмечают учёные, в сотни раз более крупный массив данных по сравнению с теми, что использованы при обучении всех прочих ныне существующих моделей.
Для выполнения своей функции Vall-E достаточно трёхсекундного образца речи, особенности которой необходимо имитировать, а также текстового сообщения, которое будет преобразовано в аудиоформат.
«Результаты экспериментов показывают, что Vall-E значительно превосходит современные системы синтеза речи с точки зрения естественности речи и сходства говорящих»
Говорится в документе
Пока не для всех
Широким массам Vall-E пока не доступна, однако с первыми результатами её работы может ознакомиться всякий желающий. Примеры, опубликованны исследователями на GitHub. Что касается их качества, то некоторые из них звучат убедительно – особенности голоса говорящего и манера его речи практически идентичны таковым в оригинальной записи. Искусственное происхождение других достаточно легко определить на слух. Вероятно, на конечный результат влияет в том числе и качество «скормленных» нейросети образцов речи. В частности, исследователи использовали реплики из наборов данных LibriSpeech, VCTK, Fisher.
Выложенные примеры также демонстрирует способность инструмента сохранять эмоции говорящего и акустическую среду (особенности помещения или оборудования, с использованием которых производилась запись), представленные в оригинальной аудиозаписи. Так, исследователям с разным успехом удалось заставить Vall-E имитировать злость, сонливость, изумление и отвращение.
Опасная технология
Группа исследователей, стоящих за Valle-E, в своей работе отмечает опасность разрабатываемой технологии в случае попадания её в «неправильные руки». С её помощью в теории мошенники могут обмануть системы идентификации личности или выдать себя, к примеру, за авторитетную публичную фигуру с целью её дискредитации.
Одним из возможных решений данной проблемы учёные называют создание системы выявления «аудиофейков», то есть сгенерированных Vall-E голосовых сообщений. Исследователи также отмечают, что планируют и в дальнейшем придерживаться принципов ответственного подхода к использованию искусственного интеллекта, разработанного Microsoft.
Microsoft и искусственный интеллект
По сообщению Semafor, корпорация Microsoft намерена инвестировать $10 млрд в организацию OpenAI, которая занимается разработкой и лицензированием технологий на основе искусственного интеллекта. В Microsoft данную информацию комментировать отказались.
В 2019 г. гигант из Редмонда вложил в OpenAI $1 млрд. Компании планировали совместными усилиями совершенствовать облачный сервис Microsoft Azure за счет технологий ИИ.
Помимо прочего, OpenAI разработала систему генерации изображений по текстовому описанию Dall-E и чат-бот ChatGPT на основе языковой модели GPT-3.5.
Прототип ChatGPT был запущен в ноябре 2022 г. и моментально привлёк к себе пристальное внимание публики, отметившись подробными и чётко сформулированными ответами на вопросы, относящиеся к самым разным областям знаний. Корпорация Google видит реальную угрозу своему поисковому бизнесу, который приносит ей львиную долю доходов.
В начале января 2023 г. The Information сообщило о том, что Microsoft планирует улучшить собственный поисковый движок Bing за счёт технологий, лежащих в основе ChatGPT.
Кроме того, в октябре 2022 г. корпорация пообещала интегрировать в Bing возможности Dall-E.
По материалам cNews. Автор Дмитрий Степанов