Искусственный интеллект дает возможность синтезировать голос известных людей. Использовать эту технологию можно, в частности, для озвучки персонажей в фильмах и мультфильмах. Актерам-людям даже делать ничего не придется — просто потребуется наговорить под запись определенный объем слов, что послужит базой для обучения нейросети.
Но, как оказалось, сделать то же самое может и обычный человек — правда, не сейчас, а в ближайшем будущем. Речь уже не об озвучке, а просто о «клонировании» своего голоса, который сможет использовать, например, цифровой ассистент.
Все, что нужно для решения этой задачи — наговорить в микрофон около 30 минут текста. Говорить нужно разборчиво, зачитывая определенный текст, который предоставляют разработчики. В некоторых случаях придется прерваться для того, чтобы исправить неразборчиво прозвучавшие слова. Но, в целом, ничего сложного здесь нет. Такая технология уже существует, и ее можно протестировать, чем и не преминули воспользоваться журналисты The Verge.
Примерно час один из испытателей сервиса по синтезированию голоса клиентов наговаривал текст (приходилось неоднократно останавливаться и перезаписывать некоторые слова и фразы). Потом, для проверки, можно было вводить текст в специальное окошко сервиса. И этот текст зачитывал уже синтезированный голос. По словам журналиста, система клонировала голос практически идеально — его оценили как «очень реалистичный» члены семьи и коллеги.
В общем-то, сейчас существованию такого сервиса уже никто не удивляется, поскольку есть все предпосылки для создания таких систем. За последние несколько лет технологии распознавания и синтеза речи очень сильно продвинулись вперед благодаря машинному обучению. Сейчас есть возможность «скармливать» нейросети фрагменты речи определенного человека, после чего машина довольно правдоподобно синтезирует услышанный голос. Правда, в этом случае качество не идеальное, но все равно очень высокое — гораздо более высокое, чем удавалось синтезировать чуть не в лабораторных условиях несколько лет назад.
«Клонированием» речи занимается множество компаний. Стоит ввести в поисковик запросы вроде «AI voice synthesis» или «AI voice deepfakes», и вы сами удивитесь количество результатов поиска. В частности, синтезом голоса разных людей занимаются сервисы Resemble.AI и Respeecher, плюс такие компании, как Veritone или Descript. Последняя предлагает услуги создания и редактирования подкастов, так что распознавание речи здесь весьма востребованная услуга. Функция «Overdub» позволяет подкастеру создавать AI-клон своего голоса, чтобы продюсеры могли быстро вносить изменения в звук, дополняя редактирование программы на основе транскрипции.
Ранее «клонирование» голоса было чем-то удивительным. Так, относительно давно была создана фейковая запись Джо Рогана. Это был пробный шар, если так можно выразиться. Затем схожие проекты стали появляться с завидной регулярностью. Так, в июле вышел документальный фильм об Энтони Бурдене, в котором использовался дипфейк. И последний, надо сказать, мало кто заметил — правда раскрылась лишь после того, как об этом рассказали сами создатели передачи. В августе стартап Sonantic создал клон голоса Вела Килмера. Актер почти потерял собственный голос после лечения рака горла. Эти примеры — лишь часть большого количества проектов, которые начали во множестве проявляться несколько месяцев назад.
Технологии, скорее всего, позволят проводить озвучку фильмов, мультиков и рекламных роликов голосами знаменитостей без самих знаменитостей. Этим уже занимается компания Veritone, представители которой предсказали неограниченное использование такой технологии в ближайшем будущем. Она удобна и для актеров и для создателей фильмов — ведь знаменитостям вовсе непросто выкроить несколько часов своего времени на озвучку персонажа в напряженном графике. Синтез голоса же позволяет озвучивать что угодно в любых объемах.
Знаменитостям не нужно даже выходить из дома — программа все делает за них. И, кстати, дипфейки сейчас создаются не только голосовые, но и визуальные. Причем официально. Так, Брюс Уиллис уже лицензировал использование своего изображения для рекламы мобильных смартфонов в РФ. За Уиллисом, нет сомнения, последуют и другие актеры.
Работать с большинством сервисов синтеза речи довольно просто. С течением времени технологии будут продолжать совершенствоваться, так что, видимо, не за горами тот день, когда всего нескольких слов хватит для синтеза речи говорящего. Кстати, сейчас технологии синтеза речи все еще имеют недостатки — так, клонированному голосу сложно повторять эмоции за человеком. Но, в целом, все развивается, так что «синтез эмоций», вероятно, тоже появится в ближайшем будущем.
Уже клонированный голос можно улучшать вручную, корректируя не только произношение некоторых слов, но и интонацию и эмоции. Правда, несмотря даже на такие возможности искусственный голос не может повторить сложную речь, насыщенную эмоциями, так что ИИ пока распознать не так и сложно.
Для обычного человека синтез собственного голоса не так важен, как для знаменитости, но все же потенциал у этой технологии есть. Например, вскоре может появиться игра, где голос героя будет синтезирован и представлять собой копию голоса самого игрока. А еще родители смогут «читать сказки» детям, когда взрослые слишком устали.
Есть, конечно, и опасности. Главная из них — это мошенники, которые добавят синтезированные голоса к инструментарию фишинга. Кроме того, клонированный голос может использоваться и подростками — для создания фейка какой-либо фразы или признания. И это не говоря уже о дипфейках политиков, создание которых может привести в итоге к самым печальным последствиям.
Но прогресс не установить, с высокой степенью вероятности в будущем каждый из нас сможет «клонировать» собственный голос. Когда это будущее наступит — сложно сказать, но, скорее всего, оно уже рядом.
По материалам «Habr»