Преобразование голоса: определение, технология, использование и проблемы

Преобразование голоса: определение, технология, использование и проблемы
pc: isciencemag.co.uk

Согласно Merriam-Webster, голос означает:

Звук, издаваемый позвоночными с помощью легких и гортани. Особенно звук, издаваемый людьми.

Это уникальный звук, включая тон и высоту звука человека.

Преобразование голоса – это средство преобразования одного голоса в другой, методика изменения формы волны речи для преобразования нелингвистической информации при сохранении языковой информации (например, одни и те же слова, другой голос).

Преобразование голоса: определение, технология, использование и проблемы
pc: Jason Rosewell on Unsplash https://unsplash.com/@jasonrosewell

Человеческая речь больше, чем просто голос и слова: есть ритм, акцент, темп, паузы, вокальные и словесные привычки (каждый знает, что один человек бросает «гм» ​​каждые 2 секунды, и те, у кого неправильные слоги в определенных словах). Это преобразование речи переводит преобразование голоса на следующий уровень, сохраняя эмоции, акцент и стиль речи говорящего в другой голос.

Оригинальные слова, эмоции и стиль переводятся и переносятся в новый голос. Именно об этом думает население в целом, когда слышит фразу «преобразование голоса». (далее эти фразы будут взаимозаменяемо)

Технологии

В настоящее время наиболее распространенной технологией является Text-to-Speech (TTS), где система синтеза речи преобразует текст в речь.

Преобразование голоса: определение, технология, использование и проблемы
pc: Wikipedia

Считайте это, как компьютер читающий заданный текст заранее заданным голосом, выбранным пользователем. Поскольку система не знает, с какой эмоцией или акцентом должен быть прочитан текст, необходимо придерживаться того уровня, на котором будет говорить выбранный голос (который обычно является спокойным монотонным).

С другой стороны находится технология Speech-to-Text (STT), которую чаще всего называют технологией распознавания речи.

Преобразование голоса: определение, технология, использование и проблемы
photocredit: https://www.simplifiedpython.net/speech-recognition-python/

Система слышит речь, фильтрует текст и расшифровывает его. Эмоции от этой речи, конечно, теряются.

Самое сладкое – Speech-to-Speech (STS). Это новая технология, которая в теории, будет слышать речь, выделять текст из общего потока (голос, эмоция, стиль и т. д.), переводит в текст новый голос читает его, затем добавляет эмоции и стиль от оригинального говорящего обратно в сгенерированный голос. Результат будет очень достоверным.

Многие компании утверждают, что они могут выполнять STS, когда на самом деле они просто делают STT-TTS, и в этом случае теряются эмоции и стиль от исходного говорящего при переходе от речи к тексту.

Использование

Преобразование голоса: определение, технология, использование и проблемы
PC: https://www.digitaltrends.com/mobile/is-your-smartphone-listening-to-your-conversations/

TTS используется во всех интеллектуальных колонках (Alexa & Google), смартфонах (Siri & Bixby), навигации, объявления об автобусных остановках, умные ручки и блокноты, а также любые IoT или интеллектуальные устройства, которые общаются с вами, о которых вы только можете подумать.

STT также используется в большинстве интеллектуальных устройств, например, когда ваши умные устройства понимают ваши команды, приложение для конференцсвязи предоставляет вам текстовую версию записей ваших звонков или когда Apple, Facebook и Google прослушивают вас. 

Помимо этого, есть голосовые фильтры (например, Snapchat и другие бесплатные приложения), которые делают ваш голос походить на кошек, волосатых монстров или дельфинов. Эти голосовые фильтры относятся к современной технологии синтеза речи, как австралопитеки и неандертальцы были к Homo Sapiens и Homo Sapiens Sapiens.

Беспокойство

Некоторые люди встревожены возможностью того, что их голоса будут использованы незаконно или злонамеренно. Другие обеспокоены тем, что у них отнимут рабочие места. Хотя они и правы, но это не должно быть раскольническим противостоянием. Точно так же, как мы должны быть осторожны с нашими образами, именами, связями и идентичностями, используемыми нами самими или другими, мы должны следить за тем, чтобы наши законы и этика развивались в соответствии с технологией для создания безопасной среды.

Искусственный интеллект находится на пути к тому, чтобы стать гораздо более продвинутым, но в ближайшем будущем широкий спектр человеческих эмоций и черт не может быть идеально выражен и имитирован с помощью одной машины. Люди всегда будут в курсе событий, и создавать сообщество должны те, кто к этому причастен.

Применение

Как только технологии STS будет дано право на сохранение эмоций и стиля, чтобы сделать голоса более естественными, а ограничения на ввод будут минимальными, потенциал технологии станет бесконечен: создание контента, медиа, развлечения, бизнес, здоровье, встречи, IoT.

По материалам из блога Tom Lee

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *