Согласно Merriam-Webster, голос означает:
Звук, издаваемый позвоночными с помощью легких и гортани. Особенно звук, издаваемый людьми.
Это уникальный звук, включая тон и высоту звука человека.
Преобразование голоса – это средство преобразования одного голоса в другой, методика изменения формы волны речи для преобразования нелингвистической информации при сохранении языковой информации (например, одни и те же слова, другой голос).
Человеческая речь больше, чем просто голос и слова: есть ритм, акцент, темп, паузы, вокальные и словесные привычки (каждый знает, что один человек бросает «гм» каждые 2 секунды, и те, у кого неправильные слоги в определенных словах). Это преобразование речи переводит преобразование голоса на следующий уровень, сохраняя эмоции, акцент и стиль речи говорящего в другой голос.
Оригинальные слова, эмоции и стиль переводятся и переносятся в новый голос. Именно об этом думает население в целом, когда слышит фразу «преобразование голоса». (далее эти фразы будут взаимозаменяемо)
Технологии
В настоящее время наиболее распространенной технологией является Text-to-Speech (TTS), где система синтеза речи преобразует текст в речь.
Считайте это, как компьютер читающий заданный текст заранее заданным голосом, выбранным пользователем. Поскольку система не знает, с какой эмоцией или акцентом должен быть прочитан текст, необходимо придерживаться того уровня, на котором будет говорить выбранный голос (который обычно является спокойным монотонным).
С другой стороны находится технология Speech-to-Text (STT), которую чаще всего называют технологией распознавания речи.
Система слышит речь, фильтрует текст и расшифровывает его. Эмоции от этой речи, конечно, теряются.
Самое сладкое – Speech-to-Speech (STS). Это новая технология, которая в теории, будет слышать речь, выделять текст из общего потока (голос, эмоция, стиль и т. д.), переводит в текст новый голос читает его, затем добавляет эмоции и стиль от оригинального говорящего обратно в сгенерированный голос. Результат будет очень достоверным.
Многие компании утверждают, что они могут выполнять STS, когда на самом деле они просто делают STT-TTS, и в этом случае теряются эмоции и стиль от исходного говорящего при переходе от речи к тексту.
Использование
TTS используется во всех интеллектуальных колонках (Alexa & Google), смартфонах (Siri & Bixby), навигации, объявления об автобусных остановках, умные ручки и блокноты, а также любые IoT или интеллектуальные устройства, которые общаются с вами, о которых вы только можете подумать.
STT также используется в большинстве интеллектуальных устройств, например, когда ваши умные устройства понимают ваши команды, приложение для конференцсвязи предоставляет вам текстовую версию записей ваших звонков или когда Apple, Facebook и Google прослушивают вас.
Помимо этого, есть голосовые фильтры (например, Snapchat и другие бесплатные приложения), которые делают ваш голос походить на кошек, волосатых монстров или дельфинов. Эти голосовые фильтры относятся к современной технологии синтеза речи, как австралопитеки и неандертальцы были к Homo Sapiens и Homo Sapiens Sapiens.
Беспокойство
Некоторые люди встревожены возможностью того, что их голоса будут использованы незаконно или злонамеренно. Другие обеспокоены тем, что у них отнимут рабочие места. Хотя они и правы, но это не должно быть раскольническим противостоянием. Точно так же, как мы должны быть осторожны с нашими образами, именами, связями и идентичностями, используемыми нами самими или другими, мы должны следить за тем, чтобы наши законы и этика развивались в соответствии с технологией для создания безопасной среды.
Искусственный интеллект находится на пути к тому, чтобы стать гораздо более продвинутым, но в ближайшем будущем широкий спектр человеческих эмоций и черт не может быть идеально выражен и имитирован с помощью одной машины. Люди всегда будут в курсе событий, и создавать сообщество должны те, кто к этому причастен.
Применение
Как только технологии STS будет дано право на сохранение эмоций и стиля, чтобы сделать голоса более естественными, а ограничения на ввод будут минимальными, потенциал технологии станет бесконечен: создание контента, медиа, развлечения, бизнес, здоровье, встречи, IoT.
По материалам из блога Tom Lee