В середине июня 2022 года испанский стартап Voicemod запустил сервис AI Voices, предназначенный для генерации голосов знаменитостей и виртуальных персонажей в реальном времени. Платформа применяет алгоритмы машинного обучения для преобразования пользовательских голосов.
Услугами стартапа Voicemod пользуются музыкальные студии, технологические компании и рекламные бренды. Однако если прошлые продукты Voicemod работали на базе обычного программного обеспечения и существующих инструментов, то платформа AI Voices выполняет все свои операции с помощью алгоритмов. На июнь 2022 года разработчики предлагают восемь личностей, включая голос актёра Моргана Фримена, и обещают добавить больше вариантов ближе к полноценному релизу.
Все голоса обрабатываются в режиме реального времени, поэтому технология подходит для потоковой передачи на Twitch или для звонков в Discord. Все данные для этих голосов были сгенерированы с помощью англоговорящих профессиональных актеров озвучивания с характеристиками, соответствующими голосу, воссозданному Voicemod. Актёры читают сценарии, чтобы генерировать данные для моделей на основе искусственного интеллекта, а затем звукорежиссёры используют традиционные методы звукового дизайна, чтобы превратить голоса в полноценных персонажей. Многие голоса ИИ включают в себя динамические эффекты, фильтры и фоновую музыку.
Мы очень рады представить следующий этап в технологии аудио самовыражения нашему страстному сообществу пользователей Voicemod – и всему миру! Интеграция возможностей ИИ в реальном времени в наш движок, в сочетании с нашим растущим каталогом IP-партнёрств, позволяет достичь ранее невозможного уровня кастомизации аудиовыражения онлайн и в метавселенной
Генеральный директор и соучредитель Voicemod Хайме Бош (Jaime Bosch)
В компании также отметили, что рекомендуют говорить через AI Voices по-английски, однако алгоритмы способны озвучить человека и на других языках, а сам сервис полностью автономен. Всё, что требуется от клиента Voicemod, это говорить внятно и разборчиво, не дышать в микрофон, избегать слов паразитов и убедиться в отсутствии фоновых шумов. В случае, если пользователи эти правила соблюдают, ИИ будет улавливать слова за десятую долю секунды, а затем преобразовывать голос пользователя в голос виртуального персонажа.
Основная версия Voicemod на июнь 2022 года доступна только на ПК, а разработчики открывают доступ клиентам по приглашениям. До конца 2022 года в компании обещают запустить версии для мобильных устройств.
По материалам TAdviser