В конце 2022 года «Яндекс» запустил распознающую 10 иностранных языков нейросеть, с помощью которой можно создавать голосовых помощников и роботов для колл-центров с большими потоками клиентов.
В частности, созданная на облачной платформе Yandex Cloud нейросеть знает английский, французский, датский, финский, турецкий и другие языки. Она может распознать речь на любую тему — короткие и длинные фразы, имена, адреса, даты и числа.
Система способна распознавать язык автоматически в одном потоке: нейросеть может в любой момент переключаться между языками. При этом есть возможность давать ей «подсказки», чтобы улучшить качество распознавания.
Мультиязычная модель работает на базе архитектуры Transformer. «Трансформеры» обрабатывают входные слова параллельно и независимо друг от друга, благодаря чему быстро обучаются. Чтобы при переходе на другой язык текст получался связным и грамматически правильным, нейросеть обучали на десятках терабайтов данных из профессиональных датасетов и массивах данных из сервисов и приложений «Яндекса».
Нейросеть работает в сервисе синтеза и распознавания речи Yandex SpeechKit. К концу июня 2022 года сервис используют более 1000 клиентов, в том числе X5 Retail Group и « Додо пицца». Новое мультиязычное распознавание доступно для проектов пользователей Yandex SpeechKit и настраивается стандартными средствами в API.
Мы стремимся к тому, чтобы диалоговые сценарии для разработки голосовых помощников вроде Алисы, автоматизации работы с клиентами, проведения опросов и контроля качества были доступны каждому бизнесу. Для внедрения любой фичи в речевые технологии требуются большие массивы данных, высококвалифицированные специалисты и сотни часов обучения
Отметил руководитель разработки Yandex SpeechKit Василий Ершов
По материалам TAdviser