Deepfake в рекламе Сбера

«Нужен был именно тот голос, которым актёр говорил 47 лет назад», – говорят в компании. Обычно для качественного синтеза речи с помощью технологии TTS (text-to-speech) нужно не меньше 20 часов речи в записи, но у команды было только четыре минуты, рассказали в Сбере