Стартап CannyAI использует технологию VDR для дубляжа видео

Израильский стартап CannyAI использует технологию VDR для дубляжа видео
Израильский стартап CannyAI использует технологию VDR (Video Dialogue Replacement) для перевода видео на разные языки, устраняя необходимость в субтитрах. Сооснователь компании Джонатан Хейманн рассказал порталу NoCamels о создании проекта и особенностях его работы.

«Когда Netflix запустил стриминг в Израиле, он провел несколько экспериментов по локализации контента», — вспоминает Хейманн. Он посмотрел дублированные шоу вместе с будущим сооснователем CanniAI Омером Бен-Ами. Хейманн и Бен-Ами сошлись во мнении, что это выглядит ужасно, и попробовали решить проблему.

Вскоре они с удивлением обнаружили, что никто другой не пытается это сделать. Достаточно быстро им стало очевидно, что основная трудность дубляжа заключается в невозможности изменить диалог после записи. У Хейманна и Бен-Ами был опыт разработки программного обеспечения в Армии обороны Израиля и Тель-Авивском университете. Они начали искать технологическое решение обнаруженной проблемы и в 2017 году основали CannyAI. 

Компания использует технологию VDR для удовлетворения растущей потребности в персонализированном локализованном контенте — например, для перевода рекламных роликов на различные языки и диалекты. VDR легко перепутать с технологией дипфейк, которая позволяет накладывать существующие изображения на готовые видео с помощью ИИ. Представители CannyAI заявляют, что это не одно и то же: в рамках технологии дипфейк лицо одного человека в видео можно заменять на другое, тогда как в VDR происходит замена звука «при одновременной синхронизации артикуляции и мимики с исходным видео».

Чтобы показать практическое применение технологии VDR, CannyAI записали видео с мировыми лидерами, исполняющими песню Imagine Джона Леннона.

Знаменитый ролик CannyAI 2019 года с Марком Цукербергом также был создан с помощью данной технологии. В нем основатель Facebook будто бы хвастается тем, что «имеет доступ к украденными данным миллиардов людей». Видеофрагмент был взят из выступления Цукерберга о вмешательстве России в выборы в США с помощью Facebook, записанного в 2017 году.

Дипфейк широко используется в поддельных новостях новостях (особенно в разгар национальных политических кампаний), что вызывает беспокойство у компании. Эти и другие злоупотребления, в том числе для создания порнографического контента, формируют негативное отношение к технологии.

«В последнее время дипфейк чаще всего упоминается в связи с фальшивыми новостями. Поэтому мы решили создать нечто объединяющее, чтобы показать позитивные возможности данной технологии», — сказал Бен-Ами, комментируя запись видео Imagine.

«Конечно, мы учитываем этические соображения», — добавляет Хейманн, описывая внутренние процедуры CannyAI. Компания внимательно изучает и утверждает все финальные и исходные видео, чтобы гарантировать соблюдение прав и отсутствие злого умысла. Полный процесс включает загрузку финального и исходного видео, обзор их соответствия, применение алгоритмов ИИ, работу над качеством изображения и добавление водяных знаков перед выпуском окончательного варианта ролика.

Сначала CannyAI занималась дубляжом телешоу, повторно использовала существующие видео и переводила обучающие ролики на разные языки. Сейчас компания разрабатывает решение, которое может полностью устранить потребность клиентов в заказе видео.

Израильский стартап CannyAI использует технологию VDR для дубляжа видео
Производство роликов стоит дорого: в цену входят аренда студии, зарплата съемочной группы и монтажера, а также расходы на визуальные эффекты. CannyAI планирует создать библиотеку качественных видеоматериалов, чтобы пользователь мог «выбирать ролик с говорящим человеком, как на Shutterstock, и менять текст в кадре», объясняет Хейманн. Это позволит небольшим компаниям выпускать качественные видео о своих продуктах, которые они пока не могут себе позволить из-за их дороговизны. Для этого CannyAI ищет подходящую студию, актеров, специалистов по анимации и сценаристов.

Источником вдохновения для основателей CannyAI послужил проект Face2Face, который реконструирует мимику. Дочерний проект компании под названием Synthesia в настоящее время занимается дубляжом.

CannyAI отличается от конкурентов тем, что фокусируется на создании качественных видео с точной передачей мимики и артикуляции, в то время как другие стартапы создают видео более низкого качества, имитируя только основные выражения лица. Компания пробует различные технические приемы. Видео уровня CannyAI чрезвычайно утомительно создавать с помощью традиционной компьютерной графики, поэтому этот механизм используется крайне редко — как правило, для улучшения движений губ при произнесении одного-двух слов.

Несмотря на небольшой срок существования, компания уже успела посотрудничать с MIT, Warner Music Group, Keshet и даже поучаствовала в создании короткометражного фильма, который был представлен на Международном фестивале документальных фильмов в Амстердаме (IDFA). Стартап часто упоминается в ведущих израильских СМИ, таких как Channel12 и Mako.

У Хейманна и Бен-Ами есть два консультанта, один из которых получил докторскую степень по статистике в Йельском университете, а другой специализируется на кино и занимается постпродакшеном аудио.

В 2018 году CannyAI приняла участие в первом цикле акселератора, запущенного службой безопасности Израиля (ISA или Shin Bet на иврите) и TAU Ventures, инвестиционным подразделением Тель-Авивского университета.

По материалам Rusbase. Автор Александра Степанова

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *