Израильский стартап CannyAI использует технологию VDR (Video Dialogue Replacement) для перевода видео на разные языки, устраняя необходимость в субтитрах. Сооснователь компании Джонатан Хейманн рассказал порталу NoCamels о создании проекта и особенностях его работы.
«Когда Netflix запустил стриминг в Израиле, он провел несколько экспериментов по локализации контента», — вспоминает Хейманн. Он посмотрел дублированные шоу вместе с будущим сооснователем CanniAI Омером Бен-Ами. Хейманн и Бен-Ами сошлись во мнении, что это выглядит ужасно, и попробовали решить проблему.
Вскоре они с удивлением обнаружили, что никто другой не пытается это сделать. Достаточно быстро им стало очевидно, что основная трудность дубляжа заключается в невозможности изменить диалог после записи. У Хейманна и Бен-Ами был опыт разработки программного обеспечения в Армии обороны Израиля и Тель-Авивском университете. Они начали искать технологическое решение обнаруженной проблемы и в 2017 году основали CannyAI.
Компания использует технологию VDR для удовлетворения растущей потребности в персонализированном локализованном контенте — например, для перевода рекламных роликов на различные языки и диалекты. VDR легко перепутать с технологией дипфейк, которая позволяет накладывать существующие изображения на готовые видео с помощью ИИ. Представители CannyAI заявляют, что это не одно и то же: в рамках технологии дипфейк лицо одного человека в видео можно заменять на другое, тогда как в VDR происходит замена звука «при одновременной синхронизации артикуляции и мимики с исходным видео».
Чтобы показать практическое применение технологии VDR, CannyAI записали видео с мировыми лидерами, исполняющими песню Imagine Джона Леннона.
Знаменитый ролик CannyAI 2019 года с Марком Цукербергом также был создан с помощью данной технологии. В нем основатель Facebook будто бы хвастается тем, что «имеет доступ к украденными данным миллиардов людей». Видеофрагмент был взят из выступления Цукерберга о вмешательстве России в выборы в США с помощью Facebook, записанного в 2017 году.
Дипфейк широко используется в поддельных новостях новостях (особенно в разгар национальных политических кампаний), что вызывает беспокойство у компании. Эти и другие злоупотребления, в том числе для создания порнографического контента, формируют негативное отношение к технологии.
«В последнее время дипфейк чаще всего упоминается в связи с фальшивыми новостями. Поэтому мы решили создать нечто объединяющее, чтобы показать позитивные возможности данной технологии», — сказал Бен-Ами, комментируя запись видео Imagine.
«Конечно, мы учитываем этические соображения», — добавляет Хейманн, описывая внутренние процедуры CannyAI. Компания внимательно изучает и утверждает все финальные и исходные видео, чтобы гарантировать соблюдение прав и отсутствие злого умысла. Полный процесс включает загрузку финального и исходного видео, обзор их соответствия, применение алгоритмов ИИ, работу над качеством изображения и добавление водяных знаков перед выпуском окончательного варианта ролика.
Сначала CannyAI занималась дубляжом телешоу, повторно использовала существующие видео и переводила обучающие ролики на разные языки. Сейчас компания разрабатывает решение, которое может полностью устранить потребность клиентов в заказе видео.
Производство роликов стоит дорого: в цену входят аренда студии, зарплата съемочной группы и монтажера, а также расходы на визуальные эффекты. CannyAI планирует создать библиотеку качественных видеоматериалов, чтобы пользователь мог «выбирать ролик с говорящим человеком, как на Shutterstock, и менять текст в кадре», объясняет Хейманн. Это позволит небольшим компаниям выпускать качественные видео о своих продуктах, которые они пока не могут себе позволить из-за их дороговизны. Для этого CannyAI ищет подходящую студию, актеров, специалистов по анимации и сценаристов.
Источником вдохновения для основателей CannyAI послужил проект Face2Face, который реконструирует мимику. Дочерний проект компании под названием Synthesia в настоящее время занимается дубляжом.
CannyAI отличается от конкурентов тем, что фокусируется на создании качественных видео с точной передачей мимики и артикуляции, в то время как другие стартапы создают видео более низкого качества, имитируя только основные выражения лица. Компания пробует различные технические приемы. Видео уровня CannyAI чрезвычайно утомительно создавать с помощью традиционной компьютерной графики, поэтому этот механизм используется крайне редко — как правило, для улучшения движений губ при произнесении одного-двух слов.
Несмотря на небольшой срок существования, компания уже успела посотрудничать с MIT, Warner Music Group, Keshet и даже поучаствовала в создании короткометражного фильма, который был представлен на Международном фестивале документальных фильмов в Амстердаме (IDFA). Стартап часто упоминается в ведущих израильских СМИ, таких как Channel12 и Mako.
У Хейманна и Бен-Ами есть два консультанта, один из которых получил докторскую степень по статистике в Йельском университете, а другой специализируется на кино и занимается постпродакшеном аудио.
В 2018 году CannyAI приняла участие в первом цикле акселератора, запущенного службой безопасности Израиля (ISA или Shin Bet на иврите) и TAU Ventures, инвестиционным подразделением Тель-Авивского университета.
По материалам Rusbase. Автор Александра Степанова