Znak.com поговорил с Марией Чмир основательницей и генеральным директором стартапа Dowell — компании, развивающей технологию Deepfake.
— Технология Deepfake позволяет делать убедительные подделки видео с заменой лиц. Не могли бы вы максимально упрощенно объяснить, как работает эта технология?
— Глобально визуальные дипфейки можно разделить на два больших класса — face-swap (трансфер внешности от «донора» к «дублеру») и reenactment (перенос мимики и эмоций). В рамках этих направлений есть несколько подходов к обработке видео, которые позволяют видоизменять контент. Я расскажу о том, которым углубленно занимается Dowell. Наша команда исторически специализируется на компьютерном зрении: мы обучали алгоритмы «читать» фото и видео как текст, учиться определять объекты и взаимосвязи между ними на изображениях.
Это позволило нам натренировать наши искусственные нейронные сети с высокой точностью распознавать, где на лице находятся глаза, нос и рот, куда направлен взгляд, даже если голова двигается, как падают тени и где лежат морщинки. Такому дотошному анализу подвергаются и видео с «донором», и видео с «дублером».
Следующий этап — алгоритмы учатся воссоздавать донорское лицо поверх лица дублера, сохраняя позы, освещение и мимику дублера. Дальше подключаются алгоритмы обработки — они стабилизируют видео, устраняют несовершенства и выравнивают цвет. В нашем случае в 8 из 10 случаев получается неотличимое от оригинала лицо. Сейчас мы способны создать до 50 видео за 72 часа.
— Насколько такие технологии доступны? В сети много дипфейк-роликов, созданных разными блогерами. Их может делать любой желающий?
— Сейчас действительно есть несколько открытых библиотек, а также приложений и веб-сервисов, с помощью которых можно произвести фото- и видеофейки. Большинство из них направлены на создание развлекательных коротких роликов в низком качестве — они отлично вписываются в ваши соцсети, но на их основе не сделать качественный сюжет для киноэкранов. Те решения, которые обладают высоким реализмом результата, требуют, во-первых, серьезных технологических мощностей (для обучения нейросетей используются графические процессоры с высокой производительностью), а также нуждаются в серьезной ручной постобработке в редакторах: вы могли видеть результат такого симбиоза человека и алгоритмов в «Ирландце» Скорсезе.
— Как выглядит процесс обучения нейросети? Нужно «скормить» ей множество видеороликов и фото? Можно ли подменять лица в реальном времени? Насколько это трудоемкая задача?
— Работа с генеративными технологиями — это всегда баланс трех компонентов: увеличить скорость, сохранив высокий реализм при минимальном объеме входящих данных. Мы, например, научились создавать по-настоящему неотличимые от оригинала копии лиц и даже голов, и сейчас колдуем над ускорением нашей модели, а также снижаем ее «прожорливость» по части требуемых для генерации материалов. Существенного прогресса мы добились, когда начали работу с облачным сервисом Hostkey из Нидерландов. Некоторые наши коллеги по цеху, наоборот, умеют очень быстро — за пару секунд — осуществлять трансфер лиц, но бьются над проблемой улучшения качества генерируемого лица. Яркий пример — команда стартапа AI Factory, основатели которого, кстати, наши земляки, челябинцы Александр Машрабов и Григорий Ткаченко, продавшие свою разработку пересадки лиц в реальном времени Snapchat за $166 млн.
— От чего зависит качество созданного «фейка»? От чего зависит его стоимость?
— Если мы говорим про cinema production quality, когда важно создать максимально похожую и живую копию, то в этом кейсе алгоритмы действительно чувствительны ко многим характеристикам контента: в идеале условия съемки в видео, для которого мы имитируем лицо, и в видео, из которого лицо извлекаем, должны быть схожи по цветокоррекции, иметь высокое разрешение, а лица не должны перекрываться предметами. Но мы учимся нивелировать эти «капризы». Например, за счет глубокой сегментации видео обнаруживаем кадры, в которых перед лицом машут руками, и автоматически удаляем их из обучающей выборки, чтоб минимизировать «шум» в итоговой работе. С некачественными контентом мы работаем с помощью алгоритмов, восстанавливающих изображения до более высокого разрешения. И чем больше манипуляций с контентом нам приходится производить, тем выше цена работы. Самое сложное — сгенерировать первые 30 секунд нового лица, а дальше модель, познакомившись с ним, будет реагировать на новые задачи (кадры) все лучше и лучше.
— За какую сумму ваша компания вставит лицо известной личности (или неизвестной) в порноролик или во что-то подобное? Или вы откажетесь от такой работы?
— Мы в Dowell на старте договорились о том, что этичное использование технологии — ключевая ценность нашей команды. У нас глобальные амбиции, поэтому даже в наших пародийных роликах для YouТube мы четко заявляем о фейковости контента, даем ссылки на первоисточники и сопровождаем особо экстравагантные сюжеты дисклеймерами.
— Про этичность и законность — как сейчас регулируется эта сфера? Есть ли какие-то громкие прецеденты?
— Традиционно пионерами в этой сфере выступают Штаты: в октябре 2019-го губернатор Калифорнии подписал законопроект, запрещающий использовать фейки (в любом виде — голосовые, текстовые, визуальные) в политических целях. При этом есть оговорка, которая допускает создание материалов, раскрывающих свою «подражательную» природу. Подобные инициативы есть в Великобритании и Канаде. В то же время в феврале перед выборами в индийский парламент один из кандидатов использовал подмену движения губ на видео, чтоб «заговорить» с электоратом на диалекте хариани, которым он не владеет. В западной прессе последовала волна обеспокоенных публикаций, но на родине санкций к чиновнику не применили.
Безусловно, мы подходим к новому этапу определения норм относительно обращения с персональными данными. Понятие «кражи личности», возникшее полвека назад в англосаксонском праве, очевидно, требует расширения значения и включения individual visual identity (уникальной внешности человека) в перечень охраняемых категорий.
— Получается, сейчас видео вообще нельзя верить? Человек может сказать — я этого не говорил, не делал, это все Deepfake. Или, наоборот, образ человека могут использовать, чтобы от его лица наговорить всякого. Как с этим бороться? Есть ли способ вычислять фейки? Насколько он эффективный?
— Кибербезопасность в плоскости дипфейков — одна из самых горячих тем, как для государств, так и для корпораций, который сталкиваются со шквалом критики из-за своей неспособности предотвратить распространение ложной информации. Microsoft, Google и Facebook выделяют миллиарды на сбор данных и научные исследования. Техногигант Марка Цукерберга две недели назад завершил свой масштабный челлендж по детекции дипфейков на видео с призовым фондом в миллион долларов (победил инженер по машинному обучению из Белоруссии).
Нейросети участников показывали точность угадывания подделок равную 83% на тренировочных данных, но когда их алгоритмам предлагали незнакомые видео и фото, качество снижалось до 65%. Как видите, точность определения дипфейков сейчас лежит где-то в области подбрасывания монетки. И это по-прежнему колоссально сложная задача.
— Технологию уже использовали в кино и различных развлекательных видео. А недавно она помогла заменить настоящие лица героев фильма BBC о преследуемых в Чечне геях. Для чего еще она может использоваться? Может, есть какие-то неочевидные примеры?
— Кейс с заменой лиц героев фильма «Добро пожаловать в Чечню» на представителей ЛГБТ-активистов — мой любимый. По-моему, это по-настоящему гуманное использование технологии, и таких кейсов пока немного, к сожалению. Из арт-мира интересным выглядит проект музея Дали в Санкт-Петербурге, Флорида: нейросети оживили отца сюрреализма, с которым каждый посетитель экспозиции мог обменяться парой фраз.
Цифровое воскрешение умерших звезд, создание нарративов с естественным старением героев (вместо дублеров и грима), возможность фанатов оказаться внутри киновселенной, загрузив фото на стриминговую платформу, перенос своих мимики и эмоций для управления любимыми персонажами — это уже не будущее, это наше реальное завтра, в приближении которого команда Dowell принимаем активное участие.
Мне же любопытным видится социально-ответственное направление развития дипфейков, связанное с лечением и реабилитацией. VR-технологии уже сегодня начинают применяться для работы с фобиями и психотравмами, и возможность моделирования с помощью генерации лица и голоса значимой для пациента персоны — ценный инструмент для терапии. Такой подход сегодня кажется экстремальным, и он нуждается в масштабных клинических исследованиях, но первые шаги уже делают, скажем, наши корейские коллеги.
— Про ролик с Путиным. Как он создавался? Как развивались события потом, просили ли его удалить?
— Около года мы вели наши научно-исследовательские разработки в области генеративных сетей, иногда отвлекаясь на коммерческие проекты, и не без боли следили за тем, как набирают популярность авторы, создающие дипфейки с помощью открытых алгоритмов — после видео с Маском, которое, кажется, не переслал мне только сам Маск, мы тоже решили действовать. Нам не очень интересно пересаживать актеров из одной картины в другую, как делает большинство, поэтому мы выбрали вектор иронии над повесткой: сначала был ролик, в котором Собянин ввел пропуски в Хогвартсе, а следующим стала пародия на нашумевшую пропаганду в поддержку поправки в Конституцию о семье как о союзе мужчины и женщины.
Публикации этой работы медиагруппы «Патриот» вызвала у меня такую мощную фрустрацию, что попытка переосмысления стала естественной реакцией. Мы собрали качественный датасет с Владимиром Путиным из публичных источников и пофантазировали в творческом ключе о том, как будет выглядеть Россия после поправок. Честно, мы боялись его публиковать. Долго спорили. И даже после того, как решились, закрыли доступ к ролику на YouТube через 10 часов после публикации. «Басманный суд вам тоже что-нибудь сгенерирует», — дал обратную связь на наше предложение опубликовать ролик администратор одного известного паблика в телеграме. Но видео успели скачать, и оно попало в телеграм, твиттер и «ВК» без нашей воли, собрав там, по моим подсчетам, около 100 тыс. просмотров. Сейчас доступ к нему снова открыт: мы не хотим бояться говорить о том, что нас волнует, оставаясь при этом корректными и используя язык пародии.
— Расскажите непосредственно о вашем стартапе, как он зарождался и к чему в итоге вы хотите прийти?
— Сейчас мы параллельно разрабатываем два продукта: в конце лета планируем завершить автоматизацию нашего алгоритма переноса внешности и упаковать его в решение для замены лиц в реальном времени (большой пул потенциальных клиентов в рекламе и потоковых медиа ждут этого релиза), а уже в июле мы запустим сервис, оживляющий фотографии, — как в Гарри Поттере, помните? Можно будет загрузить портрет своего босса и анимировать его разными эмоциями, а из полученных гифок сделать стикерпак или поделиться ими в соцсетях. Гифки стали сегодня универсальным средством коммуникации — в мае Facebook купил Giphy за $400 млн, что подчеркивает интерес широкой аудитории к созданию и обмену короткими визуальными сообщениями. В этом направлении мы видим потенциал для масштабирования.
По материалам Znak. Служба новостей.