Невероятно, но фейк: зачем российскому стартапу технология подмены лиц

Программа, которая редактирует видео, заменяя лицо героя чужим, позволяет актеру одновременно сниматься в нескольких фильмах, одалживая внешность дублерам. Интерес к ней пока, правда, проявляет не Голливуд, а рекламщики и госкорпорации

Мария Чмир (Фото: Асхат Бардынов для РБК)

«Мы пошли на кинорынок и увидели, что там есть реальная боль в работе с дублерами. Если ты снимаешь боевик со звездами, то во время трюковых сцен либо отказываешься от крупных планов, либо используешь дорогостоящую компьютерную графику, либо на съемочной площадке у тебя рискует звезда. Но если рискует звезда, то студии готовы к тому, что страховщики, которые могли застраховать ее здоровье на миллионы, выдвинут неадекватные условия. Сломанная нога Тома Круза на съемках последней серии «Миссия невыполнима» обошлась студии очень дорого», — рассказывает Мария Чмир, сооснователь стартапа Dowell, который разрабатывает технологию face swap (замена лица — англ.), способную «приклеивать» лицо человека к другому объекту съемки. На основе подобной технологии создаются нашумевшие deepfake-видео (от англ. deep learning и fake news), в которых главы государств поражают зрителей странными заявлениями, а кинозвезды оказываются героями порносюжетов или заменяют других актеров в старых фильмах.

Dowell, который, по словам создательницы, британский корпоративный акселератор Founders Factory оценил в $2,5 млн, планирует продавать свои продукты медиа, киностудиям и рекламным агентствам. Чмир думает, что это должно привести к настоящей революции в производстве видеоконтента: «Сейчас после создания видеоролика ты с ним уже ничего не можешь сделать — это законченный продукт. Если ты хочешь его изменить, нужно либо проводить досъемку — это дорого, — либо нанимать команду художников, которые при помощи 3D-моделирования и спецэффектов что-то подправят — это долго и тоже очень недешево». Face swap, считает она, технология, которая может снизить затраты на видеопроизводство в десятки раз.

Красота — в глазах нейросети

За плечами у выпускницы соцфака Южно-Уральского госуниверситета 29-летней Марии Чмир годы работы в рекламной индустрии. Она сотрудничала со столичным рекламным агентством Friends Moscow, занималась развитием бизнеса в креативном агентстве «Восход» (на счету екатеринбургского агентства — 11 каннских «львов»). В апреле 2017 года Чмир пригласили в компанию Everypixel (до ребрендинга в 2016 году она называлась PressFoto) на позицию бизнес-консультанта. Компания, которую в 2005 году основал Дмитрий Широносов, первоначально специализировалась на производстве изображений для фотобанков (Shutterstock, Getty Images и т.п.), основные клиенты которых — дизайнеры, СМИ, маркетологи, рекламные агентства. Со временем к стоковому фото добавилось производство видео- и аудиоконтента, а также разработка собственных программных решений. В 2016 году компания одной из первых в Челябинске стала развивать ИИ-направление. Сейчас у Everypixel есть офисы не только в родном городе, но и в Санкт-Петербурге и Вьетнаме, в штате работают более 100 человек.

Инновационные разработки компании изначально служили внутренним нуждам и не были широко известны. Положение изменилось в 2017 году, когда Everypixel запустила свой первый продукт — агрегатор для поиска фотографий по крупнейшим мировым фотостокам. «Этот инструмент позволяет медийщикам и дизайнерам не бродить по десятку площадок, а в одном месте найти все нужное и сравнить цены. Поисковый алгоритм ранжирует выдачу не только по релевантности, но и по эстетическим соображениям. Анализируя технические параметры фото (баланс белого, композицию, четкость изображения), нейронная сеть распределяет снимки по качеству съемки. Наверху поисковой выдачи оказывается контент, сделанный более профессиональными фотографами, а классические стоковые изображения (клипарт) «минусятся» и находятся внизу. В итоге пользователи тратят меньше времени, чтобы найти то, что им нужно», — поясняет Чмир.

В марте 2017 года информация о поисковике Everypixel появилась на англоязычном сайте Product Hunt, где пользователи делятся информацией и тестируют новые диджитал-продукты. Алгоритм, умеющий оценивать качество фото, привлек внимание международного ИТ-сообщества: о российском стартапе написали такие издания, как Digital Trends, Digital Photography Review, Petapixel, о нем рассказал топовый видеоблогер PewDiePie с аудиторией около 12 млн подписчиков.

Мария Чмир (Фото: Асхат Бардынов для РБК)

Проектом стали интересоваться иностранные инвесторы, но у него была проблема — отсутствие модели монетизации. «На первом этапе мы не придумали, как на этом зарабатывать деньги. Если добавить рекламу, нужно существенно разгонять трафик, а для этого нужно брать деньги где-то извне. Опыта общения с венчурными инвесторами тогда не было. Их задача — минимизировать риски, они жестко относятся к основателям, которые не соответствуют их критериям отбора. 2019 год показал, что проекты, в которые ранее инвестировали большие деньги, оказались не настолько успешными, как о них писали», — рассуждает Чмир, намекая на IPO таких «единорогов», как WeWork и Uber. С искусственным интеллектом все еще сложнее: далеко не всегда стартапы, которые заявляют, что их продукт работает с помощью ИИ, на самом деле владеют этой технологией, а инвесторы, которые не всегда в состоянии это проверить, чаще всего предпочитают не рисковать.

Бизнес с «завязанными глазами»

Помимо не имеющего модели монетизации поисковика Everypixel, у компании был еще фотобанк pressfoto.ru и некоммерческий стартап-акселератор «Корпус!». Основной доход приносило производство стокового контента. Задачей Чмир, которая вскоре стала в компании директором по маркетингу, было повысить доходность активов: «Мы вместе с директором по развитию Катей Чащиной подумали: раз у нас есть свои студии, свое оборудование, почему мы не занимаемся этим на коммерческой основе? Мы же можем быть классическим продакшеном».

Основной проблемой, связанной со спецификой бизнеса, Чмир называет отсутствие образа потребителя: «Когда ты взаимодействуешь с клиентом напрямую, ты решаешь его проблемы и получаешь бесценный опыт, а когда ты продаешь через стоки, они сами решают свои проблемы, а у тебя нет обратной связи. Это бизнес с «завязанными глазами»: ты не знаешь, какой контент нужно произвести сегодня, чтобы завтра его купили те, с кем ты незнаком лично». Как следствие, продаются фото очень неровно. «Обычно есть какой-то «локомотивный» контент, который продается несколько тысяч раз в месяц. Например, была суперпопулярная фотография, с которой мы попали в тренд «пожилые активные люди» — мы снимали бабушку в образе рок-звезды. Ее купили несметное количество раз, даже делали лицом рекламных кампаний. Нашей задачей было развязать глаза: мы стали вводить фигуру клиента через коммерческую съемку (под заказ конкретных клиентов. — РБК) и одновременно пытались продавать те технологические разработки, которые удалось аккумулировать за семь лет».

Однако коммерческий продакшен не взлетал так быстро, как хотелось команде, поскольку все процессы в компании были настроены под производство массового продукта. «Не хватило «секретного соуса». Когда ты делаешь стоковый контент, твоя задача — попасть в массовый спрос. Это качественный, но некреативный контент. Когда ты делаешь коммерческий продакшен и работаешь на конкретного клиента, он хочет индивидуальности и эксклюзивности», — рассуждает Чмир. Кроме того, производственный цикл в работе на клиента и на фотостоки разный: в первом случае результат нужен в сжатые сроки, во втором есть возможность планировать работу на целый квартал.

Компания попыталась монетизировать внутреннюю разработку — инструмент, который помогал авторам загружать файлы на фотостоки, автоматизируя рутинные процессы описания и тегирования фото: ИИ распознавал, что находится на снимке, и давал текстовое описание фото в духе «стол, яблоко, блюдо». Но больших успехов добиться не удалось: команда ошиблась с оценкой емкости рынка, и потенциальных клиентов оказалось не так много, как ожидалось. «Мы извлекли два урока: не все, что создано для внутренних нужд, можно перенести на внешний рынок, а уровень разработки и дизайна продукта никогда не определяет его успех на рынке. А главное, что я поняла за первый год работы, — у компании есть большой потенциал и множество классных разработок, но ей не хватает фокуса», — резюмирует Чмир.

Фея фейка

В 2018 году мир заговорил о дипфейках. На YouTube стали появляться видео, где политические деятели делали неожиданные громкие заявления (например, Дональд Трамп возмутил жителей Бельгии, призвав их отказаться от Парижских соглашений по климатическому урегулированию). Позже выяснилось, что эти ролики созданы с помощью так называемых генеративно-состязательных сетей, которые ранее считались кабинетной разработкой ученых: нейросети самостоятельно соединяли части разных видеоизображений — в данном случае лица и тела разных персонажей. Чуть позже появились сделанные с помощью той же технологии порноролики с известными актрисами Голливуда.

«У меня возникло смутное подозрение, что эта одиозная технология может найти свое применение в бизнесе, — смеется Чмир. — Тогда уже были любопытные проекты у наших коллег с Украины: приложение Reflect позволяло вставить свою мордашку в какую-то другую фотку из готовых шаблонов. Выглядело очень мультяшно. Было понятно, что это скорее кейс Prisma (приложение, которое переделывает фото в картину в манере разных известных художников. Стало бешено популярным в соцсетях в 2016 году, но не нашло коммерческого применения. — РБК). Мне не хотелось идти в эту реку b2c, потому что это всегда история про удачу и попадание в аудиторию, а не про какую-то невероятную инновацию. Я хотела сыграть более надежно».

Фото: Асхат Бардынов для РБК

Чмир стала искать компании, заинтересованные в том, чтобы удешевить производство видеоконтента: листала старые контакты, писала рекламным агентствам и большим брендам. Everypixel удалось выйти на MSC Cruises (швейцарская частная круизная компания с оборотом более $2 млрд в год). «Они напичканы технологиями, которые помогают улучшать клиентский опыт пассажиров. Когда клиенты покупали тур, они получали приветственные письма. Компании хотелось сделать следующий шаг в этой коммуникации: отправлять не просто письмо, а персональное видеообращение членов команды». Но снять всех было сложно: специалисты живут в разных городах мира и к тому же не умеют работать на камеру. «Появилась идея снять аниматоров, которые работают на лайнере, а потом при помощи технологии face swap сделать нужное количество видеороликов для клиентов с лицами членов команды. Это звучало интересно. Персонализация общения с клиентом в люксовом сегменте очень важна, она позволяет повысить вовлеченность и средний чек, но она не всегда возможна», — поясняет Чмир. В итоге удалось сделать лишь бесплатный пилот: большого коммерческого проекта не случилось, поскольку у клиента сменилось руководство.

С апреля 2019 года Чмир вела переговоры с рекламным агентством Instinct (входит в BBDO Group): «Плюс больших агентств — у них есть департамент, который занимается инновациями и старается держать руку на пульсе. Их очень заинтересовала возможность интегрировать потенциального клиента в рекламный контент». В августе 2019 года Everypixel и Instinct договорились сделать совместный проект для крупного немецкого автопроизводителя. «Директор по маркетингу хотел впечатлить вице-президента сюрпризом на корпоративном мероприятии, которое было посвящено инновациям в рекламных технологиях. Мы поместили вице-президента в один из главных рекламных роликов бренда вместо актера», — вспоминает Чмир.

Торговля лицом
За рубежом задачей удешевить производство контента с помощью face swap озаботились такие стартапы, как Synthesia, RefaceAI и другие. Весной 2019 года британская компания Synthesia сняла социальную рекламу с участием Дэвида Бекхэма, который рассказывал об опасности малярии. В ней футболист как будто бы говорит на девяти языках мира, большинством из которых в действительности не владеет: носители языка произносили текст, а искусственный интеллект подстраивал его под артикуляцию Бекхэма. А украинский стартап RefaceAI (создатели приложений Doublicat и Reflect) сделал промо для кинофраншизы «Елки»: на сайте картины пользователям предлагалось поместить свое фото на афишу.

Голова профессора в Dowell

Увидев перспективы технологии, руководство компании решило выделить ее в стартап под названием Dowell: «Чтобы сделать его инвестиционно привлекательным, мы с владельцами Everypixel договорились, что будем позиционировать проект как отдельный продукт. Мы не открывали новое юрлицо в России, но готовы открыть его в той юрисдикции, где найдем инвестора, — проект ориентирован в первую очередь на мировой рынок», — поясняет Чмир. Доли в совете директоров Dowell распределились следующим образом: 60% принадлежат трем сооснователям Everypixel во главе с Дмитрием Широносовым, 20% — его брату Александру Широносову, главе исследовательского направления компании, и 20% — Чмир, которая занимается оперативным управлением.

Мария Чмир (Фото: Асхат Бардынов для РБК)

Компания берет от $500 за перенос лица одного персонажа в видео длиной в одну минуту. У технологии пока есть ограничения: например, рабочая часть — лицо без ушей и волос. Но они технически преодолимы.

Одним из крупнейших сегментов аудитории для продукта Dowell могут стать крупные компании. «Сегодня мы можем делать интересные корпоративные интеграции, например съемки новогоднего корпоратива интегрировать в крутой голливудский фильм — если, конечно, не будет сложностей с правами на использование контента. Мы нашли еще одну интересную нишу, которую обсуждали с одним из крупнейших российских банков в конце 2019 года, а сейчас обсуждаем с одной из первых в стране госкомпаний. Это возможность создавать корпоративные обучающие материалы от первых лиц компании. Например, вводятся новые организационные изменения, и об этом рассказывают не какие-то говорящие головы, а сам гендиректор. У него нет времени сниматься в таких роликах, но, если есть его согласие, достаточно снять дублера».

Использование дублеров не только для трюков позволяет увеличить доход больших актерских агентств: «Представьте: Джордж Клуни снимается в новом фильме в Голливуде, делает рекламу для Nespresso на озере Комо и презентует новый Mercedes в Штутгарте — и все это в одно и то же время», — поясняет Чмир. Дело более отдаленного будущего — создание первого генеративного кинофильма из текстового сценария: ИИ будет «читать» сценарий, подбирая из огромной базы записей нужных цифровых актеров, которые будут играть все сцены.

После того как технологию возьмут на вооружение кино- и видеоиндустрия, наступит черед менее творческих сфер бизнеса, например ретейла, прогнозирует соосновательница стартапа. «Представьте: вы заходите в торговый центр, идете по атриуму и, подходя к лифту, на цифровой рекламной панели видите себя внутри рекламного ролика. Как это возможно? Есть камера, которая снимает вас на входе, и нейросеть очень быстро встраивает лицо в готовый видеоролик — результат вы видите на экране. Это мечта, к которой мы когда-нибудь придем», — уверяет Чмир.

Взгляд со стороны
«У компании хорошие шансы занять свою нишу на новом рынке»


Мы сейчас видим уже несколько попыток применения технологии face swap в массовых продуктах — упомяну китайское приложение Zao и Cameo от Snapchat. Сейчас этот рынок только начинает формироваться: поднимаются вопросы регулирования, появляются все новые примеры использования. Считаю, что кинематограф и YouTube-блогеры, снимающие пародии для своих каналов, могут извлечь огромную выгоду из технологии Dowell. У компании хорошие шансы занять свою нишу на новом рынке.

Владимир Свешников, основатель Vera Voice и Robot Vera
По материалам РБК. Автор Мария Шакирова

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *