Технология производства фейков — дипфейк — названа агентством Gartner стратегическим трендом 2022 года. Неужели речь идет о неостановимой лавине фальшивок, и именно это компания рассматривает как стратегический тренд развития технологий?
Среди трендов, названных агентством Gartner стратегическими для 2022 года, упоминается генеративный искусственный интеллект (Generative Artificial Intelligence). Авторы списка трендов расшифровывают этот термин так — «методы обработки данных, основанные на машинном обучении, используемые для генерации новых, полностью оригинальных и реалистических артефактов». Первым делом вспоминаются те применения, которые и в прошлом уже привлекали массовое внимание: печально знаменитые дипфейки, когда благодаря генеративным технологиям известные люди на видео узнаваемым голосом произносили слова, которые никогда на самом деле не говорили (клонирование голоса), или когда лицо одного человека очень натуралистично соединяли с телом другого, и действия этого тела были крайне неприятны обладателю лица (порноместь, например).
Однако, по оценке Gartner, на созданные генеративным ИИ данные и контент к 2025 году будет приходиться около 10% всего объема новых данных, и это колоссальная цифра для нашего мира с его потоками разнообразных данных. Неужели речь идет о лавине фальшивок, и именно это рассматривается как стратегический тренд развития технологий? К счастью, нет, и в более полном документе упоминаются действительно продуктивные и очень перспективные с точки зрения бизнеса способы использования генеративного ИИ, которые в данный момент находятся лишь на ранних стадиях внедрения.
Прежде всего стоит отметить возможности генерации новых текстов алгоритмами, которые продолжают и развивают нечто, начатое человеком, или полностью самостоятельно создают тексты, изучив используемые людьми шаблоны. В «Википедии» есть статья, посвященная автоматизированной или алгоритмической журналистике, но пока у этих систем генерации текстов достаточно узкое применение: действительно хорошо они умеют справляться разве что с финансовыми или спортивными новостями.
В новостной журналистике, где идет жесткое соревнование за скорость публикации текста, основанного на оперативно получаемых данных (будь то квартальный отчет компании или счет в спортивном матче), у систем машинного обучения действительно есть большие перспективы, и они не сводятся к генерации сухих сводок. Например, китайское информационное агентство «Синьхуа» уже не первый год экспериментирует с виртуальными ведущими новостных телепрограмм. Это хороший пример того, как виртуальные личности, создаваемые с помощью генеративного ИИ, служат не целям дезинформации, а позволяют наряду с автоматизацией других процессов в СМИ удешевить и ускорить доставку новостей зрителям.
Еще более впечатляющие результаты уже достигнуты и наверняка будут расти и дальше в работе генеративных алгоритмов с другим типом текста — с кодом компьютерных программ. Лишь несколько месяцев назад, в июне 2021 года, крупнейший в мире репозиторий компьютерного кода Github, принадлежащий Microsoft, анонсировал новый сервис для программистов Copilot. Обученный на миллиардах строк компьютерного кода, этот ИИ-напарник, по словам создателей, позволяет экономить время и сохранять фокус, дописывая за человека код в тех случаях, когда понятно, что там человек хотел написать дальше в своей программе. И вот совсем недавно, в конце октября, GitHub отчитался о том, что теперь треть всего объема нового кода на сервисе пишет этот «второй пилот». Это, конечно же, не означает, что треть программ создает генеративный алгоритм: Copilot помогает намного быстрее писать код тем, кто научился его использовать, а не создает код самостоятельно.
Но самое интересное и масштабное применение генеративного ИИ остается вообще не видимо широкой публике, хотя именно там и будет сосредоточена основная часть колоссального объема новых данных, создаваемых алгоритмами. Эта область называется «синтетические данные». Для обучения искусственных нейронных сетей часто необходимы колоссальные объемы данных для обучающих выборок, но доступ к необходимым данным все чаще оказывается затруднен или вообще невозможен.
Простейший пример: использовать изображения людей, особенно их лиц, без явного разрешения обладателей этих лиц где-то явно запрещено, а где-то — грозит разными юридическими рисками. Но генеративные алгоритмы давно научились генерировать очень реалистичные лица людей, причем можно управлять самыми разными характеристиками этих лиц: возрастом, полом, цветом кожи, этническими особенностями, настроением и т.д. Существует немало компаний, оказывающих такие услуги на коммерческой основе. Если нам нужно научить чему-то алгоритм, которому предстоит работать с реальными лицами людей, мы можем вести обучение на миллионах лиц, которые обладают нужными нам свойствами и повторяют распределение этих свойств в реальной жизни, — но ни одно из них не принадлежит реальному человеку.
Аналогичным образом генеративные алгоритмы могут создавать не только человекочитаемые объекты (например, фотопортреты), но и практически любые массивы данных, которые неотличимы от существующих в реальности, не взяты из этой реальности и, соответственно, не охраняются законодательством и их использование не нарушает ничьих прав. Ярким и очень актуальным примером является продукт компании Syntegra — это база данных медицинских записей 2,7 млн пациентов, из которых 413 000 переболели COVID-19. Только эти пациенты не существуют в реальности, и ни одну из 2,6 млрд строк таблицы нельзя как-либо проидентифицировать с конкретным человеком — зато базу данных можно широко и в самых разных организациях использовать для предварительной проверки различных гипотез, связанных с протеканием и лечением болезни.
Развитие беспилотного транспорта также сейчас невозможно без синтетических данных: управляющие автомобилями алгоритмы должны пройти обучение в огромном количестве аварийных ситуаций, воспроизвести которые в физическом мире (даже на полигоне) не всегда возможно и всегда дорого. Но можно тренировать алгоритм в тех виртуальных мирах, которые похожи на миры, созданные для компьютерных игр с участием автомобилей. Такие тренировочные миры являются результатом генерации огромного количества синтетических данных, воспроизводящих данные, поступающие с датчиков беспилотника.
По мере роста применения алгоритмов машинного обучения в разных областях промышленности и торговли системы генерации синтетических данных приходят и туда, снабжая разработчиков цифровыми массивами процессов, которые не являются точными цифровыми двойниками реальности, но в то же время неотличимы от нее.
Неудивительно, что Gartner прогнозирует: уже к 2014 году основная часть данных, используемых для разработки промышленных систем машинного обучения, будет синтетической, и ни одна по-настоящему успешная и эффективная машинно-обученная система не сможет быть создана без использования таких данных.
По материалам Forbes. Автор Андрей Себрант