Современные нейросети способны точно имитировать голоса, менять лица людей таким образом, что можно обмануть любую систему безопасности, создавать дипфейки и бороться с ними.
Искусственный интеллект можно использовать не только в благих, но и в преступных целях, например, создавать фальшивые личности, формировать дипфейки, распространять заведомо ложную информацию.
Подделка голоса
В современных электронных системах голос довольно часто используется для подтверждения личности человека, например, в автоматизированных службах поддержки клиентов крупных банков Morgan Chase и HSBC. С помощью голоса настраивается доступ к «умным» помощникам, таким как Amazon Alexa и Google Home. Но данная технология далеко не безопасна, ведь ИИ может с высокой точность имитировать тембр голоса любого человека.
Издание The Wall Street Journal опубликовало материал о мошенниках, которые при помощи нейросети заставили руководителя британской компании перевести им на счет €220 тыс. Дело обстояло так: злоумышленники позвонили одному из топ-менеджеров, предварительно «сформировав» голос руководителя материнской компании из Германии при помощи специального ПО. Этот голос приказал срочно выплатить деньги некому венгерскому поставщику. Обманутый менеджер позже заявлял, что опознал немецкого босса по характерному акценту и тембру.
Сотрудники Чикагского университета в США проверили, сложно ли разработать подобную нейросеть, и позже опубликовали результаты исследования. Они пришли к выводу, что сделать это возможно, имея запись оригинального голоса человека-«приманки» и располагая доступом к нейросетям, с помощью которого синтезируется речь таким образом, чтобы голос произносил нужные фразы.
Ученые использовали записи голосов 90 человек из публичных баз данных, а затем составили ложные речи при помощи открытых нейросетей SV2TTS и AutoVC. По их словам, фейковые голоса смогли обмануть системы защиты Resemblyzer и Microsoft Azure. Исследователи также попытались обойти системы WeChat и Amazon Alexa, предложив 14 добровольцам войти в собственные аккаунты, используя синтезированные голоса. В итоге Alexa «поверила» всем записям, а WeChat — 9 из 14.
Эксперимент, проводимый при участии 200 добровольцев, показал, что люди могут отличать настоящих собеседников от «искусственных» лишь в 50% случаев.
Обман систем распознавания лиц
Технология распознавания лиц давно применяется для поиска людей, подтверждения их личности, или для разблокировки смартфонов. Специалисты из Тель-Авивского университета проверили, насколько она надежна, обучив нейросеть StyleGAN создавать изображения-«отмычки» для обмана современных систем. Они предоставили ИИ доступ к общедоступной базе Labeled Faces in the Wild (LFW) Массачусетского технологического университета.
Нейросеть составила изображения «нейтральных» лиц на основе 13 тыс. фотографий. Оказалось, что эти искусственные лица способны обмануть три системы распознавания — Dlib, FaceNet и SphereFace. Для каждой из них применяли по 9 лиц-«отмычек», а затем системам показали настоящие лица из базы данных LFW. В итоге, Dlib ошиблась в 63,92% случаев, FaceNet – в 43,82%, SphereFace – в 44,15%. Таким образом всего 9-ти лиц-«отмычек» может быть достаточно для взлома систем.
Обход систем безопасности
Другая группа ученых из Университета имени Бен-Гуриона (Израиль) и NEC Corporation проверила, можно ли изменить настоящее лицо, чтобы его не распознала ни одна система безопасности. Нейросеть определила части лица, за которые чаще всего «цепляются» системы распознавания, а затем подобрала грим, который помог их скрыть. Для этого алгоритм изучил фотографии определенного человека и других людей похожего по типажу, составил так называемую карту лица, подмечая отличительные черты, после этого создал виртуальную копию, на которую ученые нанесли грим. Готовое изображение они показывали системе безопасности до тех пор, пока она не перестала узнавать человека. Последний этап — нанесение аналогичного макияжа на лицо добровольца.
Данный метод позже проверили на 10 мужчинах и 10 женщинах, показав их лица под гримом системе ArcFace. Как отмечается в статье, алгоритм смог распознать замаскированных участников эксперимента только в 1,22% случаев, огромная разница по сравнению с 47,5% без грима и 33,7% с обычным макияжем. Другими словами, нейросеть позволила загримироваться так, что люди могли оставаться неузнанными в 99% случаев. Ученые подчеркнули, что такой грим вводит в заблуждение не только камеры, но и реальных людей.
Дипфейки, которые развязали «войну» машин
Deepfake — это ложное изображение, созданное нейросетью, работающей на основе алгоритмов глубокого обучения (deep learning). В 2019 году жертвой технологии стала член Палаты представителей Конгресса США Нэнси Пелоси — искусственный интеллект обработал видеозапись таким образом, что политик казалась пьяной.
В том же году основатель Meta (экс-Facebook) Марк Цукерберг объявил конкурс по разработке нейросетей, определяющих дипфейки, и посулил награду в $10 млн. И пока одни разработчики пытаются создать идеальные «обманки», другие ищут новые методы борьбы с ними.
Айтишники из Калифорнийского университета в Сан-Диего создали нейросеть, обманывающую детекторы дипфейков, чтобы оценить возможности злоумышленников. Она встраивает в обработанное видео специальный фоновый шум, из-за которого системы признают запись оригинальной. Конечно, разработчики не раскрыли всех секретов своей технологии.
Они рассмотрели два сценария: когда у создателей дипфейков есть полная информация о детекторах и когда известен лишь тип машинного обучения. В первом случае нейросеть смогла обмануть «защитников» с 99% несжатых видео и 84,96% сжатых, а во втором — 86,43% и 78,33% соответственно. Основываясь на результатах исследования, программисты посоветовали использовать метод обучения, когда «обманщик» и «обличитель» соревнуются между собой.
Некоммерческая лаборатория OpenAI обучила ИИ играть в прятки сам с собой.
По материалам Фокус