Эксперты из ИБ-фирмы Secure Anchor выяснили, что с января по апрель 2021 г. количество инцидентов с копированием голосов руководителей для атак на бизнес возросло на 60%. Под видом начальства мошенники убеждают сотрудников перевести деньги на левые счета. Чтобы смоделировать подделку, хакеры используют публичные записи выступлений своих жертв: соцсети, подкасты, радиокомментарии, выступления на конференциях и пр. Искусственный интеллект может из 45-минутной записи образца голоса синтезировать копию и затем воспроизводить любой текст. Значит, в зоне риска все, кто хоть раз выступал публично?
Я (в том числе как человек, который довольно много выступает под запись) эту панику не разделяю. Во-первых, взглянем на статистику. Это штука хитрая, без знания реального числа инцидентов устрашающая цифра в 60% – просто громкий инфоповод.
Во-вторых, сама технология атаки пока далека от совершенства. Да, дипфейк активно развивается. Но скорее в части подделок видео – это проще, чем достоверно скопировать чужой голос. Если в первом случае достаточно следить за качеством картинки, то с аудио нужно учитывать больше параметров. Искусственный интеллект может допустить погрешности в воспроизведении темпа, тембра, высоты копируемого голоса и в индивидуальных особенностях речи (покашливания, паузы, слова-паразиты, акцент и пр.).
Допускаю, что искусственно синтезировать голос, похожий на оригинал, и заставить его читать «с листа» реально (text2speech). Этим уже пользуются многочисленные телефонные роботы и те же голосовые помощники. Другое дело – генерировать подделку «вживую», то есть налету достоверно заменять голос говорящего на чей-то чужой. Говорят, это умеет стартап Respeecher , основанный на технологии speech-to-speech – но без теста принимать на веру маркетинговые заявления не берусь (если кто-то уже тестил или собирается, и готов поделиться опытом, буду рад послушать, пишите).
Наконец, атака требует архисложной подготовки. Мошенники должны заранее изучить не только манеру речи человека, голос которого хотят украсть, но и его привычки, отношения с коллегами, расписание, тонкости бизнес-процессов в компании, на которую нацелена атака.
Все это отнимает силы, время и деньги, при том, что риск неудачи остается высоким. Игра стоит свеч, только если компания большая, а руководитель – публичный человек. Поэтому вопрос, станут ли атаки с копированием голоса массовыми, остается открытым. Думаю, актуальнее может быть другая угроза: когда технологию станут использовать для шантажа. Например, грозить опубликовать фейк под видом «подслушанного доброжелателями» неосторожного высказывания, которое может жертву скомпрометировать. И если в случае шантажа фейковым фото или видео можно провести экспертизу, то с поддельной записью голоса все может оказаться сложнее.
Важно понимать, что эти атаки строятся по общим правилам социальной инженерии. Мошенники стремятся застать жертву врасплох, запугивают и путают. Поэтому защититься можно только сохраняя холодную голову. В этом помогут разработанные протоколы и правила, регламентирующие взаимодействие между сотрудниками и ограничивающие денежные переводы с корпоративных счетов. В случае подделки голоса можно использовать кодовые слова, вплоть до одноразовых ежедневных кодов или секретных вопросов (стоит ли так заморачиваться, виднее вам – мало ли, что стоит на кону). Мошенники могут скопировать голос, но не ответят на каверзные вопросы.
По материалам «СёрчИнформ». Автор Алексей Дрозд