Подделка голоса, или здравствуйте, я (не) ваша тётя

Эксперты из ИБ-фирмы Secure Anchor выяснили, что с января по апрель 2021 г. количество инцидентов с копированием голосов руководителей для атак на бизнес возросло на 60%. Под видом начальства мошенники убеждают сотрудников перевести деньги на левые счета. Чтобы смоделировать подделку, хакеры используют публичные записи выступлений своих жертв: соцсети, подкасты, радиокомментарии, выступления на конференциях и пр. Искусственный интеллект может из 45-минутной записи образца голоса синтезировать копию и затем воспроизводить любой текст. Значит, в зоне риска все, кто хоть раз выступал публично?

Я (в том числе как человек, который довольно много выступает под запись) эту панику не разделяю. Во-первых, взглянем на статистику. Это штука хитрая, без знания реального числа инцидентов устрашающая цифра в 60% – просто громкий инфоповод.

Во-вторых, сама технология атаки пока далека от совершенства. Да, дипфейк активно развивается. Но скорее в части подделок видео – это проще, чем достоверно скопировать чужой голос. Если в первом случае достаточно следить за качеством картинки, то с аудио нужно учитывать больше параметров. Искусственный интеллект может допустить погрешности в воспроизведении темпа, тембра, высоты копируемого голоса и в индивидуальных особенностях речи (покашливания, паузы, слова-паразиты, акцент и пр.).

Допускаю, что искусственно синтезировать голос, похожий на оригинал, и заставить его читать «с листа» реально (text2speech). Этим уже пользуются многочисленные телефонные роботы и те же голосовые помощники. Другое дело – генерировать подделку «вживую», то есть налету достоверно заменять голос говорящего на чей-то чужой. Говорят, это умеет стартап Respeecher , основанный на технологии speech-to-speech – но без теста принимать на веру маркетинговые заявления не берусь (если кто-то уже тестил или собирается, и готов поделиться опытом, буду рад послушать, пишите).

Наконец, атака требует архисложной подготовки. Мошенники должны заранее изучить не только манеру речи человека, голос которого хотят украсть, но и его привычки, отношения с коллегами, расписание, тонкости бизнес-процессов в компании, на которую нацелена атака.

Все это отнимает силы, время и деньги, при том, что риск неудачи остается высоким. Игра стоит свеч, только если компания большая, а руководитель – публичный человек. Поэтому вопрос, станут ли атаки с копированием голоса массовыми, остается открытым. Думаю, актуальнее может быть другая угроза: когда технологию станут использовать для шантажа. Например, грозить опубликовать фейк под видом «подслушанного доброжелателями» неосторожного высказывания, которое может жертву скомпрометировать. И если в случае шантажа фейковым фото или видео можно провести экспертизу, то с поддельной записью голоса все может оказаться сложнее.

Важно понимать, что эти атаки строятся по общим правилам социальной инженерии. Мошенники стремятся застать жертву врасплох, запугивают и путают. Поэтому защититься можно только сохраняя холодную голову. В этом помогут разработанные протоколы и правила, регламентирующие взаимодействие между сотрудниками и ограничивающие денежные переводы с корпоративных счетов. В случае подделки голоса можно использовать кодовые слова, вплоть до одноразовых ежедневных кодов или секретных вопросов (стоит ли так заморачиваться, виднее вам – мало ли, что стоит на кону). Мошенники могут скопировать голос, но не ответят на каверзные вопросы.

По материалам «СёрчИнформ». Автор Алексей Дрозд

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *