ESET：电话里假装：如何判断语音通话是否是AI。

曾经有一段时间，我们可以相信所见所闻。可惜，那些日子可能早已一去不复返。生成式人工智能（GenAI）使深度伪造音频和视频的创建更加民主化，以至于生成伪造视频片段只需按下一两个按钮即可。这对所有人来说都是坏消息，包括企业。

深度伪造帮助骗子绕过“了解你的客户”和账户认证检查。他们甚至可能助长恶意国家行为者伪装成求职者。但可以说，他们面临的最大威胁是金融/电汇欺诈以及高管账户的劫持。

组织低估深度伪造威胁是自负的。英国政府声称去年共有多达800万个合成片段，而2023年仅有50万个。实际数字可能远高于此。

攻击机制

正如ESET全球安全顾问Jake Moore的一项实验所示，发动深度伪造音频攻击从未如此简单。只需要一段受害者的短片段就能被冒充。生成式AI会完成剩下的任务。攻击可能的进行方式如下：

攻击者选择他们要冒充的人。可能是CEO、CFO，甚至供应商。
他们在网上找到音频样本——对于经常公开演讲的高管来说，这很容易。它可能来自社交媒体账号、财报电话会议、视频/电视采访或其他任何渠道。几秒钟的录像应该就足够了。
他们会选择要联系的人。这可能需要一些办公桌调研——通常是在LinkedIn上查找IT帮助台人员或财务团队成员。
他们可能会直接联系个人，或提前发送电子邮件——例如，CEO请求紧急汇款、密码/多因素认证（MFA）重置请求，或供应商要求支付逾期发票费用。
他们会用GenAI生成的深度伪造音频，拨打预先选定的目标，冒充CEO/供应商。根据工具的不同，他们可能坚持预设的语音，或者采用更复杂的“语音转语音”方法，将攻击者的声音几乎实时翻译成受害者的声音。

这种攻击方式变得更便宜、更简单、更有说服力。有些工具甚至能插入背景噪音、停顿和结巴，让模仿声音听起来更真实。他们越来越擅长模仿每个说话者独特的节奏、语调和语气抽动。而当攻击通过电话发起时，与人工智能相关的故障听众可能更难察觉。

攻击者还可能使用社会工程手段，比如施加压力让听者紧急回应请求，以实现目标。另一个经典做法是敦促听众保密请求。再加上他们经常冒充高级管理人员，这就不难理解为什么有些受害者会被欺骗。谁会想惹上CEO的坏评？

话虽如此，你还是有办法识别冒牌货的。根据他们使用的生成式人工智能有多复杂，可能可以区分：

威胁行为者之所以投入更多时间在这类骗局中，原因很简单：潜在的回报。警示故事正在不断积累。2020年，阿联酋一家公司的一名员工被欺骗，以为他们的董事打电话请求3500万美元的并购资金转移。

鉴于深度伪造技术在过去六年中取得了显著进步，值得重新审视一些关键步骤，以最大限度地减少最坏情况的发生。

这应该从员工培训和提高意识开始。这些项目应更新，加入深度伪造音频模拟，确保员工了解预期、风险及应对方式。他们应被教导识别社交工程和典型深度伪造场景的明显迹象，如上述描述。应开展红队训练，以测试员工吸收这些信息的能力。

接下来是流程。请考虑以下几点：

科技也能提供帮助。现有检测工具用于检测各种合成声音的参数。更难实施，但另一种做法是限制威胁行为者获取音频的机会，通过限制高管的公开露面。

然而，关键是深度伪造简单且制作成本低廉。鉴于骗子可能面临的巨额奖金，我们不太可能很快看到语音克隆骗局的终结。因此，基于人员、流程和技术的三管齐下策略是您的组织降低风险的最佳选择。

一旦计划获批，记得定期审查，确保其符合预期，即使AI技术不断进步。新的网络欺诈格局需要持续关注。