Deepfake系列——音频深度伪造(1)
Deepfake这个概念最早出现在 2017 年底,起初是一名为“deepfakes”的Reddit用户在网上发布了一段利用名人面孔合成的色情视频,引发各界关注。
深度伪造是深度学习(deep learning)与伪造(fake)二者的组合词,一开始专指用基于人工智能尤其是深度学习的人像合成技术。随着技术的进步,深度伪造技术已经发展为包括视频伪造、声音伪造、文本伪造和微表情合成等多模态视频欺骗技术
神经网络攻防专栏将深度伪造和它的防御检测等介绍统一归在Deepfake系列中,今天来探讨一下音频Deepfake。
在Chatbot专栏(090)——智能音箱的安全问题中,我在攻击声纹识别的那部分有提到,可以通过特定人声合成或者声音转换来绕过音箱的声纹识别。
最近有真实的案例出现,有一起针对技术公司的欺诈案件中,使用了Deepfake音频。
员工接收到一封自称CEO的语音信息,要员工回电以完成紧急的商业交易。后来因为员工认为可疑并立即报警,才让这次社工未成功。
后续警方调查这个攻击者使用的电话号码,发现号码系伪造,追查就此中断。
Deepfake音频分析
有人使用了Spectrum3d这个音频频谱工具来分析了攻击者发的语音信息,如下图
可以发现, 频谱图中的峰值反复出现,这可能是因为攻击者使用音频在多个通道上播放来帮助隐藏语音。
Deepfake的音频非常的断断续续,与人类的语音记录不一致。人类的频谱如下:
可以看到,人声音高音调是一致的。
如果将Deepfake的音频以1.2倍速度播放,听起来像是标准的TTS生成的语音,如果放大声音检测背景噪声,发现并没有找到任何的噪声,这很明显的表示这一段声音是伪造的。
如果要创建高质量的Deepfake音频,需要克服几个复杂的因素:
需要高质量的音频,几乎没有背景噪声
音频需要可以分阶段进行音频传送
寻找不面对面交谈的方法,只使用语音留言等手段就可到到目的
类似案件
2019年9月英国一家能源公司发生了一个刑事案件。据报道,这些罪犯使用了模仿语音的软件来模仿这个公司英国高管的讲话,并欺骗其下属将数十万美元汇入一个秘密帐户。最后该公司的执行董事相信正在通电话的是他的老板,然后下令将超过24万美元汇入匈牙利的一个帐户。
安全研究人员在2月份报告了三起通过假冒公司CEO的声音对私人公司进行音频深造的案例。据报道,犯罪分子使用电话会议,YouTube,社交媒体甚至是TED演讲中获得的音频训练了模型,以复制公司老板的声音。 他们制作了假的音频并诱导财务部门的员工要求紧急汇款。
社会工程学
在这个案件中,攻击者把Deepfake的音频作为社工的第一步,主要是为了得到下属员工的相信。其实在没有Deepfake的时候,更多的是通过伪造邮件等手段来骗取信任。更强的攻击案例就是,攻击者截获双方的邮件并修改账号等信息,让对方把钱转到自己的账号上。
Deepfake音频的出现,让攻击者多了一个获取信任的手段,如果要防御这种攻击,必须重视覆盖这类安全问题的措施,培训员工,紧急情况也需要相互确认并根据紧急流程进行。
这次主要介绍了使用Deepfake的音频进行社工的案例,后面将继续进行Deepfake的其他介绍,敬请期待。我是P小二。
参考资源:
https://www.icaew.com/insights/features/2020/feb-2020/the-rise-of-deepfake-audio-fraud
https://www.washingtonpost.com/technology/2019/09/04/an-artificial-intelligence-first-voice-mimicking-software-reportedly-used-major-theft/