香港最大 AI 诈骗案：Deepfake 换脸“英国跨国企业 CFO”_数字科技

　　香港一家跨国公司员工，被骗子邀请进了用 Deepfake 做的「高管视频会议」中，下令让他转了 2 亿港币到不知名中账户，5 天之后才发现被骗了。

　　这几天，古老的 AI 应用 ——「AI 换脸」多次破圈，屡屡登上热搜。先是网上充斥的大量泰勒斯威夫特的「AI 艳照」，逼得 X(原推特)只能直接屏蔽了所有有关「Tylor Swift」的搜索。而今天香港警方向社会公布了一起更离谱的诈骗案件：

　　一家英国跨国企业的香港分公司，被骗子用伪造的「AI 换脸」和 AI 音频合成的视频内容，冒充总公司的 CFO，直接骗走了 2 亿港币!

　　最高级的骗局，往往只需要最朴素的 AI 技术

　　据称，这位香港分公司的员工收到了一封英国总部 CFO 的邮件，称总部正在计划一个「秘密交易」，需要将公司资金转到几个香港本地的账户中待用。

　　而这个员工一开始并没有相信这封邮件的内容，认为是钓鱼诈骗邮件。但是骗子不断给他发邮件讨论这个秘密交易的必要性，最终，给他拨打一个视频电话。

　　在电话中，这位员工看到了公司的 CFO 和其他他认识的「几位同事」，大家都在一起开会。骗子还在视频会议中要求这位员工进行自我介绍。

　　然后视频会议中的「英国领导」要求他赶快进行转账，之后就突然中断了视频。而信以为真的员工就分 15 次向 5 个香港本地的账户陆续汇款了 2 亿港币的资金。

　　而在整个事件持续 5 天之后，他才回过味来，向英国公司求证，最终发现被骗了。

　　香港警方在通报中称，以往的「AI 换脸」诈骗，一般都是一对一的。这次骗子用视频电话会议的形式，伪造了一个「高管团队」，让可信度大幅上升。

　　骗子使用 Deepfake 技术，通过公司的 Youtube 上视频和其他公开的媒体素材，就成功伪造了英国公司高管的形象和声音。

　　参与视频会议的都是真人，然后通过「AI」换脸，把骗子的脸和声音都换成了对应的高管的脸和嗓音，下达了转账的指令。

　　而除了受骗的这一名员工之外，骗子还联系了另外几位香港分公司的员工。警方表示，整个案件还在进一步调查之中，还没有逮捕任何嫌疑人，但是希望向公众发布消息，防止骗子通过类似的手法再次得手。

　　警方提供了几个方式可以帮助识别是否是「AI 换脸」诈骗行为。

　　首先，如果对方在视频中提到钱，就一定要提高警惕。可以要求对方快速的移动头部和面部，注意观察画面会不会出现奇怪的变形。然后提一些只有双方知道的问题来验证对方的真实身份。而银行，对于此类的诈骗也在部署预警系统，发现用户在与可疑的账户进行交易之后也会发出提醒。

　　国外网友看了这个事，纷纷感叹 Deepfake 技术的强大：那我能 deepfake 我自己去开会，让我自己能多睡一会吗?

　　也有网友觉得，可能整个故事都是这个「被骗员工」编的，可能他自己也参与了这个骗局。

　　Deepfake 的由来

　　Deepfake 本质上是一种特殊的深度学习技术。最初源于一个名为「deepfakes」的 Reddit 用户。该用户于 2017 年 12 月在 Reddit 社交网站上发布了将斯嘉丽・约翰逊等女演员的换脸视频，使得「Deepfake」成为了 AI「AI 换脸」的代名词。

　　Deepfake 目前并没有公认的统一定义。美国在其发布的《2018 年恶意伪造禁令法案》中将「deep fake」定义为「以某种方式使合理的观察者错误地将其视为个人真实言语或行为的真实记录的方式创建或更改的视听记录」, 其中「视听记录」指图像、视频和语音等数字内容。

　　其核心原理是利用生成对抗网络或者卷积神经网络等算法将目标对象的面部「嫁接」到被模仿对象上。因为视频是连续的图片组成，因此只需要把每一张图片中的脸替换，就能得到变脸的新视频。

　　首先将模仿对象的视频逐帧转化成大量图片，然后将目标模仿对象面部替换成目标对象面部。

　　最后，将替换完成的图片重新合成为假视频，而深度学习技术可以使这一过程实现自动化。

　　随着深度学习技术的发展，自动编码器、生成对抗网络等技术逐渐被应用到深度伪造中。

　　Deepfakes 依赖于一种称为自动编码器的神经网络。它们由编码器和解码器组成，编码器将图像减少到较低维的潜空间，解码器从潜表征中重建图像。

　　图源：深度伪造的原理及实战

　　Deepfakes 通过使用通用编码器将人编码到潜在空间中来利用这种架构。潜表征包含有关其面部特征和身体姿势的关键特征。

　　然后可以使用专门针对目标训练的模型对其进行解码。这意味着目标的详细信息将叠加在原始视频的底层面部和身体特征上，并在潜空间中表征。

　　图源：深度伪造的原理及实战

　　另一种制作深度伪造品的方法是使用所谓的「生成对抗网络」(Gan)。Gan 让两种人工智能算法相互竞争。

　　第一个算法称为生成器，输入随机噪声并将其转换为图像。

　　然后，该合成图像被添加到真实图像流(例如名人图像)中，这些图像被输入到第二个算法(称为鉴别器)中。

　　起初，合成图像看起来一点也不像人脸。但重复这个过程无数次，并提供性能反馈，判别器和生成器都会得到改进。

　　如果有足够的周期和反馈，生成器将开始生成完全不存在的名人的完全逼真的面孔。

　　而之前霉霉的 AI 不雅照在 X 平台上被疯传，甚至惊动了白宫的发言人。

　　在 1 月 26 日白宫记者会上，发言人 Karine Jean-Pierre 被问及此事时表示该事件令人担忧(alarming)。

　　「虽然社交媒体公司在内容管理方面有自己的独立决策，但我们认为，他们在严格贯彻其监管制度以防止错误信息和未经本人允许的私密图像传播方面，应起到重要作用。」

　　如何识别检测伪造的视频

　　而对于泛滥的 Deepfake 内容，也有越来越多的研究在关注如何识别和检测的技术。

　　论文地址： https://openaccess.thecvf.com/content / WACV2022 / papers / Mazaheri_Detection_and_Localization_of_Facial_Expression_Manipulations_WACV_2022_paper.pdf

　　2022 年由加州大学河滨分校的计算机科学家团队开发了一种新方法来检测深度伪造视频中被操纵的面部表情。该方法可以以高达 99% 的准确率检测这些伪造的视频。

　　这个方法将检测造假视频任务分成深度神经网络中的两个部分。第一个分支辨别面部表情，同时提供有关包含该表情的区域的信息。这些区域可以包括嘴、眼睛、前额等。

　　然后这些信息被输入到第二个分支，该分支是一个编码器-解码器架构，负责操作检测和定位。研究团队将这个框架命名为「表达操纵检测」(EMD)，它可以检测并定位图像中已更改的特定区域。

　　作者称 Ghazal Mazaheri：「多任务学习可以利用面部表情识别系统学到的突出特征来有利于传统操纵检测系统的训练。这种方法在面部表情操纵检测方面取得了令人印象深刻的性能，」

　　研究人员在两个具有挑战性的面部操纵数据集上进行了实验，他们证明 EMD 在面部表情操纵和身份交换方面表现更好，准确地检测出了 99% 的被篡改视频。

　　未来，在技术和政策层面上都做出努力，才有可能将 Deepfake 技术的负面影响控制在合理范围内。