从AI换脸到AI开会潘多拉的魔盒会否打开？

发表于 5年以前 | 总阅读数：751 次

可以说疫情改变了全球的工作方式，也改变了学生群体的学习、答辩甚至毕业方式。在疫情蔓延的地区，有些高校毕业生甚至被告知将原地毕业。

在家的枯燥让不少人迷上了AI换脸，将自己的脸替换成别人的脸，以此来增加乐趣。远程办公、线上学习的局限性，也让一些人想出五花八门的“摸鱼”方式，甚至想通过AI克隆另一个自己，代替自己办公和学习。

那么，从AI换脸到AI克隆，是AI的又一大进步还是新一个潘多拉魔盒的打开？未来，

有没有可能真的出现这样的场景：当我们打开视频会议，参加的却全都是AI替身？

AI换脸并不新奇

AI换脸可以追溯到 2017 年底，国外论坛就出现了ID 为“deepfakes”的用户，

该用户发布了通过机器学习来更换视频人脸的 AI 算法。不过当时该技术的使用门槛还比较高，需要编译代码等操作。

一个月后，

有人将他公开的的算法加以改造并推出简易版 AI 换脸工具“FakeApp”。这次，就算是普通用户，也能够顺利操作。

FakeApp 令 AI 换脸的使用门槛大幅降低，不过它还是需要一定的准备工作。首先它需要安装额外的运行库；其次它对硬件有需求，需要高性能显卡参与运算，其中对 N 卡的兼容最好。

FakeApp 还需要较新版的 Windows 10 系统才可以安装，运行起来还得等待一段时间———因为过程越久效果越好，毕竟机器学习还是需要足够的时长和样本；最后，FakeApp 就可以生成几乎以假乱真的 AI 换脸视频了。

AI换脸里有一个关键的项目，那就是一阶运动模型。

一阶运动模型（动画模型）是用一组自学习的关键点+局部仿射变化来建立复杂的运动模型，其目的是为了解决在大目标姿势动态变化的情况下，传统模型生成质量差的问题。模型采用自监督的方法将外观和运动信息分离，主要由两个主要模块组成：运动估计模块和图像生成模块。

运动估计模块的目的在于预测密集的运动场，此处假设存在一个抽象的参考坐标，并预估存在‘从参考到源（from reference to source）’和‘从参考到驱动（from reference to driving）’两种转换。因此可以独立处理源帧和驱动帧。做这样的处理是因为模型在测试时会接收从不同视频中采样的源图像帧和驱动帧的组，从视觉上来说可能会很不同。

第一步，研究者使用通过自监督方式学习的特征点获得稀疏轨迹集来近似计算两种转换。与仅使用特征点位移相比，使用局部仿射变换对每个特征点附近的运动进行建模能够获得更多的变换。

第二步，一个密集的运动网络能将局部仿射组合起来，获得最终的密集运动场。除此之外，该网络还可输出遮挡遮罩，遮挡遮罩会显示 driving 的哪些部分可以通过变形源图像来重构，哪些部分该修复。

最终，生成模块渲染源对象的图像。这里使用了一个生成器网络，可根据密集运动对源图像进行变形，并修复源图像中被遮挡的部分。

简单讲，一阶运动模型的优势在于一旦经过一组描述相同类别对象的视频训练（例如人脸、人体），这种方法就可以应用于此类的任何对象。

从AI换脸到AI克隆

最近，一位名为马特 · 里德（Matt Reed）的工程师，

就在一阶运动模型的基础上成功开发出了代替自己参加 ZOOM 视频会议的 AI。

整个方案并不复杂，据里德介绍，他先截了一些自己通过 Zoom 开会的图片，然后基于 Artyom.js 开源库（进行侦听和响应）构建了一个简单的 Web 应用程序，对其进行编程以便可以听懂一些简单的对话，比如“你好吗？”、“你明白了吗”、“再见”等。

理想情况下，Zoombot 可以处理从“Hello”到“Bye”的整个会议过程而不会引起任何人注意。但是，现阶段的项目更多是出于兴趣建立的，还不是很完善。

里德认为比较好的部分是不必给它一个像“Hey，Siri”这样的唤醒词就可以开始使用。只要外界有语音触发，它就可以响应并配合脸部的运动给出答复。

Zoombot 项目的构建一共花费了大约四个小时，而里德又花了大约四个小时来组织 Zoom 会议并记录同事们的真实反应。里德调侃道：“诀窍是在聊完之前就离开会议室，因为一旦进入“我听不到你的声音，可以重复一遍吗？”的死循环中就麻烦了。

潘多拉的魔盒会否打开

当然，里德在真实的视频会议中使用他的 Zoombot 时，确实给已经对视频会议日益麻木的同事们带来了很多欢乐。

但欢乐的背后带来的往往是更深的警惕。

AI 换脸不得不面临的风险问题，首先是对于信息的真实性形成严峻的挑战。PS 发明后，有图不再有真相； AI 视频换脸技术的出现，则让视频也开始变得镜花水月了起来。人们普遍认为视频可以担当“实锤”，而现在这把实锤竟可凭空制造。对于本来就假消息满天飞的互联网来说，这无疑会造成更严重的信任崩塌。

其次，这会大大增加侵犯肖像权的可能性，没人愿意自己的脸庞出现在莫名其妙的视频当中。和多用途的 PS 等修图软件不同，AI 换脸技术的功能只有一个，那就是换脸。从这个角度来说，它的存在天然就是一种对肖像权的威胁。

换言之，AI 换脸技术或许玩着有趣，然而真正的问题在于，这样风险百出的技术我们到底玩不玩得起？

随着AI换脸的普遍出现，AI变声也开始展露头角，

谷歌之前曾经研究过 AI 变声的相关技术，但并没有大规模实装。但是国内厂商则更加激进，不少研究输入法的厂商都已经尝试在产品当中推广 AI 变声功能。

在一些输入法当中，现在就可以找到 AI 变声的开关。在输入一段语音后，等待片刻即可生成特定音调和音色的语音，拟真度相当出色。

Modulate.ai这个网站就提供了 AI 变声服务，甚至连奥巴马的声音都能被完美模仿。

AI 变声技术已经逐渐成熟，它和 AI 换脸技术结合后将会形成威力无穷的组合拳。就在2019 年 3 月份，《华尔街日报》报道显示，有犯罪分子使用 AI 技术成功模仿了英国某能源公司在德国母公司 CEO 的声音，诈骗了 220 000 欧元（约 1 730 806 人民币）。仅仅依靠 AI 变声就能酿造出一宗如此重大的诈骗案，AI 骗术的威力可见一斑。

甚至，AI变声都不是AI技术的终点，里德的Zoombot就似乎是一个暗喻。

未来，我们或许不仅可以看到逼真的 AI 换脸、AI 变声，甚至可能连应答都由 AI 来完成。

当 AI 能自动生成以假乱真的面容、声音乃至语言的时候，互联网乃至整个社会该如何应对这种身份信息混乱的局面？

今天，一些银行基于人工智能，推出人脸识别的网络支付转账系统来进行大额转账。这项技术看起来很“完美”、很安全，但是在AI变脸技术面前，或许这项技术会成为最脆弱的安全防御技术。

或许有一天，任何人发布或者引用的任何资料，都有理由被质疑存在刻意或无意的修正。

而比这更可怕的是我们甚至不知道自己正在被欺骗。

如果够幸运，人们或许会发现，从遥远的那一天起，又一个潘多拉魔盒正在被开启。科技正在以我们难以预见的方式发展、演变，而这将给当下的全球治理与法律监管体系带来巨大的挑战。