人工智能时代，仍然是眼见为实吗？

发布时间：19年05月25日

编译陈轶翔

数字图像技术的进步可能会使虚假新闻危机进一步加剧，但或许也可以帮助我们摆脱这一危机。

随着合成媒体的传播，即使是真实的图像也会招致质疑

　　2011年，照片取证专家哈尼·法里德（Hany Farid）收到一位失去儿子的父亲发来的电子邮件。三年前，这个男人的儿子站在路边——自己的汽车发动不起来了。当一些陌生人让他搭车时，他接受了。几分钟后，不知什么原因，他们开枪打死了他。当他走向他们的汽车时，监控摄像头拍下了他的身影，但这段视频的清晰度太差，以至于无法辨认关键细节，比如脸部，而且行凶者所驾驶的汽车车牌模糊难辨。这位父亲明明已经看到指证杀害他儿子的凶手的证据，但却无法辨别。

　　20世纪90年代末，法里德开创了对数码照片进行法医分析的先河，并赢得了“奇迹工作者”的美誉。作为无数民事和刑事审判的专家证人，他解释了为什么有争议的数字图像或视频必须要鉴定真假。现在，法里德——一位计算机科学教授，在自己的实验室里（位于达特茅斯），一遍又一遍地播放那位父亲发来的视频，很想知道自己能做些什么。在电视上，侦探们经常增强照片的效果，把嫌疑犯像素化的脸锐化成详细的肖像。但在现实生活中，这是不可能的。由于视频通过监控摄像头的“成像管道”——镜头、传感器、压缩算法——其数据被“下采样”，最终留下的信息非常少。法里德告诉发来视频的那位父亲，图像无法逆转，这个案子只好被搁置。

　　然而几个月后，法里德有了一个想法。如果他可以用同样的监控摄像头拍摄很多车牌，会怎样呢？在这种情况下，模式可能会出现——混杂的像素和车牌之间的对应关系。两者之间的对应关系非常微妙：任何退化图像的特定模糊不仅取决于车牌号码，还取决于光照条件、车牌的设计以及很多其他变量。不过，如果他能获得足够多的图像——几十万，也许几百万——模式可能会出现。

　　法里德首先派他的研究生去达特茅斯校园拍摄了几百个车牌。然后，基于这些照片，他和他的团队建立了一个能够合成更多图像的“生成模型”。在几周的时间里，他们制作了数千万张逼真的车牌图片，每一张都是独一无二的。然后，通过模拟监控摄像头输入他们的合成车牌，让它们变得难以辨认。目的是创造一个“罗塞塔石碑”——将像素和车牌号码联接起来。

　　接下来，他们开始“训练”神经网络来解析这些退化的图像。现代神经网络是多层次的，每一层都有数百万个变量。研究人员由于不确定它们是如何运作的，因此必须通过反复试验来“训练”它们。法里德的团队经过多次努力尝试来完善它们。最后，他们终于从那位父亲发来的视频中提取出一张图片。法里德说：“视频里的那张车牌图片就好像只有10像素。但仍然有线索可循。神经网络对最后三位字符给出明确的答案。”

　　2018年夏天，法里德将这些字符通过电子邮件发送给负责此案的侦探。调查人员已经将搜索范围缩小到蓝色雪佛兰黑斑羚的一个型号。与那辆汽车有关的人后来被证明参与了另一起犯罪，一个被搁置了近10年的案子现在又开始审理了。与此同时，法里德和他的团队在一份计算机视觉杂志上发表了他们的研究成果。他们在论文中指出，该系统是对已经在使用的数百万低质量监控摄像头的免费升级。

图像合成，正在成为人们关注的焦点

　　这样的工作似乎不切实际，曾经它确实是不切实际的。但是，一个新的领域——图像合成，正在成为人们关注的焦点，这个领域将计算机绘图和人工智能结合在一起，正在不断取得进展。

　　研究人员正在寻找利用神经网络新的方法——大体上是基于大脑结构的软件系统——来分析、创建图像和视频。在新兴的合成媒体世界里，数字图像创作的工作——曾经是高度熟练的程序员和好莱坞特效艺术家的专长领域——现在能够大规模产生，实现自动化。

凯丽·费雪在《星球大战》里的银幕形象

　　在充斥着虚假新闻的媒体环境中，这种技术有着令人不安的影响。2017年秋天，名为Deepfakes的Redditor匿名用户发布了一款软件工具包，使得任何人都可以制作合成视频——神经网络用一个人的脸代替另一个人的脸，同时保持他们的表情一致。

　　与此同时，华盛顿大学一个研究团队发表的《合成奥巴马》一文表示，神经网络可以创建可信的视频。在视频中，这位前总统似乎是在说着别人说过的话。在一段由乔丹·皮尔（Jordan Peele）配音的视频中，奥巴马似乎在说：“特朗普总统是个彻头彻尾的笨蛋，”并警告说，“我们在信息时代的前进方式”将决定“我们是否会进入某种该死的反乌托邦。”

　　并非所有的合成媒体都是反乌托邦的。最近最卖座的电影（《黑豹》《侏罗纪世界》）就充斥着各种合成的图像，而在不久之前，这些合成图像的制作难度要大得多；《星球大战：最后的绝地武士》中凯丽·费雪（Carrie Fisher）的合成影像和《银翼杀手2049》中肖恩·杨（Sean Young）的合成影像都深受观众喜爱。如今，智能手机甚至用数字技术处理普通的快照，通常使用神经网络。比如，iPhone的“肖像模式”模拟了更昂贵的相机拍摄出来的照片模式。同时，对于计算机视觉的研究人员来说，人工智能、机器人技术和其他领域，图像合成使得研究的路径变得相当容易。

　　长期以来，人们一直在用不同的工具进行合成。法里德列举了图像处理史上的各种里程碑事件：在19世纪60年代的一张著名照片中，亚伯拉罕·林肯的头部被换位到了奴隶制倡导者约翰·C·卡尔霍恩（John C.Calhoun）的身体上；在斯大林时代的苏联，为了将他的敌人从历史书中清除，斯大林命人大规模修改照片；1982年，在《国家地理》杂志的封面上金字塔被重新排列；2004年，约翰·克里（John Kerry）和简·方达（Jane Fonda）站在一起参加反越战示威活动的合成照片被《泰晤士报》转载了出来，刊登在克里反战活动的报道之后，激怒了很多选民。

　　法里德说：“在过去，任何人都可以买Photoshop。但要想真正有效地使用它，你必须有很好的技能。现在这项技术正在普及化。”现在令人信服的合成图像和视频越来越容易制作了。

　　法里德讲话时带着技术专家的热情和律师的谨慎：“为什么斯大林要把那些人从那些照片中抹去呢？何必这么麻烦呢？这是因为图像有一种非常强大的力量。如果你改变了图像，你就改变了历史。我们习惯眼见为实，照片和视频仍然有这种不可思议的共鸣。但照片和视频的真实性还能维持多久呢？”

从“图像合成实验室”了解技术进展

　　世界上最好的图像合成实验室之一距离伯克利分校北侧法里德的家只有7分钟的车程（因妻子工作需要，法里德正从达特茅斯搬往加州大学伯克利分校）。这个实验室由43岁的计算机科学家阿列克谢·A·叶夫罗斯（Alexei A.Efros）管理。叶夫罗斯出生于圣彼得堡，随父亲（苏联理论物理学家最高奖获得者）于1989年（14岁时）搬迁到了美国。

　　十几岁时，叶夫罗斯在苏联的一台电脑（Elektronika BK-0010）上学会了编程。他对人工智能越来越感兴趣，最终被计算机视觉所吸引，这一领域使他能够观察机器的思维。1998年，当叶夫罗斯来到伯克利读研究生时，他开始研究一个叫作“文本合成”（texture synthesis）的问题。叶夫罗斯研发了一种方法，可以智能地对图像的位元进行采样，并对其进行概率重组，从而使展示内容可以无限且有机地扩展。几年之后，该技术的一个版本在Adobe Photoshop中成为一个名为“内容自动填补”的工具：使你可以涂抹相片中某个区域（例如，不想要的物体），遗留的空白区块由Photoshop自动帮你填补，即使是复杂的背景也没问题。

　　在来到伯克利之前，我曾写信给叶夫罗斯实验室的一名研究生谢莉·吉诺萨（Shiry Ginosar）。吉诺萨在回信告诉我一些自我拍摄的建议。在收到我的视频后，她写道：“你看起来棒极了。”她表示，一个神经网络要花大约两周的时间才能学会对“我”进行合成。

　　家庭计算的加速与另一种趋势相融合：大量的照片和视频上传到网络。当我坐在叶夫罗斯的办公室时，他解释说，即使在2000年早期，计算机绘图也一直缺乏数据：尽管3-D建模者能够创造出逼真的场景，但他们的城市、室内和山景却让人感觉空洞而没有生机。叶夫罗斯表示，真正的现实主义需要数据——关于“黏糊糊的、肮脏的、复杂的世界”的数据，最好是通过日常生活记录进行收集。

　　如今，研究人员可以使用ImageNet之类的系统，汇集普通场所和物体的照片。2012年，多伦多大学的研究人员成功地建立了能够自动对ImageNet图像分类的神经网络，他们的巨大成功促成了今天神经网络的繁荣。

　　图像合成的一个经验是，有了足够的数据，一切都变成了可使用的材料。每条河流、每处风景都有它的翻版，随时可能被采样；面孔那么多，你的二重身（和你面貌极其相似的人）可能已经上传了你的面孔。产品一遍又一遍地被制造出来，新建筑与旧建筑相互呼应。

　　在叶夫罗斯的实验室里面，几十个智能终端工作站排列成行，每个工作站都有自己的笔记本电脑、键盘、显示器、鼠标和咖啡杯——工作狂的特质在这里体现得淋漓尽致。刚获得博士学位的张理查（Richard Zhang）向我解释合成图像生成方面的最新进展。

　　他说：“假设你有一张在晴天拍摄的风景图片。你可能想知道这处风景在雨中会是什么样子。不过，这个问题的答案并非只有一个。”一个真正有创造力的神经网络所做的不仅仅是创造一张令人信服的图片，它将能够合成很多可能性——来制作各种景观，甚至像法里德构建的那个车牌系统一样。

　　法里德和我看了一段被疯传的视频，名叫《金雕惊魂记》——似乎是在蒙特利尔公园里，一只猛禽朝一个蹒跚学步的孩子猛扑过去。法里德解释说：“专门的软件可以揭示出鹰和孩子的影子微妙的错位。”法里德想起了一只灰熊的图片，他指出，在高倍放大后，灰熊口鼻的边缘处是红色和蓝色的。他解释说：“当光线照射到透镜表面时，它会按波长的比例弯曲，这就是为什么你会看到边缘处的颜色。这些色像差在图像的中心处最小，从中心向边缘处色像差越来越大。当不符合这种模式时，就表明照片是被部分组合了。”

　　很多专注于合成的研究者也在研究取证。叶夫罗斯实验室的一名研究生许雅各（Jacob Huh）训练了一个神经网络来识别色像差和其他操纵信号。该网络会生成热点图，突出显示图像中的可疑区域。法里德认为，独特的“操纵指示器”的绝对数量使取证专家在技术上胜过伪造者。伪造者必须煞费苦心地在一张百元大钞上处理每一个安全问题——全息图、凸版印刷、变色油墨等等；同样地，媒体操纵者也必须解决无数的技术问题，其中一些问题是统计性质的，肉眼是看不见的，这样才能制造出无法察觉的赝品。训练神经网络来做到这一点是一项艰巨的任务，甚至也许是不可能完成的任务。然而，法里德认为，伪造者在传播方面是有优势的。虽然《金雕惊魂记》被鉴定是合成的，但它仍然被观看了1 300多万次。马特·塔瑞克（Matt Turek）预测，当涉及图像和视频时，我们的信任点将创历史新低。

　　他说：“一幅画胜过千言万语。眼见为实是对我们成长的社会环境的一种信任。我曾听人说过，我们可能会陷入零信任模式——默认情况下，你什么都不相信。这可能是一件很难恢复的事情。”

　　和现在基于文本的假新闻一样，这个问题是一把双刃剑。在被一个虚假视频欺骗之后，人们开始怀疑是否很多真实的视频也是假的。最终，怀疑主义本身成为一种策略。2016年，当《走进好莱坞》的录像带浮出水面时，唐纳德·特朗普承认了它的真实性，但将自己的言论视为“更衣室谈话”而不予理会。而现在特朗普对他的同仁们表示：“那不是我的声音。”

　　法里德告诉我：“更大的危险是似是而非的否认。”真品与仿冒品的比较被打破了。没有哪个出纳员打开收银台希望找到假钞。然而，在政治中，不相信我们所看到的，往往符合我们的判断。

　　一天晚上，我和叶夫罗斯步行去吃晚餐的路上，我们讨论了图像合成的很多正义的应用。例如，一个机器人，通过想象推测它可能在拐角处看到的东西，并核实它的猜测是否正确，就可以学会在一个建筑物周围应走的路线。“位姿检测”可以让它通过观察来学习运动。叶夫罗斯说：“预测真的是智能的标志，我们一直在预测和幻想那些不可见的东西。”从某种意义上说，合成就是一种想象。法里德对车牌研究的明显矛盾之处在于，虚拟的图像可以帮助我们弄清楚真实的图像，这恰恰反映了人工智能的工作方式。因只顾着说话，我们迷路了。

　　当我们找到那家餐馆时，法里德正坐在他的摩托车上等着我们。这两位认识已经十年的朋友，分别发明了生成器和鉴别器。

　　吃饭时，法里德说道：“这些技术的真正有趣之处在于，它们的快速转变——从令人炫酷的感觉到对民主的颠覆。特朗普在营造一种氛围——你不应该相信你所看到的东西。”

　　叶夫罗斯说：“我认为引起关注的是视频，若是图像，没有人在意的。奥利弗·斯通（Oliver Stone）在为普京制作了纪录片的过程中，普京曾给斯通看了一段俄罗斯军队在叙利亚攻击恐怖组织伊斯兰国ISIS的视频。后来，它被证明是一段美国人在伊拉克的视频片段。很多视频都不是假数据，而是‘张冠李戴’。”

　　法里德说：“解决办法主要是应对社交媒体上的‘激励倒错’（编者注：意指心理学上对负面举动或行为给予奖励的现象）。那些价值万亿美元公司的整个商业模式就是如何吸引大众眼球。好像毒药一样。”

　　期间，法里德讲了一个故事，内容是关于李·哈维·奥斯瓦尔德（Lee Harvey Oswald）的一张著名照片。照片显示奥斯瓦尔德站在他的后院，拿着他后来用来杀死肯尼迪总统的步枪。阴谋论者一直声称这张照片是假的。法里德说：“它看起来确实有点假。”来复枪显得过长，奥斯瓦尔德的身体似乎正以一种不切实际的角度向后倾斜；在这张照片中，他的下巴出奇地窄，但在其他照片中不是这样。法里德说：“我们制作了这个场景的3D模型，结果证明我们可以解释一切人们怀疑的景象——只是因为光线太奇怪，导致那些景象看起来是假的。”

　　叶夫罗斯笑说：“说到阴谋，有一些事实印证了我们的想法，也有一些被证明确实是阴谋。而我居然也被认为成了阴谋的一部分。我父亲曾给我发了一封电子邮件。他说：‘有人给我发了一篇文章的链接，声称你和我参与了一起阴谋。’我的父亲是一位化学家，曾就职于伊士曼柯达公司。他在该公司工作的时候曾研究泽普鲁德录像（一位达拉斯市民用家用8 mm摄像机拍摄到肯尼迪遇刺事件的全过程）。”

　　法里德认为：“我们需要技术上的解决办法，但我认为技术解决不了问题。我认为这是一个社会问题，一个人类问题。”

合成图像引起政府注意

　　2016年，美国国防高级研究计划局启动了“媒体取证”项目，重点关注合成媒体对国家安全构成的威胁。

　　项目经理马特·塔瑞克（Matt Turek）指出了可能存在的操纵行为：“未来几年，我们会看到，未发生事件的合成。从不同角度拍摄的多个图像和视频将被合成——看起来像是来自不同的摄像机。它可能是一个民族或国家驱使的，试图影响政治或军事行动；它也可能来自一个资源较少的小群体；或者它可能来自某个人。”

　　“媒体取证”项目召集了来自大学、科技公司和政府机构的数十名研究人员。他们共同协作，在50多个“操作指示器”的基础上创建自动化系统。他们的目标不只是识别赝品，还要对其进行追踪。塔瑞克说：“我们想要追踪到操纵行为的幕后操刀者，从而弄清楚他们为什么要这样做。”

　　理想情况下，这样的系统将被整合到社交媒体平台，在那里他们可以标记合成内容。不过，存在速度问题。仅YouTube，每天有长达57.6万小时的视频在上传。塔瑞克说：“‘媒体取证’项目系统的运行时间有一定的范围，从不到一秒到几十秒甚至更长。即使在加快速度之后，实际问题仍然存在：如何区分无恶意的操作和恶意的操作？广告会被标记吗？有多少内容被证明在某种程度上是合成的？”

新型公司瞄准“可能出现的信任危机”

　　尽管合成媒体可能令人担忧，但更值得警惕的是，我们现在面临的错误信息的危机——俄罗斯黑客干扰选举；缅甸的种族灭绝宣传；即时消息驱动的印度暴民暴动。社交媒体足以胜任这样的工作——通过把普通人变成媒体操纵者，让他们发表（或分享）任何言论来赢得关注。

　　在摄影术发展早期，它的实践者不得不为它的客观性辩护。在法庭上，专家们争论照片是现实的反映还是艺术产品；法律学者想知道照片是否需要证人的证实。人们花了几十年的时间才达成共识，认为照片值得信赖。一些技术专家怀疑这种共识能否在不同的条件下重新建立起来。

　　圣地亚哥的一家初创公司Truepic的目标是制作一种新型的数码照片——可验证的数码原版。用其智能手机应用程序拍摄的照片被上传到服务器上，服务器进入一种加密锁盒。该公司首席执行官杰弗里·麦格雷戈（Jeffrey McGregor）解释说：“我们要确认图片在传播过程中没有被篡改。我们查看地理定位数据，附近的基站发射塔，手机上的气压传感器，并验证一切是否匹配。我们对照片进行一系列计算机视觉测试。如果这张图片通过了审查，它就可以在一个特殊的网页上被共享，以验证其真实性。”

利用人工智能，研究人员可以把一个身体的运动投射到另一个人身上

　　如今，Truepic的最大客户是保险公司。该软件也被非政府组织用来记录侵犯人权的行为。麦格雷戈说：“我们的目标是把这种软件拓展到信任缺失的行业，比如租房子、网上交友约会。最终，我希望将我的软件集成到相机组件中，这样验证就能从光子进入镜头的那一刻开始。”

　　2018年早些时候，马里兰大学的法学教授丹尼尔·西特伦（Danielle Citron）和得克萨斯大学的法学教授罗伯特·切斯尼（Robert Chesney）合作发表了一篇名为《深度赝品：对隐私、民主和国家安全迫在眉睫的挑战》（Deep Fakes:A Looming Challenge for Privacy,Democracy,and National Security）的文章，探讨某些合成媒体的非法性（西特伦告诉我，一条可行的途径是取缔旨在煽动暴力的合成媒体；另一种办法是修改法律，禁止冒充政府官员，禁止合成关于政府官员的视频）文章的最后，西特伦和切斯尼进行了科幻小说般的猜测。

　　他们设想了最坏的情况：深度赝品是不可根除的，因为竞选、敲诈和其他邪恶的目的总会存在。在这样一个世界里，我们可能会不断地记录自己，从而在合成媒体出现的时候揭穿它。他们写道：“提供这种服务并维护数据真实结果的供应商将具有非凡的权力，它的数据库对执法机构来说是一个相当有价值的资源。”

人类的矛盾感可能会加剧

　　在一个轻松愉快的周五早上，我走进叶夫罗斯实验室去看我自己的合成视频。伯克利校园基本上空旷无人，我不禁注意到它与其他校园是极度相似的。这次访谈，让我对世界的看法发生了变化。那天早晨，在我的手机上，我看到了一段令人难以置信的视频：一只猫爬到了一栋公寓楼的外面，爬到了十楼，然后跳到地上匆匆跑掉。第一反应，我猜视频是假的。但我用谷歌搜索了一下，视频竟然是真的。

　　我开始认为，一个充斥着合成的世界，会激起很强烈矛盾的感觉。在伯克利的那段时间里，我看到的图像和视频似乎变得遥远而疏离，就像看玻璃后面的东西一样。它们清晰而完美，难辨真假。但我也开始比平常更强烈地感受到自己内心的涌动。我想到了一项著名的研究：人们看到了自己被篡改过的照片——孩童时期的他们似乎是站在一个热气球的篮子里。后来，当被问到这个问题时，一些人认为他们还记得自己乘坐过热气球。

　　在一张小圆桌旁，谢莉·吉诺萨以及另一名研究生周廷辉（Tinghui Zhou）兴奋地向我展示了他们过去一年半开发的“生成对抗性网络”所取得的成就。

　　吉诺萨在她的笔记本电脑上，打开了一个视频。在屏幕左上角的一个框中，歌手布鲁诺·马尔斯（Bruno Mars）穿着白色耐克鞋、运动裤和一件精美的条纹衬衫。在他的下面，一个小小的线框人影模仿着他的动作姿势。吉诺萨说：“这就是我们的‘位姿检测（pose detection）’。”屏幕的右侧有一张我的大图，也是同样的姿势：身体微微向一侧倾斜，臀部翘起，左臂高举在空中。吉诺萨敲了一下空格键。马尔斯的热门歌曲《哥就爱这样》（That’s What I Like）开始播放。他开始跳舞，我的合成也是如此。我们的肩膀从左到右摇晃。然后我们表演了炫酷的太空步。

　　周廷辉说：“看那影子！”视频中，那个影子在我的合成身体下面真实地起伏着。“我们没有告诉它要这么做，它自己学会的。”仔细一看，我注意到有一些瑕疵。我的衬衫偶尔会多出一颗扣子。我的手表出现又消失了。叶夫罗斯说：“音乐有所帮助。它让你不会注意到太多的细节瑕疵。”

　　周廷辉带着疑惑的语气问道：“在Photoshop出现之前，每个人都相信照片就是真实的吗？”

　　吉诺萨回答说：“是的，这就是极权主义政权和宣传的运作方式。”

　　周廷辉说：“我认为视频也是一样。人们的态度也是从相信到怀疑。”

　　叶夫罗斯说：“实际上，从一开始摄影就不是客观的，你给谁拍照片，你怎么构图——都是有选择的。所以我们一直在欺骗自己。从历史上看，有一个奇怪的时期，人们认为摄影和摄像都是真实的。而现在，这个非常短的时期正在消失。”

　　当我迈出房门，走下楼梯，沐浴着阳光时，我仔细地思考着这个问题。我看着学生们走过，他们的背包一模一样，发型相似，脸上的表情似乎是可以合成的。我拿出手机，找到了我的合成视频的链接，给一些朋友发了一封电子邮件。我在邮件中写道：“看看我的舞步动作，真的很棒哦！”然后点击了“发送”。

　　资料来源 The New Yorker

　　————————

　　本文作者乔舒亚·罗斯曼（Joshua Rothman）是《纽约客》杂志的一名编辑。他还经常为纽约客网站（newyorker.com）撰稿，发表自己的观点，写一些书评