按照学习能力排名的人工智能计算机分级制度体现了这些机器的能力和局限。

如今,人工智能项目[图中用的这个项目叫作“亚伦”(ARRON)]也用于艺术创作,但人工智能是否可以在完全脱离人类帮助的情况下展现创造力仍旧没有定论

人工智能领域的终极目标是建造在特定任务上至少与人类同样聪慧的机器。目前,人工智能已经成功开发了各类机器,它们可以学习如何识别语音、在巡天项目中寻找新种类恒星、在国际象棋比赛中战胜特级大师、识别人脸、分类图像、诊断疾病、打车、开车、导航绕过障碍物,等等。然而,现在的这些机器一点都不聪明。并不聪明的它们要怎么做“聪明事”呢?这些机器在面对从没见过的新数据时,表现会可靠吗?如今,企业和政府越来越多地在敏感和重要领域应用人工智能,却没有很好地了解这类人工智能项目在何种情况下才值得信赖。

回答这些问题的一种方法是,检测决定每类机器是否值得信赖的核心功能,并按照相对能力给这些人工智能机器分类。相比目前更常见的以从事活动和应用领域为基础的人工智能机器分类方法而言,这种分类方法能让我们对机器可靠度问题有更深入的了解。

人工智能这门学科自20世纪50年代正式诞生以来,共经历了三段“繁荣”期和两段“萧条”期(常常称作“人工智能寒冬”)。第一段繁荣期大约始于1950年前后,也就是这门学科刚刚诞生的时候。当时,人工智能领域产生了不少有用机器的原型,如语音识别器、语言翻译机、游戏机、数学字问题运算机和简易机器人。然而,研究者们没能兑现他们的豪言壮语,赞助人也在20世纪70年代中期撤回了赞助资金。赞助于20世纪80年代初回归。当时,日本的“第五代计划”(Fifth Generation Project)在人工智能研究和高性能逻辑机器领域倾注了大量资金。这段繁荣期一直持续到20世纪80年代末赞助机构又一次因进展乏善可陈而撤资为止。第三段繁荣期则始于20世纪90年代初机器学习技术的兴起。自那之后,人工智能领域产生了大量具有重大意义、颇有实用价值且常常令人惊喜的成果——以及铺天盖地的有关人工智能未来的炒作。机器学习指的是,程序通过学习大量案例自行开发功能,而不是学习程序员预设的规则。部分人工智能研究人员在这个及其他实现一般人工智能的方法上下了巨大赌注——而这或许超越了机器的能力范围。如果事实的确如此,那么就可能出现又一段“萧条期”。

5

这张时间表展示了人们对赞助人工智能研究的兴趣变化。对人工智能发展期望的幻灭导致了两段萧条期。如今的第三段繁荣期则很是不同,因为人工智能的背后现在是一个蓬勃发展的巨大产业。然而,如果公众的巨大期望没有得到满足,那么仍可能出现第三段萧条期

这番炒作的一个方面尤其令我们感到困扰,那就是宣称所有计算机信息处理技术(computing,以下简称“计算技术”)方面的进步都来自人工智能。实际上,在过去半个世纪里,计算技术自身的功能和可靠性也一直在稳步提升。2000年的时候,可用的计算机平台就已经强大到可以支撑人工智能项目的程度了:正是因为计算技术的进步,现代人工智能才得以存在,而不是相反。然而,经济合作与发展组织(OECD)最近的一份报告却极不合理地大大拓展了人工智能的定义范围,囊括了所有软件,并且错误地将计算技术的所有进步都归功于人工智能。虽然这种说法显然是无稽之谈,但它表明,铺天盖地的炒作之后聚集着许多政治力量。

一种有关学习的分级制度

在我们给自己布置的任务(对这些机器进行分类并定义它们的局限性)中,必须竭力克服两大障碍。第一大障碍是,“智能”目前还没有科学定义。亚瑟 • 克拉克(Arthur C. Clarke)的警告——“任何足够先进的技术都与魔术无异”——很好地说明了人工智能领域大家熟知的一个现象:一旦我们成功地建造了某种智能机器,就不再认为它智能了。这就像是魔术一旦拆穿就不再好看了一样。

第二大障碍是,我们的拟人化倾向——我们总会不自觉地把对于人类智能的信念和希望投射到机器上。例如,我们认为聪慧的人思维敏捷,却不认为运算速度比人类快上十亿倍的超级计算机具有智能。

我们马上要讨论的分级制度不依赖对智能的任何定义。等级之间的差别在于:低等级的机器无法学习高等级机器的功能。这种分类方法可以科学量化,不需要任何拟人化过程,且并不必然与计算能力相关。由此得到的机器分级表表明,到目前为止,还没有任何机器拥有智能。

等级0——自动化

这个分级制度的最低级是基本自动化——能够在极少甚至完全没有人为干预的条件下实施或控制任务过程的设计类或应用类自动装置。自动化的目的是用自动装置代替人类完成工作。自动化常常包括简单的反馈控制过程,目的是调整并适应传感器读数以保持操作过程的稳定——例如,用来调节建筑物温度的计算机控制的恒温器、航空自动驾驶仪、工厂组装机器人。然而,这种自动化学不了任何新动作,因为它的反馈系统不允许它拥有除了设计目的之外的其他任何功能,因此,这类自动化显然不是某种形式的机器智能。

等级1——基于规则的系统

几个世纪以来,哲学家始终把推理能力视作人类智能的最高体现。人工智能研究者也为有能力模仿人类理性推理过程的程序所深深吸引。这些程序展开逻辑推导的方式是将预设的逻辑规则应用于输入和中间结果,因此,我们称其为“基于规则的程序”。

基于规则的程序最早的一大应用对象是棋类运动。1952年,IBM的电子工程师和计算机技术先驱亚瑟 • 萨缪尔(Arthur Samuel)向人们展示了一种功能颇为强大的跳棋程序。其后,人工智能研究者们就把注意力转向了难度更大的国际象棋领域。他们认为,可以通过暴力算法穷举棋盘未来的成千上万种变化并挑选出最佳方案,以此实现机器“下棋”的目标。这番努力在1997年迎来了巅峰。当时,一台名为“深蓝”的IBM计算机搭载的高级国际象棋程序击败了国际象棋特级大师加里 • 卡斯帕罗夫(Gary Kasparov)。计算速度是这次胜利的最大功臣——同样的时间,计算机可以搜索数十亿种变化,而人类或许只能想到几百种变化。

基于规则的程序设计的早期目标是专业系统,也即能够解决某个领域中专家级问题的一系列程序。它们遵循的逻辑规则脱胎于相关专家的知识。1980年,卡内基梅隆大学的约翰 • 麦克德莫特(John McDermott)为数字设备公司开发了一个专业系统(叫作XCON)。根据客户的需求,XCON推荐了VAX计算机系统的配置。据评估,截至1986年,XCON每年为数字设备公司节省了2 500万美元的人力成本和设备成本。

然而,专业系统的创造者们很快就发现,让专家系统化解释他们的专业知识常常是一个不可能完成的任务:专家们掌握的很多专业知识都不可能以规则的形式表达出来。虽然他们的确构建了几个功能颇为强大的系统,但真正的专业系统从来没有出现。

等级2——监督学习

在这个等级上,机器的计算方式并不是将逻辑规则应用于输入以获得输出,而是由训练师向它们展示每一种输入对应的正确输出,机器则把这些结果记忆在自己的运算结构中。人工神经网络(Artificial neural network,ANN)就是监督学习的一个常见例子。之所以叫这个名字,是因为这个网络的设计大体上模仿了人类大脑结构,也就是众多神经元通过轴突和树突相互连接在一起。人工神经网络有许多称为“结点”的电子元件构成,这些结点将加权后的输入转换成数字值。结点之间的互联性(或称“权重”)由训练过程决定。19世纪末,生物学家就开始研究大脑中的自然神经网络了;人工神经网络的研究则始于20世纪40年代,当时有一些工程师提出,结构与大脑类似的计算机或许就能像大脑那样工作。

6

人工神经网络是一种由电子结点构成的网络。这些结点以层状结构排布,每一层结构都为下一层提供输入。输入层至少驱动一个隐藏的层级结构,最后一层则驱动输出层。当来自前一层的加权总和超过阈值时,结点就会“失火”。而权重则是一些可以根据训练算法调整的参数,以便让给定输入的输出与我们想要的输出匹配

人工神经网络训练师的工作对象是由输入-输出对组成的一大组数据。这些输入-输出对就反映了训练师希望机器学会的各种功能。我们常常称输出为“标签”,因为我们给神经网络布置的任务就是识别输入端的数据并给它贴上标签。例如,如果输入是人脸照片位图,那么对应的输出就会是照片中人的名字。训练师不仅希望人工神经网络在接受训练后能够正确识别训练过程中出现的所有人脸,还希望它们能正确识别并没有在训练过程中出现的照片中的人脸。

神经网络训练师运用一种名为“反向传播”的算法设置结点间的连接权重,以便最大限度地减少输出中的差错。不过,即便经过了这个过程,实际得到的输出与预想中的也不会百分之百一致。也就是说,神经网络可能会产生一些错误输出。由于涉及的结点和连接数量极其庞大,训练神经网络通常需要数天之久。不过,一旦训练完成,神经网络就能在几毫秒的时间内快速得出输出结果。

目前的人工神经网络主要有两大局限性。一大局限性是太过脆弱。如果输入是全新的(也就是没有训练过的),那么人工神经网络的输出可能会显著偏离我们想要的结果。此外,只要有一点点噪声干扰了有效输入,人工神经网络就可能给它贴上错误的标签。例如,只要在停车标志的关键位置上贴上一些带有斑点的胶带,无人驾驶汽车上的路标识别器就会错误地把这个停车标志看成限速标志。另外,如果从同一个总体中抽出不同数据样本分别训练两个人工神经网络,训练结束后,这两个人工神经网络对同样的输入可能会产生极为不同的输出。

人工神经网络的另一大局限性是其结果不可预测。我们很难“解释”人工神经网络得到结论的方式。训练人工神经网络唯一可见的结果就是一个由结点间连接权重构成的几十亿字节大小的矩阵,因此,对这个问题的“解释”就分散到了成千上万个权重之上。

最后,由于训练过程较长,所需的训练数据集往往代价不菲,人工神经网络的训练成本也十分高昂。

等级3——无监督学习

这个等级的机器能够在没有外部主体帮助的环境下学习通过内部修正提升自身性能。目前,这类机器获得的研究关注日益上升,因为它们拥有削减训练数据集高昂成本的潜力。

无监督学习的一个早期案例是1988年由美国宇航局埃姆斯研究中心的彼得 • 奇斯曼(Peter Cheeseman)及其同事建造的“AutoClass”(意为“自动分类”)。AutoClass通过计算,分类了美国宇航局红外望远镜观测到的5 425个天体。分类结果与天文学家已经得到的结果一致——只有一个例外,但天文学家认为这个例外是一项新发现。

无监督学习最近的一个成功案例是AlphaGo。围棋是一项在亚洲颇为流行的古老棋类运动。一般认为,围棋的复杂性要比国际象棋高几个数量级。而AlphaGo则在大约6年的成长之后于2016年的首次公开亮相上就击败了韩国围棋大师李世石。AlphaGo的训练方式是同另一部AlphaGo对弈。这两部机器进行了海量的对局,并且记录了所有对局中的每一步。无论哪部AlphaGo赢下对局,它都会赢得一份奖励,然后再回溯出所有对最终胜利做出贡献的下法,这些下法在下一次对局中会得到加强并更多使用。训练刚开始的时候,两部机器遵循的唯一信息就是围棋的规则,而不是围棋对局案例。

AlphaGo的建造者是谷歌子公司深度思维(Deepmind)。在围棋领域取得成功之后,这个团队开始考虑修改AlphaGo平台,令其学习国际象棋和另一项称为“将棋”的两人对弈棋类运动。他们将AlphaGo改名为AlphaZero,以示这部机器更为广阔的用途。AlphaZero采用同样的两机训练模式,在9小时内达到了国际象棋特级大师水平,12小时内达到了将棋特级大师水平,而围棋则花了13天。这是一项极有意义的重大突破。AlphaZero的围棋机器在不到两周的时间内就达到了前所未有的高度。

只要有描述奖励功能、可行操作和禁止操作的完善规则集,AlphaZero就能应用于商业博弈、市场博弈、军事演习等领域。不过,AlphaZero系统不适用于社交系统,因为在社会领域展开博弈的前提是观察对方的行动。

等级4——多主体交互

在这个等级上,机器智能来源于上万甚至上百万个具有特定功能的主体的相互作用。这些主体既可以是自主机器,也可以是代码片段。这类机器的学习能力就源于这些主体的总和。20世纪60年代,人工智能研究人员就开始讨论多主体交互的想法了。20世纪70年代的语音识别系统HEARSAY就以多主体交互的思想为基础。20世纪80年代,多主体交互的思想演变成了黑板系统,已故人工智能先驱马尔文 • 明斯基(Marvin Minsky)1986年的著作《心智社会》(The Society of Mind)就简要介绍了这种思想。黑板系统中的黑板就是一种共享的知识空间,由各主体不断读取并更新,直到它们找到某个问题的集体解决方案为止。

到目前为止,如果交互主体都是机器,那么整个系统都还和人类智能差得很远。不过,当人类充当某些主体的时候,情况就大为不同了。卡斯帕罗夫在1997年与IBM深蓝的交锋中落败之后发明了一种新型国际象棋,并命名为“进阶国际象棋”,对弈双方分别是一个人机团队——由计算机辅助人类。大家很快就发现,高水平棋手和国际象棋程序的组合能够击败性能最强的机器。

高中机器人竞赛则是另一个能够证明人机团队优越性的例子。在这类比赛中胜出的往往是人类导航者和自主功能程序主体的组合。

人机团队的成功暴露了人工智能研究人员的内部分歧。部分研究人员希望机器脱离人类帮助,独立走向智能。另一部分研究人员则认为,人机合作的团队机制要比同种机器单打独斗更加强大。

等级5——创造性人工智能

这个等级的人工智能介于创造性人工团队中居于辅助地位的机器与能独立展现一般智能的机器之间。问题在于:有没有一种机器能够在不借助团队的前提下独立展现创造性?就现阶段的技术水平来说,目前的机器都没有达到等级5或等级6的水准。

部分人工智能研究人员认为,创造力是已有思想的重新组合,并且已经着手开发拥有此类功能的机器。一个例子就是密歇根大学的约翰 • 霍兰德(John H. Holland)在1975年前后大力推广的遗传算法,也即通过模拟遗传突变和交叉组合寻找问题的近优解。这种算法最早应用在美国海军的一个机器人上,帮助它找到了安全通过雷区的路径。遗传算法起始于随机指令串,并且会有程序根据每种遗传算法展现出来的能力给它评估出一个适应值。适应值最高的程序就组合在一起,形成新一代程序并继续评估出新适应值,依此不断进行下去。经过数代改进,程序最终会进化成功算法,比如可以引导机器人安全通过雷区的那种。

艺术家和音乐家已经开始尝试运用人工智能工具创造新艺术形式。应用程序Prisma就是这种尝试最早的例子,它能将照片转换成著名画家风格的艺术图像。罗格斯大学的艾哈迈德 • 艾尔格马尔(Ahmed Elgammal)和他的同事已经展出了一部名为“AICAN”的神经网络机器创作的艺术作品。艾尔格马尔的结论是,虽然人工智能似乎可以具有艺术创造力,但这项能力没有装备人工智能工具的艺术家强。

创造力是一种深度社会过程,涉及许多针对新可能和新环境的人为评估。建造一部能够自主产生这种创造力的机器或许是个不可能完成的任务。

等级6——终极人工智能

这一等级囊括了代表许多人工智能研究人员梦想的各类想象中的机器。最大胆的梦想当然是那些拥有思考能力、推理能力、理解能力、共情能力、感知能力、自我意识且可以自我反思的机器。这类机器从来就没有出现过,也没有人知道它们是不是可能出现。

研究人员早就意识到人工智能机器缺乏常识。例如,早期的医疗专业系统总是会犯一些没有医生会犯的错误。研究人员认为,解决这个问题的方案是,收集大量常识性事实和规则,形成一个非常庞大的数据库,以备专业系统查用。1984年,Cyc公司的首席执行官道格拉斯 • 雷纳特(Douglas Lenat)就已经开始着手建造这样一类机器,并且称其为“Cyc”。这个项目目前仍在继续。如今,Cyc的数据库已经囊括了几百万项常识性事实,但还从没有帮助某个专业系统展现像人类一样的能力。

许多人工智能研究都以这样一种假设为基础:大脑就像一台计算机,而思维则是它的软件。认知科学家现在认为,大脑本身的结构——错综复杂的层叠、褶皱和交叉连接——就以大脑活动统计现象的形式产生了意识。不过,更进一步地说,我们自以为了解的很多东西实际上都分布于我们身处其中的社会网络中,我们只是通过与他人的互动把它们“回忆”起来。智利生物学家温贝托 • 马图拉纳(Humberto Maturana)和弗朗西斯科 • 瓦雷拉(Francisco Varela)认为,生物结构决定了生物体间的相互作用方式,以及意识和思维在行为协调网络中的产生方式。他们的结论是,自主软件和生物学结构机器的组合并不足以产生机器智能。人类的社会群体和语言交互在一般智慧的产生过程中扮演了至关重要的角色,只是具体作用方式我们仍旧一无所知。

改变目标

如今,每天都有人工智能的新应用诞生,但人工智能技术并没有朝着等级5和等级6迈进。目前的人工智能只是在等级2和等级4之间不断完善。我们需要正确区分新应用和升级版应用带来的兴奋与人工智能算法在解决特定一类问题上的能力真正提升。

根据这个分级制度,我们很可能会推导出这样一个大概率不讨人喜欢的结论:人类智能无法用计算技术实现。机器人工智能的顶峰或许就是支撑人机团队合作——这本身就是一个意义重大的目标。

资料来源American Scientist

__________________________

本文作者彼得 • 丹宁(Peter J. Denning)是加利福尼亚蒙特利海军研究生院信息创新塞布罗夫斯基研究所所长、计算机科学系特聘教授;泰德 • 刘易斯(Ted G. Lewis)是海军研究生院国土防卫与安全中心联合创始人之一。