AI起源：从图灵到ChatGPT

发布时间：24年01月26日

编译张明惠

如今作诗AI的祖先是打卡机、缓慢行动的机器人和神一般的游戏引擎。

“第一台能产生自己想法”的机器问世近70年后，人类的大脑仍然没有真正的对手

1958年冬天，30岁的心理学家弗兰克 · 罗森布拉特（Frank Rosenblatt）正从康奈尔大学前往华盛顿特区海军研究办公室，途中他与一位记者喝了杯咖啡。在计算机刚刚兴起的年代，罗森布拉特宣布了一项了不起的发明，引起了不小的轰动。他宣称，这是“第一台能够产生自己想法的机器”。

罗森布拉特的智慧结晶叫作“感知器”（Perceptron）。感知器是一个受人类神经元启发的程序，运行在一台最先进的计算机上，而这台计算机是一个5吨重的IBM大型机，大小相当于一面墙。给感知器插入一堆穿孔卡片，它就能学会区分左边和右边的卡片。抛开任务的简单性不谈，至少这台机器能够学习。

罗森布拉特认为这是一道新时代的曙光，《纽约客》杂志显然也同意这一点。该杂志的记者写道：“它是人类大脑第一个真正的对手。”而当被问及感知器不能做什么时，罗森布拉特提到了爱、希望和绝望。他说：“简而言之，就是人性。如果我们都不了解人类的性欲，为什么还要指望机器去了解呢？”

感知器是第一个神经网络，是现代人工智能（AI）背后更为复杂的“深度”神经网络的初级版本。但近70年过去了，人类大脑仍然没有真正的对手。伦敦阿兰 · 图灵研究所首席科学家马克 · 吉罗拉米（Mark Girolami）教授说：“我们如今获得的是‘人工鹦鹉’，这本身就是一个了不起的进步，它将为我们提供造福人类的伟大工具，但我们不用妄自菲薄。”

至少今天看来，在人工智能的历史上并不缺少鼻祖，历史上许多人都有同样的发现。例如有人称罗森布拉特被称为“深度学习之父”，而这一称号同属其他三人。阿兰 · 图灵是布莱切利公园的战时密码破译员和计算机科学的创始人，人们称他为人工智能之父。同时，对于计算机能够思考这一观点，他也是第一个认真对待的人。

在1948年的报告《智能机器》中，图灵研究了机器如何模仿智能行为。他认为，要想让机器会思考，有个方法是用机械取代人的各个部分：用摄像头代替眼睛，用麦克风代替耳朵，以及嵌入“电子脑”。图灵调侃道，为了让机器自己发现问题，应该让它在乡间漫游，但他又指出这种想法将对普通公民造成严重影响，因此实践起来进程缓慢，不切实际。

但图灵的许多想法却一直延续至今。他说，机器可以像小孩子一样，在奖惩机制的帮助下学习。有些机器可以通过重写自己的代码来修正自己。如今，机器学习、奖励和修改已成为人工智能的基本概念。

图灵提出了“模仿游戏”，俗称“图灵测试”，是衡量机器思维进展的一种方法，这取决于人类能否分辨出书面交流是来自人类还是机器。

这是一项巧妙的测试，但为了通过这个测试所做出的努力却造成了巨大的混乱。在最近的一次测试中，研究人员称一个聊天机器人通过了测试。这个聊天机器人自称是一个13岁的乌克兰人，养了一只会唱贝多芬《欢乐颂》的宠物豚鼠。

吉罗拉米说，图灵对人工智能的另一项重大贡献往往被忽视。在布莱切利公园工作时期，图灵的一篇解密论文揭示了他是如何利用一种名为贝叶斯统计的方法来解码加密信息的。他和他的团队逐字逐句地使用统计方法来回答以下的问题。例如，这个德语单词产生这组加密字母的概率是多少。

对于计算机能够思考这一观点，阿兰?·图灵是第一个认真对待的人

现在，类似贝叶斯的方法为生成式人工智能程序提供了动力，使其能够生成从未存在过的文章、艺术作品和人物形象。吉罗拉米说：“在过去的70年里，贝叶斯统计一直在平行宇宙中进行，这使得我们如今看到的生成式人工智能完全成为可能，我们可以将其一直追溯到图灵的加密工作。”

“人工智能”一词直到1955年才出现。新罕布什尔州达特茅斯学院的计算机科学家约翰 · 麦卡锡（John McCarthy）在一份暑期学校的提案中使用了这个词，而且对其发展的前景极为乐观。

他写道：“我们认为，如果精心挑选一组科学家，让他们用一个暑假的时间共同研究，人工智能就能取得重大发展。”

剑桥大学人工智能伦理学副教授乔尼· 潘（Jonnie Penn）博士说：“如今正处战后时期，而美国政府认为核武器赢得了战争，因此，科学和技术不可能更上一层楼。”

不幸的是，这些研究取得的进步微乎其微，但研究人员仍然选择投身于构建程序和传感器的黄金时代。这些程序和传感器使计算机能够感知环境并做出反应，解决问题，规划任务，而且能使用人类语言。

在笨重的显像管显示器上，计算机化的机器人执行着用平白的英语描述的命令，而实验室里展示的机器人则只能拖着疲惫的身躯撞击办公桌和文件柜。1970年，麻省理工学院的马文 · 明斯基（Marvin Minsky）在接受《生活》杂志采访时说，3到8年后，世界上将会出现一台具有普通人一般智力的机器。它将能够阅读莎士比亚作品、给汽车加油、讲笑话、玩办公室政治游戏，甚至还能打架。通过自学，几个月后它的能力不可估量。

然而，幻想在20世纪70年代就破灭了。英国著名数学家詹姆斯 · 莱特希尔爵士（Sir James Lighthill）撰写了一份尖刻的报告，指出人工智能发展进程甚微，并要求立即削减研发资金。

但科学家将知识视为突破发展瓶颈的方法，因此人工智能又随之迎来了复兴。他们旨在将人类的专业知识直接编码到计算机中。最为雄心勃勃的是Cyc项目，它旨在掌握受过教育的人在日常生活中使用的所有知识。这意味着需要大量地编码，但要让专家解释他们如何做出决定，并将信息编码到计算机中。结果，这种做法比科学家想象的要难得多。

发展到20世纪，人工智能确实取得了显著的成就。1997年，IBM的“深蓝”击败了国际象棋大师加里 · 卡斯帕罗夫（Garry Kasparov）。这场比赛成为全球头条新闻，《新闻周刊》杂志称其为“人类大脑的最后一搏”。

在一场比赛中，“深蓝”每秒能扫描2亿个位置，并提前预判近80个落子动作。卡斯帕罗夫在回忆比赛时说，这台机器“落子如有神”。

马修· 琼斯（Matthew Jones）是普林斯顿大学的历史学教授，同时也是《2023年数据是如何产生的》一书的合著者。他认为，从某种意义上说，这是更传统的人工智能模式的最后一搏。

现实世界中的情况更加混乱，因为规则不明确，信息缺失。会下棋的人工智能无法将其任务转换为规划你的一天、打扫房间或驾驶汽车。谢菲尔德大学机器学习负责人埃莱尼· 瓦西拉基（Eleni Vasilaki）教授说：“国际象棋并不是人工智能的最佳准入门槛。”

自“深蓝”以来，人工智能领域最引人注目的飞跃来自一种完全不同的方法，这种方法可以追溯到罗森布拉特和他的卡片分类感知器。基于感知器的简单单层神经网络并没有太大作用，它们所能实现的功能存在根本上的限制。研究人员知道，多层神经网络将更加有效。但由于计算机能力不足，研究人员也不知道如何对其进行训练，多层神经网络便无从谈起。

1986年，卡内基梅隆大学的杰弗里 · 辛顿（Geoffrey Hinton）等研究人员开发出“反向传播”技术。该技术作为网络教学的一种方法，使得人工智能取得了突破性进步。如今，不再是单个“神经元”与相邻的“神经元”进行交流，而是整个神经层之间可以相互交流。

假设你建立了一个神经网络，可以将小猫和小狗的图像进行分类。这些图像由网络的不同层输入和处理，再由每一层检视不同的特征。这些特征可能是边缘和轮廓，也可能是毛发和脸部，然后将输出结果发送给下一层。在最后一层，神经网络计算出图像是猫或狗的概率。但假设神经网络弄错了：罗孚绝不会在脖子上挂一个铃铛！你可以计算出误差的大小，然后通过网络倒推，调整神经元的权重值（基本上就是网络连接的强度）来减少误差。这个过程不断重复，而这也就是神经网络的学习方式。

这一突破使神经网络再次成为人们关注的焦点，但研究人员却再次因缺乏计算能力和数据而受挫。在千禧年代，这种情况发生了转变，因为更强大的处理器出现了，特别是用于视频游戏的图形处理器，以及充斥着文字、图像和音频的互联网所带来的海量数据。2012年，科学家证明了构建“深度”神经网络（具有大量层级的网络）的巨大威力。ImageNet挑战赛是一项让人工智能挑战从数百万数据库中识别图像的国际竞赛。在该挑战赛上，AlexNet击败了对手。

爱丁堡大学自然语言处理专家米瑞拉· 拉帕塔（Mirella Lapata）教授说：“AlexNet给大家上了一课，让人们知道规模真的很重要。”人们曾经认为，如果我们能把我们所知道的关于某项任务的知识输入计算机，那么计算机就能完成这项任务。但现在的想法已经发生了转变，因为计算和尺度比人类知识重要得多。”

在AlexNet之后，人工智能领域的发展迅速。谷歌的DeepMind公司成立于2010年，以解决智能问题为己任。该公司推出了一种从头开始玩雅达利经典游戏的算法。“突围”游戏要求玩家砸穿通道一侧的墙壁，然后把球送入后方的空间。Deepmind公司通过反复试验，发现了如何在该游戏中取得胜利。DeepMind的另一个算法AlphaGo在围棋比赛中击败了世界冠军李世石。此后，该公司又发布了AlphaFold。在了解了蛋白质形状与其化学构成的关系后，AlphaFold又预测了2亿种蛋白质的三维结构，几乎涵盖了科学界已知的所有蛋白质。如今，这些三维结构正在推动医学科学的新浪潮。

深度学习革命制造了大量的头条新闻，但这些新闻现在看起来就像生成式人工智能掀起浪潮前的小小涟漪。以2022年发布的OpenAI的ChatGPT为例，这些功能强大的新工具因其生成能力而得名，它可以生成论文、诗歌、求职信、艺术作品、电影和古典音乐等。

生成式人工智能的核心引擎被称为转换器，它由谷歌研究人员开发，最初是为了改进翻译。在2017年的一篇论文中，人们对其进行了描述，论文标题“只需关注”（Attention Is All You Need）借用了披头士的名曲。即使是它的作者似乎也低估了它将产生的影响。

利昂· 琼斯（Llion Jones）是该论文的合著者之一，也是论文标题的撰写者。他已经离开谷歌，与他人共同创办了一家新公司——萨卡纳人工智能公司。在东京的办公室里，他正在进行一项新的转换器实验，对论文的受欢迎程度进行了反思。他说：“我们确实认为自己创造的是一种非常通用的东西，它并不是专门用来做翻译的。但我们不曾想过它会如此普遍，能够接管一切。现在几乎所有都在转换器上运行。”

在转换器出现之前，人工智能驱动的翻译通常是通过逐个单词处理句子来学习语言。这种方法有其缺点，因为依次处理单词的速度很慢，而且对长句的处理效果也不好。当处理到最后一个单词时，前面的单词已经被遗忘了。转换器通过一种名为“注意”的过程来解决这些问题。它允许网络同时处理句子中的所有单词，并根据单词的语境理解每个单词。

OpenAI的生成式预训练转换器GPT和类似的大型语言模型尽管并不总是完全可靠，但却可以生成长篇流畅的文本段落。通过对海量数据（包括互联网上的大部分文本）的训练，它们可以学习到以前的算法无法识别的语言特征。

ChatGPT是在海量数据的基础上训练出来的，它可以利用以前的算法所不具备的语言特征

也许最引人注目也最令人兴奋的是，转换器可以胜任各种任务。一旦它掌握了所输入数据（音乐、视频、图像和语音）的特征，这些特征就能促使它创造出更多的数据。无需通过不同的神经网络，转换器就可以处理所有不同的媒体。

迈克尔· 沃尔德里奇（Michael Wooldridge）是牛津大学计算机科学教授，同时著有《通往有意识机器之路》（The Road to Conscious Machines）一书。他说：“这是一个进步，是一个真正的技术分水岭。显然，谷歌没有发现这一潜力。如果他们知道这将是迄今最具影响力的人工智能发展，我很难相信他们会发表这篇论文。”

沃尔德里奇认为，转换器网络可应用于闭路电视，在犯罪行为发生时记录下来。他说：“我们将进入一个生成式人工智能的世界，猫王和巴迪 · 霍利（Buddy Holly）将死而复生。如果你是原版《星际迷航》系列的粉丝，生成式人工智能会根据你的喜好创造出无限剧集，而且对白听起来就像威廉 · 夏特纳（William Shatner）和伦纳德 · 尼莫伊（Leonard Nimoy）的原声，根本分辨不出其中的差别。”

但革命是有代价的。训练像ChatGPT这样的模型需要巨大的计算能力，而且碳排放量也很高。佩恩说：“生成式人工智能让我们与气候危机相碰撞。与其过度设计我们的社会，让它时时刻刻都运行在人工智能上，不如把它应用在有用的领域，不要把时间浪费在没用的地方。”

资料来源The Guardian

——————

本文作者伊恩·桑普（Ian Sample）是《卫报》的科学编辑