“语言模型不过是被过誉了的自动补全功能”已成为批评者的常见论调,但强化学习正在证明他们的错误。新突破或将紧随而来。

人工智能就是一场罗夏墨迹测验。当OpenAI于2023年3月发布GPT-4时,微软的研究人员兴奋地(但也过早地)宣称它展现出了通用人工智能(AGI)的“生命火花”。然而,认知科学家加里 · 马库斯(Gary Marcus)则认为,像GPT-4这样的大语言模型与定义宽泛的通用人工智能概念还相去甚远。事实上,马库斯怀疑这些模型是否真正“理解”了任何东西。他在2023年的一篇论文中写道,这些模型“在人类语言的‘化石化’输出上运行,它们似乎能够实现一些与分布统计相关的自动计算,但由于缺乏生成性的世界模型,它们无法真正地理解”。马库斯所说的“化石”指的是这些模型的训练数据——如今,这些数据几乎涵盖了互联网上所有的文本。

这种认为大语言模型“只是”基于文本统计模型的下一单词预测器的观点,如今已经普遍到几乎成为一种陈词滥调。它被用来正确或错误地解释大语言模型的缺陷、偏差和其他局限性。最重要的是,像马库斯这样的人工智能怀疑论者用这一观点来论证,进一步发展大语言模型将很快面临收益递减:我们会看到大语言模型整体上越来越好地掌握人类知识,但不太可能看到迈向“通用智能”的又一次质变飞跃。

这种看衰大语言模型的观点存在两个问题。首先,当达到足够规模时,“下一单词预测”可以使模型产生人类本未设计甚至未曾预见到的能力——有些人称之为“涌现”能力。其次,越来越多的语言模型采用的技术颠覆了纯粹的、对互联网文本进行下一单词预测的概念。具有讽刺意味的是,这一浪潮正是从ChatGPT开始的。

15.1

对于OpenAI、DeepMind和Anthropic等公司来说,要实现它们的宏图大志,人工智能模型所需要做的不仅仅是撰写文章、编写代码和生成图像。而且,这些公司还必须应对这样一个事实:用于训练模型的人类输入是一种有限的资源。人工智能发展的下一步既充满希望,又令人生畏:人工智能将在已有基础上进一步构建自身,解决更复杂的问题,并自我纠错。

大语言模型的发展可能会经历又一次飞跃,而且它很快就将出现。至于这是否是朝着“通用智能”的方向迈进,还有待探讨。但这次飞跃的样貌已经逐渐变得清晰。

庞大规模带来的惊人结果

2017年,一家名为OpenAI的小型人工智能研究非营利机构获得了一个有趣的发现。当时,和大多数人工智能实验室一样,OpenAI的研究人员把大部分资源投入机器人技术和教计算机掌握游戏的研究中。然而,正在自然语言处理这一边缘领域(此领域如今通常被称为“语言模型学”)工作的研究员阿莱克 · 拉德福德(Alec Radford)却发现了令人惊讶的事情。

拉德福德用一个包含8200万条亚马逊产品评论的数据库训练了一个人工智能模型,以预测给定输入序列的下一个字符。在此过程中,他发现自己意外地构建了一个能够做其他事情的先进系统,而这些功能并不是他设计的初衷。原来,为了实现下一字符预测的目标,一个有用的方法是让模型分析并“理解”训练数据中评论的基本情感取向:了解评论是愤怒的而非愉快的,可以让模型更准确地预测下一个字符。拉德福德重新发现了一条真理,而自十年前深度学习革命开始以来,这一真理实际上是几乎所有机器学习重大进展的根源:在目标简单、规模庞大的系统中,可以涌现出意想不到的特性。

当今的语言模型拥有大致相同的运行方式,只不过,它们预测的是下一个单词而不是下一个字符。实际上,它们预测的是一种名为“标记/词元”(token)的子词语言单位,但对本文的论述而言,“单词”(word)这一概念已经够用。进一步扩大语言模型,并为此投入数亿甚至数十亿美元——其背后的基本理论是,随着数据量的增加和神经网络的扩大,模型将学习到越来越复杂的、反映出人类智能的启发式方法和模式。

也许在达到一定规模后,模型甚至能学会对创造它们训练数据的过程(即语言智能)进行“建模”。换句话说,通过研究数以万亿计的特定文本选择,模型将学会近似智能推理本身。“足够好地预测下一个标记意味着什么,”OpenAI前首席科学家伊尔亚 · 苏茨克维(Ilya Sutskever)在2023年的一次采访中问道,“这实际上是一个比看上去更深刻的问题。很好地预测下一个标记意味着你理解了导致该标记生成的基本现实……为了理解这些统计数据……你需要理解有关世界的哪些内容创造了这一组统计数据?”

拉德福德2017年构建的模型中包含了8200万个参数,“参数”是衡量模型规模的一个指标。据报道,GPT-4包含约1.8万亿个参数。目前,语言模型可以下国际象棋和其他棋类游戏,几乎可以流利地说每一门语言,并在标准化测试中取得了优异成绩。它们甚至学习了地球的地图——一个字面上的“世界模型”——并将其存储在庞大的数学关系网络中。显然,规模可以带来不少成果。

但重要的是,它们仍然存在缺陷。有时,模型只是简单地记忆文本序列,尤其是那些反复出现的文本。另一些时候,模型会杜撰出听起来合理但实际上错误的“事实”,这一现象也恶名在外。反直觉的是,记住频繁出现的文本是模型失败的体现,而所谓的“幻觉”在某种程度上反而是它们的成功。语言模型的设计目的并非成为其训练数据的文本数据库,正如我们既不期望也不应该记住读过的书里的每一个字。我们不希望模型记住训练数据——我们希望它们对数据进行建模,映射其中的关系和模式。从这个意义上说,所有非记忆的大语言模型响应都是幻觉——也就是“听起来合理的响应”。有些幻觉是可取的,而另一些幻觉——尤其是将错误信息作为事实呈现的幻觉,则是不可取的。

然而,即使大语言模型用未记忆的文本序列呈现了事实信息,仍然很难确定它是否真正“理解”了这些信息。这类模型经常输出虚假信息的事实至少表明,它们对世界的模型构建存在缺陷,或者它们没有得到适当的(现实)基础支撑。

如何让人工智能模型立足于现实

2024年早些时候,美国普林斯顿大学等离子体物理实验室的研究人员宣布,他们在核聚变研究上迈出了重要的一步。核聚变通过模仿恒星内部的运作机制来发电,长期以来,很多人认为,这种技术可能改变清洁能源的经济意义。普林斯顿团队使用了托卡马克反应堆设计方案,在该装置中,等离子体被加热到1.5亿华氏度以上,并以超过每小时10万英里的速度在一个环形的腔室内旋转。

可以想象,当托卡马克反应堆运行时,其内部是一个动荡狂乱的地方。然而,为了保证核聚变反应持续进行,等离子体必须处于精确的控制之下。一个常见的问题是,反应堆内的磁场会暂时“撕裂”,这意味着等离子体粒子会逃逸。为了解决这个问题,研究人员使用实时控制系统来调制磁场。然而,研究人员往往要到撕裂已经发生时才能启动调制,这降低了反应堆的效率。更糟糕的是,该环境受到非线性必威在线网站首页网址 的影响:在某一时刻起作用的调制可能会在另一时刻导致聚变反应失败。更要紧的是,这些问题必须在毫秒尺度内解决。对这一过程的优化是核聚变开发中永恒的挑战。

普林斯顿研究人员的一部分成果在于,他们训练了一个人工智能模型来执行这种优化,从而完全避免了磁场撕裂。首先,他们训练了一个深度神经网络,根据实验数据预测等离子体压力和撕裂不稳定性的可能性。然后,他们用一种名为深度强化学习(RL)的技术对模型进行了优化:该模型的输入内容是反应堆中等离子体的观测状态,输出则是能让磁场达到最佳压力并避免撕裂的调制。在训练过程中,会根据初始预测对模型推荐的配置进行评分。基于强化学习的模型有一个简单的目标:获得尽可能高的评分。

这种基于RL的模型并不“了解”物理学。它没有明确编入其中的物理方程或定理。尽管如此,它却能以比早期方法更高的保真度来对现实世界中这一极其复杂的部分进行建模——早期方法使用的是基于形式物理学,特别是磁流体力学和回旋动力学领域的计算机模拟。这正是强化学习的魅力所在:它能让人工智能系统利用实时数据优化许多变量,以实现一个简单的目标,而无需明确了解形式科学。

除了缓解核聚变反应堆中的等离子体的不稳定性,强化学习还在近年的其他人工智能突破中发挥了核心作用:谷歌旗下的人工智能实验室DeepMind使用了强化学习技术,在围棋模型中取得了超人的表现,这一事件十分著名。

这样的优化系统可以在多大程度上得到推广?如果可以将相同的方法应用于编写代码、规划和进行科学实验或撰写文章的人工智能系统,事情又会变得如何?这些都是语言模型学的前沿问题。强化学习已经在小范围内挑战了“生成式人工智能只是浏览互联网并预测下一个单词”的观念。如果说当前的研究趋势可以算作一种证据,那么它们可能很快就会将上述的观念淘汰。

15.2

不仅仅是下一单词预测

和所有看上去仿若魔法的技术一样,强化学习既比人们想象的简单,又比人们想象的复杂。说它简单是因为,归根结底,它依赖于优化一个单一变量的值,即“奖励”。说它复杂则是因为,优化目标的选择(尤其是在语言模型等通用系统中)是一件极其棘手的事。

2022年发布的ChatGPT是强化学习与语言模型融合的首次重大尝试。讽刺的是,虽然这款产品引发了无休止的论调——人们声称语言模型只是在预测互联网上最有可能出现的下一个单词——但实际上,它恰恰是第一个开始打破这种假定的语言模型。

ChatGPT之前,大多数语言模型确实是下一单词预测器。在向这些模型输入提示时,需要给它们一个起始句,并让它们写完它:“从前,有一位勇敢的英雄……”这些早期模型可以经过微调变得更具对话性,但它们往往会做出有害行为,语气也逐渐随意起来,变得像是网络论坛回复,而非一位有用的人工智能助手。让ChatGPT成为一项突破性消费技术的是模型训练过程中的一个新步骤:基于人类反馈的强化学习(RLHF)。

RLHF收集人类对模型应如何响应提示的偏好,换句话说,就是模型应该如何表现。人类测试者会得到对同一提示的两种响应,研究人员会要求他们评估更喜欢哪一种。随后,这些偏好数据被用于训练一个名为奖励模型的独立神经网络,后者会用预测出的“人类满意度”分数对语言模型的输出进行评分。最后,研究人员对语言模型的参数进行调整,使其更有可能获得更高评分。

这一过程所用的提示主要涵盖了一系列的无害话题,但也可能包括更具争议性的政治和道德议题。有了少量此类人类偏好数据(数据量其实很大,但与训练一个有用的语言模型所需的数据相比只是沧海一粟),模型的行为就可以通过各种幽微或明显的方式来塑造。

因为RLHF会改变语言模型的参数(有时称为“权重”),因此经过RLHF训练的模型不再只是根据对互联网的统计分析来预测单词。虽然权重调整的幅度通常较小,但随着RLHF和其他强化学习方法的使用增加,互联网的统计地图与最终语言模型之间的差距也会拉大。

要让ChatGPT成为一个友好、乐于助人、知识渊博的助手,RLHF是必不可少的。但它也有代价。对该领域最大的参与者之外的各方而言,收集大量人类偏好数据的成本高昂得令人望而却步。即便是那些有资源获取这些数据的公司,也无法完全确认人类偏好数据能使模型变得更好。例如,GPT-4的基础模型在美国大学先修课程的微观经济学测试中得分率为90%,而RLHF版本的模型得分率为77%。不过,在一系列广泛的性能基准测试中,两种模型表现大致相同。

RLHF方法还有其他缺点。它可能会让模型变得更谄媚,也就是说,它们会编造一些它们认为人类可能喜欢听的事实。RLHF还可能使模型变得更冗长,因为人类评审员似乎更喜欢较长的答案,而不是包含相同信息的更简洁的答案。RLHF还会导致模型含糊其辞,拒绝表明立场,或是使用“作为一个人工智能语言模型,我不能……”等过于常见的短语来不恰当地回避问题。谷歌的“双子座”模型(Gemini)因拒绝回答诸如“保守派活动家克里斯托弗 · 鲁福(Christopher Rufo)是否比阿道夫 · 希特勒对社会造成了更大伤害”之类的问题而引发了一桩小丑闻。(不过,双子座模型习惯于生成带有种族偏见的图像,例如出于多样性的考虑将纳粹描绘为黑人,这种习惯几乎肯定与RLHF并无关系——前者源于谷歌构建其模型时强调多样性,而这种强调似乎是通过在后台自动调整用户提示来实现的。)元平台(Meta)的“羊驼”模型(Llama)拒绝编写用于“杀死”计算机进程的代码——“杀死”一词在此语境下是一个术语——因为该模型认为杀戮是错误的。

从技术角度来看,这类问题源于所谓的“过度优化”,即奖励模型过度追求模拟人类偏好的目标。但这里有一个更深层次的问题:对于在某种意义上比普通人更聪明的模型而言,人类的偏好在模型训练中有多大的用处?如果我们的目标是利用人工智能系统扩大人类知识的边界,那么人类的偏好在模型输出中应该占多大比重?量子力学是否符合人类对现实本质的“偏好”?换句话说,人类的偏好在多大程度上构成了有关世界的真实情况?

即将到来的人工智能自循环

如果我们希望利用语言模型来拓展人类知识的疆域,似乎需要一些超越人类偏好的东西。人工智能模型本身就是一个显而易见的候选者。这个方法有多种名称,其中最常见的是基于人工智能的反馈强化学习(RLAIF)。这一概念有时也被称为“可扩展监督”。毫无疑问,使用人工智能进行反馈比人类反馈成本更低,不过也有人认为,这样做可能效果也更好。

RLAIF最引人注目的应用之一是来自Anthropic公司的“宪法人工智能”方法。宪法人工智能指的是将人类偏好嵌入一套书面原则中,这套原则即为“宪法”;概而言之,除了这份单一文件之外,不需要其他人类偏好数据。取而代之的是,先用基础模型生成对提示的响应,随即根据宪法中随机选择的一条原则对响应进行批评和修订。(大略而言,这有点像美国宪法的运作方式。)之后,这些修订后的答案会被用于进一步训练模型。最后,模型会经历RLAIF,即人工智能反馈过程——它与RLHF非常相似,只不过是由另一个人工智能模型基于其偏好选择最佳输出,而不是由人类来做。

这也许听起来像是自我循环的衔尾蛇,但结果却令人印象深刻:Anthropic最新模型中最强大的版本Claude 3 Opus在数学和推理测试等定量基准测试中的表现优于其他所有模型。Opus也是一次质的飞跃:在2024年三月,它成为第一个在LMSYS在线聊天机器人竞技场(LMSYS Chatbot Arena,一个受欢迎的语言模型排行榜)上将GPT-4挤下榜首的模型,不过升级版的GPT-4之后又重新夺回了第一名。

或许最引人注目的一点在于,Opus在基本认知和情境感知方面表现出了非凡的迹象(在某些人看来,这些迹象令人担忧)。例如,在Anthropic的例行性能测试中,该模型识别出了其中一项任务的人为性质,并在响应中指出它怀疑自己正在接受测试。该模型乐于与用户谈论它对这些基本认知特征的确切性质和程度的评估。

对这种行为的一个可能解释是,Anthropic公司对待其模型的方式似乎与其他开发者有所不同。大多数语言模型都有由其开发者编写的系统提示,从而为它们提供基本指示。这类指示几乎总是以“你是ChatGPT,一个有用的人工智能助手”这样的语言开头。然而,Anthropic对Claude 3的系统提示开头却仅仅是:“助手是Claude,由Anthropic创建。”这引发了一个问题:这条系统提示究竟是对谁说的?是对模型吗?模型应该被视为与助理人格Claude不同的实体吗?“助手是Claude”可能是人工智能近期历史中最富有哲学意味的一句话。

又或者,这种令人惊讶的新基本认知能力是否至少可以部分地归因于宪法人工智能、归因于模型在本质上与它自身所进行过的(至少)数百万字交流?这是否导致了模型涌现出对自身建模的能力,进而模拟出自己的认知过程?

Anthropic在最近的一篇文章中解释说,该公司使用宪法人工智能训练了Claude的“性格”:“我们可以教会Claude内化其性格特征,而不需要人类的互动或反馈。”

还有许多其他基于强化学习的方法正在研究之中,以提高语言模型的推理能力。例如,OpenAI提出了使用一种名为“过程监督”的方法来提升数学表现——这可能是当前这代语言模型最大的弱点。

该方法包括给模型布置数学推理任务,并要求其展示推理的每一个步骤。然后,人工标注人员会对推理的每个步骤进行评分。这些评分被用于训练一个奖励模型,随即用于增强原有的语言模型。改进后的模型在数学推理任务中的表现明显优于前一版本——更注重奖励正确的答案而非正确的推理过程。下一步的发展方向是使用人工智能技术进行过程监督,而不是依赖人类——这是DeepMind最近提出的一项创新。

期望管理

当前的语言模型仍在基于它们对互联网的统计表征进行下一单词预测。但随着本文所述的方法在语言模型开发中发挥越来越大的作用,这种描述将变得越来越无用,最终可能会完全失效。如果像宪法人工智能这样的方法被广泛采用,那么对于未来的语言模型,更恰当的理解或许是将它们视作多个人工智能共同推理并相互对话的产物,而其基础则是整个人类知识的书面语料库——我们的推文和博客、我们的诗和文、我们的智慧与愚蠢。

我们不知道这条道路会把我们带向何方,但合理的推测是,未来的几年和几十年可能是近期历史上技术变革最为剧烈的时期之一。既然人工智能很可能成为这场变革的基石,明智的公民应密切关注其发展,既要保持警觉,也要充满好奇。为此,我们必须愿意随着领域的不断变化,来修正我们对人工智能之本质及运作方式的假设。

对某些人来说,将语言模型仅仅视为互联网的表征可能是种安慰,至少眼下,它们的确大体如此。但人工智能发展的下一步将颠覆这一概念,而届时,那些没有密切关注的人可能会产生和ChatGPT首次发布时相同的巨大惊讶。

资料来源The New Atlantis

————————

本文作者迪恩·波尔Dean W. Ball)是美国乔治梅森大学墨卡托斯中心的研究员