让我们不要把不准确性当作创造力来赞美。
2023年金秋时节,OpenAI的首席执行官萨姆 · 奥特曼(Sam Altman)对人工智能做出了令人惊讶的表态。包括该公司的ChatGPT在内的人工智能系统被认为“出现幻觉”:它们能够感知,并生成看似毫无意义的新内容。奥特曼表示,这并不是人工智能的缺陷,而是它们“魔力”的体现。他说:“人工智能能够提出新的想法并具有创造力,这正是它们越来越强大的证明。”奥特曼的观点引起了人们的广泛讨论:众所周知,人类在基于准确事实的情况下,才能更好地发挥创造力。而对人工智能这种所谓“创造力”的赞扬,如何回应人们对其准确性的诸多质疑呢?
首先,让我们来了解下,当人们说人工智能系统“出现幻觉”时,他们指的是什么?以GPT4尝试进行学术引用时发生的一个例子为例。
我:
你能不能补全2004年基斯·唐宁(Keith Downing)所写论文的题目,“Development and the……”
GPT4:
是的,基斯·唐宁在2004年所写论文的完整题目是“Development and the Baldwin Effect:Evolution by Any Other Name?”(发展与鲍德温效应:别名下的进化?)该论文深入探讨了鲍德温效应及其对理解演化和发展的影响。
题目中的“Evolution by Any Other Name?”是虚构的。事实上,这是另一篇关于“生物演化替代模型”的学术论文的题目,虽然两者高度相关,但人工智能却错误地将两者混为一谈。
当人们说GPT出现幻觉时,他们指的就是GPT对事实的这种篡改。但幻觉的概念却暗示着在其他时候,GPT表述的事实是准确的。不幸的是,这造成了人们对大型语言模型工作方式的误解,而误解一项技术的工作原理可能使得它从安全变为危险。也许更准确的表述应该是,GPT所做的一切都是幻觉,因为这些模型根本不存在非幻觉状态,即这些模型没有根据某种外部感知来检查事物有效性的能力。在它们的世界中,没有对错之分,所有任务都不具有善与恶的意义。
这些大型语言模型的工作原理与人类大脑工作原理完全不同,它们只是基于语言的模式、结构和概率而发展起来的大语言模型而已。从本质上讲,它们的工作机制非常简单:给定一些文本,它们告诉我们接下来会出现什么文本。然而,值得注意的是,并不总是只有一个正确的答案。如果我说“摇动着尾巴的……”,你可能会非常肯定地说下一个词是“狗”,但这并不是唯一正确的答案。在上述的情境中,其实答案是完全开放的,任何答案的“正确性”取决于上下文的背景,以及你试图做什么——你的目标。
随着我们迈入人工智能时代,大型语言模型的准确性问题在某些领域引发了人们的普遍担忧,在某些领域引起了人们的戒备心理,而在某些领域却推动了新型“娱乐”形式的兴起。从某种意义上说,奥特曼成功地将人们的关注点从GPT是否能够传达准确信息的问题上转移开了。但从另一个角度来看,他在暗示幻觉是创造力的核心能力时,又将一种误解叠加在了另一种误解上。既然他提到了这一点,那么让我们来看看,GPT的创造力到底如何呢?
众所周知,GPT的很大一部分应用是用于需要创造力的任务,那么创造力究竟是如何产生的,创造力的产生是否意味着对基本事实的忽视?人们已经付出了大量的努力来理解人类如何具有创造力,同时也力图消除有关创造力产生的误区。庞大的文献研究在一个重要观点上达成了高度一致,即人类创造力思维涉及一种搜索过程。
创造力研究专家特蕾莎· 阿玛比尔(Teresa Amabile)博士阐述:创造性问题就是那些没有已知解决方案的问题,因此这些问题需要我们采用“启发式方法”来探索解决之道,这是任何“算法化方法”都无法胜任的。依据心理学家迪恩 · 西蒙顿(Dean Simonton)的理论,我认为可以将上述观点定义为“盲目搜索”,但“盲目”并不意味着“随机”。设想一个雷达扫描空间的过程,它以系统性的方式环绕圆周运动,遍历所有可能的目标,但其在搜索过程中仍是“盲目”的。在认知层面上,“盲目搜索”需要被评估,因为我们需要知晓自己在寻找什么。
心理学对创造力的几种理论都认为:人类大脑具有执行结构化、分布式搜索的能力,它能够将思想生成的任务分配给可能位于潜意识层面的模块进行处理,随后这些思想在更为中心化的层面上得到评估。
但这不仅仅是个体大脑内部发生的过程,我们也能在集体中进行这种思维过程。例如,头脑风暴法被系统地发展起来以支持发散思维,明确地制定出创造性合作的公认策略,并再次确定启发式搜索方法对于创造性成功的强大的作用。在头脑风暴会议中,每个参与者都像一个小的、简单的生成模块。头脑风暴的两个关键规则是延迟评估,并以量取胜,而不是以质取胜。但评估发生在头脑风暴的后期,有时会关闭我们的思维,使我们无法看到富有成果的可能性。
当然,有效的创造力形式远不止这些:个人和社会集体的创造力形式都还有许多其他重要形式——熟谙某个领域的能力、从他人那里学习的能力、概念化地表达问题的能力,以及所有使创意想法得以实现的能力。
这并不是说有效的创造力仅仅是这样的:个人和社会形式的创造力还有许多其他重要的维度——对某一主题的掌握、从他人那里学习的能力、概念上表现问题的能力,以及将创意想法付诸实现的所有外围工作。
但去思考那些可能支持启发式、分布式搜索的结构,有助于我们关注创造力的有效架构,最重要的是,即使从最简单的角度来看,单个人的创造力也源自“生成”和“评估”这两种认知过程之间的相互作用。
我曾主张,为了更好地理解机器在创造性角色中的发挥,我们应对两种不同风格的创造过程加以区分。我们通常将“适应性”创造力与人类智能联系在一起,它是生成与评估的完整、综合体现。与此同时,一种不太显眼的“生成性”创造过程却无处不在。它有时是偶然的,有时则更加结构化,但通常没有明确目标。在人类大脑中,它可能表现为潜意识中不断旋转的思维流。即使在没有明显评估的情况下,它也存在,就像通过自然选择而演化的无目标机制(需注意的是,“生物适应性”并非一个目标,而是演化过程的结果)。
虽然经典的“英雄”式创造力故事关注的是整齐有界的适应性形式(这是创造力的核心神话),但实际上野生的生成性形式却更为普遍:偶然的科学发现,源自成功表演者怪癖的音乐风格,以及寻找问题的独特路径。
将GPT视为创造性工具,会极大地促进我们的思考,尽管它还只是一个雏形。它是一个好的生成器吗?一个好的评估者吗?它能把一切融合到一个自适应的创造性集合中吗?GPT表面上似乎可以很好地完成生成和评估的工作,对请求产生一些新的想法,或者对我们输入的内容进行批判。实际上,我们对前者了解很多。许多代较老和不太复杂的生成系统已经被用来这样实践一段时间了——它们无法评估自己的输出,但作为创造性人士的兴奋剂,作为创意机器,它们在生成方面却非常强大。有时想法非常出色,有时一般,但如果这种想法生成是在有效的创意场景中进行的话,仍有可能富有成效,比如场景中包括一个有辨别能力的人承担评估的职责。
值得一提的是,作为一个“纯粹的生成器”,GPT比大多数生成器更好,因为它可以很好地整合上下文,并且在处理概念方面非常有效:记住,富有成效的创造性搜索是盲目的但有系统性的,而不是随机的。整合上下文,并重新解释该上下文,是我们可以更系统地构建创造性搜索的关键方式。实际上,GPT最擅长的就是系统地整合不同的限制条件。看看GPT如何用莎士比亚的诗句来证明素数是无限的吧。
更妙的是,GPT还可以评估事物,而且不只是简单评估“这个好,那个坏”,而是通过结构化的反馈帮助用户思考想法。但最终的评估工作还是需要用户来完成:你可以告诉GPT你的目标,但它并不真正“共享”这些目标。它实际上只是提供更多供用户评估的创造性思考材料。在创造性方面,GPT仍然是一个具有创造性的工具,且无疑是一个强大的工具。
尽管GPT还无法执行人类特别擅长的分布式创造性搜索的全部任务,但有明显的迹象表明它可能接近实现这一目标。观察GPT目前的“解释器”版本:编写代码,在服务器上运行该代码,并根据结果调整其下一步操作,你会发现这个差距可能正在逐渐缩小。
GPT在一定程度上超越了以往的技术,但在创造性生成方面仍然前途未卜。它的结果常常不尽如人意,对于把握美学目标几乎没有天赋,更不用说通过与用户的对话来促进创造性成果了。
我们仍然在探索,在这些领域取得进步是否需要完全不同的架构,因为GPT迄今为止展现出的“随机鹦鹉”语言模型所能实现的成就,已经让许多人感到惊讶,它表现出逻辑理解的涌现性能力。但在追求完整的“适应性创造力”过程中,与用户的创造性目标匹配的问题,我相信,将会异常复杂,甚至可能有点邪恶。
最近的一个例子就非常引人注目。一家大型超市开发了一个应用程序,可以根据顾客购物篮中的食材推荐原创食谱。我们可能会认为这是一个有趣的创意,用以打破日常购物的单调。但问题是,生成的食谱包括了危险且可能致命的混合物。正如《卫报》报道的:“其中一款名为‘芳香水混合物’的食谱实际上会产生氯气。该机器人推荐这款食谱是‘解渴提神的完美无酒精饮料’‘冷藏后享用,清新香气扑鼻’,但它没有提到吸入氯气可能会导致肺部损伤甚至死亡。”
或许“迷失”比“幻觉”更能准确描述这类判断错误。问题不仅仅是事实上的错误,而是更广泛的问题,即缺乏对现实世界问题的关注,死亡对我们这些碳基生命体来说是一个相当重要的问题。
关于幻觉,创造力就像使用GPT进行任何其他活动一样,比如对某个话题的自动生成摘要进行签字,用户是最终的决策者。他们必须清楚地理解,语言模型是设计来做出合理预测的,而不是提供准确信息或分享用户目标的。
然而,显而易见的是,人类的创造力和对准确性及真理的关注并不是相互排斥的。我们的大脑可以自由地产生创意,而不会将我们的想象误认为是事实。因此,虽然创造力可能会从暂时的怀疑中受益,但最终创造力不应该从准确性的期望中分心。我并不声称未来的GPT版本不会以某种方式“解决”幻觉问题。事实上,即将发布的集成网络搜索版本的GPT可能会迅速有效地减少人们无意中获得不正确信息的情况。但目前,至关重要的是用户理解GPT事实不准确的基础:它存在于一个词语概率的世界里,尽管这些概率在概念上可能很复杂,但并非人类关注的世界。
然而,最重要的一点是,GPT不是抽象的学术实验。它是一门大生意,已经在市场上运作,推动许多商业参与者的野心。这一现实在GPT能力的理解上带来了两个稍有不同的视角。
首先,出于安全考虑,我们看到GPT的输入和输出正被越来越多的过滤器和提示语包围,以整理用户体验。它已是一个复杂的组合体。虽然大型语言模型部分常被描述为黑匣子,但真正的(社会意义上的)黑匣子是围绕它的那些我们看不见也不理解的部分。我们与这些机器的潜在共创能力,以多种隐秘方式联系在一起。
其次,GPT是在数百万篇受版权保护的文本上进行训练的。它的使用是否侵犯版权,取决于在美国和其他地方当前版权法下关于公平使用的激烈争论。GPT之所以能这样运作,是因为它不会也不能抄袭大量的创意材料,而版权法是针对创意作品的具体实例,而不是一般风格,而GPT擅长的正是复制风格。通常情况下,它不能复制具体实例,因为它没有原始来源的具体记录。
随着人工智能系统的制造者正在创造富有创造性工具的理念逐渐深入人心,这些多重关切及其他问题都在复杂协调过程中:创造性生产力,避免剽窃,事实准确性,安全性,可用性,可解释性,能源效率以及利润。
尽管有限制,GPT确实可以是一个非常强大的创造性工具,最好理解为一个具有生成性创造力的系统。但“幻觉”是一个容易造成混乱的术语。至关重要的是,即使是创造性的使用也应该基于对大型语言模型能力的清晰理解来发展。
资料来源Nautilus
————————
本文作者奥利弗·鲍恩(Oliver Bown)是新南威尔士大学艺术与设计学院互动媒体实验室副教授兼联合主任,著有作品《超越创造物种》(Beyond the Creative Species)