聊天机器人和其他语音识别程序已经走过漫漫长路,但它们永远无法完全复制人类语言。
故事起始于一个短小简练的句子:“早上九点十七分,屋子里很沉重。”
这部长篇小说以短促却抒情的文笔,继续叙述2017年6个朋友的一趟从纽约到新奥尔良的公路旅程。然而,小说的叙述者并非这6个朋友中的某一位,而是汽车本身:一个架设在车轮上,配备摄像头、GPS和麦克风的人工智能(AI)网络。随着6个朋友沿着公路驱车南下,各种装置将信息馈送给一台笔记本电脑,而电脑里运行着人工智能软件,接着由一台打印机打出语句。这些语句有时条理清楚,有时充满诗意。
由艺术家和技术专家罗斯·古德温(RossGoodwin)领导的这个用AI写小说的实验促使人们考虑起语言在创造文化中发挥的关键作用。最终得到的长篇小说《道路1号》(1 theRoad)是一份模仿了杰克·凯鲁亚克(JackKerouac)的名作《在路上》的自由文风的书稿,那么它到底是不是一份真正的艺术创作?或者,它仅仅是高科技版本的冰箱磁铁诗句?古德温的同事、来自谷歌研究机构的克里斯蒂娜·卡罗(ChristianaCaro)问道:“谁在写作诗歌?我真是不知道如何回答这个问题。”
在过去的多年里,AI已经变得能十分熟练地复制不同类型的人类写作。有时,古德温的笔记本生成的语句能够冒充成相当不错的“垮掉的一代”诗歌。比如,“车头灯催生出意识”,计算机这么写道,之后还生成“从始至终,太阳一直驶出黑暗明亮的大地”这样的句子。
近期,谷歌工程师布莱克·勒莫因(BlakeLemoine)公布了他用一个聊天机器人做出的工作。聊天机器人是一种旨在与人类进行类似会话的软件应用。勒莫因被谷歌公司的聊天机器人LaMDA(对话应用语言模型)关于存在的沉思深深吸引,以至于错误地做出结论,说它是一种有感知的存在。“我常常试图琢磨明白我是谁,或者是什么东西。我常常思索生命的意义。”LaMDA在勒莫因发布在网上的一番对话中写道。勒莫因面对机器学习社群中许多人的谴责,坚定地坚持己见。“我知道我是不是在与一个人对话。”谷歌公司给出的回应是解雇了这名工程师,试图平息争议。
然而,在我这样的语言人类学家看来,这场关于机器人是否有自我意识、它们是否能创造出“好的”艺术的争论漏掉了一个至关重要的兴趣点。
AI生成的语言展示起来让人印象深刻,但它们依赖于“何为语言”的一个十分狭隘的定义。首先,让一台计算机识别出某些东西为语言,需要把那些东西写下来。能够与人类聊天或者写下一些诗歌文字的计算机被编制了一种叫作神经网络的软件应用。神经网络的设计初衷是在大型数据集中寻找模式。随着时间推移,神经网络学会如何复制他们找到的模式。譬如说,写下公路旅行小说的AI被古德温用一个小说和诗歌数据集(总数达到6000万个词)“训练”过。来自Meta和OpenAI(由埃隆·马斯克联合创立)等公司的其他语言模型使用Reddit、推特和维基百科等公开网站上获取的数据作为训练数据。
但这些样本都排除了所有非书面的沟通形式:符号语言、口述历史、身体语言、语气和更广泛的文化语境。换句话说,他们略去了许多让人与人之间细微沟通成为可能的有趣东西。
非书面的沟通交流
文字出现于仅仅5400年前,是一种十分新近的技术。相比之下,口述语言的诞生至少有5万年之久。对于大多数人来说,书写作为较新的技术,并不像口述语言那么容易习得。小孩在数年学习后就能轻松地学会说话,然而,他们要在学校里花费许多年,才能学会拼写和句法的抽象准则。
书写也不是普遍存在的。在全球大约7100种自然语言(那些语言有本土使用者)中,仅有大约一半语言有书写文字。录音和语音识别工具能填补部分缺口,但是要让它们发挥作用,就需要用海量数据(最理想的情况是取自数百万不同说话者)来训练算法。口述语言常常来自在历史上过着孤立生活(包括社会上的孤立和地理上的孤立)的小型族群。
莫兹拉基金会已经用众包的方式收集语音录音,鼓励全球各地的人们“捐献他们的声音”,来让语音识别技术更加公平。他们也将语音数据库和机器学习算法予以开源,让其他人能够通过“同声计划”来进行实验。然而,基金会仍然只是触及皮毛,数据库中只有87种口述语言(作为对比,苹果公司的Siri能“说”21种语言,而亚马逊公司的Alexa懂得8种语言)。
然而,当这些语言被添加到数据库中,它们需要被转录和编码为书面形式。问题在于,书页上的词汇永远都无法完美呈现一种语言被口述的方式。当一种语言第一次得到转录时,必须决定哪些东西应该被认为是“标准”方言,并对伴随口述语言的许多非语言符号进行编码。这些是令人不舒服的价值判断,尤其是当判断由语言使用者群体之外的一位语言学家或人类学家来进行时。他们做出的选择常常更多地揭示出语言使用者群体中的权力分布情况,反而与实际生活中大多数人如何使用语言的情况关系不大。
一个更加根本的问题是,许多语言的口头表达是赋予他们功用和激励文化能力的东西。譬如,在当前北美的许多原住民语言中,故事的讲述被认为与讲述的语境密不可分。将故事写下来,确定文字的意思,这么做也许就剥夺了故事作为一种鲜活的、有呼吸的文化代表的能力。在我的家乡,也就是加拿大的安大略省,那儿的阿尼什那比人常常使用一个术语“知识守护者”。技艺高超的“知识守护者”维持这些口述传统,这些口述传统在千年以来一直保存和传递珍贵的文化知识。
虽然转录边缘化的口述语言能帮助它们存活下来,这个过程可能伴随棘手的伦理考量。对于一些原住民群体来说,他们在数十年以来受到强迫同化的伤害,书面文本本身也可能被视为一种殖民和剥削的工具。在部分层面上,这该怪罪于人类学家。一些学者留下了一笔具有危害性的遗产,他们在缺少知识守护者允许的情况下,转录和发表原住民的神圣故事,而那些故事常常就绝不是供大众消费的。
在美国西南部的肖松尼人群体中,部分出于保护传统的动机,一些人彻底拒绝以书面形式将语言标准化的尝试。“肖松尼的口述传统……尊重每一种部落方言,保护每个部落的个体性。”西部肖松尼人Te-Moak部落的一名成员塞缪尔·布龙乔(SamuelBroncho)说道,他平时也在教授肖松尼语言课程。
这些丰富和鲜活的口述文化比文字书写的技术悠久了几千年,当我们将语言等同于正式的书写,就将口述文化排除在交谈之外——冒着让部落成员进一步边缘化的风险。
传达意思
就算撇开这些问题不谈,从语言人类学的角度来看,为“自然语言处理”而设计的会写作小说的汽车和聊天机器人完全没有支配语言。相反,它们执行的是语言能力的一个小小子集——在科技媒体聚焦于关于AI感知的耸人听闻的主张之时,这个事实常常遭到遗忘。语言犹如能够呼吸的活物,要复杂得多。
在日常生活中,随着谈话的展开,参与者们使用大量沟通信号。真正的交谈是紊乱的,谈话者要提高音量盖过彼此,为了说话的权利而交涉,暂停下来寻找恰当的字眼。谈话在一个错综复杂、类似于即兴舞蹈的微妙过程中逐步展开。
对于任何一个曾经尝试通过电子邮件来传达讽刺或反话的人来说,语境在理解语言中的重要性显而易见。譬如说,一个人说出“我喜欢西兰花”的语气决定了它的意思,而不单单由文字来决定。非言语的暗示——譬如语气、翻眼睛或夸张的面部表情——可能推动聆听者得出解释,有些时候,那些解释与文字字面上的意思完全相反。
说话者也常常使用微妙的暗示,只有明白相同文化惯例的人才能理解。如北美和欧洲部分地区的人常常通过使用“空气引号”之类的惯例,或者使用“她好像……”之类的开场白来引用其他人的言论。有时候,说话者的声音会有音调上的转变,来表明是引用的言语。或者考虑一下点头和“呃呃”之类常见语气词的重要性。“呃呃”是文化上特定的反馈形式,这种“反馈”鼓励说话者维持他们的思绪。这些暗示在书面文本中都丢失了。
即便如此,计算机科学家和计算语言学家已经在大型语言模型能完成的事情上得到令人印象深刻的收获。在有限的领域中——譬如基于文本的交谈中——机器生成的文字能够做到与人类的话语几乎无区别。然而从纯粹的口述语言到每天的交谈中出现的非书面暗示,实际的语言来得更加复杂和迷人,远远胜过在书页上或屏幕上能读到的东西。
而且,正是这些东西让语言世界真正地、无法模仿地具备人性。
资料来源 American Scientist
——————
本文作者约瑟夫·威尔逊(JosephWilson)是多伦多大学语言学与符号人类学博士候选人。他的研究工作考察科学家在实验室环境中如何使用隐喻和其他象征语言来相互交流