人类语音的研究与电话工业有着源远流长的历史关系,它是一个高度综合的多边缘学科,包括生理学、心理学、语言学、语音学、物理学、通讯工业等。近年来,对人 - 机语音通信及其应用的研究已经诞生了一门新的学科——语音工程(Speech Technology)。

1949年1951年,我在美国的MIT(麻省理工学院),那一时期正是语音研究蓬勃发展的阶段。由于去美国之前,我曾在斯德哥尔摩的埃里克森(Ericsson)公司从事过一段语音分析的研究,所以这一段经历不仅有助于一些有关语音研究技术性的工作,而且还促进了与其语言学和实验心理学方面的联系和合作

在MIT我遇到了一位红头发的研究生,他就是现在贝尔实验室的J. 弗拉纳根(Flanagan)。在语音工程领域,弗拉纳根和他的同事们一直是处于领先地位的科学家。今天,我们又一起来接受埃里克森奖金,我十分荣幸地能与这位老朋友和语音工程界的泰斗共享这份荣誉。这不仅是因为我们是多年的老友、他曾于1957年做过我的博士学位答辩委员会的委员;而且它还象征着在这个领域内美国和瑞典的密切合作关系。

很大程度上说来,语音通讯的研究是由电话工程派生出来的分枝。在我刚开始做研究工作时,它主要强调的是一些系统评价问题,如研究语音通讯系统的语音质量和可懂度,以及它们与送话人,受话人和不同语言等的整机性能指标。以后,一些有关理论和实验技术便扩展到研究建筑声学和听觉系统等范围,甚至像进行一个技术传输系统的缺陷与听觉系统损伤之间类比的这样的课题。

对于今天的这个数字化通讯时代,我们主要的问题是如何利用尽可能低的比特率来获得尽可能高的语音传输质量 · 因此从这个意义上,语音编码(speech coding)技术是语音工程中一个很重要的部分。不过,数据压缩得越厉害,就必须对人类语言了解得越透彻,这样才能找到符合语言本身特性的数字化编码方法。

语音工程

语音编码的确是一门很重要的技术,但只是一个工具。今天,对语音工程整个概貌的一个新的认识是建立在人与计算机对话的概念上的。为此,在瑞典我们杜撰了一个新术语来描述,这就是:基于语音的信息系统(Speech-Based Information. System),图1。

8.1.1

它将不同于人际间的对话,也不同于现在通常使用的人与机器通信系统。对于前者,例如打电话,人只留在一端,另一端则为计算机——即你对计算说话,或计算机对你说话;对于后者,你将不必按键盘而是用声音来向计算机直接输入信息、反过来计算机的输出也不再是屏幕显示而是语音信号。这样计算机将成为能与你交谈并且能解人意的伙伴。

计算机语音输出最简单的形式便是回放一句预先存贮录好的语句。但是要存贮足够数量的不同类型的语音信息,必须要占有很多的计算机内存,或要采用很复杂的数据压缩技术。然而目前看来,一个更为主要和正在迅速发展起来的计算机语音输出技术可能是:文一语合成系统(Text-to-Speech Synthesis System),图2是我们在瑞典研制出的这样一个系统的方框图。

8.1.2

它可以接收任何一个具有正常拼写的书面文字信息,然后用口头语言表达出来。这可不是件轻而易举之事,它包括了模拟人的阅读和说话两方面的能力,一方面计算机要能阅读文章,另一方面还要具有像人类发音器官一样的功能。

让计算机说话的逆过程则是让其听懂我们的说^话,即计算机语音识别(speech recognition)技术。相对地说,较为简单而且发展较快和成熟的技术是个别孤立词的识别。其方法是预先存入用户说话的单词,然后将其作为识别时的对照模块。这样语音识别便成了一个最佳匹配决策问题,像这样一些孤立的语音命令可用来代替或补充由键盘输入的指令和信息。但这种系统的不足之处是它的词汇量还不很大,而且必须根据特定的说话人来调节。

目前,语音工程的一个主要研究部分是针对一些更为通用的识别系统,它们将能够识别连续语音和完整句子,并且不依赖于某个特定的说话人,这项研究最终的产品便是语音打字机,它能把你所说的照写下来。就目前水平而言,计算机自动语音识别还很难做到这一步,因为这要求它具有像人一样的认知能力和语言知识。

近期内更为现实的目标是研制出一个适于某种特定场合具有有限词汇的语音识别理解系统。有关其开发必须引入一些人工智能方面的技术,因为要计算机理解你发出的语音命令,它必须参照那些事先已存放在数据库内的知识才能执行。总之,设计一个有效的人 - 机对话系统将会成为语音工程应用研究中的最重要部分。

我们已有了非常方便的键盘和屏幕打印机显示,但是为什么还要老麻烦地去对计算机说话,不仅如此而且还要它说给你听?关于这个问题答案十分简单:因为语音是人类通讯手段中最为自然和直接的方式。有了它,当我们说话时,我们可以腾出我们的手去干别的事;当我们倾听时,可以让我们的眼睛在一边休息或去看别的东西。此外,在许多应用领域中,由于人的言语反应要比手打来得要快些,所以用语音输入或输出信息会带来很多益处。事实上,在某些情况下,如飞行员操作时,用语音输出配以图形显示被证明比单用后者有其独到的优点。

语音工程在电讯业、机器人、过程控制、计算机辅助教育、银行业、字处理和许多其他行业中正得到越来越多的应用。其中,有关办公室自动化方面将会采用许多先进的语音工程产品。同样语音工程也意味着在残疾人康复方面的一个真正的突破,现在已有聋哑人的语音应答装置、盲人的文字 - 语音阅读转换机等问诸市场了。

在瑞典,我的两位同事B. 格兰斯特姆和R. 卡尔逊已经研究出了一种可通用六种语言的文一语转换系统,它们是瑞典语、英语、法语、德语、意大利语和西班牙语。这是一项了不起的成就,目前此系统已经集成化为一块可直接与个人计算机配合使用的插件板,而且进入了商用。此外,我的另两位同事M. 布洛姆伯格和K. 伊莱纽斯所研制的说话人独立的语音单词识别系统是目前市场上同类产品中最好的之一。它已被安装在埃里克森公司内部的快呼通讯网中,打电话时,你只需说出你欲联系者的姓名而无需拨号便可接通通话了。

其他水平一般但价格低廉的语音工程的产品则是那些事先记录了一些简单语句或音乐片段的会话芯片。这些片子常被诸如会说话唱歌的娃娃玩具、钟表、字典、电视游戏、照相机、电梯和汽车等采用。因为这些小玩意的语音质量大都不够好,所以如何改进它们的编码方案和增加存贮容量还有些文章可做。不过要记住的是,我们不要陷入到这些小玩意的泥潭中,因为这类基于编入和存贮某些特定语句的会话芯片与那些通用的文一语转换系统相比是不可同日而语的。

语音合成与艺术创作的类比

为加深理解什么是语音合成技术,下面我将阐述几个有关基本原理,并将其与艺术创作作一类比。

语音合成与艺术创作之间存在许多有趣的相似之处。譬如,记录和存贮一句话的语谱图(spectrogram)类似于摄影作品,图3便是经过宽带和窄带滤波处理过的两张语谱图;根据原话为样本的语音合成则如同根据某个物件而创作出的绘画作品,模仿得越像越好;而按语音合成规则的文一语转换系统的输出则相似于那些不依据存在客体而仅用艺术思维创作出的艺术品,这种情况的极端例子便是仅仅依据规则来进行随心所欲的语音合成。

8.1.3

现在我来演示一下我们研制的文一语转换系统。如果我键入一连串数字,那么它将其用口头语言读出。好,我现在键入数字“1234567”,合成读出的便是:“一百二十三万四千五百六十七”,而且只要愿意,它还可以用其他五种语言发音。不过正如大家刚才所听到的那样,它发出的语音的音质还不十分逼真,还带有点“电子口音”。虽然如此,但如果是提供给残疾人使用还是没什么问题的。我们目前正在研究进一步改进它的语音质量,并且增加有男声、女声和童声不同的输出转换选择等。

从刚才的演示看,为什么现在按规则合成的语音(OVEIII)还不如我们二十年前研制的利用语图还音语音合成器(OVEI)的音质好,那时合成出的语音与原始发音人的声音很相似。这里其主要原因是由于我们对合成规则的掌握还不够完善,还没有到点子上。对合成规则的研究向我们了解人类自身的能力和行为提出更深刻和更严厉的要求,只要掌握了这些,我们方可将其转化成规则教给计算机,才能合成出十分逼真和自然的语音。故此可以说,总结和形成一套成功的合成规则则相当于去学习一门我们至今尚未掌握的语言,而计算机则相当这种语言的受训者。

当我们考虑一些早期的手控语音合成装置时,那么语音合成与艺术创作之间的类似关系变得更加明显。例如贝尔实验室于1939年研制出的第一台电子语音合成器,它由一个类似于钢琴的键盘来操作,可以“弹奏”出一些简单的语音。除此之外,还有美国哈斯金斯实验室制作的语谱图回放语音合成装置,它简直可以算是真正的艺术创作了。这种语图回放机可以把手画的频谱图通过光电声的转换变为其对应的语音,例如在塑料薄片上绘出几道固定的共振峰图形,然后回放便可合成一个句子(见图4)。这种“创作”或许会成为明天的计算机爱好者的一项娱乐活动,只要你画上几笔,便可让它说话,去合成和模拟各种迥然不同的嗓音。

8.1.4

目前看来,如同艺术家的经验一样,我们现有的语音合成规则仍有许多个人的难以客观描述的主观猜测和经验成分。如此看来,语音合成技术在众多方面都得进一步提高,要从一门“艺术”变成一门科学。

语音工程前景及其研究之需求

在过去的十年里,计算机和微电子技术的革命已为语音工程在技术方面铺平了道路,使得十分复杂的数据处理可以在大量生产且价格低廉的芯片上完成,一些语音合成和识别技术的产品已经打开了市场?这些情况甚至使工业界产生了相当高的呼声:我们将马上会像与人那样自由自在的去与计算机聊天。不过颇为遗憾的是这只是社会对技术进步的美好但盲目乐观的期望。

语音工程的发展将日趋迅速,电子工业界为此已制定了大规模的市场规划的美好蓝图,而且国际上的竞争也将会愈加激烈。日本的“第五代计算机”规划已经披露,它将是具有语言自动翻译和语音输入及输出的智能型计算机;在美国,达帕(Darpa)计划中有许多语音识别方面的项目,IBM公司则旨在使办公室自动化;英国也有个向有关院校语音工程研究提供资助的阿尔维(Alvey)国家计划;在法国同样也有相当多的投资用于开发语音工程的产品。但是,当真这些投资和期望都能实现吗?目前看来,我们有点太乐观了,至少世界上语音技术方面的市场的增长速率就并没有像所指望的那样快。

正是这种对技术作用的过分信任和忽视了什么是研究真正之需求,已有好些个有关语音合成和识别的计划流产了。其根本之原因就是,仅靠先进的计算机和信号处理技术是不够的,这个“瓶颈”不是技术手段而是我们基础知识的缺乏造成的。所以,我们当今急需的不是第五代计算机而是第五代语音科学家。要想在独立于说话人的连续语音识别方面获得突破,在文一语转换系统上取得真正的进展,我们就必须准备长期地去学习人的口头语言究竟是如何编码的。迄今为止阅读语谱图仍是我们理解语言的主要源泉,阅读语图也有人称之为学习可见语音的语言。这是一项非常棘手的任务,因为我们所试图寻找的语音的某种不变的规律却蕴藏于像不同语境、说话人、说话风格等诸多变化性的泥沼之中。

提高我们语音知识的一项重要工作是训练我们阅读未知内容的语谱图的能力,我们试图做到这一点,但又常常囿于我们的洞察力而不能做到。前二年在MIT举办的语图识读暑期班就有这样的例子,一个有良好语感和语音学知识的具有丰富经验的语图识读专家或许也要花费一、二个小时才能译读出一段短句的语谱图,而且结果还可能会译错。所以我们怎能让计算机去完成学习可视语言这样艰巨的任务呢?为应付这个挑战,我们必须使语言学知识和计算机技术有机地结合起来。

语音作为一连串离散的语声信号,只是从书面语言的字母中得来的一个臆想的概念。我们实际上从语谱图看到的几乎是完全的连续性。毫无疑问,离散的断点肯定存在,但它们决没有与语音音素之间这样简单的一一对应关系。

为了搞清可见语言模式的次序和结构,找出其编码规律、我们必须研究语音的产生理论、感知机制以及语言本身的限制因素。对于产生理论,自下而上由语音的声波起,我们要找出声道的声学和气流动力学模型,以及舌、颌、唇、软腭和喉头等这些连续运动的规律;更高的层次便是搞清说话时大脑中的单词和完整的句子是如何组织的。对于语音感知机制,也即通常所称的语音链(speech chain)的受话者的一端的接受原理,我们还得收集大量的听觉处理过程的信息,它能帮助我们在语图识读时选用哪些参数作为判读的指标。这主要是由于我们现在阅读语谱图时注意到的许多细节很可能往往都为我们的听觉系统所忽视,而另外一些方面则被其增强而形成有区别意义的编码要素。

显而易见,要设计出一个先进的语音自动识别装置,我们还得搞清许多有关语音和听觉的机制。其中最重要的一个部分是掌握语言结构的知识,它包括一个词汇数据库,需要知道生成语句时的词汇、句法和音韵学的规则;此外当包含语音理解功能时,还需要了解语义学和一些人工智能方面的知识。例如,作为一位倾听的人,他存在一种预测机制,即他总在试图说出对方将要说出的,也就是他自己将要听到的话。这种由语言本身和语言环境所共同决定的预测机制很重要,它相当于一个有限决策(finite choice)过程,把由听觉系统分析来的语音信号纳入了一个有限的认知范畴里去了。有了它,语音识别便成了一个自上而下有语言预测,和自下而上有语音分析和模式识别的结合过程。

图5描绘了这样一种先进的自动语音识别模型。

8.1.5

多边学科的趋势

今天的语音工程已经成了一个多学科相互密切合作的探险。这支探险队里包括来自各个不同专业和领域的科学家,它们有:语音学和语言学、生理学(神经生物学)和心理学、认知科学、电讯、计算机技术和人工智能、物理学和声学、教育学和医学(康复工程)等。故此有人称语音工程是一朵多学科组成的花朵。在语音工程界有许多合作得很好的例子,如贝尔实验室的弗拉纳根的语音研究室就是一个极好的榜样;这里在瑞典的皇家理工学院,我们也一直存在着很强的跨学科合作的传统。

我想强调指出的一点是、各个学科之间的合作不能仅仅依赖于其中的任何一个。这是因为它们彼此之间的联系太密切了,以至于我们试图采用将一个复杂问题拆开研究然后再拼凑起来的方法不大能行得通。今天,我们正在经历着一个不光是学科专门化,而是有许多多学科综合化的发展过程。要想成为一名优秀的语音工程专家,学工程出身的得学会处理语言学和生理学之类的问题,而语音学家们则要知道语音产生的声学理论和计算机的编程方法。

就我自己来说,我们这些学电子工程出身的工程师,对语音工程的兴趣并不仅仅是为了研制好的通讯系统和帮助残疾人设计出更有效的康复装置。我们要试图敲开理解人类的基本功能的这扇大门,去加深对语言和语音本质的了解,去提高对那些由于在语音和听觉发育时所产生的语言损伤的认识。这将是一场激动人心的探险和挑战——大多数人视学会言语为理所当然之事,但就是这个连小孩都极容易掌握的却是当今世界上这么多最聪明的科学家至今仍不十分了解和清楚的东西。

① 这是G. 范特(Gunnar Fant),瑞典皇家理工学院语音通讯和音乐声学系的教授和系主任,于1985年5月6日在接受埃里克森奖金时所作的演讲。埃里克森奖是一项国际性的技术进步奖,是在1976年为庆祝埃里克森公司成立一百周年而设立的。此项奖荣誉很高,每三年在国际范围内评选一次,得主皆为那些为人类通讯事业作出重大贡献的科学家。如第一位获奖者是以研究地球同步卫星而闻名的H. A. 罗森,自1979年起以后各届的埃里克森奖均由两位科学家分享,他们是:1979年由高琨和B. D. 莫勒荣膺,以表彰他们在光纤通讯方面作出的贡献;1982年,L. 克兰罗克和L. G. 罗伯茨因在数据通讯方面的发明而被授奖。本文译自范特教授演讲的英文本,是他1985年9月访华时赠给译者的。

② 这一时期,范特教授与二位著名的语言学大师雅可布逊(R. Jakobson)和哈勒(M. Halle)合作,根据从语谱图读出来的声学指标,提出了日后影响极大的语言单位的区别性特征理论。

③ J. 弗拉纳根也是语音工程界著名学者,现为AT&T(原贝尔实验室的一部分)公司语音研究室的负责人,这次他和范特一起被授予埃里克森奖金。弗拉纳根先生的著作《语音的分析、合成和感知》(Speech Analysis,Synthesis and Perception,目前仍无中译本)是语音工程领域的经典书。

④ 那时的瑞典与别的国家不同,它授予的博士学位不是完成一定学业便可获得的,而是一个人科学生涯中走过一大半人生后事业成功的标识。所以范特先生在38岁时便能获得博士学位,在当时还是不多见和不容易的。因此弗拉纳根才会在1957年成为范特论文答辩会的委员。