在过去二十年间,数理语言学作为最年轻的一门学科开始在美国和苏联发展起来,它是结构语言学把数学应用到语言结构的一个自然结果。
人类所讲的语言有几百种,语系也有几十种之多,比如,美洲印第安人所讲的几种语言之间差异之大近乎于欧罗巴语言与汉语的差异。有的语言,使用者成亿,例如汉语和英语,但也有些语言仅限于几个村子的部落使用,有些语言,其文字记录已有成百上千年,可以用来进行复杂的科学理论的讨论,但有些语言却没有文字形式。在现存的语言中,又会有不同的子语言,比如英文中的科技术语或者下层社会的暗语,以及某些原始部落中只由妇女使用的语言。对语言的这种不可思议的变种以及它们的语音和语法和它们的变迁的研究属描写语言学与比较语言学的范围,理所当然,这就必须对每种语言或语言群(group)分别进行研究。然而,数理语言学的最重要的成果之一就是有可能分离出某种对所有语言都普遍成立的结构性质。这些性质具有形式的特点,并且可以数学地加以描述。因而我们可以谈论整个人类语言的基本数学结构而不单是某种特定的语言。在研究这个结构时,数理语言学的研究方法颇似于其它利用数学来研究自然与社会现象的学科。某些观察被数学术语形式化地表示出来,且被当作基本假设,接着,利用演绎推理从基本假设中推出某些结果,然后通过把理论预测与实际观察到的现象进行比较,对结果进行实验测试。在进行以上所说的观察时,计算机具有很大作用。然而这里有必要区分数理语言学与计算语言学,计算语言学指的是利用计算机对语言数据进行处理。计算机对于数理语言学相当 有用,但从原理上讲,并非是不可或缺的 · 这里我们再次看到数理语言学与其它利用数学的科学的类似性。
这种类似还可以扩充到应用领域。数理语言学是一门基础科学,它的主旨是探求知识:理解人类语言的本质,并且通过它,也许可以理解思维的本质。但这种纯粹的理论探求却又有重要的实际应用,比如机器翻译与机器做摘要。
目前,语言学使用的数学概念主要来自代数学,如:集合之间的映射,映射之间的关系,偏序集,半群等。数理语言学中还有某些图论概念,并且与自动机理论和组合数学都有着有趣的联系。数理语言学还用到有限形式的随机过程。形式语言与计算机程序设计语言的结构,与自然语言的部分结构密切相关。在对语言学的材料进行研究并加以形式化时,数理逻辑作为一个工具出现,但不是作为一个等价系统(因为自然语言中缺乏与真值表的等价性)。
然而,数理语言学从数学中借用的主要是思考方法,而不是特定的结果。因而,这个领域中的大多研究生都来自数学与逻辑学,而不是语言学,这也许不是偶然的。
语言的数学描述是可能的,因为每种语言都是话语(discourse)的集合、而每个话语又是一个离散的成分(element)的序列。每种语言都是句子的序列,每个句子是词(或词素,即词干与词缀)的序列,每个词又是语音或字母的序列。这些成分是任意的,可以用其它成分代替这些成分而不改变语言结构。特定的语音或字母形状对于识别是重要的,但与词的词意或它们的句法(在句子中的位置)是无关的;发音不同的词在不同的语言中可能会有相同的词意和句法。至于词意,还没有证明有可能把语法建立在词意基础之上。相反,语法却可以根据词相对于句法性质是如何相关的而表述出来。表述出哪些组合构成句子而哪些不构成句子的重要性是由于这样的事实:在每种语言中只有某些发音序列和词序构成句子;而其它的则不能构成句子。指明那些构成句子的组合是语法的活动,它必须对每种语言分别加以研究。然而,在结构语言学与数理语言学中,我们找到了这种研究的一般方法,以及刻划构成句子的序列以及序列中之关系的一般途径。
这个问题的一个例子是不依靠词的意义找出词的边界的一般方法。假使给我们一段充分长的文段集合,它是以某种我们不知道的语言打印出来的,文段中没有大写字母,没有逗号,词之间没有空格。很明显,这是密码分析中的一个问题,现在我们想要推出每个文段的含义。经验业已证明存在一种方法将每个文段分成词,再把每个词分为词素(词干加词缀),还存在一种方法对词进行句法分类,找出文段中句子的边界。这两种方法是纯粹形式的。头一种方法已通过计算机的运行得到证明。
这种方法的过程相当简单,因而在一给定的句子或文段中,我们可以通过对给定的句子与许多其它有同样的头k个字母(对每个从1到n的k)的句子或文段进行比较,找出句子的n个连续的字母或音素中词的边界。步骤如下:对每个k,我们问在所有有相同的头k个字母的句子中,有多少不同的字母会占据第(k+1)个位置。不同的后继者达到峰值的点对应于给定的句子中词素的边界和词的边界。这已经通过测试大量的句子被经验地加以证明了,然而,计算机测试仅对那些单个的单词中的词素划界的较困难的情况适用,因为我们能够把所有英文单词存入计算机中,但不能把成千上万的句子存入计算机。举个例子说,计算机对antithetically这个词的计数如下:
a26n22t13i23t9h4e7t1i1c26a1l26l1y26
在一特定的字母后的数字是到此字母有同样开头的英文所有单词(相两词序列)中不同字母的个数。“anti”后的峰值表明了词素的边界,“ic”后的峰值也是如此。(词的边界有值26,在某些限制随后的单词类的语法中除外。)e后的小的上升部分原因是词素thet的不同变种(如antithesis),“ic”前的词素边界(在此处略过了)可以从此词的尾端反过来使用相同的方法得到。因为词间过渡音的变化肯定要大于一个词内音素间的过渡音的变化,按此方法,我们可以纯粹在字母序列的基础上把一个句子或一个文段分解为词素。
一个更加深刻和重要的结果是这样一个事实:即句子的转换以及支配这些转换的规则对所有语言都是相同的。我们首先解释一个句子在转换上等价于另一个句子的含义是什么 · 例如,形为N1V1N2的句子,由名词N1后跟一动词V及另一名词N2组成。这个基本的形式可以用下列不同的方式形成一句子。
The man took a book. The man. took a rain.
The book took a man. The rain took a man.
The man took a walk. The man took a wife.
并非所有这些句子都是同样可以接受的。语言的使用者会同意“The man took a book”是一个可接受的句子,“The man took a walk”及“The man took a wife”作为隐喻也是可以接受的。但是“The man took a rain”则是不可接受的。
现在考虑形为:It is N1who VN2的句子 · 如果我们使用与N1VN2句型相同的单词,我们可以获得同样程度的可接受性。例如,“It is the man who took the book”与 “The man took the book”一样都是可接受的;“It is the man Who took a walk”与 “The man took a walk”作为隐喻也都是可接受的。但"The man took a rain” 和 “It is the man who took a rain” 都是不可接受的。
通过以上的观察,我们可以定义两个句型的等价性。如果在两种句型中利用确来代替变元所得到的句子总是有相同的可接受程度,则说此两句型是等价的。
给定两个等价的句型a和b,有可能分辨出哪一个更复杂,比如从这个句子包含更多的单词的意义上说。假设b是更复杂的句子,我们说b是由a通过转换获得的。存在一个转换,称为t,它将句型转换为It is N1who W2转换t将可接受的句子“The man took a book”转换成“It is the man who took the book”,将不可接受的句子“The man took a rain”转换成不可接受的句子“It is the man who took the rain”。语言中的全部句子和句子转换系统都可以用数学术语描述,结果表明,在目前研究过的所有语言中,所有可能的转换(其中大约有一百种主要的)可分为五种结构类,这在所有语言中大同小异。此外,在目前研究过的所有语言中,人们还可发现同类的“核心句子”,即这些句子不能再由更简单的句子转换而来,在一种语言里,任给一句子,可以确定一个核心句子的集合,此集合通过一连串的转换得到给定的句子。一般,这可以用一种唯一的方式进行。如果可以用多于一种的方式进行分解,即,句子可以通过两个或多个核心集合的转换而派生成,则此句子是多义的。
这里有一个非多义的分解的例子。这个句子如下:
Adrenaline Probably intervenes in the break- down of proteins and lipids.
可以得出此句的基本句子是“protein breaks”和“lipid breaks”。从基本句子到最终句子的转换可以由图1表示出。
1和4:基本句子“protein breaks”和“lipid breaks”
2和5:将运算对象(句子1和4)的头一个单词(名词)变为复数。
3和6:在每个运算对象的第二个单词后附加副词down。
7:用“and”将句子“proteins break down”和“lipids break down”联接起来。
8:删除重复部分产生“proteins and lipids break down”。
9:在转换T的结果上附加“Adrenaline intervenes in. ”
10:在“intervenes”前加副词“probably. ”
11:此阶段表示完成。
(注意,这个转换集合仅仅是部分有序的,在流程图中,某些转换必须在其它转换之前进行,但在有些情况下,次序又是不严格的。例如,9必须在10之前进行,但8可以与9和10并行进行。)
刚看到以上这种方法的读者会有这样的印象:即整个过程是由一个熟知单词的意义的人通过观察完成的。事实并非如此,记住这一点是很重要的。分解可以在一台计算机上机械地完成。更进一步,如果这个句子被翻译为另一种语言,比如说朝鲜文(我们确实对这种语言进行过实验),并且再将被翻译成的句子机械地分解为基本句子,我们得到的基本句子与以前列出的核心句子的朝鲜文译文大致相同。
我们已经看到把语言看作句子的一个集合再加上这些句子的转换的一个集合是非常有用的。这种观点还可以更进一步研究。通过研究句子的子集和这些句子的转换方法,有可能把一种语言和它的子语言(如科技语言、语法语言等等)的性质形式化。这就导致了与数理逻辑及数学研究颇为不同的数学结构。这段非常简略的述评表明了今天的数理语言学涉及到的是基本的数学方法,而不是具体的数学技术的应用。这有可能在将来发生变化。
结构语言学与数理语言学的结果有各种应用。这些结果为许多涉及到语言、句子、意义及有关许多问题的精细分析及解答,比如在一个格中,由于转换的顺序性的特定类型引起的多义性和释义问题,或者人们可以通过把一个多义句的分解与文段中相邻句子联系起来确定该句子的大概含义的问题。这些结果还为话语(discourse)与语义信息理论提供了必要的材料,例如,涉及到单词重复的信息的材料及涉及到核心句子重复的话语的材料。这些结果为语言中的每个句子定义了一个范式(即通过形式运算可达到的唯一形式),使得句子间的相似性及差异可以以一种与句子的信息关系有关的唯一方式陈述出来。这些结果还为每个句子转换为核心句子或单词串提供了计算机分析方法。这项工作已经以各种方式进行了,它包括一个简单的循环自动机和一个扫描头,该扫描头给出句子的每个后继单词可串行理解的描述。这些分析串行事件(序列)的语言学方法,一旦它们被数学地加以形式化,使之独立于语言信息,就可以在其它领域受到青睐,例如分析计算机运算和直线型化学式。
因为句子的范式化和句子中信息的紧密对应,故而有可能设计出计算机来处理和比较科技文章中的信息,从而有可能看到科技语言的某种特殊结构。
[“The Mathematical Science——A Collection of Essays” The M. I. T. Press 1969]
————————
*作者系美国结构语言学奠基人之一,宾夕法尼亚大学终身教授。