你如何应用有五万个印刷符号的语言,使它适应于只有50个符号的普通键盘计算机,而使一个拥有10亿人口的国家赶上二十世纪的技术发展?
显然,这里指的是中文的书写语言。它有漂亮的印刷符号,也正因如此,要用现行的计算机来有效地控制它,人们就会感到符号太多了。早在6000年前,随着甲骨文的起源,这个问题就产生了。这些象形字逐渐演化成表意文字(用于代表字和意的符号),最后发展成了现在的方块汉字符号。历经千年,书写的中国字不断分化,而成五万个印刷符号。相反、欧式印度语言却是一种集中型,由埃及语、希腊语、希伯来语(犹太语)和罗马语共同把千百个古代象形词汇集成了26个拉丁字母的标准符号。今天,大约有一万个汉字印刷符号在流通,并在不断印制。作为一个读报者,至少须识二千个印刷符号;受过教育的,要识到五千个。
虽然汉字漂亮,享有荣誉,但他们对当今的技术社会来说,也许是有一定的阻碍。如1920年,中国文学家鲁迅曾指出,中国字太复杂,不易教育广大群众。他说,学生写汉字和练习书法花的时间也太多,浪费了他们的数学等科学教育时间。对一个正致力于发展本国技术的国家,这一点更为重要。例如,中文打字和排字就是复杂耗时的。但究其弊端,也许要数计算机的应用最困难了。然而计算机同时亦可为释此难题的终端。
目前认为,扫描机或其他一些可读一万中文印刷符号(包括基于汉字的朝鲜文、日文)的机器设备将是最理想的解决办法。但目前的计算机技术尚不能办到。因此语言学家和计算机专家们已经着手研究各种复杂的键盘排列和方案,以使中国、朝鲜、日本人能用自己的诸言使用计算机。
试举一例:最近,IBM情报局在为日本和台湾试制计算机。经过十年研究,IBM专家制成了一个系统,它能做英文设备能做的一切。IBM的查尔斯、斯威夫特(Charles Swift)认为,该系统中,软件的制作是成功的关键。普通数据程序使用一个byte,或八个bits的密码信息。但那只允许256个符号相联。而这个系统可接纳上千个符号,因为它是以二个bits代替一个的方式处理信息的。在设计上,还必须有一个特殊的键盘和一个符号发生器。
计算机的键盘很大,足以容纳2000多个符号。每个键上有12个符号,边上还有一个有12键的附盘。如、操纵者如按附盘键12,再在大盘上选一个键,键上就会显示出第十二个符号,培养一个操纵者达到每分钟60~75个符号的速度,大约要6周,一个日本打字员,快速大约35/分。
快速时须顾及复杂的印刷符号的准确电视显像。墨水喷射印刷每秒可产生37个符号,激光技术可使该系统每分钟印刷一万多行。
麻省的Lowell王氏实验室对这类东方印刷符号问题采用了不同的途径。去年,他们开始在市场出售表意词程序系统,该系统可用一般(官方)中文、简化的中文或日文来操作。
代之以在一个键盘上显示上千个印刷符号,王氏系统采用了一个译码系统。用这种方法,键上的一个极小的数字就可产生一万个符号。每个符号有一个根据符号形态而定的六位鉴别数。根据这个原理,熟悉中国字基本形态和结构的用者,经过培训后,就可迅速、简单地去使用这种方法(叫三角密码法)。实际上,一个操纵者只需使用297个符号要素和15条法则就将完全熟悉整个系统。如能在编辑能力上提供些方便,如插入、替代和删除符号、行、段或整个部的文章、此系统两周就可学会。标准贮盘可排列137,5百万个符号。
论掌握中文符号较为简易的系统,也许Cornell大学的金保尔(Paul. L. King)用国家现金登记有限公司(NCRC)拨款在该学校制造的一个要算首屈一指了。金说,一个相当于中学文化程度的说中文者,用半小时左右的时间可学会操作该系统并掌握50%的符号,比一个技术高超者操纵一台中文打字机快5倍。由于使用12位数的键盘来控制上千个符号,故该系统操作简单。它的符号被分为四个扇面,每位数字在1/4扇面上描记中文印刷符号中所使用的基本形状。只需选择四个键,操纵者就可以识别出一个完整的印刷符号。由于符号本身的复杂性,同样的四位数有时会出现10个以上的符号(以至这些符号间几乎完全相同而无法辨认),但意义上却完全不同,遇到这种情况,该系统就应用语言学的规则,自动选择正确的符号。如该自选程序不够明确,则计算机继续显示供操纵者手工选择。本系统约有2500个词,还有500个特殊词汇也在试制中。
如果用户对学习该系统不感兴趣,最后还有一个手书中文符号的联机识别系统。纽约Yorktown Heights的IBM威特森研究中心的雅泊和格雷尼斯在五月份的IBM研究和发展杂志上提到,该系统仍在试验中。此联机识别系统由一个特殊设计的板组成,可产生由铅笔测知的不同电磁信号模型,然后通过识别程序的五个组件。该系统初试时可识别2,249个信号,现已发现其鉴别率高达97.8%。
专家们认为,“联机识别器作为一个自然数据条目装置,为情报系统的用户提供了相当大的有利条件。”
朗西(Lansing)的心理综合法麦芝根机构编辑、医学博士田氏提出,他认为将有一个更大的自然数据条目系统代替符号识别系统的工作,他想通过字母化的途径来实现中国语言的计算机化,即采用同现在的拉丁字母计算机共同工作的方法,他认为他在20年后可办到。
田氏说,麦芝根机构的目的是“联合东、西方的医学、思想和语言。”要达此目的最快的途径是“使中国语言拼音字母化”,他研究的这系统能翻译普通话,简化和加快印刷、打字、电报、计算机输入、输出,编制索引、图书馆目录组织,科学复制等。
田氏在继续进行修改和简化有长期传统的中国语言。最近的试验包括汉字符号的简化、全国普通话教学(北京方言),1958年拼音系统介绍——中文语言字母表。
虽然有拉丁字母表的基础,但拼音系统仍需计算机化,因为中国语言有许多同音字(音同字不同的字),例如有许多汉字符号的拼法相同,而讲话时,这些字就可由舌头发出不同的声音。当用拼音书写时,它们由发音符号相区别(而对计算机增加了负担)。但在拼音里,只有四个声调或发音符号,在某些场合下,这些符号必须分成四个以上的同声符号,如单字“ma”,有13个同音字,“li”至少有81个。“yi”有126个。
为了消除发音符号,解决同音字的问题,田氏采用了双音字母技术和189个词尾。因大部分中国字的音节由一个辅音和一个元音组成,所以双音字母能容纳四个各自不同的拼音(ba,bba,bbaa,baa),它们均符四个音调。
田氏说,“我们现在已向中文符号计亭机化迈进了一步,但还有一个困难”,许多中国符号包括两个部分或词干,一个是发音的,另一个不发音(它可以表示单词词性的意义),如一个符号发音ba,可以由发ba音的词干和一个改变字意的不发音的词干组成。田氏使用组成字母的不发音的词尾或结合于代表这些不发音汉字词干的字母。
实际上这就是田氏所谓的Pinxxiee系统。它包括拼音系统的语音音节(这是中国所有的小学生正在学习的)、为音调服务的双字母系统和无声词干的无声词尾。他声称:“很明显,每个符号都可以单独地、相等地传输进计算机的编制程序中。”他还说,Pinxxiee系统能同现在的计算机技术一样发展成所有认字符号的字母表,而无须等待识别形式的进一步发展或去想象一些程序技术和设备。
还有一个重要问题:要使中国人相信和使用“Pinxxiee”。因为会涉及到文化精粹和对创造汉字这一遗产的祖先的尊敬以及数千年的习惯势力。田氏承认,这不是个容易解决的问题,但他正在着力解决。例如对无声词尾,他已尽可能地使用拉丁字母,因拉丁字母至少有点像原来的汉字词根。
田氏也正在为通过正式的科学途径和通过中国政府而工作。去年秋天,在香港的一次国际计算机会议上他描绘了Pinxxiee系统,并在若干年里同中国教育部进行了磋商。他已出版了二卷《英汉拼音——Pinxxiee词典》,包括有12,000个计算机译码字。他说,“这还仅仅是开始”,并引用了鲁迅的话:“我们是为表意文字牺牲自己,还是为了我们自己而牺牲表意文字?除疯子外谁都能回答这个问题。”
[《美国科学新闻》,1981年120(2)]