人们谈起DNA(脱氧核糖核酸),总会想到那些包含一系列碱基对,能编译密码、制造细胞中蛋白质的基因。但是,由这种基因组成DNA的,在人类细胞中只占3%。另外97%的基因,在制造蛋白质方面看来好像不起什么作用。没有人知道它们在干什么。多数分子生物学家把它们叫做“垃圾”,即不编密码的。然而所有的DNA都有一种语言的味道:分子中的每四种碱基对必定组成四个字母,由此构成长长的文字系列。事实上,编译出基因中信息的DNA系列,已经被称为生命的语言。一群研究人员现在探究这个传统的比喻,把“生命的语言”逐字表达出来,让编密码的DNA和不编密码的DNA通过一系列语言的测试。令人惊讶的是,测试的结果,那些不编密码的DNA显示的文字,其构造竟同天然的语言十分相似,反之,编密码的一组却完全不像天然的语言。他们的工作,在最近出版的《自然科学通讯》上已有报道。

这个研究集体,由波士顿大学的物理学家罗萨里奥 · N · 曼泰格纳牵头,包括曼泰格纳在波士顿大学的3个同事,以及哈佛大学的一个物理学家和两个医学家,在早些时对DNA的定量研究中,他们用统计学模式对一系列碱基对作了测试。当统计学的测试在不编密码的部位显示出秩序时,研究人员把所谓“垃圾”DNA投入了语言学的测试。

这些语言学的测试施加在40组DNA系列,包括编密码的和不编密码的,取自人体、病毒、细菌、酵母和其他组织,这些系列,除两个以外,都至少长达5万个碱基对,因为DNA不会自然而然地分解成“字”,研究者们从中选择3个和8个碱基对作为连续性的段落来进行分析。

第一次试验在1947年进行,设计者是哈佛大学的统计语言学家乔治 · K · 齐泼夫,以邮路作为研究对象。齐泼夫注意到邮包送达邻近目的地的次数比送达远处的为多。他把同样的意思应用于演讲的统计,发现了这样一个数字上的联系:一个拼音字越长,它在演讲中出现的频率就越低。更精确一些,齐泼夫作了一个图表,把一个字在经文中的常见度等级(从最常见的到最少见的)画在横轴线上,而把这个字在经文中出现的次数画在纵轴线上。当这两个数据以对数画在双轴线上时,其结果,对每种人类语言来说,是一条负值倾斜度的线。

当这个波士顿-哈佛研究集体将齐泼夫的试验应用于不编密码的DNA系列时,得出的坐标点连接线的倾斜度,比应用于编密码的DNA系列时更接近于负值。为了检验他们的研究方法,这个集体从百科全书中选取了一组条目,总长度达50万个字母,来进行试验,也把它们分解成3个和8个字母的段落。他们还将试验应用于二进制的、可操作的计算机密码,取自U-NIX运行制。每种情况下,数据在图表上都形成负值倾斜度的直线。对一系列随机取出的“0”和“1”进行的试验,如预期那样,显示出所有的框架按同等的概率出现;齐泼夫坐标点得出的倾斜度为零。

这个研究集体对DNA进行的第二次语言学试验是“香农熵分析”。它由克劳德 · E · 香农于1948年设计,然后在贝尔电话实验室进行。这一试验基于熵的热力学概念,即失序。香农把信息的特性描述为熵的降低,并且提出了一个“过剩量”的概念,在数学上也可界定为熵的项。粗略地说,“过剩量”就是一种语言能够被破译的程度,即使当字母或字有错漏的时候。例如,这样一个句子“Th Qu ck br wn f x j mp d vr th l zy dg”能够被理解,即使其中的母音字母都被遗漏了。类似的遗漏发生在非人类语言(诸如计算机语言)上,将会把信息弄得不可理解。不编密码的DNA系列较之编密码的DNA系列,有更大的“过剩量”,接近于天然的语言;而后者的“过剩量”几近于零。

这个研究集体中一位来自哈佛的成员爱利 · L · 哥德伯格指出:“我们所分析的DNA长系列中得出的统计结果,是真实而令人满意的。”他还说,他们强烈主张在不编密码的区域里有一些值得注意的东西。但这是不是一种将来韦白斯特字典会收入的语言?研究集体的另一位成员,也是来自哈佛的米切尔 · 西蒙斯说:“人们可以把这种想法更加向前推进按照西蒙斯的想法,这一研究可以被看成是语言分析学和统计物理学的延伸。即使不是发掘出一种充分成熟的语言,统计结果至少揭示出在不编密码的DNA区域存在一种等级结构,而那是编密码的DNA区域所没有的。

普通的语言也是按等级制度组织起来的,包括字、词、句、段落等等。这个结构使语言中有冗余。而密码没有更高的结构,它没有“语法”。在基因的密码中,每个三基框架与一个氨基酸(蛋白质的基本单位)相对应。这种一对一的链环使多余量成为不可能,而且赋予密码一种易破碎的特性:即使仅仅一个基的突变也会危及整个系列。

那么,目前对不编密码的DNA中等级结构的发现,将会起什么作用?它是否能通过某种复杂的途径传递信息?如果是这样,怎么去读出它并弄清它的意思?研究集体还不能确切知道。集体的一个成员、来自波士顿大学的H. E. 斯坦莱承认:“它不是同样的密码,但没有人知道它是什么。”

对哥德伯格来说,这项研究有相当大的影响范围。其应用之一,是“满意指纹”的新技术,它能帮助区别编密码的DNA和不编密码的DNA。引起极大兴趣的是,不编密码的DNA具有一种“不规则碎片形”的特性。哥德伯格注意到,人体是一个奇观,有无数的事件按不同的时间和空间协调进行着。当一个从DNA来的信息最终起作用时,它往往在许多不同水平上对人体的不同部分开始行动。要控制这样的似瀑布般落下的事件,哥德伯格认为,DNA必须显示自己具备不规则碎片形分支,如同混沌学说中所描述的。

[The Science,1995年5—6月号]