摘要:信息生物学的诞生,在很大程度上得益于国标DNA数据库的发展。本文将描述国际DNA数据库的现状及其对信息生物学的贡献。并以谷氨酸合成酶的分子进化为例,论述分子进化学与信息生物学的关系。我们认为信息生物学将与实验生物学相互作用、相互促进,从面对生物学的发展做出巨大贡献。

作为一门学科,信息生物学(又称生物信息学,Bioinformatics或Information Biology)正逐渐为人们所接受。在世界性的协作基础上,人们对DNA序列信息进行收集、评价、汇编之后,作为研究资料反馈给全世界的研究者们,这一系统的良好运行为信息生物学的诞生提供了一个很好的契机。而且,DNA序列数据的急剧増加,给这门学科注入丁强劲的活力。由于计算机的利用,大量DNA信息的收集、评价、汇编、反馈乃至其解析的能力已大大加强而超过人工的力量。因此,如何研究、开发对生物学研究很有意义的电子计算机程序(包括模型、软件、数据库和网络技术),不仅唤起了生物学,而且唤起了数学、物理和信息科学等领域研究人员的浓厚兴趣。

如果只是方法的开发就没有多大的意义,更重要的是它能给生物学研究带来怎样的影响。这种算法被软件化后,被用于很多生物学研究。这里值得一提的是Doolittle等工作,他们利用软件在数据库中对血小板衍生生长因子的氨基酸序列进行相似性检索,得到一种与之有高于87%的相似性的蛋白质,令人惊喜的是,它竟是猴恶性肿瘤病毒蛋白P28GANK。如此高的相似性表明二者在进化起源上不大可能是各自独立的,而应是同一起源,即是同一蛋白质。在此基础上明确了癌基因的宿主起源(非病毒)。

基于以上认识,让我们来了解一下国际DNA数据库的现状,并从分子进化学的观点来阐述一下它对信息生物学所做的贡献:

一、国际DNA数据库的现状

国际DNA数据库现在由欧洲生物信息学研究所(简称EBI〉、美国的国立生物技术信息中心(NCBI)和日本的日本DNA数据库(DDBJ)3个国际合作机构共同运营。

1. EBI的前身是成立于1980年、位于德国海德堡的欧洲分子生物学研究所(EMBL)数据库(简称EM-BLDL),1994年迁址于英国伦敦的EBI。

2. NCBI下属于美国国立医学图书馆,成立于1992年,其前身位于国家实验室。与之相应的是NCGR(国家基因组资源中心)于1994年建立的基因组序列数据库。

3. DDBJ是位于日本静冈县三岛市的日本国立遗传学研究所的一个下属机构,成立于1984年。

3个机构的协作开展已有10年时间,它们的基本运行方针和协作关系一直不变。当然,各种数据库也在不断改革以适应各种实验情况的变化。概言之,国际DNA数据库具有两大发展趋势:

(1)DNA数据的种类和数量的增加。在DNA数据库发展的初期,只处理基因的全部或部分的完整序列。80年代后期随着各种基因组计划的开展及其发展,像EST(表达顺序标签,Expressed sequence tag)那样的部分序列也急剧增加。它是从肝或脑等特定组织的细胞中提取基因文库,从5'端或3'端每隔数百个碱基进行碱基序列测定而形成的。顾名思义,EST是对某些蛋白质或RNA片段进行密码化的结果。如表1所示,国际DNA数据库提供的统计数据表明,到1995年初,EST的数量已占总体的30%。 由于EST的发展迅猛,现有的登记号体系已不敷使用。因此,1995年4月,在英国召开了国际DNA数据库事务者协会,决定采用新的登记号系统,它的规定是:将原来的1个英文字母后接5个数字(如A12345)改为现在的2个英文字母后接6位数字(如AB123456),这样的体系能否满足今后10年的发展需要还是个问题。不管怎样,新的登记号系统将从1996年开始施行。因此,相关软件将要受到影响,那些正在开发或已经开发这些软件的个人或公司已被提醒注意订正。值得一提的是,国际DNA信息库中DDBJ所占比例从最初的1%増加到了1995年的14%,表明了日本在此领域迅猛的发展势头(如表2所示)。

5.2

5.3

(2)计算机信息管理技术的飞速发展,是国际DNA数据库赖以产生和发展的基础并将数据更快地促进其发展。国际DNA数据库的数据的收集、存储方式,已由最初的从论文中收集、用计算机软盘存储,发展到现在利用环球信息网(World Wide Web,WWW)收集数据,研究人员不论在世界上任一地方,只要他能连接Internet,就可在自己的个人电脑前通过WWW中,从而将自己测定的碱基序列登记入国际DNA数据库(Gen Bank、EBI或DDBJ三者之一)。当然,仍有研究者不能利用Internet,他们多在使用磁盘存储器如CD-ROM。另外,国际DNA数据库的电子出版作用日益明显,许多数据不再以印刷形式在论文中出版,而只在数据库中公开,即使以论文形式发表的也有很多贮存于国际DNA数据库。相信今后这种趋势将更加明显。

二、信息生物学的主要应用领域是分子进化学怎么看待信息生物学,有各种意见。笔者认为,这门学科主要属于生命科学,其次才是信息科学。而且,在生命科学中,分子进化学给了它很大影响。

在信息生物学研究中,经常被使用的计算机工具是同源性检索算法(homologous retrieval algorithm)和多序列排队算法(multiple alignment algorithm)的软件。前者将两条DNA或氨基酸按照它们之间相似或相异性进行线性排列I后者是将3条以上的序列进行线性排列。毫无疑问,这些算法的开发是信息生物学的光辉业绩。现以谷氨酸合成酶基因的起源及进化为例,来阐述分子进化学的应用:馆野义男等测定了该基因的碱基顺序,在DDBJ中检索共得到30种序列,将它们自动翻译成氨基酸。结果发现多序列排队中共有5个区域其化学性质的相似程度明显比其它区域高,已知这些区域是酶的活性部位。从分子进化学观点解释这一现象,至少可以得出两个推论:1. 这30种基因起源于共同的祖先基因,以此为基础可阐明影响基因进化的各种因素(如碱基突变、氨基酸置换速度或模式、基因进化途径及分化时间);2. 生物功能重要的区域在进化中比其它区域保守性高。这是分子进化的中立学说观,即在基因的进化过程中,生物功能重要的区域比其它的碱基突变少,现已确认很多基因是中立进化的,谷氨酸合成酶基因也是如此。当然,也有很多基因是属于自然选择性的进化:生物机能上重要区域比其它区域进化快,如免疫球蛋白基因的抗体识别域,富于变异性能识别很多抗体,对进化是有利的。也就是说,把基因的碱基序列进行多序列排队之后,就可以知道生物机能重要区域与其它区域相比是否进化更快,因此也就可以得知该基因的基本进化方式。

另外,这些区域的进化保守性高于其它区域,但其功能尚不清楚。如果这个基因属于中立进化的话,此区域一定有某种生物机能,这有待于以后的进一步研究。从谷氨酸合成酶基因的研究,可以得出另一种预测结果:它的基因有两种亚型:GSI和GSII,以前认为GSI存在于原核生物,GSII存在于真核生物。但最近研究表明,一部分原核生物中两种亚型的基因都含有,但还没有证明真核生物中是否含有GSI。根据有关分析结果推测,在原核生物和真核生物彼此分化之前,这两种类型已经分化,所以真核生物中也应存在GSI。

综上所述,与基因功能相关的只是基因的一部分区域,这对论述基因及蛋白质的进化是一个很重要的概念。这种与功能直接相关的区域称为基序(motif),它可以表达为特定顺序的氨基酸,表3收录了PROSITE基序数据库的部分情况。另外,一个基因可有数种功能,分别由不同的基序承担,这里要强调的是,这些基序已经证实有各自独立的进化起源和过程。

5.4

基序类型的说明:表示该位置可以是任何一氨基酸;[]表示该装置是括号内的某一种氨基酸;[^]表示括号内的氨基酸不会出现在该位置上。

结束语

现在,世界性的各种基因组计划正在施行之中,且硕果累累。DNA碱基顺序测定的速度日新月异,而大肠杆菌和线虫全部碱基的测定也只是时间问题。但这里有个很大问题,即使知道了喊基序列,也有很多DNA片段的功能尚不清楚。比如人类基因组计划中,据推测人体有5~10万种基因,功能已经清楚的尚不足10%。这样,人类基因组计划的实施,仅是对其全貌有表面上的认识,如何解释其余90%以上未知区域基因的功能呢?

为了解决这个问题,首先应该明确,地球上所有基因都是进化的产物(生物是向下一代的传递者),也就是说,现在的基因不论其数目多少,都来源于过去比较少而简单的基因库。现在的所有基因所具有的功能,都

是由有限数量的基序(数百或数千左右)经过各种进化途径、反复变化、组合而产生的。从这个认识出发,无论哪个DNA片段,如果它具有生物学功能的话,一定是把远古的基序以某种形式保存下来。与发掘化石一样,我们可以从DNA片段中找出化石基序(fossilmotif),从而推测它的功能。

为了探索化石基序,首先必须明确它的种类和数量,因此应尽可能多地得到很多相同序列数据,基序的探索及其分子进化学的解释与整理将是非常重要的课题。

[译自蛋白质,核酸,酵素(日)1995;40(12)]