对各种完整基因组的测序是一种重大的成就,但是由此所积累的大量数据才刚刚开始得到阐释。乍看来,任务(理解这些数据)是很直截了当的:对各种基因进行定位并对编码区进行翻译以建立它们的蛋白质产物;进行相似性(similarity)检索以与已知序列建立关系,并且通过进化关系上的推断来确定基因的功能;最后,使用已知的或者模型衍生的结构来根据结构推断功能。鉴于使用的数据量大,此过程应该尽可能自动化。
当然,现实不是这么简单。因为目前用来在未知DNA中预测基因的那些方法是不可靠的,诠释隐藏在基因组数据中的线索的努力经常受到阻碍(并且我们对“基因”的涵义并不总是清楚的);仅仅根据序列之间的相似性程度来进行功能预测是有些武断的(并且我们对“功能”的涵义并不总是清楚的);与序列的数量相比,已知(功能)的结构寥寥无几,而结构预测方法又是不可靠的(而且已知的结构本身并不能告诉我们功能);由于术语上的不准确,我们对许多所取得成就的认识也变得扑朔迷离。由于这些问题,目前的“序列-结构-功能”——生物信息学的最新水平是怎样的呢?
基因是什么?
也许使基因计数精确化的最大障碍就是基因定义的模糊性。是否一个可遗传的单位(基因)就对应于一个可观察的表型呢?或者,它就是一批编码一个蛋白质或者多个蛋白质的遗传信息吗?或者,它就是编码RNA的DNA吗?它必须得到翻译吗?如果基因没有得到表达还能算是基因?由于基因定义的多样化,不可避免地对被测序基因组中基因的总数的估计值也是各不相同的。
基因预测
我们用来预测基因的信息包括序列中的信号分子,有关成分的统计结果,和与有关已知基因的相似性。在最近一次使用基因检测工具对部分果蝇基因组的预测测试中,这些“基因发现者”的绝大多数识别了95%的编码核苷酸,而仅有40%的基因中的内含子1外显子结构得到了正确的预测,不同的方法不能发现的基因份额在5%到95%之间不等,不正确识别率达55%。但基因预测方法脆弱性的最适合的证据也许是人类基因组中基因数目的不确定性,目前对这个数目的估计值是介于27462个到312278之间。用来计算获得这些数目的每种方法都有不同的近似值和外推值。然而,令人不安的是不同的分析方法会产生不同的结果。
序列-结构的不平衡
到目前为止,已经有54万多条蛋白质序列存储于由美国国立生物技术信息中心建立和管理的非冗余数据库中,同时有数以百万计的表达序列标签(ES-Ts)存储在各种公共的或者专有的数据库中,它们(ESTs)是各种克隆的部分序列,经常有错误倾向。随着各种雨后春笋般的基因组计划的完成,这些数字将会滚雪球般地增加。与之相反的是,孤本蛋白质结构的数目仍然是不到2000。当然,我们不知道有多少这种孤本蛋白质序列;然而,结构信息的缺乏仍然是明摆着的。
由于这种序列-结构的不平衡性,急切需要我们重点破译在生物学序列语言中编码的结构、功能和进:化线索。两种迥然不同的分析方法应运而生了:模式识别(pattern recognition)方法通过检测各种序列和结构之间的相似性来推断相关的功能。因此,该方法的运用需要在一个参考数据库中存储和提供查询一些已知(其功能)的序列和结构信息。与之不同的是,从头折叠预测(ab initio prediction)方法直接从序列推断结构。这两种方法是迥然不同的,不能混淆;它们成功的水平也有显著的差异。
通过模式识别来预测功能
相似性检索工具是序列注释工具库中公认的优秀构件。序列相似性程序可以在大型序列数据库中查寻配对相似性,或者在基因家族数据库中寻找保守的模式。基因家族数据库可以进行比配对相似性更为特异的功能判断。这种判断的基本原理是相关的序列可以进行排队比较以发现那些很少变异的区域(基序,motifs)。这些基序通常反映了一些重要的结构或者功能角色,它们可以用来推导出供(功能)判断的家族标签(signatures)。然后就可以在这些标签的数据库中查寻以了解它们是否可以分类于一些已知的家族。最近,各种基因家族数据库已经被集成成为一个统一的蛋白质家族资源,以利于通过识别同源性关系来推断功能。
作为生物信息学中的一个基本概念,“同源性(homology)”这个术语经常被不正确地使用。如果一些序列是因为来自一个共同的祖先的趋异(divergence)事件而相关的话,它们就是同源的。相反,相似性(analogy)与来自不相关祖先通过趋同进化(convergent evolution)而形成的共同结构或功能特征有关。例如,在可溶性丝氨酸蛋白酶和整合膜孔蛋白中共有一些桶状结构,尽管它们有共同的空间架构,但它们没有任何序列和功能相似性。同样,糜蛋白酶和枯草杆菌蛋白酶都有一些有几乎一样的空间几何学参数的催化残基基团,但它们没有任何其他序列或者结构上的相似性。同源性不是相似性的一种量度,而是对有一种趋异关系而不是趋同关系的序列之间的绝对量度。这不仅仅是一个语义学问题,因为术语的不正确使用会使进化关系变得混淆不清。在比较结构的时候,存在同样的争论。结构可以是相似的,但是共同的进化起源在得到其他证据支持前仍然是一种假说而已;假说可以是正确的也可以是错误的,但相似性是不争的事实。
在同源性序列中,我们可以将不同的序列区分为直向同源物(orthologs,通常在不同的物种中执行同样功能的那些蛋白质)和横向同源物(paralogs,在同一生物体内执行不同但是相关功能的蛋白质)。直向同源物允许对跨物种间关系进行研究,而通过基因复制事件产生的横向同源物则可以有助于研究一些基本进化机制,因为复制基因可以产生分离的不同进化通路,并且通过变异和适应而进化得到新的特征。这种复杂性代表了对生物信息学的真正挑战。在分析一项数据库检索时,一般查询序列能够合理地产生多大程度的功能注释可能是不清楚的,这种检索产生的最佳匹配物是否就是一个真正的直向同源物或横向同源物也是不清楚的。这种困难就是造成众多注释错误的根源。
进一步的混乱来源于许多蛋白质的结构城(do-main)和(或)模块(module)的性质。模块是那些经常起到蛋白质构件块功能的自动折叠结构单位,可以形成同一种模块的多种组合或者不同种模块的镶嵌体(mosaics)。它们可以使母体蛋白质(parent protein)具有一系列功能。如果一项数据库检索中的最佳命中物是一个单个结构域或者模块的匹配物的话,从母体蛋白质到查询序列出发做出功能注释是不大可能的。
通过使用模块来产生不同的功能,大自然使用旧的材料来创造新的系统。这些系统的复杂性对计算方法提出了重要的问题,因为一个系统的特性可以由它的组分的特性来解释,但不是由后者推断得出。一个模块的存在可以提示的整个系统的功能微乎其微;知道了一个镶嵌模块的大部分组分并不能使我们很容易地预测一个未知的组分,并且在不同的蛋白质中的同一种模块并不是总是起到相同的功能。
许多其他因素也可以使功能注释复杂化:基因的功能可能是冗余的,非直向同源性置换(nonorthologous displacement)可以用不相关但是功能相似的基因来替代有关基因,水平基因转移(horizontal gene transfer)可以从不同的系统发育学谱系中导人有关基因,而谱系特异性基因的丢失可以导致祖先基因的灭绝。
因此,各种基因组中包含有许多可靠的功能注释的障碍。
什么是功能?
蛋白质功能的概念取决于它所在的上下文环境。术语使用中的模糊性已经导致了数据库注释中的混乱。目前,蛋白质功能多方面地被用来指称蛋白质的生物化学活性、生物学目标和细胞结构;例如,肌动蛋白的功能可以描述为“ATP酶(ATPase)”或者“细胞骨架的组成成分”。为了向此领域引入严格性以更好地反映生物学现实,有人正在研究创立独立的本体论,例如《基因本体论》,目标在于更加清晰地定义基因产物与生物学过程、分子功能和细胞学组成之间的关系。
结构预测和折叠识别
我们已经看到了由于“基因”定义的差异,造成了准确计数基因的困难,也看到了“功能”概念的不同,造成了功能注释的复杂化。但是,似乎我们可以对结构是什么取得一致性意见。它们是实实在在的、可度量的事物,难道我们不能可靠地预测它们吗?
结构预测方法包括计算密集型策略即模拟蛋白质折叠中的物理和化学力,和基于知识的方法即使用结构数据库中的信息以建立模型。但是预测蛋白质结构的问题仍然没有得到解决:基于知识的技术通常产生低分辨率的模型,目前还没有一种方法能对远端同源物产生可靠的预测。对于小分子蛋白质,从头折叠方法可以产生具有与正确折叠相似的重要节段的模型,但是当蛋白质分子大于100个残基时结果就变得很不理想。目前,基于知识的方法,尤其是那些综合了来自不同途径的信息的方法,可以得到最佳的结果。最成功的建模和折叠识别研究已经将良好的算法和适当水平的人工分析结合了起来。
预测方法的效果并不很好,因为我们还没有完全理解一种蛋白质的初级结构是如何决定它的三级结构的。各种结构基因组学计划将逐渐减少我们对预测的依赖,因为它们的目标中有为所有完成测序的基因组中的每个蛋白质提供实验结构或者模型的任务(尽管膜蛋白结构将是难以得到的,因为它们难以结晶化)。但是,我们必须记住的是,结构本身并不能顺理成章地告诉我们功能。例如,确定一种假定蛋白质的结构和发现它与ATP相结合可以使我们了解它功能的某些方面,但是这些信息并不能揭示它的特殊生物学功能。
结构是什么?
在讨论折叠识别和预测的时候,对“结构”的含义精确化是很重要的。例如,“良好的”预测的标准是什么?是它正确地产生所有原子的位置吗?还是产生了拓扑学(二级结构的连接情况)、空间架构(二级结构的大体排列)或者仅仅是一个结构分类(大体属于a类,或者大体属于b类,等)?一项预测结果落在这种分类体系中哪一级才“好而且合情合理"呢?结构细节的揭示到什么层次才能“粗略而不丢失信息”呢?使用这样的不精确的用语阻碍了我们的理解和认识,使得我们难以评价一项良好的预测究竟是什么。
展 望
在“预测”基因、蛋白质功能和结构的时候,精确地定义我们的术语并对我们的成绩持诚实的态度是有益的。否则,我们将继续为那些误差率大于80%的新的自相矛盾的预测方法所困扰。基因识别、结构预测和功能推导都是重要的计算任务,但是随着序列数据持续不断的积累,所有这些领域都将继续得到不断的改善。
通过综合来探究各种功能,并对复杂的生物学系统采取一种更加全面的认识是生物信息学今后很重要的一步。为了从基因组数据中了解到尽可能多的知识,我们需要将基因表达调控、代谢通路和信号传导级联反应等信息考虑在内。蛋白质并不能孤立地产生有关功能,而是需要在彼此相关的网络中才能发挥其作用。对这些网络及其相互反应的揭示将对我们理解正常和病理状况下的细胞发育是至关重要的,将帮助我们在基因型和表型之间建立起一幅整体的关系图来。
基于基因组学的药物发现在很大程度上有赖于正确无误的功能注释。为了达此目的(基于基因组学的药物发现),生物信息学将有必要建立起高度集成的、可由多用户共同使用的数据库(及数据“仓库”),以便用户们从彼此分离的数据源中进行推导并最终使基于知识的推断和创新成为可能。基因组注释越是自动化,对软件开发者们、注释者们和实验科学家们之间的合作的需要就越大。如果我们想对复杂的事物理出头绪来的话,我们需要处理的数据越多,我们就必须在我们的思考(和写作)中越加严谨。尽管“序列-结构-功能"生物信息学并不能得出全部答案,但是今后更加全面的方法将帮助我们将今天的知识火花融入一种认识自然的新曙光中去。
[Science,2000年10月20日]