基因组研究的数据库

发布时间：99年06月25日

William M．Gelbartzhu 编译李道苹

与基因组有关的数据库已经成为科学领域的重要部分。随着相关生物数据的容量和复杂性的提高，这些数据库所起的作用将增加。我们还没有完成基因组计划和发展这些数据库，不言而喻，既要十分详尽，又要简明地建设数据库。后者特别需要，使文摘式数据库更易于普及。

基因组数据库是人所共知的基因组计划的公众窗口。基因组计划成功或失败依赖于所产生的数据的获取和利用。而且，高度发达的科学创造了大量的组织得很好的数据。随着这个大量增加的生物数据需要传递，要求各类文摘式数据库。生物学和数据库技术的特性，是要定期回顾分析，以确定生物数据是否已成功地储存，并可以检测系统的问题，也能补充数据库覆盖面的重要缺陷。我们是信息的提供者和消费者两重身份，作者在本文展望了当今基因组遗传学数据库的发展。

最新数据库

本文不打算展示Internet中一系列重要的有关基因的数据库。只进行一般的分类和评论。与基因组有关的数据库分成两大类：综合性和专业性数据库。综合性数据库包括GenBank/EMBL/DDJB、核酸序列的文库和PIR和SwissProt多肽序列数据库。这些数据库具有分子的各个级别信息，包括所有种系遗传和功能。相反，专业数据库有更多的限制范围。例如：那些围绕着特异类型有机体或围绕着某种生物功能而组成的数据库，如：蛋白家族数据库。值得注意的是目前还没有一个综合性的或者专业性数据库单独含有基因组计划全部数据。但它们把基因组计划数据与广泛的科学领域交织。基因组计划数据并非特殊类型的数据，它们是较大规模并且常常更精确或者是自身组成的特殊类型的信息。相反，虽然社会不可能使数据达到一致性和覆盖的范围，这些不足可以通过个体提供弥补，这常常是多年研究的重点。科学社会能把高度复杂的基因组计划数据与丰富经验的群体的贡献结合在一起。

对这样的结合，没有比当前解释包含在基因组DNA的信息能力更重要了。人类生物学的注释意味着让我们阐明包含在DNA序列的所有信息。但是最后是把人类基因组序列储存在光盘中，解开人类基因序列之谜，如何去理解基因序列A`S、T`S、G`S和C`S的意思，要通过我们制造的大量的功能图示。

所有的结构信息需要建立一个多肽链和所有调节的信息，要求多肽在适当的发展时期中细胞的正确位置。如果像这样的信息每个位置都连成一段，在结构上称做基因组，当前的认识是其中部分而不是全部。如何鉴定和阅读某名词（新生的多肽结构和mRNA的蛋白编码外连子）还没有足够的认识。我们对于识别动词和形容词以及这些基因段的其他组成的能力（如：调控表达类型的要素或在染色体中的结构成分）还很低。而且，我们不能理解究竟如何去阅读句子的语法，如何将描述段落意义的不同句子连在一起，如何构筑多组份蛋白质和其它的复合物，如何解释生理的或发展的途径等等。最后，我们对如何识别和解释基因组的结构信息的知识还很少。如边界家系和不同多肽编码的彼此区别。

可以用同样的方式阅读基因组结构手册，也能阅读以我们理解的语言写成的书，我们可以能不需要巨大的科学数据库的支持系统。但是我们关于基因组的某个新部位是闭塞的。目前，有机体的基因组序列是以被了解的语言所组成。而通过科学社会的工作，我们可以获取很有限的序列，直到我们大力改进我们有能力H正阅读基因组DNA，我们将朝着达到所有可利用的实践信息的目标工作，如：注释框架或参考文献、基因组DNA。这对模型有机体数据库是一个重要的焦点，这个物质的基因组信息能作为基因组注释服务。一般来说框架序列注释的任务将是特异组织专业领域数据库之一。这些群体有专家去搜索这些信息和解释文献，这些框架序列高级注释对实验者是很大的直接价值，而且，数据库对基因组DNA所含的许多不同编码进行译解实验。

这些高级注释框架序列创立能入专业群，如果系统注释在保持不变的方式中进行，他们将是最有价值。完成这个标准化最好的方法是这些特异有机体的数据库与GenBank/EMBL/DDBJ紧密合作，并且通过这些核酸数据库采集特征性信息。

基因：过时的概念？

在生物研究领域，20世纪是基因的世纪。基因作为遗传的重要性和对于我们目前所理解的许多生物现象的功能起决定性作用。此外，我们必须指出使用基因这个词的价值很少，实际上，妨碍我们理解基因组。虽然这些遗传问题，特别是认为它带有遗传编码的遗传学家是这样认为。这反映了一个事实，与染色体不一样，基因不是实体，仅仅是一个概念，近10年来已成为历史的陈迹了。我们希望理解遗传单位的基因产物和它们的表型之间的关系，传统的基因被认为是建立这种关系的有关的遗传单位。但是，现实的基因组有机体比传统的基因概念更复杂，基因彼此作用分享某些DNA序列被转录和拼成复杂类型，并且能与其它的某些序列家族的基因功能重叠。所谓改变的缝接一个或更多的外连子被分成多次转录。有时这些产物有很类似的生物活性，而在其它的例子中，它们的活性是不同的。

主要的问题是如何论述改变多数重叠基因产物的突变表型。支持有一个误义突变进入一个或更多外连子。贡献于比一个mRNA更多和因此比一个多肽链更多。我们如何评价不同的多肽，通过突变激发它最后的表型。

为此，可以认为我们已进入一个时期，就是我们必须转变观念。大K的基因组编码一系列的功能性RNA和多肽，在特征的空间、临时的定量的类型中被表达，古典的基因概念已经构成试图根据编码功能产物去理解表型的一个屏障。这不是单纯的摘要讨论，但需要我们再研究，如何组织有关基因组数据库中的数据。在多数或全部数据库中，许多生物数据被认为是这些称做基因的单位。虽然这些表型的某些方面可能与改变了的这些基因产物的不同成份有关，数据库不可能支持大多数表型信息的关键部分。

打破活动-能量屏障

文摘式数据库，最突出的是模型有机体数据库，有两个主要的结构：较集中的科技社会活动研究这个系统。大量科学社会听感兴趣的有关来之于其它系统的特异性信息。在这一点上，这些文摘式数据库实质上为集中某一社团服务比广泛的科学社会服务要好。为什么是这样，有各种原因。这些数据库可以立即出现在专业团体，填补合法的需求，并希望满足重要的技术信息分配。在每个专门团体中都有自身的语言，有他自己的行话和语法（术语）来描述他们的研究发现。例如：某一有机体有其自身描述遗传的目的、解剖学和表型等其它方面。相反，广泛的科学社会对于连接模型有机体的数据的兴趣有许多不同的理由。因此，对于特异有机体数据库今后几年的主要挑战是寻找一个成功的格式，以满足广泛科学社会的需要，而不希望只是集中于专门用户群。考虑这些数据库如何使他们的信息化让公众获取，模型有机体数据库主要通过浏览万维网，从网络获取。作为任何技术学，Web通路有正位和负位。从技术学看Web获取有正面和负面。在正面上模型有机体数据库致力于结合的和相互连接，所以用户能从一个数据库迁移和漫游到另一个数据库，不需要连接而发生关系的知识。这个广泛的连接，使用户将能获得更多的信息。用这种方法也存在一些问题。如：利用Web漫游很易从一部百科全书的一页翻到另一部的一页。漫游功能增加，在一个时间翻的页更多。因此，Web本身不仅能跨过许多数据库，并完成提问的回答。而且，当用户从一个数据库某一主题款目转到另外一个数据库连接的主题款目时，用户需要接受连接数据库结构及不同系统的指令和语法的教育。实际上不同模型有机体数据库粗糙检查发现报告格式、数据组织和科学语言都有很大差异。所有这些都是非专业的社会有效利用这些数据库成为一种活动-能量屏障。

如何能将专业和广泛的科学社会都安排在Web内？首先，需要有一个相同数据的观点，不必将两个社会交织。专家感兴趣的许多类型数据，大量都是与广泛社会无关的。例如：染色体图数据和突变株的信息是典型的仅对专家有兴趣。另一方面，基因产物的数据，基因表达类型，表型和通路是大众有兴趣的。文摘式数据库必须通过专家数据库的维护来不断支持他们所集中的用户，每一个团体都有他们需要的最重要的特定数据。因此，正在存在的模型有机体Web站点可以持续他们目前的形式。

此外，文摘式数据库（特别是模型有机体数据库）通过发展非专家Web界面进行工作，许多或所有系统常用的类型数据施行标准化和可读文摘格式。随着这一积极努力，限制行话和辨别对一般大众有兴趣的数据项。换句话说，文摘式数据库需要建立一种小的活动能量作为对大众的代表。怎样找寻这样一个界而和使公司数据来源类型变成熟，是我们探讨和实践的问题。

[Science，1998年11月17日]