生物信息学：致力于遨游数据的海洋

发布时间：01年07月27日

David S. Roos 编译李伟

本文在讨论生物信息学和计算生物学中一些问题（例如数据库整合与模式识别计算）的同时，也讨论了人类基因组计划中的伦理、法律和社会影响（ELSI）的有关问题：基因组学数据（信息）发布和使用中的公平性、保密性、产品的商业化问题（包括数据的产权如专利、版权和商业秘密）等，它们同样是生物信息学和计算生物学要解决的核心问题

　　——译者。

　　基因组学研究的许多领域中的进展在很大程度上都是建立在工程技术基础上的，从大规模DNA测序计划中使用的毛细管电泳仪、DNA芯片制作中使用的照相平版印刷术和机器人技术到用来解读这些芯片的共聚焦成像系统，再到由波束和探测器技术发展而来的高通量质谱仪，无不如此。在不远的将来，（诸如）材料科学和纳米技术的进一步发展将有望极大地提高这些技术的敏感性和降低这些技术的成本。基因组研究可以在一种以前根本不可能的水平上研究有关的生物学现象——基因组中的所有基因、细胞中的所有（基因）转录本、组织中的所有代谢过程。

　　所有这些方法所共同拥有的一个特征是它们都将产生数量巨大的科学数据。例如，GenBank现在容纳了超过1010种核苷酸的核酸序列数据，并且继续以每年翻倍的速度增加着。而分析基因表达谱、蛋白质结构、蛋白质-蛋白质相互作用等新技术还将产生更多的数据。如何处理这些数据，了解它们的生物学意义和将这些数据提供给生物学家们用以研究范围广阔的生物学问题等是生物信息学所面临的挑战——这是一个正在兴起的领域，它的任务是将计算机科学用来解决分子生物学所衍生的科学问题。我们正在这个迅速高涨的数据之海中遨游，我们怎样才能不被淹没呢？

　　生物信息学正在面对其成长的阵痛，这种阵痛预示着当我们面对人类基因组计划等大科学计划时所有生物学家们将很快碰到许多问题。首先，很少有科学家可以声称他同时拥有彼此独立的计算机科学和生物医学研究的学术背景，这意味着缺乏培养下一代“生物信息学家（bioinformaticians）”的指导者。缺乏对推动两大学科发展的知识性问题的熟悉，也可能导致许多错误的认识。例如，编写一套用来对重叠的表达序列标签（EST）进行拼接的计算机程序，可能对那些尚未有过计算机科学的新背景的生物学家们是极为重要的。同样，证明在某种条件下不可能确定一种全局优化系统发育树，可能构成了计算机科学上的一种有意义的发现，而对生物学家们则没有多大的实用性。

　　能够识别这些所有人所关注、有知识价值的问题，对作为一个独立的学科的计算生物学（computational biology）的成熟来说是一项重要的任务。“真正的”生物学研究正在越来越需要在计算机中进行和完成，同时，各种生物学问题研究的需要也催生了越来越多的计算机科学研究计划。

　　进一步的困难来源于这样的现实：生物信息学从其产生之日起就是一门综合性的学科，其学科用语和数据（资料）来自大量的不同学科。如果没有这些基本的数据（资料）、如果没有能力将这些数据（资料）以新的方式进行组合，生物信息学的研究领域和范围将是非常局限的。例如，用于识别基因的相似性的BLAST算法所得到的广泛应用，不仅归因于该算法本身（及其补充算法），还应该归功于GenBank数据库、欧洲分子生物学实验室（EMBL）数据库、日本DNA数据银行（DDBJ）等科学数据库的应用，这些数据库聚集了来自各种不同来源的基因组数据。如果没有了这些建立在广泛基础上的数据库可供查询，BLAST算法的效用将是有限的。

　　在计算生物学研究中，一个核心的问题集中在数据库的开发上：如何从（诸如）基因组DNA序列、mRNA表达的时空模式、蛋白质结构、免疫反应、临床结果、发表的记录和其他来源的数据中对查询数据进行整合和最优化。计算生物学的第二个焦点问题包括以下用途中的模式识别算法：核酸或蛋白质序列拼接、用于相似性比较或系统发育学谱系重建的序列排队比对、线性序列或高级结构中的基序（motif）识别和基因表达的共有模式。不论是数据库整合还是模式识别，都绝对依赖于对各种不同来源的数据的使用，依赖于能够将这些数据按照新的格式进行整合、转化和复制。

　　综上所述，计算生物学是一门自其诞生以来就带有强烈协作性的学科，其存在与发展归因于可以获得丰富和广泛的数据集合以进行分析、综合和操作。因此，数据的可获得性和可使用性是关键性的，这引起了科学家们对数据发布政策的极大关心，这些政策包括：原始数据的组成是怎样的？谁拥有这些资源？数据应该在什么时候和怎样予以发布？在进一步的使用中应该有什么样的限制性规定？目前，已经出现了两种挑战，可能对生物信息学研究的进一步发展构成潜在的限制：（1）在论文发表前发布的数据的恰当使用的相关问题；（2）随论文发表的数据在投寄给有关数据库的限制因素。

　　对生物信息学研究的第一个挑战与对论文发表前在网站上发布的数据的分析有关。由于认识到早期发布数据对广泛的研究领域的学术价值，国际人类基因组计划委员会采取了一种（论文）发表前在专门的科学数据库中发布数据的政策，许多其他基因组计划（以及那些资助他们的投资机构）现在也采用了类似的政策。因为生物信息学绝对是依赖于对来自广泛的各种来源的数据进行综合的，人们都希望生产基因组数据及其相关水平的数据（包括表达谱分析和蛋白组学研究）的其他基因组计划能够采取相似的政策，因为对基因组结构、微阵列数据、蛋白质相互反应等数据的大规模比较研究将产生具有巨大价值的结果。但是，这种利他主义的数据发布政策的成功，要求那些生产原始序列数据的人们（经常代表了本领域的大多数人们）得到应有的报偿（承认），能够从他们的工作中得到知识的满足。罗文（Rowen）等提出了将那些可以在网络上得到的未发表文章的数据与“个人通讯”相提并论，因而建立一定程度的知识产权保护。

　　这种方法的困难在于确定什么类型的分析应该需要数据提交者的许可，什么类型的分析可以合理地予以禁止。很明显，对感兴趣的某些单个基因的识别以用于进一步的实验分析必须是可接受的——可能甚至不需要正式的许可——否则，早期的数据发布毫无意义可言。相反地，那些寄存在网络上、未加分析的、未得到发表的序列数据的第二次发表必须被看作对伦理标准的违背——就如同从一次会议报告中对未发表结果的一字不差的抄袭。在这些中间例子中哪里予以区别——将最终取决于被讨论的手稿所提供的知识贡献和是否这样的工作可能合理地被期望出现在应得的过程中，包括来源于生产这些原始数据的人们。这样“附加值”的考虑与那些手稿审核中正式应用的考虑区别不是很大，但是要求审核者和编辑们对先于原始数据提交者发表论文有特殊的考虑。

　　镰状疟原虫Plasmodium falciparum基因组计划的经验提示，对什么样的数据和分析是可以发表的问题的不一致看法，有时候可以归因于没有足够地认识到生产原始数据的人们的利益和参与。但是，（常常是）各种争端是由缺乏理解引起的：既可能是由于生物学家们不能完全明白（例如）在“鸟枪法”测序结果的首次公开和最后的序列完成及注释之间将可能可以理解地有一段时间的滞后，也可能是就那些生产原始数据的人们而言，他们可能没有完全体察到生物学家/生物信息学家的知识贡献。我本人希望：在从事基因组技术的应用、生物信息学研究和实验室分析的人们之间的鸿沟将因为相互理解而得到沟通，这些重要的问题也将随之解决。对基于网络的数据发布（在雇用、晋级、任期决定等时候）作为一种出版的形式的日益接受，以及对人类基因组计划这项生物学中的“大科学”计划的性质的日益理解，也将减缓目前的紧张状况。

　　对生物信息学研究的第二个挑战并不来源于数据查询中的限制，而是来自其下游使用中的限制，例如将这些数据合并进入新的或已有的数据库中。这种挑战具有一种更加基础的性质，不仅包括在生物信息学分析得到允许的时候，而且包括可以进行什么样的分析。今天塞莱拉基因组学公司对人类基因组的一份草图分析的发表，就引起了大家对这个问题的关注，因为这份原始数据本身正在被通过仅只一个私营公司发布，该公司对他们的数据的再次投寄到有关数据库和扩大其使用做了一些限制。其他基因组水平上的研究计划，包括最近一份对幽门螺旋杆菌Helicobacter pylori中蛋白质-蛋白质相互反应的分析，都已经对原始数据的再次投寄做了相似的限制。

　　在发表塞莱拉公司的人类基因组草图的同时，在其编者寄语中，《科学》杂志精心提出了一项政策，保证塞莱拉公司的分析所基于的那些数据将是可以得到以便进行考查。但是坚持原始科学数据的发布不仅仅是为了保证发表（的论文）的结论是正确的，而且也是为了在这些结果的基础上，进一步推进科学的发展。生物信息学研究尤其依赖于对数据的毫无妨碍的访问使用，还包括要有对有关结果数据的重新分析和重新投寄的能力。因此，就生物信息学研究而言，这样的声明是不够准确的：“……任何科学家都可以考查和使用塞莱拉公司的序列，以便检验或证实论文的结论，进行他们自己的基础研究和发表他们的研究结果”。例如，在没有承认其基本数据的所有权性质的前提下，对塞莱拉公司数据库中识别出来的附加特征的一种基因组水平的分析和重新注释是不能发表或寄存在网络上的。同时，这些信息也不能与来源于其他数据库的资源进行合并——例如：进行跨物种比较所必需的其他物种的信息，或者来自微阵列和蛋白组学资源的数据，它们可以允许在基因组序列数据、表达谱和结构信息等的组合基础上进行查询。毫无疑问的是：如果不能自由地使用GenBank/EMBL/DDBJ等联合数据库中的数据信息的话，基因组学研究是绝对达不到目前的水平，这样的归纳是恰当的。

　　限制下游分析的潜力提供了一种可能性：使得由私营公司生产出的大量专有数据可以被本研究领域的人们不受约束地查询使用，但是这种潜力要求非常巨大的成本。例如，在一个没有GenBank/EMBL/DDBJ存在、因为所有权限制而不能进行序列拼接的世界上，难以想象基因组学研究会是如何进行的！5年前，百摩大会议制定了一项发布基因组序列数据的标准，到目前为止，该标准已经很好地为生物学家们提供了服务；我们应该在考虑到数据发布和数据使用政策很可能对整个生物医学研究领域产生深远影响的前提下，仔细考虑我们应该为今后5年建立什么样的惯例。

　　“后基因组时代（postgenomic era）”极其有望揭示出生物体发育、代谢过程和疾病的基本机制和机理，我们可以自信地预测，生物信息学研究将对改善我们对以下领域的认识带来引人注目的影响：基因表达调控、蛋白质结构确定、比较进化和药物发现。事实上，完整的数据集合可以得到，也可以使其提供逆向信息。例如，通过对整个通路（例如生化通路或基因表达调控通路）的作图，人们将会有兴趣问道存在什么、不存在什么。随着基因组学及其相关学科研究的潜力变得更加充分地为人们所认识，很有可能基因组学研究将日益变得与生物学本身难以区别。但是这样的研究只有在数据可以不仅用于考查，而且用作研究的基础的情况下才是可能的。在受到羁袢和束缚的情况下是难以在数据之海中遨游的！

　　[Science，2001年2月16日]