现在,为获得人类基因组序列草图而开展的竞赛已宣布打成光荣的平局,注意力将转向最终完成序列和“阐释”整个基因组——给所有的基因定性,并搞清楚它们的功能。这一阐释工作是极端繁重的,需要迄今最大规模的国际互联网协作。
如果塞莱拉基因组公司现在就停止测序工作的话,那么完成整个基因组测序的任务——为 保证精确度,每一碱基要测序10次以上(10X——就将落到政府支持的“人类基因组计划”(HGP)组织身上。在这一方面,据桑格中心的T ·赫巴尔特声称,6月下旬,当他们将HCP数据进行计算机分析时得到了一次惊喜。他们原望HCP基因组测序的平均深度为5X,结果却达到了7X。这一结果,以及草图中所含的空缺似乎比预期的少这一事实,预示很有可能在2003年最后期限之前完成基因组测序工作。
但阐释工作面临的挑战要大得多。第一步工作是鉴定全部蛋白质编码区,从而得出存在多少个基因的正确概念。大多数基因专家认为这个数目介乎3. 5万个至15万个之间。此外,还要详细研究每一个基因,包括它们的调节因素的结构,并确定它们的功能。
美国国家生物技术信息中心(NCBI) 主任大卫·李普曼相信,序列草图将使研究人员有可能用计算机工具对能表达的基因的cDNA文库中有目录可查的基因片段进行精确定位。在许多情况下,这样就能从序列草图中提取一个完整的基因,与别的基因进行比较,并开始确定它的功能。但许多生物学家并不如此相信。有的认为,“阐释’必威在线网站首页网址 的序列’要比阐释已经测定的序列难。而不管你如何切割,草图的序列总是必威在线网站首页网址 序列。”即使你掌握了已经测定的序列,两条已经完成测序的人类染色体——第21、22染色体——提供的经验也告诉我们,阐释基因组是一项艰巨无比的工作。华盛顿大学生物计算机专家P ·格林说,“凭第21、22染色体是不能正确鉴定全部基因的。’果蝇基因组的阐释工作是在塞莱拉公司举行的一次“喧闹的聚会”上启动的。这次会议集中了40位高等学校的遗传学家和50位塞莱拉公司的科学家,对几十种不同的阐释技术进行了比较。这次会议对塞莱拉公司是有益的。一位果蝇基因组专家说,“我们对他们的阐释研究组进行了如何阐释人类基因组的基础训练。”塞莱拉公司和HGP的研究人员将举行联合科学讨论会的消息,使人们增加了举行一次讨论人类基因组阐释问题的类似聚会的希望。但HCP主任F ·柯林斯向《自然》杂志指出,塞莱拉公司不可能真正分享阐释成果,因为这将是该公司出售给其资助者们的主要产品。因此只能希望这次会议审视一下政府机构和私人机构所得到的序列之间的差异,以求“清理”一下各自的数据。
塞莱拉公司对它们的阐释能力很少公开谈论,但它们是应用专门的软件来将多种基因寻找工具的输出信息组合起来——这些工具绝大多数是政府机构能够得到的。虽然塞莱拉公司的阐释研究组颇具优势,多数专家认为,单独一个研究组是无法阐释整个基因组的。
就政府研究机构来说,阐释基因组可能意味着对HCP数据的组织方法进行反思。李普曼承认,主要序列数据库即NCBI基因库是有其局限性的。他说,“这个数据库并不代表我们在任一一特定时间所知道的生物学,它只代表作者所输入的东西。”确实,当科学家们将数据输入基因库是为了便于在刊物上发表的时候,他们是并不急于去校正和更新数据的。
许多专家相信,为了做好阐释工作,需要一种“合作”方法,使用国际互联网络,借重全世界生物学家的才智。NCBI倾向于建立一种制度,在世界范围内指定一些生物学家“接纳"一个基因或一个基因家族,成为负责更广泛地从科学界收集信息的监管人。但李普曼仍然反对让任何生物学家都来阐释基因组的放任自流的主张——他说, 因为大多数人并不完全了解数据库的句法结构,他们输入数据时可能出错。
由桑格中心和欧洲生物信息研究所主持的Ensemb I阐释计划正在设计一种真正分散进行的做法。他们设想这样一种制度:一位德国遗传学家对一个基因所做的阐释,可以几乎立即接受波斯顿的一位生物学家的挑战。Ensemb I的设想因美国加州和冷泉港的两位科学家建议将"Napster"技术用于基因组阐释工作而受到了鼓舞。这一技术使全世界的计算机用户有可能分享MP3的音乐资料,因此,在理论上也能让生物学家分享并阐释基因组数据。如果这些主张被接受的话,那么未来的基因组计划可能就是一项无政府地开展阐释工作的计划。
[ Nature,2000年6月29日]