摘要:在1993~1998的5年计划中,人类基因组计划成功地完成了既定的所有重要目标。我们提出了一项断的1998-2003年的计划,人类DNA测序是其重中之重。一项旨在2003年底前完成整个人类基因组的测序的雄心勃勃的计划已经投入实施。在此过程中,一幅人类基因组序列的“工作草图”将在2001年底产生。此项计划的目标还包括:测序技术的开发;人类基因组序列变异的研究;功能基因组学技术的开发;完成美丽隐杆线虫和黑腹果蝇的测序并启动小鼠基因组的测序;研究基因组研究带来的伦理学、法律和社会学影响:生物信息学和计算生物学研究;以及基因组科学家的培养。
人类基因组计划正在完成其作为生物学和生物医学领域唯一一项最重要的大科学工程的承诺:永久性地改变生物学和医学。随着近期包括大肠杆菌、酿酒酵母在内的几种微生物基因组测序的完成和美丽隐杆线虫测序的接近完成,通向全基因组科学时代的大门已经敞开。分析整个基因组的能力正在加快基因发现的速度,并革新着生物学问题的深度和广度,这些问题将在模式生物体系统中得以解答。这些激动人心的成功证实了这样的观点:一套完整而且高质量的人类基因组序列的获得将对基础生物学、生物医学研究、生物技术和卫生保健带来空前的和长久不衰的影响。基于序列的生物学革命将刺激人们对基因-环境相互作用的认识和对高效的基于DNA的医学诊疗手段的开发的持续不断的发展。
HGP的核心计划-人类DNA测序计划正在进入它的决定性时期,在下一个5年计划它将是重中之重。虽然DNA序列的部分子集,诸如表达序列标签(ESTs),已经被证明具有巨大的价值,但在较简单的生物体的经验已经证明完整的基因组测序是无可替代的。为了提高达到此目标的能力,当前最关键的任务是建立可持续的生产DNA序列并且向社会公开提供的能力。人类基因组序列的充分和深入运用,包括与其它脊椎动物基因组的比较,将要求进一步提高可持续的高精度低成本制作能力。因此,还必须把开发和应用新的改良的测序技术放在高度优先的地位。
人类基因组序列有独特的科学应用价值,其中主要之一是应用于人类自然遗传变异性的研究。遗传或DNA序列的变异是进化的基本原材料。重要的是,它也是大量在医学上有重要价值的复杂人类遗传疾病风险的变异的基础。对遗传变异与疾病风险之间关系的认识将有望显著性地改变未来疾病的预防和治疗。对遗传变异的新的关注,及其它人类基因组序列的应用,带来了一系列的必须提前预测、考虑和解决的伦理学、法律和社会问题。,
HGP使基因组研究成为了生物医学研究的核心基础。极其重要的是它必须继续在促进对基因的结构和功能的大规模研究,尤其是对作为一个整体的基因组的功能分析中扮演一种领导角色。但是,这些方法的完全实施是一项更为广泛的挑战,最终将成为整个生物医学研究和投资界的责任。
HGP的成败关键取决于生物信息学和计算生物学及培养一支训练有素的基因组科学家队伍。人类基因组计划必须保持对这些领域的强有力支持。
事实上,HGP已经成为了一项认识人类基因组结构和功能的真正的国际大协作。许多国家正在根据它们的特殊利益和能力参与其中。协作是非正式的,一般在科学家与科学家之间的水平上发挥作用。美国的人类基因组计划是由美国国立卫生研究院(NIH)国家人类基因组研究所和能源部(DOE)生物与环境研究办公室主持的。HGP在很大程度上得益于其国际合作者们的贡献,私有企业也提供了不可替代的支持。这些合作将继续下去,其中许多还将扩大。NIH和DOE欢迎所有有意者来参与HGP最终目标的完成,即建立基因组资源并使之面向国际社会开放从而使其研究结果造福于全人类的生活。
计划过程
由NIH和DOE于1993年联合发表的HGP的上一个5年计划,覆盖了1994到1998财政年度。本计划也是一项联合行动,将指导1999至2003财政年度的研究。
下列计划的目标是经过NIH和DOE在过去的一年中全面计划和评估酝酿而成的。它们分别组织了一个顾问班子来督促其过程,并且举行了8次研讨会对该计划的各个领域加以探讨。大量科学家和学者以及公众代表参与了这些活动,其中包括许多从未与HGP有过联系的人,也征询了一大批生物技术公司和制药公司的意见。在1998年5月的一个公开会议上提出了一项目标草案,会议上提出的各种建议和意见被综合进了该计划。最后,新的目标得到了NIH的国家人类基因组研究专家委员会和DOE的生物与环境研究专家委员会的审查批准。对此计划做出贡献的研讨会的摘要可见于www.nhgri.nih.gov/98plan和www.oml.gov/hg5yp。
1998-2003年的具体目标
以下部分提纲撷领地列出下一个5年HGP计划的8个主要目标。表1列出了这些新目标的一些定量指标及其与1993年目标的比较。还提供了1993年目标的完成情况。图1(略)则描述了到目前为止美国HGP的投资情况。
目标1——人类DNA测序
为人类基因组学界提供一套公开的完整而具有高精度的人类基因组DNA序列资源一直是HGP最为优先发展的目标。人类基因组序列对科学家们的巨大价值和其广泛传播对研究成本的可观节约,成为提前完成测序时间表的有力依据。近来的新技术开发和大规模测序的经验使得人们越来越相信有可能在2003年底也就是比以前预计的时间提前2年完成一套精确且高质量的人类基因组序列。N1H和DOE希望完成这套序列的60?70%,其余的份额则由Wellcome Trust投资的桑格中心和其它国际合作者完成。
这是一项雄心勃勃甚而是大胆的目标,因为到目前为止仅有约6%的人类基因组序列完成了测序。在2003年底前完成测序是一个主要的挑战,但是它是可以完成和值得去冒风险和加以投人的。要实现这一目标将要求国际基因组测序界热情不懈的努力并且继续发扬和加强合作精神。只有完成了高精度而且大尺度重叠的序列测定,才能实现对人类基因组编码的所有信息的诠释。但是,在2003年底前完成第一套人类基因组序列的过程中,一张覆盖基因组的绝大部分的“工作草图”可以在今后3年内更快地完成。尽管它提供的序列精度和重叠性低,但它将是非常有用的,尤其以通过序列搜索来发现其中的基因、外显子和其它部分为著。这些应用将有助于现有的和将来的科学计划,使它们更快地得以完成,大大降低时间和成本。但是,由于这些序列存在缺口,在研究大尺度DNA的特性和要求高精度分析大尺度DNA时,它们将不可能取代全部完成测序的DNA序列。
人类基因组序列的完成并不能终止对大规模测序的®要。对这些序列的完整诠释将W要更多的来自其它许多种生物的序列信息和关于人类序列变异性的信息(参见目标3,4和5),因此,可持续的、长期的测序能力的建立是HGP的一项关键目标。要达到以下目标将要求在2003年前达到每年完成500百万碱基(Mb)的测序能力。
a)在2003年底前完成人类基因组序列的测定。2003年是沃森和克里克发现DNA双螺旋结构50周年。在这50周年之际完成第一套人类基因组序列测定将是对这一生物学历史上的重大事件的最好献礼,尽管将需要进一步改善效率和投入产出比,而且需要对结构难以识别区域的测序方法进行更多的研究,但技术上是可以实现的。目前的测序能力将需要增加二至三倍,但这是基因组测序界能力所及的。
达到这一目标将极其需要大大加强公共投资计划,并且需要来自美国政府和国会的持续不断的热情支持。但是完整的、高精度的、完全拼接的人类基因组序列是价值巨大的,值得这样的投资。
b)在2001年底前完成人类DNA序列三分之一的测序。如果能够按照预期目标扩大测序能力,世界HGP界将有可能在2001年前完成10亿碱基的人类基因组序列测定。由于超过一半的基因被预测位于基因组中基因丰富的三分之一的区域,因此,如果能够在不显著增加附加投资条件下完成的话,今后3年要完成的目标应该集中在这一区域。一种方便但不是唯一的策略是对互补DNA或者EST序列所对应的细菌人工染色体(BACs)克隆进行测序。
另外,为了根据国际科技界的需要来确定优先完成的特殊区域,应该马上建立起一套行之有效的同行评议体系。这一体系必须是公正的,必须有利于大规模测序实验室之间的合作。
为了最好地满足科技界的需求,完成测序的人类DNA序列必须是人类基因组的忠实反映,必须拥有高度的碱基精确性和大尺度的重叠性。平衡成本和效益的特定的质量标准已经得以建立,人类基因组序列的一项最重要的用途将是与其它人类和非人类序列的比较。在几乎所有的情况下,这种比较中识别的序列差异应该反映真实的生物学差异而不是误差或不完全的序列。因此,目前的精确性标准——误差不超过万分之一——仍然是适合的,尽管我们的目标是得到没有缺口的重叠序列,但任何不可归并的缺口都必须注释它的大小和位置为了保证得到大尺度重叠的序列,必须在2001年底前完成几个20 Mb或者更大的重叠群。这些质量标准应该定期地再评估,得到应用序列数据的经验后,序列质量的适合标准应该有所改变。
c)在2001年前建立一套基于作图克隆的覆盖率至少为基因组的90%的工作草图。目前流行的测序策略是建立在作图克隆基础之上的,分为两步。第一步,又称为“鸟枪法”阶段,是对一个感兴趣的作图克隆中的大多数序列作随机测定,其方法现已高度自动化并具有了高度的效率。这些数据可以被拼接成一个覆盖大多数区域的产物(“工作草图”序列),但是仍然可能包含缺口和不明确的序列。第二步,完成阶段,填补缺口并且分析处理差异。目前,第二步比第一步更为耗费劳力。现有公共数据库中积累的部分完成的工作草图序列正以两倍于完成序列的速度增加着。
根据近来的经验,工作草图序列的制作速度还可进一步提高。通过不断以切实可行的速度提高完整序列的生产井且进一步扩大工作草图序列的制作,工作草图加上完成序列的总和将在2001年底前以至少99%的精确性覆盖整个基因组的至少90%。基因组的一些区域可能因为高度重复序列的缘故而难以克隆或者不适合于自动拼接;因此,这一阶段的覆盖率估计会低于100%。如果能够得到更多的资源或者/和改进技术,大于90%的覆盖率是有可能的。
用于制作工作草图的各个读出序列也应该遵循与完成的基因组序列测序同样的高质量标准。工作草图的拼接不应该带来效率的下降和总体成本的增加。
最近,两个私有企业宣布启动对人类基因组的绝大部分进行测序,使用与公共投资计划的方法截然不同的策略。其中之一是以全基因组鸟枪法策略为主,
可能存在显著的拼接困难。该企业的每季度公开发表其数据的政策为其与公共机构的合作提供了可能性。如果能够将私有企业与公共机构的数据加以合并,则产生的工作草图序列的联合覆盖率将更大,并且公共机构的数据资源中的作图信息将为私有企业的数据生产提供至关重要的帮助。N1H和DOE欢迎这样的计划并且希望与所有的团体合作以加速人类基因组测序的完成。
d)公开提供完整、免费的测序数据。从HGP启动之日起,其倡议者们就认为人类基因组序列是一种珍贵的科学资源,应该毫无保留地向所有需要使用它的人公开提供这一资源,只有通过广泛提供这一珍贵的资源才能最大限度地刺激研究,从而最终改善人类的健康,公共投资的HGP计划坚持这样的信条:尽可能早的公开人类基因组序列将带来最大限度的公共利益。因此,NIH和DOE—直强烈赞成1996年2月由国际测序界采用的人类序列数据发布政策,并且在1998年将其修订和扩大应用到所有生物的基因组序列。该政策认为大小1至2 kb的拼接序列应该在产生的24小时内在公共数据库中公开,而完成序列则应该在相似的时间尺度上迅速公开。
目标2——测序技术
基因组计划开始以来,DNA测序技术得到了惊人的改善。每年产生的序列数量在稳定增加;各个测序中心的年均测序速度达到了10个百万碱基对的数B:级。今后,其它基因组的从头测序,紧密相关基因组的比较测序和评价基因组内部变异的测序将日益成为生物学和医学研究中不可缺少的工具。比目前更加有效的测序技术将是需要的。到目前为止的所有技术进步仍未产生任何根本性的范式转变,但是目前采用的技术仍然是可以大加改进的,有关资源应该投资于此以完成这项任务。除此之外,还应该资助有关新技术研究以便使更高通S的DNA测序有效、精确和有成本效益,从而为其它先进的基因组分析工具提供基础。在以下三个领域必须取得进展:
a)继续増加生产量和降低目前测序技术的成本。为了增加生产量(在2003年底前达到至少每年500 Mb的完成序列测定)和降低成本,应该加强自动化、微型化和对目前使用的各种技术方法的整合,并且对测序方法的所有步骤进行改善。在今后5年内,应该从现有水平(在大规模测序中心,完整序列测定的平均成本为0.50美元)上降低成本两倍。制作人类基因组序列的工作草图的每个碱基成本将大大降低。
b)对新技术研究的支持将带来测序技术的显著改善。必须支持新的DNA测序概念和方法以获得对当前测序范式的实质性改变。例如,微电子机械系统(MEMS)可能带来应用试剂的显著性降低,增加测序速度,并且真正整合各项测序功能。快速分光光度计分析方法在DNA片段识别上达到了惊人的结果,为更快速度的DNA测序提供了可能性。其它更为革命性的方法,例如单分子测序方法也应该得到应用。为了达到此目标,结合化学、物理、生物学、计算机科学和工程学等对仪器进行跨学科研究必须给以显著性的投资。那些需要5至10年才能取得成效的有远见的计划将是至关重要的、最后,能够每年以可以承受的成本完成对一种脊椎动物的测序的技术是非常吸引人的。
c)建立有效的方法来对测序过程中的新的测序技术进行前沿开发和引入。随着测序规模的增加,生产流程中的改进工作变得更加具有挑战性和高成本。因此,新技术必须是稳健的、得到审慎的评估并且在其在生产流程中应用之前能在高通量环境中行之有效。在此过程中,技术开发者和技术应用者双方的精诚合作是不可缺少的。必须认识到前沿开发过程经常需要比原理证实多得多的投资,在前沿技术开发中需要有有目标的投资分配和专门评审机制。
目标3——人类基因组序列变异
自然的序列变异是所有基因组的一种基本特性。任意两套人类基因组之间都存在许多位点和类型的多态性,其中有些多态性有功能意义,而其它许多则大概没有。人类基因组中最普遍的多态性是单碱基对变异,也称为单核苷酸多态性(SNPs)。平均来说,当两套单倍体基因组比较时,每个kb会出现一个SNPs。其它种类的序列变异,例如拷贝数的改变、插入、缺失、重复和重排也存在,但是出现频率低,对它们的分布了解甚少。人类基因组和人类群体中的多态性的类型、频率和分布的基本信息对人类遗传学的发展是至关重要的。在研究人类疾病中利用这些信息的更好的高通量方法也是需要的。
SNPs在基因组中非常丰富、稳定而分布广泛,这使得它们适合于较大规模的自动化分析,例如DNA阵列技术。由于这些特性,SNPs将有利于对诸如癌症、糖尿病和精神病等复杂性状的作图。高密度的SNPs图谱将使基因组水平的相关研究(association studies)成为可能,这种相关研究是一种识别那些对疾病风险有微小贡献的基因的有效方法。在一些情况下,这些图谱也可以用于预测药物反应的个体差异性。为了推进这项研究,必须公开提供整个基因组中分布的大量SNPs图谱,并且开发快速、大规模的SNPs识别与计分技术。早日获得一幅人类基因组的工作草图将大大促进高密度SNP图谱的制作(见目标1)。
a)开发快速大规模的SNPS或其它DNA序列变异的识别与计分技术。序列变异的研究要求有大规模应用的有效技术来完成下列任务中的一项或者多项:快速识别大量样本中数以千计的新SNPs;对大量样本中已知SNPs的存在与否进行快速有效的计分。尽管直接的应用重点是SNPs,但最终必须开发可用于任何类型的多态性的技术。还应该开发那些可以通过大规模识别相似性和差异性,来对已经完成DNA测序的物种所紧密相关的其他物种DNA进行快速比较的技术。开发的这些技术应该是高效低耗而且可以广泛推广的。
b)在此S年中识别大多数已识别基因的编码区中的共同变异型。最初,复杂疾病的相关研究将可能是对大量候选基因的检测;最终,所有基因的序列可以得到系统的检测。编码序列的SNPs(也称为cS-NPs)及其相关调控区域将直接成为疾病的特异标志。应该投人一支力量来尽快地识别这类SNPs。最后,所有基因中所有共同变异型的目录是众望所归的。它应该与cDNA序列数据建立起交叉参考(见目标4)。
c)制作一幅至少10万个标志的SNP图谱。一幅向公众提供的具有足够密度和信息蛍的、可用于任何群体的有效作图的SNP图谱是*最终目标。一幅10万个SNPs(平均3万个核苷酸1个SNP)的图谱可能足
以用于对一些相对纯合的群体的研究,但是对于那些大型的、杂合的群体的研究则可能需要更密集的图谱。因此,一幅至少10万个SNPs的图谱应该在本项5年计划中得以制作。应该对不同群体中需要的SNPs的数量进行估计性研究。
d)建立序列变异研究的智力基础。单基因疾病研究中建立的方法与概念对研究复杂的多基因疾病是不敷使用的。对人类DNA序列变异、表型变异和复杂疾病的关系的研究关键取决于更好的方法,有必要引入新的方法对连锁、连锁不平衡和相关数据进行有效的研究设计和分析,必须回答一些问题例如哪些研究设计适合于哪些特定群体和哪些群体遗传学特征。还必须建立适当的统计学和计算工具以及严格的标准来建立和证实这些相关性。
e)建立公开的DNA样本和细胞株资源。要促进SNP的发现,必须尽快地建立共同的公开的DNA样本和细胞株资源。为了尽可能发现所有人类群体中的共同变异型,需要建立一项包括其祖先来自多个地理区域的个人的名录资源。它应该包括尽可能多的在美国人群中发现的多样性。这个公开的基本知识库中的样本应该是完全匿名的以避免由于连锁或者可识别的样本引起的问题。
与表型数据相关和根据地理和其它起源识别的DNA样本将是必要的,可用于研究在特定群体中的DNA多态性的频率和分布及其与疾病的相关性。但是,这样的搜集带来了许多有待解决的伦理、法律和社会问题,在建立这些资源之前必须建立可靠的科学策略(见目标6)。
(未完待续)
[Science. 1998年10月23日]