直到最近,人们对于开发大型的、技术性复杂的研究资源的设想才集中于自然科学的领域。过去三十年的科技发展与加速基础科学和医学应用发展的可能已经产生了生物学领域的第一“大科学”的设想——人类基因组工程。尽管这项工程目前仍无完整的定义,然而,与其密切相关的一种长远看法指导着这种设想的发展,那就是对染色体的位置、对60,000 ~ 100,000基因的分子组成及对构成人类基因组的多种调节分子进行精确阐明。

生命的蓝图

表征组织结构并安排维持生命进程的五万多各类蛋白质的信息在约六十亿对碱基中以线性顺序方式被编码。这个顺序又排列出22对常染色体和一对存在于两倍体细胞内的性染色体。受精卵内的染色体组合形成了人体发展的完整结构,决定了心脏、中枢神经系统、免疫系统以及其他各个器官和生命细胞的构成时间和具体过程。

不同的基因组合,即不同的序列,会生成不同特征的人和个体。人类与其最接近的进化物的差异约100个碱基中1个。没有亲缘关系的人种间差异则约1000个碱基中为1个。基因组合的不同发生在一些关键的部位足以影响人类的抵御或感染特殊疾病的能力。4000种奇怪的疾病,如膀胱纤维化病和亨廷顿舞蹈病,都是由于某一个基因的缺陷而引起的。而且,这些疾病都可能遗传,生下来就存在于基因组内,使基因定位以及转译出他们的信息密码对于了解基因如何不同于正常的配对、发展早期诊断和治疗方法是极为重要的,检查更平常更复杂的疾病,如高血压、癌症、精神紊乱等的遗传原因也需要测定和分析基因组的位置和结构以及它们的协同行为。

就像对待各种密码的信息一样,基因组合的知识也随着大量密码的译出而不断地增加。例如我们读一本小说,如果只懂零星的几个句子,那么是无法了解故事的主题和情节的。只有看懂大部分连贯的章节,你才可能了解故事的情节,同时又通过分散的内容之间的内在联系,你又进而了解了故事的主题。

目前,尽管科学技术发展飞速,但是人们对于基因组还仍然知之甚少。如今,洛斯阿拉莫斯国家实验室的电脑化基因库已存有五百万个碱基。如果说碱基序列数目大致与人类的认识水平有关,那么,按这一速度发展,基因组的排列和认识要延续到2700年。但是,认为顺序排列的速度永恒不变则是不现实的,快速发展的可能性更大。如果这种增长速度是直线型的,那么,人们对此的认识水平(譬如对DNA不同位点的功能的了解)可以不严密地认为只是稍落后于顺序排列的增长速度,这样,人们就可以在二十二世纪初获得对人类基因组的顺序排列和相应的认识。

然而,人们雄心勃勃地想在2000年前广泛讨论排列尚待决定的基准细胞基因组的顺序。为此,我们必须加快顺序信息的发展速度。要做到这一点,就非得有联邦政府或私人机构的支持。除非认识基因功能的新方法与顺序排列的新方法同步发展,否则,阐述的知识就无法紧紧跟踪数据的生成。

圣大非*精神

顺序排列人类基因组的设想至少可以追溯到1985年。当时南加州大学校长罗伯特 · 辛希(Robert Sinsheimer)组织了该课题的研讨班。一九八六年,诺贝尔医学奖获得者雷诺多 · 杜尔贝科(Renato Dulbecco)在《科学》杂志上发表了关于顺序排列将有助于认识癌细胞的文章后,人们对这一内容兴趣渐增。同周内,洛斯阿拉莫斯的生命科学部负责人马克 · 比坦斯基(Mark Bitensky)组织了由美国能源部主办的圣大非国际研讨会。这次研讨会聚集了工业、学术界和国家实验室的科学方面的头面人物。众多的研讨内容中就有评估本世纪末实现人类基因组顺序排列的技术可能性、所需要的开支、以及该研究对于美国能源部和整个国家的潜在利益。

这次研讨会在新近美国能源部健康与环境研究计划中并非偶然的事件。第二次世界大战以后,由于原子能法的通过,美国能源部立即承担了评估各种能量对国民健康产生的后果的责任。分子分析是一种诊断由能量诱变引起的生物损伤的最强有力的方法。同时,它对认清人类对于环境公害包括低辐射、易感程度的普遍不同十分关键。1986年初,美国国会技术评估局发表了一份报告,确定能源部是诱变剂研究的主持单位,1985年10月在我(本文作者系美国能源部健康与环境计划主任)刚到能源部不久,戴维 · 史密斯(David Smith)把那份报告的初稿交给了我。也就是那份草稿成了激励圣大非研讨会的最初动力。

圣大非研讨会激动人心的气氛令人震惊。它使人们回忆起那些早期进行的非凡的新冒险探索的难得的时刻,如洛斯阿拉莫斯的曼哈顿工程、外层空间探索等等。这些研究吸引了科学界,激发了他们的想象力。此外,研讨会也认真地讨论了随后可能会产生的许多科学、组织、法律方面的具体复杂的问题。

1986年4月美国能源部总部收到了该研讨会的小结报告。我们的回答是征求能源部健康与环境研究顾问委员会的意见。为筹备一次正式申请,健康与环境研究办公室起草了关于两段工程的计划。第一阶段需要4 ~ 7年,以将基因组图谱的清晰度提高两个数量级。同时,它将加快顺序排列的步伐,发展数据管理和数据分析所必要的计算方法。每项目标都会与能源部主持的研究项目顺利结合,并且,每项目标都将利用国家实验室系统的独一无二的力量。第二阶段是对人类基因组进行顺序排列。两个阶段是一个整体。第二阶段的费用、第二阶段最优先进行基因组顺序排列的位点选择、以相应速度发展和解释序列数据的能力等都取决于第一阶段的进展情况。第二阶段的详细计划至今还没有拟定。

接到小结告后不久,我就和能源部研究助理干事讨论人类基因组工程对能源部的潜在影响和对国家经济发展的广泛意义。他是总干事的科学顾问,全面负责能源部大部分基础研究项目。白宫管理与预算办公室及国会主要人员也都注意起能源部和广大公众日益滋长的兴趣。

应助理干事的要求,健康和环境研究顾问委员会开始进行了检查与评估。劳伦斯 · 利弗莫尔实验室(Lawrence Livermore Laboratory)主席莫蒂默 · 门德尔松(Mortimer Mendelson)邀请伯克利加州大学化学教授伊格内多 · 蒂诺哥(Ignatio Tinoco)组织一个关于基因组的专门常务委员分会。而且,很快该分会就成立了。会员包括雷纳多 · 杜尔贝克、罗伯特 · 辛希默以及一批分子和医学遗传学方面的其他权威人物。该分会1987年发表了一份报告,竭力推荐能源部迅速发展这一工程。

1986年对人类基因组工程展开了热烈的讨论,五月在冷泉港,七月在霍华德 · 休多斯医学院,九月在国立健康研究院(NIH)。这一年秋天美国家科学院和国会技术评估局也开始研究这项工程。讨论范围广泛并继续扩大到一批复杂的课题,包括技术转让、伦理学、部门间的协作,以及财政预算。但,科学界争论最广泛的还是集中在大科学这个问题上。他们提出:一个大型的、组织复杂的、费用昂贵的工程是否会对众多的、耗资一般的研究机构为主的科研领域的发展产生不利?

大科学的问题

科学政策的形成与技术科学问题的形成一样也得从一般到特殊,即对问题的全面描述,而后直接对一些最利于解决问题的部分付诸实施。人类基因组工程也是如此。在圣大非研讨会和其他一系列会议上具体讨论了实现整个顺序排列的目标及花30亿美元集中在某一位点实施的问题。这些讨论及科技和其他一般性报纸的广为宣传引发了关于大科学与小型工业科学的优点的辩论。事实上,基因组工程对社会学、对国家科学研究战略的选择、对高度认识国家对科学企业三大组成部分——私人机构、国家实验室、大学——之间的协作的鼓励已胜过对生物学本身的影响。

无论是物理学还是生物科学,基础研究的主要组织形式都是小型的自治的小组,通常包括一位教授、一些研究生和一二位博士后的科研人员,也许还有几位技术员。小组并非组织严密,而是鼓励个人积极创造。通过训练,激励科学家提出问题并寻求答案。这种“小科学”的传统效益遍及四周。小科学引发了分子生物学和原子时代的出现。它产生了半导体、激光、以及最近的高温超导体。犹如家庭是社会的基本结构一样,小科学是科学的基本社会结构。

对小科学的赞扬是普遍的。它来自一些主要的小型研究小组,也来自那些支持小科学的大科学工程。然而,对于在国家财政预算中包括大型工程的重要性则是意见分歧的焦点。大科学意味着大量的资金、通常人们总认为一方得益,而另一方将受损。有人认为大科学将排挤小科学。

对大科学的恐惧有其主要的经济方面的根源。大型化对于生物医学的企业来说并不陌生。国立健康研究院资助一大批大型临床试验,其中许多试验需要几个研究中心之间的协作,而基因组工程性质是不同的,这并不是因为它的规模(虽大但不独特),也非因为它排斥小组形式(事实上它也不排斥),而是因为当它组织成生物、数学、物理、工程学等跨学科大组时,其功能可充分发挥。似乎没有几所大学能够顺利承担这种大型的研究。但国家实验室承担这个项目倒是相当合适。基因组工程将会重新活跃能源部实验室的生物研究。但是,这只有在格拉姆——拉德曼法规挤入国家科学预算并威胁到削减传统成功项目的资金时才能实现。

必须将科学预算看作零和对 · 策的观点并不令人信服。而且,由于这种看法引起的科学界内部的潜在分歧会长期影响科学的发展。作为一个国家,我们要在许多地方花钱。从总体看,这是明智的、合乎情理的,但也并非总是如此。在科学研究方面国家总预算仍有待提高。确实,国家政策的复杂性使之难以实现。但,克服困难的努力会促使其改变和发展,而屈服将最终导致停滞和衰退。利昂 · 莱德曼(Leon Lederman)在《科学》杂志上撰文热情地指出:我们所需要的是确信有益于科学的事情必定有益于国家的科学家们的大联合。科学家们应该调整力量,手挽着手,高举大旗,坚持一个信念,即科学是人类的最后希望。

对大科学的保留态度与经济特征紧密相关。反对在本世纪末实现基因顺序排列的一种最激进的说法是,目前缺乏完整的顺序排列也无碍生物学发展的速度。这种反对意见表明,研究显而易见的事物与探索未知的事物之间长期存在的历史纠葛。研究调查显而易见的东西不必担多大的风险,而期望一种伟大的发现则要冒极大的风险、人类基因组已经给我们一些令人吃惊的东西,如内含子的发现等。由于百分之九十九的顺序排列仍然个谜,我们应该要求有更多的重大的突破。

一个大国是能够把预算的一小部分用于冒险大、收益高的项目的。某些专家确实会说一个大国在其他方面是不用这样冒险的。然而,基因组工程不仅探索未知领域,而且它对医学和经济潜在的直接影响实际上已经十分明显。认识到这项工程的具体意义有助于赢得支持。1987年初科学界的调查就认为,要发展一项类似能源部首创的第一阶段计划,但范围更广,尤其是关于基因图谱定位。到1987年夏,能源部总干事在洛斯阿拉莫斯和劳伦斯 · 伯克利实验室组织全国研究中心,建议立法来激励国家研究项目,并促进预测的新技术向私人机构转让。如何达到这一步呢?回顾分子遗传学的最新发展则可以帮助人们认清为什么这一步对科学和社会产生的意义是如此的激动人心。

离分辨能力基因图谱

两个基因位点在染色体相隔的距离既可以由间隔碱基的数目来说明(物理定位),也可以由他们的共遗传频率(遗传定位)来说明。不在同一对同源染色体上的基因在成熟分裂时会独立进入不同的配子。因此,它们将在百分之五十的配子里一起出现,平均有百分之五十遗传给子代。在同一个染色体上的基因是互相连接的。但是,当成对的同源染色体片段互相交换时,它们在减数分裂过程中也会分离。可能发生在某些特定的成对基因间的染色体断裂(这可导致染色体间基因的易位)的可能性与他们的物理分离成正比。

托马斯 · 亨特 · 摩尔根成功地将这推理应用到果蝇基因定位中去。摩尔根的名字现已与用该方法取得的间隔距离联系在一起。厘摩就是指在一百次中共遗传九十九次的两个基因的间隔距离。平均每个染色体约有一亿对碱基。如果分裂在整个过程中可能均匀地分布的话,那么,一厘摩就相当于一百万碱基间的距离。

把性状分配于染色单体的摩尔根方法极大地依赖繁衍实验,故不能用于人类。最初将人类性状安排于特定的染色体内是采用性连锁遗传,1911年首次将色盲基因分配在X染色体中。在一些实验中,谱系的统计分析指出,一种特殊的基因可以在常染色体中发现。原则上,用不了知道基因怎样排列,基因连锁就可以这样确立了。然而,懂得基因的连锁,而不知道它们是在哪个染色体内,就有点像懂得肯萨斯仅次于密苏里但不知道他们位于美国中部呢还是临海的情况一样。很清楚,这就需要有一种方法使基因能定位于特定的常染色体内。

六十年代中期出现了突破,发明了一个从不同的标本中融合出细胞的有效方法。融合可以使遗传物质从一种细胞类型移向另一种细胞类型。尤为重要的是人类染色体注入老鼠细胞后就渐渐地随机地消失的。研究人员就可以据此选择最终留下的一条染色体的细胞。这样,从这一条染色体就能追踪到细胞的明显特征。如从人类表面的抗原细胞可追踪到存在于鼠细胞内单个人类染色体。

尽管发展细胞融合是把基因安排到常染色体上的—项重大成果,但是仍然需要一种使基因在特定的染色体上定位的办法。由于运用了染色技术,染色体在显微镜下显得很清楚。于是,这个矛盾在六十年代后期得到了解决。与染色体的变异有关的性状,如重排,可以在带状大小的区域进行。例如,伯基特淋巴瘤就与第8染色体和第14染色体之间的易位有关,既然这些变异的和正常的染色体之间差异能通过染色体来观察,那么,安排所要研究的基因则是可能的。一种典型的人类染色体大约有10条染色带。细胞技术允许图谱的分辨力约为107碱基均匀地排列,或者说以大约10厘摩。

许多变异现象并不像易位那样巨大,因此,一般低倍望远镜则无法看得清楚。例如,肉瘤初期出现的主要变化只是一个单碱基被替代,故一般需要其他类型的标志物,目前可使用的最有效的技术是建立在限制酶的运用上,即分隔脱氧核糖核(DNA),(—般按4、6、或者8个核苷酸长度)。当DNA被其中的一个酶分解时,这片段的长度表示它们分隔的距离。不同的人,当相应的DNA片段被同一种酶分解时,这些片段长度的分布有时候是不一致的。这就表明位点的增减,或者位点间存在不同数量的DNA。于是,这弯在特定位置上DNA顺序排列的多样性就反映在限制片段的长度上。

群体中变异极少的限制片段长度的多样性(RFLP)相对地说仍鲜为人知。在相当一段时间里,一个特定个体中的同源位置是相同的,因此,无法用高频率测出它们的交叉易位情况,以追踪标志物的遗传模式。例如,RFLP仅仅只有两种变异或等位基因,而同源染色体最多以百分之五十的时间具有不同的等位基因。这样,必然严重限制研究工作者对重组的窥察。

如果一种RFLP有大量的等位基因,那么,它的遗传模式是可以探究的。由于足量的这种可行类型的标志物,也许几百个一起均匀地分布在基因组里,其中总有一个会与带疾病的研究基因结合。这样,一种疾病的标志物就能由发现通过谱系的RFLP来取得。这就提供了一种发展诊断测试基因存在的基础,同时也是分离基因的良好开端。(这点下面将会讨论)但是,这并不说明基因在染色体上的位置(除非标志物的染色体的位置已经清楚)。制作RFLP的组合图谱能系统地决定基因在染色体上的大概位置一一甚至几组一起出现的基因——这是医学遗传学的一项重要目标。

利用谱系、RFLP、及其他方法已经将一个多基因图谱定位。但是,目前所排列出来的分辨力还比较低,因为一个基因一般有一万个碱基分布在比2 ~ 3个数量级还大的区域里。有一种向相关基因靠近的方法称为染色体行走(Chromosome Walking)。这项技术起初是用含有RFLP标志物的一种克隆系片,用基因库群克隆DNA片段,每个都与典型基因大小一致。这种基因库应包罗全部人类基因组。问题是要决定库内哪些无性系体重迭那些相基因。完成这一工作首先是要发现一种顺序与RFLP标志物重迭的克隆DNA片段,然后再发现与第一种重迭的第二种DNA片段,依次不断深入。步骤是明确的,但很缓慢。例如,寻找已久的囊肿性纤维化基因,在二十位欧洲血统的美国中仅有一位是隐性遗传。两年多前,这个基因被定位于第七染色体约一厘摩长的区域里。尽管人们知道它的确切的位置但仍无法使它分离出来。

过程缓慢的部分原因是基因库内的克隆DNA片段是无序的。因此,每一步研究人员都必须仔细查看整个基因库以寻找一片重迭的DNA。为此,洛斯阿拉莫斯、伯克利、利弗莫的国家实验室正发展一种用于人类染色体的有序的重迭克隆片的基因库。这样,库内每个克隆DNA片段的染色体位置将会标明。当这一安排在约5年以后完成后,科学界就可利用这个基因库了。极有可能它将由国立健康研究院主持。这一成果的运用将会提高一个数量级的高分辨基因的顺序安排的速度。使需要几个月完成的事情缩短为几天。

顺序安排的未来

一旦一个基因分离出来,下一步就是进行顺序安排,即决定其内部结构。现代DNA顺序安排方法是七十年代由美国阿伦 · 马克森(Allan Maxam)和瓦特 · 吉尔伯特(Walter Gilbert),英国的弗里德里克 · 桑格(Frederick Sanger)提出的。过程细节不同,但思想基础是一致的。各种长度的荧光或放射性标记的DNA片段,(甚至达几百个核苷酸长度),即以这种方法进行制备,以使每一个片段末端上的核苷酸都被知晓。片段则根据他们尾端是腺嘌呤、鸟嘌呤、胸腺嘧啶还是胞嘧啶定位于这四个组中的一个。片段被凝胶电泳分裂,每组以各自独立路线迁移,速度与大小相称;较大片段运动得更缓慢些。原始DNA片段的顺序简单地通过审视,四条路线就容易地确定了。如果G线路包括已经迁移最远的嵌带时,第一个核苷酸是鸟嘌呤。如果A线路包括次最远嵌带时,第二个核苷酸是腺嘌呤,以此类推。

用这一方法,每年几十万核苷酸由一位熟练的技术员以每碱基一美元的费用就可以安排顺序了。因此,在1986年的技术水准上,某些生物界的同行首先估计顺序安排单倍体基因组的费用为三十亿美元。这笔数目会使某些人震惊。但是,这个过程适宜用自动化,日本已经制订了用机器人以每碱基约十七美分的费用每天顺序安排一百万碱基的具体计划。能源部今后五至七年的目标是降低成本二个数量级,并在拟订第二阶段具体计划以前以类同的幅度来增加速度。

不论其目标是顺序安排人类基因组还是纯粹是更精确地图谱定位,大幅度地增加速度和降低成本是很重要的。如上所述,了解一个基因的多样性的表达将需要在包括数万碱基的位置上横向研究大量的个体,按今天的成本和速度,这样的研究是不现实的。如果第一阶段的目标实现了,那么,10万碱基的位置可以在几个星期里花20000美元对20个个体进行研究。这会促使和加快生物医学的发展。既然同样的技术可以应用于非人类基因钽,那么,它将对比较生物学和进化论都产生巨大的影响。

除了极大地推动基础生物和应用生物的发展外,第一阶段的成功很可能会影响生物科学实验的方法,更强调理论和假设,更依赖电脑技术。在过去的十年里,电脑在分子生物学领域发挥了日益重要的作用,这不仅体现在数据管理而且还在数据分析上。以往五年发生的事情只是这项研究迅速发展的初期。我们完全可以期望获取数据的速度成百倍地增长会激发新的研究。从神经网络理论到理论化学,因为研究者们总是尽可能迅速地了解并掌握从原始DNA顺序排列直至蛋白质功能的一系列有关密码。

如果第一阶段目标实现了,比如说1998年前成倍地降低顺序排列的成本和提高速度,那么,在本世纪末实现人类基因组顺序化在经济上更不成问题。七年耗资三千万美元,仅国立健康研究院和能源部两机构每年就需二三百万美元的资金。然而,当考虑到制订医学科学最基本的未知领域研究计划的潜在利益、注意到雕刻在特尔斐阿波罗神庙中的戒令切都不会过量时,上述这笔数字是不会引起过于激烈的争论的了。

[American Scientist年9~10月号]

——————

*圣大非系美国新墨西哥州之首府。