在认识人类基因组的赛程中克服了第一个障碍之后,我们还有许多工作要做。医学上的潜在回报将是巨大的,其中包括适合你本人基因的度身治疗等——

  基因组:编码和不编码蛋白质的DNA

  人是什么造成的?2000626日,科学家们宣称已经找到了答案。经过10年的艰苦努力,终于绘出了一张人类基因组序列的“工作草图”——一张创造人类的处方。弄清基因组将使人类生物学和医药发生革命性变化,但粗糙的序列草图还与精确的认识相距甚远。

  基因组(genome)一词是由基因(geue)和染色体(chromosome)两个字组成的,定义为细胞中的全部遗传物质,即DNA1990年启动的人类基因组计划(HGP)的主要目标是使用取自不同种族背景的无名供者的DNA,测出构成人类基因组的30亿个碱基对的全部序列。这是一项无比艰巨的任务——如果写出来,这个序列将载满200本电话号簿那么大的书,9年才能朗读完毕。科学家们希望能在2003年,即沃森和克里克发表DNA双螺旋结构之后的50年完成这一任务。

  大多数基因是为制造蛋白质的氨基酸编码的,对人类基因组进行测序的主要兴趣是在于识别全部人类基因并弄清其特性。仅此一项任务已足以使生物学家们忙上几十年;然而基因仅只构成人类基因组的约3%,余下的97%是不编码蛋白质的DNA

  科学家们为什么要投入如此多的时间和金钱去为不编码的DNA(有人称之为DNA”)测序呢?原因在于“废DNA”其实不废。不编码的DNA有多种类型,其中有的对基因组的结构、功能和进化至关重要。

  introns即基因内的不编码序列区段,它阻隔真核细胞基因的编码区段exons。制造蛋白质时,细胞机器首先产生一个DNA基因序列的确切的RNA副本。然后,酶就将introns移去,而将exons连接起来形成信使RNAmRNA),这一过程称为拼接mRNA是制造蛋白质的分子复本,为什么细胞要干这等麻烦事儿呢?原来introns有一个重要作用就是扮演隔离带”的角色。DNA可以在introns内发生断裂而不致损及基因的编码区,从而便于让exons改变其在序列内的位置。“exons移位能使所产生的蛋白质的结构变化,比逐渐积累个别碱基突变所产生的变化来得更快。因此introns有助于加速进化过程,让物种更易于适应不断变化的环境。

  在基因与基因之间大量不编码DNA的存在,也许更使人迷惑不解,这些DNA大多是以重复序列的段落呈现的。有些重复序列对保持染色体的结构如着丝点和端粒等很重要。着丝点的作用有如一些抓物的把手,可在细胞分裂时期将复制的染色体拖入子细胞。端粒是染色体顶端的序列,可保证细胞的DNA复制机器准确地复制染色体的两端。端粒随着细胞的不断分裂而逐渐损耗,当它们完全消失时染色体的其余部分就会受损,细胞就会死亡。一种称做端粒酶的酶能重建端粒,但在正常情况下它仅见于生殖细胞。许多癌细胞中也含有端粒酶,这使细胞会无限地分裂。

  试图弄懂人类基因组如何决定一个人,就如用一大堆只知其编号而没有名称或说明的部件来组装一架汽车引擎。整个过程叫做“注释。它至少包括对每一个基因的起始、终端以及intron-exon结构进行鉴定。全面的注释不仅要为人类基因组的所有基因编目,而且要弄懂每个基因的作用。科学家们了解基因作用的方法是看某一基因是否与已知其功能的其他基因相似。将人类基因序列与小鼠、果蝇等模式生物比较,也能得到有用的信息。研究人员应用由生物信息学家们编制的复杂的计算机程序来做这些工作,但过程较繁,程序也运行得不很完善,还有待改进。

  目前,科学家们还只是根据工作草图而不是完整的序列,来想方设法估算人类基因组包括的基因数量。估算结果差异很大,少至3.5万,多至10万。科学家们争论热烈,为答案打赌。

  赌注大数量者认为,通常总是更复杂的生物拥有更多的基因,因此只有较大的基因数量才能解释人类的复杂性。赌注小数量的科学家则说,复杂性是与基因的调节和表达有关,而并非与基因的数量有关。他们指出,果蝇要比更简单的线虫少约5000个基因。此外,研究人员还通过计算机分析来估算染色体22上的基因数量,并以此推算基因组的其他部分,结果也接近于3.5万。答案的揭晓仍有待于2003年,到那时才能宣布谁是赢家。

  必需基因、非必需基因、多余基因

  几乎所有的基因都编码各种蛋白质,这些蛋白质又相互作用以多种方式产生生命有机体。有些基因是必需的,例如胰岛素接受器基因在代谢中起重要作用。其他基因,如决定眼睛或头发的基因则是非必需的。然而,人类基因组中的基因数量很多,有时几个基因的蛋白质产物能发挥同样的生物学作用。这些基因叫做“多余基因,通常具有相似的序列。

  哪些基因对生命是必不可少的?是否存在一组为一切生物所共有的蛋白质?科学家们已开始通过对不同细菌的基因内容进行比较的方法来研究这些有趣的问题了。例如,由塞莱拉基因组首席研究人员文特尔率领的研究小组对一种只有480个蛋白质编码基因的细菌,通过逐一摧毁它的一个个基因,最后发现265350个基因是生长所必不可少的。

  这一发现开启了建造一个人工生命有机体的大门。理论上,科学家能够制造一条只包括这些必需基因的人工细菌染色体。他们可将它放入一个除去了天然基因组的细菌内,以观察这些基因是否足够建造一个活细胞。但这个试验不仅技术上难以进行,而且会引起安全和伦理学问题。文特尔目前正在等待神学家、法学家和哲学家们的反应,再决定是否进行这一试验。

  一个人的基因组有99.8%是与别人相同的。因此仔细分析一个人类基因组序列就能对生物学和医学研究产生很大作用。然而,每个人又都是独一无二的。正如19世纪60年代孟德尔的豌豆试验所显示的,一个物种内的变异可导致千差万别的性状。

  同一基因的不同版本叫做等位基因。等位基因是因DNA序列的种种变化,如缺失、嵌入、重组或单个碱基对的改变而造成的。有的研究人员正在研究单个碱基对的变化——单核苷酸多态性(SNP——作为广义人类基因组计划的一部分。基因组中约有300万个位点发生SNP,其对基因功能产生的影响依具体的碱基变化和发生的地点而定。研究人员对SNP感兴趣就是因为它们与每个人的独一无二性有关。

  一个物种不同个体之间的遗传变异是进化所必需的,否则物种就无法适应环境的变化。但并非所有变异都是有益的。一个名叫LPL的基因编码一种与脂肪代谢有关的酶,研究发现这个基因中的某些SNP会间接地引发心脏病;还有一些遗传变异则严重损坏基因功能从而直接致病。这种变化称为有害突变。

  有些遗传疾病如囊性纤维变性或肌肉营养障碍是单个基因突变造成的,称为单基因疾病。过去20多年的技术进步已分离和定性了与100多种单基因疾病有关的基因。研究人员对发病家族进行调查以弄清楚疾病是如何代代遗传的。他们从家族成员那里取得DNA样本,对散布在基因组中的称为分子标记的DNA片段进行测序。通过观察哪些标记的序列在发病家族成员中出现得更加频繁,他们就能弄清楚与疾病有关的基因存在于哪一染色体上及其大致位置。

  以往,研究人员随后就必须沿染色体进行艰苦的测序工作,从所关注区段附近的已知序列开始,直至分离出与疾病有关的基因。如今,人类基因组计划已使这一技术发生了革命性变化,研究人员只要查找染色体有关区段中基因序列的计算机数据就行。

  单基因疾病和多基因疾病

  虽然研究人员已经逮住了造成某些单基因疾病的作恶基因,有效的治疗仍严重滞后、令人失望。基因疗法包括应用有缺陷基因的功能完好的副本作为一种药物,看似可行,仍因技术上的困难而发展受阻。

  单基因疾病对个别家庭是毁灭性的,然而在总人口中还是少见的。糖尿病、高血压、哮喘、癌症、精神病等对公众健康的威胁要大得多。由于这些疾病的遗传方式更为复杂,确定它们的遗传原因对研究人员来说也是更大的挑战。

  孟德尔通过研究豌豆不同的园艺品种而发现了遗传定律。品种间的区别是由单个等位基因的突变造成的。每个等位基因产生十分明显的表现型,如植株的高矮等等,因此孟德尔很容易解释试验的结果。但对他园地里遗传上纷繁复杂的野草,他可就不那么能作出结论了;而人则更多地像野草而不像豌豆。绝大多数由基因决定的人的性状(如身高、代谢活力、智力等)并不遵循孟德尔遗传定律。

  多基因疾病是由几个基因的联合影响造成的。环境因素也会影响疾病的发展。因此这类疾病叫做复合性状。人又不能像小鼠那样进行育种试验,环境条件因不能进行严密控制,也很难将环境影响与遗传影响分开。因此,对造成这类疾病的基因的鉴别,要比预期的慢。

  虽然如此,某些多基因疾病的有关基因还是被鉴定了。在有的情况下,一个特定等位基因的遗传会对一种疾病的发病可能性产生主要影响,但其他基因的存在也能影响疾病的发展。例如,现已有证据说明迟发的早老性痴呆的发病受一个人携带阿朴脂蛋白基因的等位基因的影响,同时其他基因也起作用。

  迄今为止,对这类疾病的有效疗法的开发,已证明要比确定疾病的遗传原因更难。对一个人会患某种疾病虽已可能预测,却无法提供有效的治疗。可悲的是,对于一个可能罹患乳腺癌的年轻妇女来说,乳房切除目前仍是最有效的预防方法。

  现在研究人员在鉴定致病基因方面已取得很大进展,但迄今他们仍集中主要力量于鉴定个别基因,并推断基因之间如何相互作用。然而生物的生命并非仅靠某些关键性基因的作用,而是有赖于大量基因相互作用的复杂网络。

  现在两项新技术的发展令人鼓舞,已使科学家们获得了解决这个复杂难题的许多线索。微阵列技术(microarray technology)和蛋白质组学(proteomics)能提供不同环境条件下细胞或组织中基因表达的“瞬间图像”,并分别对几千个信使RNA分子和蛋白质的表达进行分析。

  微阵列技术是分子生物学中的一种基础技术,它依据杂交原理:如果单股DNARNA分子一起加热到65℃,含有互补序列的各股之间就会互相粘合(杂交)。因此,研究人员若将已知DNARNA分子以荧光或放射性化合物标示,他们就能用这些分子找出具有相似序列的DNARNA。依据杂交原理的技术可用来寻找待查的DNA序列,以至鉴定样本中能表达的基因。用微阵列技术一次能同时分析100万个基因或基因片段,远比一次试验只能分析一个基因的传统杂交法优越。

  微阵列技术大多应用于转录制图(franscript profiling)——逐个基因地比较两个组织之间表达水平的差异,提供了解基因功能的线索。例如,只在胰腺内表达的基因不大可能直接与早老性痴呆有关。对同一组织不同状态的表达进行比较,也能提供线索。

  微阵列技术还加速了药物开发,使之更易于选中基因目标。药物针对只在少数组织中表达的基因,其副作用比针对全身表达的基因要小。研究给药后基因表达的变化有助于说明一种新药的作用,并在临床试验中预早指明这种药物是否有效或有否毒副作用。

  医学上将越来越推广专门开给特定病人的药物处方,微阵列技术在这方面也能提供帮助。有时,一种疾病能在不同病人中产生很相似的症状,但其基因方面的原因则全然不同。例如,两种白血病AMLALL的症状就很相似,但治疗方法则有异。应用微阵列技术,科学家们已发现在这两种形态的白血病中有50个基因表达不同。因此,对新的白血病例现在已能进行正确的诊断和确当的治疗。

  科学家的目标是使医生能根据你的基因构成来处方,这些科学家已开始将决定不同人的药物反应的SNP加以登记。这些SNP一旦被鉴定,微阵列技术就能用来筛选与病人特定SNP有关的基因组。例如,携带细胞色素P4SO酶的某些变体的人不能将止痛药可待因转变为吗啡,因此用该药无效。更好地了解药物如何发挥作用能减少临床试验所需病人的数量,从而降低药物开发的费用。

  蛋白质组是由一个基因组表达的全套蛋白质。基因组是近乎稳定的;而蛋白质组则因内部和外部的影响而变化。例如,含有相同基因组的细胞在发展成为不同的组织时,因蛋白质表达的不同而发生分化。再如exons拼接方式的差异,还说明许多不同的蛋白质可由一个基因产生。因此,蛋白质的种类约比基因种类多10倍。

  可见,仅仅基因信息不能给我们有关细胞内变化的全部图景。例如,我们虽已鉴定了支原体genitalium的全部480个蛋白质编码基因,我们仍不了解蛋白质的功能以及各种蛋白质的关系。

  蛋白质组学——对细胞内表达的蛋白质的大尺度研究——近来成为一个重要的研究领域。首先,生物量光谱技术已大有进步,成为鉴别蛋白质的有效方法;其次,对全部人类编码序列的了解,说明科学家已能确认一种蛋白质的少数氨基酸,然后通过检索数据库来鉴定那种蛋白质。

  分子生物学已使生物学革命化,新的技术又正在改变我们对生命的观念。微阵列和蛋白质组学等先进技术将使我们有能力去揭示基因和蛋白质如何赋予生物小生命。来自各种生物的基因组数据将使医学和生物学研究的许多领域得益,从而为新的更精确的疾病治疗开辟前景。从人类基因组测序起步的途程还刚刚开始。

[New Scientist2001217]