随着“DNA元件百科全书计划”(ENCODE)开展以来,科学家们发现,曾一度被认为的无用的基因并不存在,垃圾DNA也并非是垃圾,而是非常有用,只是过去人们并不知道这些基因的作用而已。

  2001年2月12日,中、美、日、德、法、英等6国科学家和美国塞莱拉公司联合公布人类基因组图谱及初步分析结果,发现人类的功能基因只有2万~3万个,数量只是人类基因组的1.5%,其余的98.5%的基因由于不知道其遗传信息的角色和功能,曾一度被称为“垃圾DNA”。
  新的研究发现,这些所谓的垃圾DNA并非是垃圾,而是有着极其重要的功能。

DNA元件百科全书计划

  伊萨克·牛顿早就说过,自然不行徒劳之举,少已够用,多则何益。既然人类有2万~3万个基因,肯定是“天生我才必有用”,否则就不会在进化中占据人类遗传信息如此大的空间。
  于是,在2003年人类基因组计划全部完成之际,研究人员也启动了另一项为DNA撰写百科全书的艰巨任务,探索这些大量的没有功能的基因到底有什么作用。这个计划称为ENCODE,意为DNA元件百科全书(Encyclopedia of DNA Elements),也就是探明人类基因组中的DNA每个元件的功能。正如参与ENCODE项目的英国桑格研究所研究人员珍妮弗·哈罗所说,如果说人类基因组计划提供了一张地图,那么ENCODE计划就在这张地图上标出了各个基因的功能信息。
  ENCODE计划的参与者包括美国、英国、西班牙等5个国家的32个实验室共442位科学家,他们获得并分析了超过15兆兆字节(15万亿字节)的原始数据,并分别在《自然》、《基因组研究》和《基因组生物学》等杂志发表了30余篇论文,公开了ENCODE计划的内容――对147个组织类型进行了分析,以确定哪些特定的基因能打开和关闭,以及不同类型细胞之间的基因“开关”存在什么差异。
  研究人员认为,过去所称的垃圾DNA实际上是一个庞大的“控制面板”,这个控制面板至少包含有400万个基因的开关,可以调控数以百万计基因的活性。如果没有这些开关调控,基因将不能正常工作,而这些区域的基因也许会导致人类患上疾病。因此,人类基因组至少80%以上都是有功能的。

垃圾DNA如何起作用?

  研究人员早就发现,具有共同的基因未必会产生相同的蛋白质产物,关键在于基因能否被激活或激活的强度如何。例如,同卵双生的孪生子具有完全相同的基因组,但是,他们即使在同样的生活环境下也会表现出不同的性格,这是因为他们的基因活性并不相同,同样的基因,有些活性大,有些活性小。而基因活性的大小则由另外一些基因开关控制,这些基因开关在过去被视为是垃圾基因。
  那么,垃圾基因是如何发挥作用的呢?研究发现,是由一些重复性DNA发挥作用的,其中就包括转座子(是很多生物中的可移动的遗传因子,即一段DNA序列可以从原位单独复制或断裂,环化后插入另一位点,并对其后的基因起调控作用)和反转录转座子(以相反顺序转录)。人类基因组中大约一半的DNA是由重复性基因片段构成,也包括转座子(transposon),它能换位到基因组内的不同位置,同时还有反转录转座子(retrotransposon),可被转录进核糖核酸(RNA),之后被重整入基因组DNA。
  人类基因组中最常见的重复序列是Alu(由于DNA序列中有限制性内切核酸酶AluⅠ的识别序列AGCT,所以称为Alu重复序列)。Alu重复序列也是反转录转座子,它拥有超过100万个拷贝,占据了人类基因组的大约10%。
  美国爱荷华大学医学院的研究人员研究发现,过去认为无用的重复性Alu序列其实是新的外显子(expressed region)的主要来源。外显子是真核生物基因的一部分,剪接后它仍会被保存,并可在蛋白质生物合成过程中表达为蛋白质,而且外显子是最后出现在成熟RNA中的基因序列,又称表达序列。所以,外显子也是功能基因或者能调控基因表达的特殊基因。
  Alu是灵长类特异性的反转录转座子,它可以制造外显子,这些外显子可能有助于形成灵长类的独特特性。研究人员使通过拥有将近600万个探针高密度外显子微矩阵技术,用以监测人类所有外显子的表达模式。对所得数据分析后,研究人员发现,11个人类组织中330个外显子来源于Alu序列。
  例如,人类的一种基因SEPN1与肌肉营养失调有关。对比来自黑猩猩和短尾猿组织的数据发现,一个来源于Alu的肌肉特异性外显子是源于人类和黑猩猩进化分歧后产生的,这个外显子只在人类肌肉中高水平表达,但在任何其他人类组织或非人类灵长类组织中均不表达,因而人类会患及肌营养不良疾病。

让功能基因沉默或表达

  有时候,“垃圾DNA”的功能更重要,因为它们是调控功能基因的基因,可以让一些功能基因沉默,也可以让一些功能基因具有高活性并充分表达,从而产生功能蛋白质――即对功能基因甲基化让其沉默,反之,功能基因获得表达,产生不同的蛋白质。
  有一种叫柳穿鱼的花卉,大多呈现出对称的白色花瓣,小部分为黄色五角星。一般人以为这是两种不同的花卉,但实际上它们是同一种花卉。之所以表现为不同颜色和形状的花卉,不是因为它们的基因不同,而是在基因调控中一些基因被甲基化,致其沉默不再表达,花朵就变成对称的白色花瓣。而没被有甲基化的基因有活性,其所编码的花的颜色和形状呈现为黄色五角星。
  同时,研究人员发现了大量由“垃圾DNA”对功能基因进行的甲基化调控。基因的甲基化又称DNA甲基化,是一种对基因的修饰途径。大量研究表明,DNA甲基化能引起染色质结构、DNA构象、DNA稳定性及DNA与蛋白质相互作用方式的改变,从而控制基因的表达。
  在甲基转移酶的催化下,DNA的CG两个核苷酸的胞嘧啶被选择性地添加甲基,形成5-甲基胞嘧啶(5-mC)和少量的7-甲基鸟嘌呤(7-mG),而DNA甲基化可引起基因的失活,即沉默。
  RNA也像DNA一样携带着遗传信息。研究人员最近发现,信使RNA(mRNA)并非像过去那样被生物学家认为是DNA和蛋白质之间的简单中介,它也会通过腺嘌呤加甲基的方式而被化学性修饰。过去认为,mRNA只含4种核苷碱基。但是,新的发现表明,N6-甲基腺苷(m6A)是mRNA的第五种碱基,它遍布在转录子中――20%的人类mRNA可被常规地甲基化,5 000多个不同的mRNA分子均含有m6A。意味着这种修饰可能广泛地影响着基因的表达。
  例如,mRNA被甲基化与肥胖有关。有一种与肥胖相关的基因称为FTO,它能编码一种将mRNA中的m6A逆转到常规腺苷的酶,引起N6-甲基腺苷水平低下,食物摄入和代谢异常,从而导致肥胖。全球约10亿人具有FTO突变,此突变是肥胖症及2型糖尿病的主要诱因。
  现在,研究人员正在研究mRNA的N6-甲基腺苷水平,即甲基化调控是如何与肥胖和糖尿病联系的,从而可以研制一些药物以抑制FTO的活性,预防和治疗肥胖和糖尿病。
  所以,无用的基因并不存在,垃圾DNA也并非垃圾,而是非常有用,只是过去人们不知道这些基因的作用而已。

责任编辑 则