郭礼和教授

  “垃圾DNA”这个名字出自上世纪70年代。在这之前已经发现真核细胞(有细胞核结构的细胞)染色体上的基因(编码蛋白质信息的染色体或DNA片断)之间是不连续的,也就是基因之间存在很大的间隔,就像上海到北京的铁路(比作染色体,也可看作DNA)有许多火车站(比作基因,也就是编码蛋白质信息载体),但两个城市之间的火车站只占据铁路总长的1.5%(也就是基因只占DNA总长的1.5%)。故而,1972年美国加州理工学院大野乾对不编码蛋白的染色体片断(也就是火车站之间的铁路,占上海到北京总长的98.5%)称为“垃圾基因”(不编码蛋白质)。

1.5%与98.5%

  70年代后期,由于DNA测序技术的诞生和使用,证明不仅基因之间有很长的DNA不编码,就是基因内部也存在有许多不编码的间隔,说明一个完整的基因实际上是由许多不连续的DNA编码片断拼接起来的。因此,科学家把这些不编码蛋白信息的DNA统称为“垃圾DNA”。但是,对原核生物(病毒和细菌等,也就是没有细胞核的单细胞生物)DNA测序,发现它们的基因内部却是连续编码,基因之间的间隔也很短,说明它们的垃圾DNA(不编码的DNA)很少。真核细胞与原核细胞的基因组和基因结构为什么有这样大的差异,这使人们产生很多联想和推测。
  真核细胞产生这么多的“垃圾DNA”究竟干什么?到了上世纪80年代后期,DNA测序技术已经完全实现了自动化,故而人们提出:花30亿美金和15年时间将人类的基因组(人的细胞染色体全部DNA)序列进行分析,这就是所谓“人类基因组计划”(HGP)。此计划从1990年启动到2003年完成,实际只花了13年时间。但是,这项人类历史上最大的科学工程实际上只是完成了一个草图。因为,研究人员只是将人类基因组的序列测出一部分,还有很多空隙未测出,主要是涉及到一些重复序列(约占基因组的50%,包括所有染色体的着丝粒区域,这些区域一般不含基因),它们的序列用现有技术很难测出。根据已测出的序列和结构分析,基因只有2.6万个左右,占基因组总长度约1.5%,而98.5%的DNA为非编码区,也就是人们通常所说的“垃圾DNA”。
  这98.5%的“垃圾DNA”究竟干什么?于是,科学家们在完成“人类基因组计划”的草图之后,启动了ENCODE研究计划,进一步对那些基因组空白处进行测序,并探索这些大量的“垃圾DNA”的功能,编篡DNA元件百科全书(Encyclopedia of DNA Elements)。上述两个研究计划可以分别称为“结构基因组计划”和“功能基因组计划”。
  “结构基因组计划”的完成证明:人类和小鼠的基因组大小、基因种类和数量、甚至基因的结构都很相似,但在个体形态和智慧方面的差异却有天壤之别。两者的基因组最大差异就是“垃圾DNA”,由此可见“垃圾DNA”并不“垃圾”,它可能与物种进化、胚胎发育、个体生长、疾病发生、机体衰老和死亡等生命现象有着密切关系,也就是与控制基因的变异、突变、表达、调控等密切相关。

“演员”与“导演”

  可以把生命活动简单地理解为一台电脑在进行一项工程设计,例如用电脑设计飞机。要完成这项任务需要两样东西,一个是“数据库”,另一个是“软件包”。有了这两项工具就可以设计出个各种类型的飞机。生命活动中的基因库可以把它理解为“数据库”,因为小鼠、猴子与人类的基因库大同小异,而且可以相互替代。“垃圾DNA”可以把它理解为“软件包”,利用不同物种的“软件包”(也就是不同物种的“垃圾DNA”)可以设计出小鼠、猴子或人的有机体。
  也可以把生命活动理解为拍一部电影,基因组(或染色体)就是电影的剧本,基因编码的蛋白质可以理解为演员,“垃圾DNA”就是导演。不同演员的出场和退场或再次出场都是导演根据剧本的情节来安排,这样就可以展现出一部有血有肉有情感的动人场面。导演不仅要指导演员的表演,而且要安排舞台灯光变幻和道具的变化来烘托舞台场景和故事情节。“垃圾DNA”在生命活动中的演绎也是像电影导演那样如此忙碌,故而需要大量的“垃圾DNA”,但它们不出场,也就是不编码蛋白在细胞的生命活动舞台上出现,可是不同蛋白何时出场何时退场或再出场却是由“垃圾DNA”来决定的。
  从某种意义上来说,物种相近的基因组主要差异不是基因(当然基因也可有差异),而是“垃圾DNA”。例如,人和猴子;尤其人与人之间的遗传差异主要是“垃圾DNA”,这就造成人与人对疾病的发生和药物敏感性有差异,也就是为什么需要个体化医疗的原因。

责任编辑 则

――――――

本文作者系中科院上海生科院生化细胞所研究员。