从“垃圾”变来的我们：基因是怎样诞生的

发布时间：21年07月27日

编译张力张蔚

你来自一堆垃圾， 但请不必为此烦恼， 因为人皆如此。现在， 遗传学家正逐步认识到在你基因组中的这些 “垃圾DNA” 的重要价值。

在遗传学研究史的大部分时间里，那些声名显赫的遗传学专家均持有相同的观点：你，你的母亲，你的曾叔祖，亚伯拉罕 · 林肯，甚至成吉思汗蒙古大军的每一个士兵皆携有大量的“垃圾DNA”。2003年，人类基因组计划落下帷幕，人类在历经13年的不断努力后获得自身的完整基因组草图，却又在其中发现，约98.8%的基因组是“垃圾DNA”，剩下1.2%才是人类生存繁衍需要的蛋白质编码序列。从组成序列的碱基来说，每个人类个体中有大约64亿个亚单位——称为核苷酸——一些在我们的每个细胞中组成了DNA，更多的好像束之高阁的箱子，看似毫无作为，却占据了大量空间。

图1 人类基因组项目持续13年，目标是获取人类基因组中的全部遗传序列。该项目的一个特别有意思的发现是蛋白质编码基因（约22 300个）仅占人类基因组的1.2%，剩下的98.8%全是非编码的无功能“垃圾DNA”。跨物种的“垃圾DNA”分析正在揭示它们在产生基因过程中所扮演的角色

研究人员普遍认为这一类人类遗传序列是随机产生的无功能序列。事实上，我们也并不孤单。某种程度上，每一个起源于27亿年前的单细胞共同祖先的真核生物都是“垃圾收藏家”。以哺乳动物为例，“垃圾”序列约占基因组的85%到99%。遗传和演化生物学家大野乾在复制基因演化领域的研究享有盛誉，他曾经写到，随机的非编码序列没有可能自发地演化出有功能的蛋白质编码序列。但是，这种经典的阐释留给后人一个巨大的谜团：“垃圾DNA”存在的意义是什么？

对于多数遗传学家而言，以上问题的答案是这些DNA没有任何功能。在中心法则的理论体系中，遗传信息的传递似乎并不太多涉及我们的基因间区的序列。根据传统的观点，一个基因包含了由4种碱基组成的序列——腺嘌呤（A）、胞嘧啶（C）、鸟嘌呤（G）和胸腺嘧啶（T）。每三个连续的核苷酸组成一个密码子，每个密码子对应着蛋白终产物中的一个特定的氨基酸或蛋白的构成单元。在活跃的基因里，有害的突变被选择所淘汰，有益的突变得以保留。然而，非编码区域并不以蛋白的形式表达，因此无法区分有害或有益突变。换句话说，自然选择无法驾驭“垃圾DNA”的突变。

大野乾后来又相信，所有有功能的人类现代基因均具有一个古老的谱系，在人类演化的近亲里只发现了这类基因经过微调的版本。他在1972年发表文章“基因组中充斥‘垃圾’DNA”，认为非编码序列的作用最多是用于分隔蛋白质编码区域。不幸的是，他逝世三年以后，人类基因组计划才完成。我们已无法得知，他是否依然会认为人类基因组中充斥大量“垃圾DNA”，或重新审视他关于基因组“垃圾DNA”的部分观点。

传统观点在2006年开始动摇。这一年，加州大学戴维斯分校的米娅 · 莱文（Mia Levine）和大卫 · 比甘（David Begun）发现果蝇中某些基因没有祖先序列，进而提出了从头起源新基因的概念。蛋白质是一类结构复杂精巧的事物，因此不太可能由随机组成的核苷酸序列通过积累足够的有益突变而演化出具有完整的、折叠正确的、有功能的并且全新的蛋白质编码序列（图2）。我们的研究立足于从头起源新基因，发现全新蛋白质是不断产生的。例如，我们通过演化分析发现粳稻（一种主要的亚洲栽培稻）中至少发生了175次从头起源新基因的事件。并且，这才仅仅是一个物种的数据。

图2 DNA序列的突变。我们的遗传信息以DNA序列的形式存储在染色体中。DNA序列以双链形式存在，由4种核苷酸组成，包括腺嘌呤、胞嘧啶、鸟嘌呤和胸腺嘧啶；图中展示了自然存在或称为野生型的DNA序列。三个连续的核苷酸组成了一个密码子，编码氨基酸或者终止子。核苷酸突变可能导致密码子也就是氨基酸改变（错义突变），但不是所有核苷酸突变都会导致氨基酸变化（同义突变）。更为极端的情况下，核苷酸会丢失或者新增，造成移码突变，此时蛋白质翻译的阅读框会发生改变

是束之高阁的箱子，还是有待解锁的藏宝箱？这是一个从遍地沙砾中发掘丰富宝藏的故事。我们在一项大规模的国际科研合作项目中取得了革命性进展，即在全球最为广泛分布的作物之一——水稻中发现了许多从头起源新基因。短短几个百万年内，新基因在杂乱无章的非编码序列中产生，如同随机字母凑到一起产生了新的单词（图3）。就像我们所发现的，一部分从头起源新基因是栽培稻独有的，而在它的野生祖先中则完全没有。这些研究中发现的基因，不太可能是野生稻多次独立基因丢失事件的结果，更有可能在栽培稻起源过程中发挥了重要作用，并因此养活了全球相当大一部分人口。

图3 一个演化树展示了从头起源新基因的产生。随机产生的突变在基因组中到处累积，也包括那些不编码蛋白质的区域。虽然通常这类突变并不会对非编码区域造成影响，但有时它们会催生一些具有蛋白编码能力的从头起源的新基因。对于相关物种间的非编码遗传序列进行演化分析，可发现新基因随着时间推移而出现

在没有明显祖先起源的情况下，这些基因出现的唯一可能是从无到有地从头起源。人类基因组跟水稻基因组一样，是一个充满了“垃圾DNA”和潜力的巨大仓库。我们即将见证，挖掘这些“垃圾DNA”将成为解锁生命起源的一把钥匙，也将是揭示塑造物种形成的驱动力的关键。

在沙砾中挖掘宝藏

截至2017年春末，华中农业大学的欧阳亦聃和她的博士研究生们从水稻中收集了超过6万份花粉及其他组织的样本，用于研究从头起源新基因的表达分布。欧阳期望通过分析这些样品来确认这些从头起源的新基因是在哪些水稻组织中发挥作用的，然而遗憾的是，她发现这些基因的表达很难被检测到。

经过数月的努力和尝试，这个项目仍然进展缓慢。欧阳亦聃和她的研究团队花了半年的时间等待在中国海南热带岛屿栽培的水稻充分地生长成熟。在确保了不同水稻品系的成功生长，并安然度过了台风季以后，他们真正的工作终于开始了。整个团队每天需要在清晨5点到6点间去实验田里收集细小的雄蕊，即花中包含花粉的部分。如果采样开始的时间晚了，很可能就会受到台风季节坏天气的影响。在日照最强烈的晌午，气温通常可达到40摄氏度，雄花随时会在高温下枯萎。整个收集工作一直持续，直到他们对每个水稻物种都收集到6万个雄蕊，大约相当于1克花粉，才能满足检测从头起源新基因翻译产生的蛋白质的最低要求。然而，要开展这项检测却要另觅他处，检测设备位于中国南部城市深圳。深圳华大基因组测序公司的两位蛋白质组学专家任艳和刘斯奇早已等候这批样品多时，他们设计开发了一种叫作靶向蛋白质组的先进技术，专门用于检测从头起源的新基因是否翻译产生了新的蛋白质。

如何把样本送到深圳是个挑战。欧阳亦聃团队计划用液氮存储样本，通过飞机将样本送往750公里以外的检测中心。如果读者有过运输液氮罐的经验，甚至会怀疑通过航空运输实现该计划的可行性。

海南的字面意思是大海的南边。这个描述在古代意味着世界的尽头——一个甚至跨越了大海的地方，通往无际海洋的最后一站。笔者（指代“龙漫远”）在高中时期也一度这么认为。1966年开始的“文化大革命”使整个中国动荡不安，大学关闭，年轻人缺少就业机会。笔者1974年高中毕业后唯一的选择是去乡下当农民，1977年机缘巧合来到海南种过水稻。这个地方在古代中国王朝是流放之地，也有一些贤臣名士被贬于此。最有名的当属苏东坡，宋朝的“莎士比亚”，在925年前曾被放逐海南。他们无处可逃，被无边无际的大海包围。在残酷的政治氛围和贫瘠的农耕经济条件下，这个岛屿仿佛孤悬大海，即使与大陆最近的地区也显得非常荒凉。笔者曾在烈日下工作，户外温度足以烤熟沙子里的鸡蛋。尽管岛屿的土地肥沃，生存依然是个巨大的考验。

笔者最终离开了海南岛，幸运地远离了如此艰苦的生活环境。而2017年6月，笔者满怀希望，再次踏上这片土地，同样恶劣的气候这一次变成了团队完成研究的希望所在。

事实如我们所料，这个岛屿的热带气候和频繁的飓风创造了适合水稻生长的理想环境，这也是我们的研究所必需的。水稻是演化生物学研究的理想物种，这得益于其一方面可以大批量种植，另一方面生长周期比哺乳动物要短很多。此外，我们还想要在经历驯化的物种中寻找从头起源新基因。可供食用的栽培稻是多年人工选择的结果。早在13 000年前，人类就开始选育其优良品系，并造就了农耕社会。这段历史意味着栽培稻与野生稻的实际分化时间并不算长，但是人工选择加速了栽培稻的遗传变异积累。同时，栽培稻的野生祖先也在自然界繁衍并历经数千载，在这个过程中积累了大量的遗传变异。最后的结果是，栽培稻在驯化过程中产生了独有的新基因。其中，雄蕊是我们重点研究的样本之一，因为相对于老基因，新近产生的基因倾向于在雄性生殖器官富集表达。

遗传学家张力，与笔者在芝加哥大学共同工作。他用了近两年的时间对10个水稻近缘物种和假稻属外类群基因组序列进行计算分析，在2014年首先观察到水稻基因组的“垃圾”序列中衍生了大量新基因。张力所采用的高质量的基因组和基因注释是该分析得以开展的根本，而这完全得益于亚利桑那大学基因组科学家若德 · 翁（Rod Wong）领导的国际水稻基因组演化项目。在这么短的演化历程中水稻产生了大量从头起源新基因（图4），这着实出乎意料，因为在这个时间尺度下，无论是人类，还是小鼠或者果蝇的“垃圾”序列似乎都陷入了休眠。无论如何，我们需要种植水稻，获得足够多的样本和数据来进一步探索这个有趣的发现。

图4 通过水稻及其近缘物种的比较基因组学分析可以追溯从头起源新基因在稻属中的起源事件。实验用的水稻亚种粳稻（上）和相关物种都种植于中国海南。系统发生树（下）展示了从头起源新基因在栽培稻不同的祖先阶段随时间推移（右轴是物种分歧时间，以百万年计）而产生的数目（左轴是从头起源新基因的数目）

半生时光荏苒，笔者2018年从芝加哥再回到海南，此处已俨然旅游胜地，从飞机上眺望位于最南端的海滨城市三亚，坐落在银光闪烁如一弯新月的岸边，现代化大楼与海天相接，豪华游艇络绎不绝。除此之外，岛上的农业依然是经济支柱产业之一。

尽管见证过数十载的发展变革，笔者依然很难将在海南的所见与曾经经历过的艰苦岁月联系起来。生命在地球上繁衍生息，无数次在不毛之地繁荣绽放。而归根到底，时间终会带来改变。

基因的海洋

法国遗传学家弗朗索瓦 · 雅各布（Fran?ois Jacob）与两位同事共享诺贝尔生理学或医学奖，他在十年后写道：“最关键的生物化学创新发生在生命早期。”雅各布认为早期基因是在40亿年前的“原生汤”中随机产生的。我们无法精确重复当时的环境条件，当然也不想要重复历史过程。当时的地球刚刚形成适合生命繁衍的环境，海洋尚且年轻，当时的大气也与现今截然不同，雷电的作用使原始大气中的气体发生融合。

当时环境中的无机化合物形成了最初的有机物质，当然现在的环境已无此效用。因而，早期基因的产生方式也可能跟现在不一样。雅各布认为，“演化不会从无到有创造新的功能”。事实上，时至今日，依然很难证明一个基因的确是从“垃圾”序列中从头起源的。从头起源新基因常常与孤儿基因混淆，而两者并非同义词。孤儿基因在外类群中找不到同源基因。但这并不能说明孤儿基因是从“垃圾”序列中产生的。准确地说，同源基因丢失或者同源基因序列分化导致序列相似性丢失，都可能产生孤儿基因。

科学家在25年前就已经知道孤儿基因可通过不同途径产生。许多情况下，即使遗传学家坚信从头起源新基因值得投入精力研究，现实中却很难区分真正从头起源新基因和孤儿基因。因为相对来说更容易证明一个基因不是从头起源新基因，那么随着时间推移会显得从头起源新基因不可信。例如，英国学者居鲁士 · 肖塞亚（Cyrus Homi Chothia）及其他许多科学家坚信所有蛋白质均由一套蛋白结构域或形成蛋白的分段组成，来自大约1 500个蛋白家族，也就意味着它们由一定数量的基因家族编码，从头起源新基因几乎不存在。

真正动摇了这种观点，并推动人类试图解码一个物种的整个基因组的大事件还要从20世纪90年代说起。获得第一个人类基因组花费了整整13年，自此之后，基因组测序和序列建库技术的发展日新月异。今天的科研人员只需要连上网络就可以获取生命之树各个支系上海量物种的完整遗传密码。这样的数据资源使得研究人员有史以来第一次得以比较近缘物种基因组的同源序列，特别是基因组中的非编码序列。

得益于这类分析，即使是在遗传学家了若指掌的方向上也产生了许多重要发现。例如，比较基因组学研究表明在啤酒酵母基因组中50%的基因在其他酵母物种中找不到同源基因。研究表明多种机制可能造就孤儿基因，它们可能是基因水平转移的结果，源自快速演化的细菌或者病毒供体；也可能是从头起源的结果。此外，也有零星的例子表明从头起源新基因在多细胞生物中被找到。

一个特别有趣的例子是北极鳕鱼中的抗冻蛋白，这种蛋白可以阻止鳕鱼血液在寒冷的海水中冻结。这个蛋白与南极冰鱼的抗冻蛋白高度相似。南极冰鱼的抗冻蛋白起源自亲本基因，但是北极鳕鱼的抗冻蛋白起源似乎不一样。伊利诺伊大学香槟分校的华裔美国科学家陈慈馨团队花了22年确定这个蛋白是从头起源新基因。两个非常相似的抗冻蛋白在南极和北极分别独立起源，这再一次让我们见证了自然选择的强大力量。

21世纪10年代又有一些关于从头起源新基因的零星发现。尽管这些发现非常激动人心，但是这些证据并不足以证明从头起源新基因是意义重大的机制，从而使人相信基因组中看似无用的“垃圾DNA”实则有用。我们需要更为有力的证据，而这恰恰始于我们日常餐桌可见的普通食物。

基因是什么？

一条染色体中的一段序列要被称为基因，必须满足一些前提条件。这些前提条件取决于具体的科学问题，也可能因人而异。如果读者感兴趣的是研究基因的起源，答案即为能生成可供翻译为蛋白质的信使RNA。

需要强调的是，这种非黑即白的基因定义方式略流于简单了。从基因演化研究的角度而言，这种常见的严格定义方式更有帮助，因为我们希望对从头起源新基因的估计偏向保守而更为可靠。现实世界中，遗传学研究的标准很少如此苛刻。在有功能的基因和无功能的“垃圾”之间，还存在大量假基因，它们具备部分的开放阅读框，但实际并不编码蛋白质。尽管这些基因有时被认为已经“死亡”，实际上它们还可能具备某些功能。一些假基因可能编码不同类型的有功能的RNA，然而这些RNA并不会被翻译产生蛋白质。

因此，我们聚焦在栽培稻及其近缘物种的真正的蛋白质编码基因。早期的工作主要是产生粳稻及其他9种稻属物种和1种假稻属物种的全基因组序列。技术流程相当复杂，耗时费力，这也是此类研究至今很少的原因之一。现今的技术发展使得我们有机会研究低表达基因，即只有非常少量的蛋白质产物。这一点对我们的研究非常关键，因为新基因往往是低表达的。如前所述，栽培稻是人类在短期内驯化产生的新物种，极有可能相当数量的新基因在其驯化过程中产生。高质量的基因组序列和基因注释让我们能够有效地鉴定出新基因。

2012年，我们开始研究水稻基因组的从头起源新基因，我们知道这对整个领域意义重大。粳稻是全球最重要的主粮之一。未来可能的气候变化和粮食短缺凸显了水稻演化研究的重要价值。但是，我们并不知道关于水稻基因演化的最终发现会大大超出预期。

图5 从头起源新基因的表达量通常较低并且局限在少数组织，即它们的功能很可能在演化过程中进行微调。文氏图展示了从头起源新基因的蛋白产物在植物不同组织的分布。许多从头起源新基因在花粉囊特异性高表达，而花粉囊中含有花药，代表了开花植物的雄性生殖器官

图6 与老基因相比（起源时间早于1 500万年前），从头起源新基因（起源时间最早不超过300万年）长度较短（左），编码的蛋白质也较短（中）。这些基因的表达量较低，其中仅有少数在每单位的全部转录本中转录出10条信使RNA（右）。总而言之，这些因素定义了从头起源新基因的一个逐步的构架演化过程，在此过程中扩增编码长度、复杂度、表达量

观念的改变

随着我们鉴定到175个从头起源新基因，一些清晰的脉络逐渐浮现。例如，多数粳稻的从头起源新基因编码框相对于老基因都比较短而简单。这些新基因似乎还不能被细胞的转录和翻译机制很好地“阅读”。因此，这些从头起源新基因表达量往往很低，并且只在很少的组织中表达。

尽管我们的发现很有意思，但是这些发现还停留在描述性观察，需要对这些基因的功能了解更多。此外，不仅是从头起源新基因，大量孤儿基因也被鉴定到。为了展示从头起源新基因的起源细节，我们需要回溯这些基因在水稻中从头起源过程的完整细节，包括开放阅读框何时从非编码序列起源，在演化进程的哪个节点开始被转录，何时首次被表达出蛋白质产物。

这些信息对于理解类似“先有鸡还是先有蛋”的问题是必要的，而此类问题也常被拿来质疑从头起源演化的真实性和重要性。我们可以将从头起源新基因的问题归结为：是否先产生完整的开放阅读框再获得转录能力，或者先产生没有功能的转录本，再逐步演化出编码能力？基于以上假设，我们需要考虑两个可能的模型，“先编码后转录”和“先转录后编码”。前者意味着没有自然选择的情况下随机产生完整的开放阅读框。后者意味着在开放阅读框完全形成之前，转录系统已经消耗能量转录随机无用序列。

我们的研究表明从头起源新基因的起源模式非常清晰。尽管两种模型在稻属的演化历史中都存在（图7），即一些开放阅读框在转录发生之前产生，而另一些是序列在形成开放阅读框之前就已被转录。但是绝大多数情况下“先转录后编码”的模型才是主流。

Efrain Rivera-Serrano

图7 从头起源新基因从祖先非编码序列中起源遵循三种路径。第一条路径，非编码序列中的突变创造了完整开放阅读框，然后开放阅读框获得转录和翻译能力。有趣的是，绝大多数基因遵循第二条路径，非编码序列首先获得转录能力再演化出完整开放阅读框的编码能力。只有很少的基因能够同时获得转录能力和编码能力

某种程度上，当目标序列还没有完整的开放阅读框时，转录系统已经开始消耗能量产生非编码转录本，看起来更像是系统故障。更奇怪的是，非编码转录本在被转录之后如何能形成完整开放阅读框？为此，我们专门研究了什么类型的突变能够在水稻中更有效地形成编码能力。基因演化往往通过核苷酸点突变来实现自其亲本基因的演变。在我们研究的例子里，核苷酸点突变可能通过改变单个氨基酸密码子进而引起蛋白质改变。尽管这一类点突变有时会带来非常明显的适应性变化，但仍是一种相当保守的演化途径：每次只改变一个氨基酸，并且核酸数目不变。这种突变模式符合渐进式演化的基本规律，而不是短期内的剧变。然而，许多水稻从头起源新基因的演化模式并不是这样。

为了容易理解，我们采取类比方式。当字母E从字母表中移除，那么只剩下A、 B、 C、D、 F、 G等。当我们唱含有一个缺省字母的字母歌的时候，D之前一切正常，D之后所有字母似乎都不顺。尽管我们只移除了一个字母，这个字母后的一切调子似乎都乱了，如果运气足够好，也许能一直唱到“LMNOP”。加上一个字母也是同样效果。

移码突变对于蛋白质翻译具有类似的效果。因为从核苷酸到氨基酸的翻译是三联体密码子的形式，一个核苷酸的插入或者缺失会产生很大的影响，有时会改变后续所有氨基酸的类型，甚至常常会提前出现终止密码子，导致蛋白质翻译提前终止，即后续的一段蛋白自此无法产生。我们发现移码突变的频率在从头起源新基因获得开放阅读框的过程中远远大于点突变。

为什么移码突变在从头起源新基因产生过程如此重要？可能跟新基因表达水平有关。新基因倾向于有较之老基因更低的表达水平。从个体水平来看，不完整的开放阅读框、假基因、其他基因间区序列在少数组织的低表达能够让新近产生的开放阅读框有机会演化出新功能，同时不影响多数组织的正常功能。这种演化微调过程为新基因在整个有机体中表达并发挥作用之前提供了一种小规模试错机制。

Stephaine Freese

图8 在绝大多数从头起源新基因的诞生过程中，一部分基因组中“垃圾DNA”持续转录出非编码“垃圾RNA”。随着时间推移，突变在这些无意义的序列中产生，使其在持续被转录的过程中获得较短的开放阅读框，这个新产生的开放阅读框随之被包括进了产生的信使RNA。当更多的突变积累，形成更加完整的开放阅读框时，即产生了功能性编码蛋白质的信使RNA

宝藏

我们满是“垃圾DNA”的基因组其实天赋异禀。每个人每天都在创造，学习，进步，奉献。我们中的一些人，例如欧阳亦聃和她的团队成员，为了确保来之不易的样品能够有效工作，连续11个小时驱车坐船，从海南赶赴深圳。

我们还不知道从头起源新基因对人类自身发展有多大的影响。至少，我们的研究揭示了“垃圾DNA”的两个重要属性。第一，“垃圾DNA”中的重复元件能够在水稻和其他物种如极地鱼类中产生从头起源新基因中的重复氨基酸。第二，“垃圾DNA”中发现的高度随机序列是从头起源新基因的崭新素材。例如，从头起源新基因的翻译效率比高度优化过的老基因要低很多。这意味着这些新基因正处于演化的早期，而我们成功地捕获了这些基因演化的节点信息。尽管只有少量从头起源新基因在人类基因组中被鉴定到，我们并不知道这些基因对人类演化的影响。我们可以确定的是，这些基因往往是物种独有的，并且只在少数物种发挥功能。这些新基因随着物种的演化而演化，在自然选择的作用下，将会更加有效地产生蛋白质，并逐步发挥更为重要的功能。

从头起源新基因并非无用，只是不完美。即使在获得完整的开放阅读框并且达到一定表达水平以后，从头起源新基因仍然在历经重大的改变，其功能依然只局限于特定的组织。当然这些“幼年”基因还在不断演化中，也许终有一天会变得极其重要。生命无外乎如此！

资料来源American Scientist

————————

本文作者艾米丽 · 莫尔托拉（Emily Mortola）是自由撰稿人，同时担任美国骨科医师考试委员会的医学编辑，她以医学预科生身份毕业于芝加哥大学，并曾参与了稻属从头起源新基因的分析工作；龙漫远（Manyuan Long）是芝加哥大学生态与演化系埃德娜 · 帕帕济安杰出服务教授，通信地址：mlong@uchicago.edu

必威体育备用地址目录 contents

卷首语

专稿

天文学

化学

生命科学