在高等生物及宿于其中的病毒之中,许多基因似乎是断裂的。即它们有DNA的“无意义”的片段,散布在有意义的ONA之间。细胞产生这种无意义DNA和全部DNA的完整的RNA转录本,然后在把RNA送进细胞质之前,断去无意义的顺序。本文概述这些插入顺序和RNA加工方面的有关知识。本文还讨论它们可能的应用以及它们怎样在进化中产生的。

在最近两年内,分子遗传学上有一个小小的革命。当我在1976年9月来到加利福尼亚时,对于一个典型的基因可断裂成若干片段的概念,连想都没想过,也拿不准是否有人持有这样的概念。1977年夏,一年一度的冷泉港讨论会上,关于几种哺乳动物病毒中的基因排列显然是很陌生的,因此认为有些染色体基因看来很可能也呈若干片段。后来发现确是这种情况。纵然目前实验证据仍很零碎,但已普遍认为,在高等生物中,编码蛋白质的一个基因里可散布着其它的碱基顺序。

我在这里结合某些一般性的概念,介绍目前所持的整个观念,尽管还是飘忽不定的;同时再对将来的工作提几点看法。Gilbert过去曾发表过类似的文章,文章虽短却极富于想象力,有些内容与本文相似。Tonegawa等人也曾介绍过类似的概念。

基本问题

从考虑一个想象的例子开始,那是最方便不过了。沿着基因DNA有两条长长的伸展的碱基顺序,它们不出现在最终的中。如此顺序现称插入顺序。Gilbert及其同事们使用另外一种术语,把这插入顺序叫作“内含子”把确实出现在mRNA中的DNA上的那些碱基顺序叫作“外显子”,因为它们是被表达的顺序。在这一阶段,任何一种术语不久就会陷入困境和混乱。在本文中,我之所以用内含子——外显子这种术语,只是因为缺乏较好的术语而已。

有哪些可能的机制会产生这种结果呢?马上想到的至少有四个:

1)在细胞内产生信使的DNA可能重排,以置换或去除不需要的顺序。按此假设,生殖系统内的DNA将保持不变。

2)DNA保持不变,但RNA多聚酶产生最初的RNA转录本时,跳过DNA上的内含子,以致最初的转录本中只出现外显子。

3)每一外显子分别转录,然后这些独立的RNA片段再以正确的次序连接起来,形成最终的mRNA

4)RNA多聚酶制造出外显子和内含子的整个区段的最初转录本。然后这个转录本经加工,以去除内含子,同时以正确的次序把外显子统统接在一起。这种机制目前普遍称为“断接”,很可能这就是大多数情况下所发生的机制。

有何实验证据呢?已经证明,在一个系统中确实发生了第一种机制——DNA重排。在小鼠的生殖系统中,两段分得很开的DNA编码免疫球蛋白的一条轻链(κλ)。在产生该蛋白质的体细胞的DNA中,发现这两段DNA靠得很近。这是一个很重要的结果,但是我不想继续深入下去。因为有充分理由认为,免疫系统可能是一个特例,但不一定是唯一的情况。迄今为止,毫无证据认为,实际常用的是上述的第二种或第三种机制。相反,第四种机制的证据(在此不作详细描述)目前比比皆是,以致它不可能是偶然发生的,或类似这样的机制不可能是偶然发生的。所以,本文以下内容,不再论及前三种机制,而集中考虑断接。

断接的普遍性如何?

我曾讲过,似乎断接只发生在mRNA的加工过程中,但是我们已知道,至少还有另外两种RNA是断接的。实际上,酵母中某些转移KNA(tRNA)的断接是最的发现之一,虽然它们的内含子很小。最近有两组研究人员已分离出一种粗的酶制剂,将在试管内进行那种操作。酵母线粒体中的核糖体RNA(rRNA)的单个基因似乎含有一个内含子。果蝇rRNA的某些基因似乎也含有内含子,但是最近的证据指出,这些基因不能转译。rRNA在核内的前体曾否断接,尚有待于发现。迄今为止,毫无证据表明,其它种RNA分子,例如核内发现的小RNA分子,是否经断接而产生。于是,断接被定义为一种机制,即在最初转录本的加工期间,去除RNA内部的一段或几段而产生一个功能性RNA分子的机制。

哪里发现断裂基因的呢?迄今为止,只在真核类中谈论断裂基因。如果断裂基因普遍存在于原核类(细菌和蓝绿藻)中,则很可能就发现了。我们现在还不能绝对肯定它们不出现在原核类中,但它们确实不太像会出现在原核类中。在真核类病毒中,它们却是普遍存在去。实际上,最就是在真核类病毒中认识到它们的重要性,但有一个有趣的特征。只有在出现于细胞核里的DNA病毒中和具有DNA核期的致癌性RNA病毒中,才能找到它们。迄今为止,在只存在于细胞质内的病毒中,未曾发现过断裂基因。

所有这些表明,断接现象跟核膜的存在相关。这一假设很有意义。在没有核膜的原核类细胞中,在信使从DNA那里转录完成之前,就开始了信使经核糖体的转译。反之,在真核类细胞中,转录过程发生在核内;核糖体上的转译过程,如果不完全发生在细胞质内,至少是主要发生在细胞质内。核膜把这两种操作隔了开来,这就为发生额外的加工提供了充裕的机会。这种假设将预测,在线粒体中找不到断裂基因。可惜实验证据指出,线粒体中的基因也断成一段段。酵母线粒体中较大rRNA分子的单个基因,几乎肯定是断裂的。mRNA也是断裂的证据,目前尚未完全确凿,但很可能是断裂的。读者不妨查阅最近发表的两篇评论。当然,断接所需的酶可在细胞中取得,所以如果它们(或与它们密切相关的分子)渗进线粒体,那是不足为奇的。令人惊奇的倒是,几乎没有什么证据表明有任何膜把线粒体的DNA跟它的核糖体分开,尽管酵母可能是个特殊情况。这个问题下面再讨论。

高等生物中的断接

我现在想对高等生物的断裂基因的分布作一快速而势必是不完整的综述。在哺乳动物中,已证明有几个种的若干球蛋白基因是断裂的,如小鼠免疫球蛋白的重链秘及某些K和λ轻链的基因。正如上面提及的,断裂基因普遍存在于许多哺乳动物的病毒之中。已证明小鸡卵清蛋白的基因断裂成许多片段;确有证据表明,小鸡卵类粘蛋白的基因亦然如此。迄今为止,尚无证据表明,其它脊椎动物的基因或植物的任何基因有断裂。有一篇关于蚕丝丝心蛋白基因断裂的报道,但是对果蝇的断裂基因尚无确凿的证据,因为上面提到过果蝇的核糖体基因不能转译。如果果蝇中确实存在着断裂基因,人们可指望这情况马上就会被发现的。在真菌中,唯一已知的事例是酵母的若干tRNA基因。从如此一鳞半爪的实验证据中,显然不可能作出许多推论,但是很快就可能得出结果,只要一、二年后,我就能开始解答一些问题,或许还是这类问题中最重要的疑问:还有没有它们的断裂基因未被发现的真核类吗?

当我们着手考虑已证明它们的基因是断裂的蛋白质时,我们注意到它们有一件事是共同的。它们都是些终端分化的分子。这是因为它们是技术上最易研究的分子。目前还没有人描述或报道过普通的酶(例如三羧酸循环的中的一种酶)的基因的例子,虽然这些研究正在开展之中。其它无助于引起人们注意的事是内含子的高频。在某些免疫球蛋白轻链中有两个,在各种血红蛋白链中有两个,在γ1重链中至少有四个,在小鸡卵清蛋白中不少于七个。而且,它们都相当长,从略少于100碱基对一直到1000多碱基对,内含子的全长至少等于外显子的三倍。如果把这几个数据平均一下,发现我们可预期在每300碱基对左右的外显子后有一个内含子,内含子长度大于600碱基对。即平均而论,内含子比外显子长。在高等生物中,甚至可能无意义的DNA多于有意义的DNA。这种初步估计必然是很不可靠的。

酵母tRNA中的内含子比较小。迄今为止所发现的长度是14,18,19和34个碱基。在酵母的mRNA中是否有内含子,目前还不知道。

我们是否可以肯定地说有一些蛋白质的基因是不断裂的呢?在海胆和果蝇中研究过的组蛋白基因组似乎是不断裂的。在这两个物种中,基因串联排列,重复多次。可惜仍有理由猜测,组蛋白基因不是完全典型的。例如,在它们的mRNA末端无多腺苷酸[poly(A)],这样可以很快地从核内出来。了解某些哺乳动物种的组蛋白基因究竟是否断裂,显然是有意义的。

随着时间的流逝,必须确证表明某一特定基因的转录本是如何断裂的初步证据。用电镜研究遗传的DNA. 跟有关的mRNA杂交(或同得自它们的核酸无性系杂交)只需少量材料,在细心的研究者手中,就可得出可靠的结果。从历史上讲,正是这一方法首先指出了病毒的mRNA,不是病毒DNA的简单的共线转录本。不过,这个方法的分辨率是低的,如同由限制酶消化图谱的分辨率。为了得到详细的图谱,必须得到实际的碱基顺序。

细节和概括

我们现在更详细地来考虑内含子和外显子的排列。从目前我们所能利用的十分有限的实验数据来看,我们注意的第一件事是,一个染色体基因只产生一种蛋白质,而病毒中的一段DNA可以产生一种以上的蛋白质,取决于最初的转录本以哪种方法断接。我之所以采纳这样的看法,是因为一般病毒的DNA较短,通过各种各样的手段,使它们有限的DNA量比其它方法编码更多的蛋白质,即使在原核类病毒中,也能看到这一点,例如Φ×174中,同一段DNA,在一种情况下可读成一种蛋白质,在另一种情况下又可读成另一种蛋白质。在SV40和多瘤病毒中发现的早T抗原区,是一个“基因”产生不止一种蛋白质的典型例子。现在几乎已肯定,这一区域至少产生两种蛋白质,每一种蛋白质始端约100残基有完全相同的氨基酸顺序。它们其余部分的氨基酸顺序似乎完全取决于RNA转录本是怎样断接的。这些事例是很有意义的,因为研究病毒系统的技术有其方便之处,所以可通过研究病毒系统而了解许多细节。然而,这类多种选择情况在真正的染色体基因中可能是罕见的,虽然如已论证过的那样,在进化的转变阶段中它们可能是重要的。染色体含的DNA,总是多于已知其用途的DNA。假如出现一个染色体基因,它的转录本经加工后产生不止一种蛋白质,那么我将预期,在进化过程中,这一基因将被复制,接着一个拷贝专门编码一种蛋白质,另一个基因专门编码另一种蛋白质。如果这种观点是正确的,那么人们将预测,在真核类染色体中,多种选择基因是罕见的。

从现有数据我们所能做的其它推测性的概括是,DNA上外显子的排列次序与最终在mRNA中发现的外显子的排列次序是相同的。为何总是如此,似乎还无充分的理由。有可能设想出种种机制,使排列次序有时是不同的。外显子的这种共线性也许反映了内含子或断接过程起源的某一重要方面,所以不应忽视。顺便提一下,内含子并非只是位于信使的编码区内,例如,在卵清蛋白中,在编码顺序开始之前的mRNA前导区域内发现一个内含子。

断接是如何完成的?

断接的真正机制是什么?任何概念目前必然是猜测性的。人们无疑会预料,断接过程中必须有酶,如果不是几种酶至少涉及一种酶。上面提到过,有两个小组在酵母的tRNA中发现了一种酶的活性,尽管这种酶尚有待于纯化。这种机制需要能源,因为需打开两个磷酸酯键,而只需构成一个键(或可能两个),但这一点还未完全弄清楚。在平衡时,只要该过程必定是个精确的过程,人们就将料到需要能量。初步的证据指出,酶似乎需三磷酸腺苷(ATP)在酵母内发现的各种不同的tRNA分子并非都需经断接加工,但是迄今为止的迹象表明,断接tRNA分子是经一个酶而且是同一种酶的加工。现在仍无证据表明,这一种酶也能加工mRNA的前体;我认为这种情况是不太可能的。

这产生丁一个未解决的重要问题:断接过程中究竟有多少种不同的酶呢?换言之,是否一种酶去除某些内含子,而另一种酶去除另一些内含子呢?我曾不止一次操之过急地说过,我们可预料有10至100种不同的酶;但那是纯属猜测。数目可能少到只有两种酶。

另有许多重要问题有待回答。酶(或一些酶)如何识别断接的地点呢?显然,断接必须十分精确,因为一个碱基的差错将打乱信使往后的全部过程。一个内含子总是一下子被切除的,还是有时需经断接酶作用几次呢?切除内含子后,内含子又怎么样呢?曾否把内含子用作mRNA?(至今尚无此迹象)是否把内含子用于控制?究竟把内含子切成线状单链分子还是有时切成环状?环状可以增强切除分子的稳定性。不难设想这种单链环状可完成有趣的功能。正如我在下面所要提出的,最近的工作已为我们回答有些问题提供了启示。

两组研究人员已确定卵清蛋白基因中的外显子和内含子之间边缘区的碱基确切顺序。除了一点很小的差别外,两个结果完全一致,表明了目前的DNA顺序测定法的快速性和正确性。从这些结果产生了两个一般性概念。两个小组都发现,接近内含子始端和末端处往往有一些重复的碱基顺序。这就产生了一个或许不能立即弄明白的有趣之点。设想我们已知这些区里DNA的全部碱基顺序,以mRNA上的对应顺序。那么,如果有碱基重复,我们就无法从这些资料明确无误地说出实际发生断接的确切位置。可以设想出完成断接的各种方式,而所得的mRNA顺序仍相同,尽管被切除的内含子的末端稍有不同,假定内含子是有末端的。

实际发现的重复顺序的种类,基本顺序有5、6或7个碱基,所有那些边缘区域的顺序,都有不同程度的相关。Chambon小组提出了另一种比较引人注目的一般概念。正如上面解释的那样,断接过程中切点的确切位置的判断总是不明确的。鉴于这种不确定性,总可选出一些服从以下规律的切点:一个内含子的碱基顺序以GU开始而以AG结束。这个规律不仅对于卵清蛋白是正确的,对于免疫球蛋白的λ轻链中的小内含子也是正确的。似乎对于两个血红蛋白内含子和SV40的七个内含子也都正确。迄今为止,还未见发表过明确例外的mRNA,虽然免疫球蛋白重键中似乎有一个例外的内含子。这样的结果不可能是出于偶然。不过,在酵母的tRNA分子中发现的外显子——内含子的连接区不服从这一规律。这表明至少有两种断接酶,一种用于mRNA,一种用于tRNA。

只有少数内含子已完全列出了顺序。第一个是小鼠免疫球蛋白λ轻链中的短内含子,最近才列出了λ轻链内含子脚顺序。已被列出第一个球蛋白内含子顺序的是小鼠和兔的β球蛋白以及小鼠的α球蛋白。小鼠的α球蛋的第二个内含子顺序也已完全列出,但小鼠和兔的β白的第二个内含子的顺序只列出了一部分。小鼠的λ轻链中的大内含子的一部分顺序刚见报道,已得小鼠免疫球蛋白重键的三个内含子顺序和第四个内含子的部分顺序,小鸡卵清蛋白的三个完整的内含子顺序和两个不完整内含子的顺序也已测出。在短期内无疑将报道更多的顺序。

恰当地综述所有这些资料是困难的。没有一种顺序是由高度重复的简单顺序所组成。从那些试验情况来看,它们似乎都是“单一的”,而不是中等重复的。它们中有许多倾向于富含AT(T,胸腺嘧啶),尤其是T特别多,且不是完全随机的。内含子的3'末端往往有异常的碱基组成,一般T居多。小鼠和兔的β球蛋白内含子似乎是明显相关的,但又有相当大的差别,表明进化上有相当大的漂变。只有接近它们边缘的顺序才比较保守些。有一种看法认为,在不同的小鸡中,卵清蛋白顺序是不尽相同的。

断接酶怎样在正确的位置上毫无差错地切断RNA呢?单用上述的Chambon的规律来说明显然是不够的;3所表明的少量的碱基重复也不足以选择切点,因为同样的碱基顺序也出现在RNA转录本的其它部分。显然要假设形成了某种二级或三级结构。这种结构指引酶到达需要切开的位置附近。然后,Chambon规律使酶在正确的位置无差错地切割。这种把二级和三级结构同一定程度的碱基顺序信息结合起来的机制,从一般的理论根据来看,似乎总是有道理的。仅从碱基顺序的研究是否就可推断出这种假设的二级和三级结构,是否需要做直接的实验工作,那还得等着瞧。

RNA加工的其它方面

在考虑最初的RNA转录本的加工时,全神贯注于断接的操作是错误的。核不均一RNA中发现的额外的顺序,不可能完全是由于内含子。是否也发生了RNA修剪操作(在最初转录本的一端或两端去除伸展开的RNA),如果发生了,修剪到何等程度,还有待于明确。可以想象,这对于病毒基因不如对染色体基因那么重要。

有许多公认为本质不甚清楚的证据认为,最初的转录本以某种方式堆积在特定的蛋白质上。这样的堆积是否为成功的断接所必需,尚不完全明确。(当然,对于mRNA可能是必需的,但对tRNA就不一定了。)如果是必需的,则产生了一个有趣的可能性:内含子的长度是否被量子化为某种方式,而这种方式反映了RNA跟堆积蛋白质结合方法?目前的资料也许太零碎了,不允许对这一点作有把握的猜测。

大多数转录完毕的mRNA,在其始端有一顶帽子,末端有一段多腺苷酸。最近的证据指出,对于腺病毒后期的转录本来说,这些终端附加物或许在发生断接之前的很阶段就出现在核内。这是很有意义的。如果核内的分子末端加上了这些附加物,以防核酸外切酶消化,那就不值得大惊小怪。如果正是这样,就可理解,为什么加工的重要方法是断接而不是修剪,即不是几年前所设想的从最初转录本的始端和末端剪短RNA。

我们必然还会问,如因种种原因而断接不当时,含有内含子的转录本又将怎么样呢?转录本以后仍会留在核内,并最终降解了吗?断接机制的连接部分会失效,以致在切了一、二次后,假定存在的RNA会成为一段段吗?关于RNA从核内出来的情况,实在知道得太少了RNA分子能认出其通路吗?或者说,是否有些RNA分子会因折叠或堆积而不能穿过核孔?大内含子的存在总是阻碍从核里出来,是否只是因为结构太大而不能通过核孔?帽子或诸如此类的东西是离核所需的吗?这一过程需要能量吗?我们必须考虑在最初的RNA转录本和细胞质内出现的转录完毕的RNA之间种种步骤的各个方面。

不必假设断接总是发生在核内。酵母中需断接的那些tRNA分子在非断接状态时,已知,是无活性的,包括接受了一个氨基酸或在核体上作用时,都是无活性的。因此毫无根据说明,为什么它们不应先从核里出来,再在细胞质内断接,尤其是当它们的内含子很小时。不过,最近的证据指出,酶只出现在核内。

非断接的tRNA分子的这种行为,很可能是它的二级和三级结构的反映。对于mRNA的情况可能也是如此,虽然人们一般不指望形成太紧密的三级结构。主要的要求似乎是,不应“要求”核糖体转译讯息一直到这样一个位置,在那里,含有个尚未除去的内含子。明显的方法是使非断接的转录本留在核内,直到全部断接完成为止,但是正如我们已经看到的,并非所有情况都是这样的。尤其是在线粒体中的mRNA转录本可能已演变成这样的方法,即在全部完成断接操作之前,不能与核糖体相结合。

这就产生了断接过程的时间选择问题。在全部转录本完成之前就开始断接了吗?这似乎是显然要做的事情,但是腺病毒的后期转录本的初步证据却指出,整个分子在断接开始之前就转译了。断接过程可能很慢,转录结束之前还没有开始,或者可能有特殊的机制阻止过的断接。显然,有许多复杂的实验问题有待于回答。

断接的进化

如果不问一下断接究竟目的何在,则对断接也就无法深入考虑下去。尤其是如果一个特定的内含子完全去除了,那么一个基因的功能将发生什么变化呢?这就使我们要问,断接是怎样在进化中产生的。我曾提起过,关心这个问题的人几乎对此都感到具有极大的魅力。当我们还未确切知道断接在今天是如何起作用时,就对机制的起源问得那么深入,可能被认为是操之过急了。我们知识中的空白并不妨碍我们作出猜测,有充分根据认为,猜测可能会提出有意义的概念,或许对我们洞悉整个过程有所裨益。可惜也有陷入进化预测的谬误的趋势。一个基因组的变化要能在群体中扩散,通常必须具备选择优势,虽然偶尔一种变化可“搭”在该基因组的有关部分的选择优势上而扩散。即使一种变化已经扩散开了,如无一些优势仍不可能长期保留下去,因为它最终将被淘汰。于是,人们不应把希望寄托于只发生在将来的某些选择优势,除非在差不多的时间里出现选择优势与必须去除内含子。

这个问题不应跟散布在一个基因组里的一段特定DNA的有关现象,即“自私DNA”的情况相混淆。这种DNA所需的优势,无非是在进化期间通过这一或那一机制,比大部分DNA复制得更多些;出现这种情况时,对它的“寄主”不会有太大的伤害。全面地讨论真核类基因组的进化,都必须考虑这种优先的复制者。

记住这些保留意见外,让我们试图描绘出粗略的进化图景。第一个问题是时间问题。什么时候第一次出现内含子?明显的意见是内含子跟真核类一起出现。两位研究者提出,它们起源于很的年代。这意见表明问题可能不是那么容易解决,我在这里不再追究下去了。我也不想讨论断裂酶的可能起源。

对一个新内含子的形成,已提出三种可能的机制。为了使讨论简单起见,我假设RNA上的断接信号主要位于内含子边缘的附近,尽管实际情况可能较复杂。

1)断接信号偶然地产生在一段已经转译过的DNA中。就真正的第一个内含子而论,第一个断接酶碰巧识别的信号可能已存在。以后的内含子的信号一定是由随机突变产生的。因而,一部分RNA转录本断开了,以致mRNA及其编码的蛋白质都缩短了。不再用于编码的内含子的碱基顺序然后是相当迅速地漂变。这概念可以推广说明其它类似的情况。

2)一个内含子通过特殊的插入机制插到一段DNA中间,在RNA转译本上自动产生与RNA转录断接所需顺序密切相关的侧接顺序。然后需要少数几次突变(如有突变的话),以启动一定程度的断接。

3)一个外显子(通过任何一种机制)与它的侧接内含子的一部分一起易位,产生一个新的内含子。例如,这个DNA可以插入已存在的一个内含子中,因而以前只有一个内含子的地方产生了两个内含子。这个过程还可自动产生为新内含子所需的断接顺序,虽然为了使断接有效,可能还需要进一步的突变。

最后这个概念,即外显子穿插概念,是由Gilbert和Tonegawa首先倡议的。这个概念至少有两个好处。新蛋白质的产生,是通过把已分别进化的氨基酸顺序集合在一起,再巧妙地折叠起来,以执行这些或那些功能,而不是把一条条“随机”的碱基顺序加在原先存在的蛋白质上。选择这些DNA顺序的机制不需要十分精确,因为插入边沿几乎可位于侧接内含子中的任何地方,如果插入一个内含子,插入位置的正确程度也是无关紧要的。

那么,根据这一理论,为球蛋白编码的DNA顺序,不是作为一条间断的DNA始进化的。相反,它是从三个已存在的、在基因组中随机穿插在一起的外显子演变而来的。最后出现在RNA上两个内含子被拼接,第一次产生出典型的球蛋白顺序。Gilkert向我指出,球蛋白中的那个中间外显子给包住亚铁原卟啉那部分多肽链编码。中间外显子很可能取自己进化的含亚铁原卟啉的蛋白质。第一外显子和第三外显子是否曾编码一种蛋白质,还只是猜测而已。

目前有些证据支持这一理论。两个球蛋白内含子存在的年月久远,而且迄今尚未发现其它内含子,这个事实表明成功地产生新内含子或许是罕见的事件。在免疫球蛋白中分开蛋白质结构区的内含子的位置,以及朝向信号多肽末端附近的内含子的位置,如同人们所预料的。信号肽正是那种对到处穿插有用的氨基酸顺序,因为它加上细胞质蛋白质,可转换成一种分泌蛋白质。

这三种概念究竟哪一种正确呢?暂时还很难说,尤其因为它们对于产生新内含子都有作用。第一种机制即随机突变机制,似乎是十分罕见的事件,但是它能明确地确定断接的起点。第二种机制即特异的插入机制,可以令人满意地产生第一个内含子。断接或许演化成为细胞对隐藏着的插入因子的一种防御。尚未发现球蛋白基因有第三个内含子,这个事实表明,如果这种机制在进化中仍起作用,则它的速率是很低的。

第三种机制即外显子穿插机制,似可合理地解释蛋白质区域之间所发现的内含子的起源。内含子——外显子比例较大的生物,显然很可能就是这种机制,但是如果存在着内含子少而小的生物,这种机制或许就不那么行了。于是Tonegawa所提议的也许是个合理的猜测,即内含子首先起源于前两种机制之一,对于内含子DNA的百分比较大的生物来说,比较近代存在的内含子是通过外显子的穿插而产生的。不过,Doolittle和Darnell认为,外显子的穿插对进化是太有利了,以致他们相信,第三种机制在最阶段就起作用了。

现有的内含子容易完全失去吗?如果一个内含子已获得某些基本功能,则它的缺失将为选择所淘汰,但是我们假设内含子没有什么功能甚至没有功能。即使如此,一个完整的内含子的缺失仍可能是罕见事件,因为缺失必须十分精确,以产生有功能作用的mRNA。我们可以预测,随机的缺失可以不断地缩小这种内含子。不过,DNA在进化过程中的连续不断的穿插,或许以相当随机的方式把DNA加到内含子中去。于是,内含子的长短可代表进化过程中增添和缺失之间的动力学平衡。

如果内含子确实难以去除,就能理解一旦引进足够数目的内含子后,就不可能缺失断接酶(或一些断接酶)而对生物不带来重大的变故。同理,在许多不同的种内,断接酶(或一些断接酶)的专一性可能是极相似的。除非进化压力极大,否则几乎不可能去除断接酶。Doolittle业已指出,这就是在大多数原核类中所发生的情况。

RNA加工的控制

一旦内含子普遍了,进化很可能就把内含子用于其它目的,如用于控制。在转译阶段,基因表达肯定有一些控制,但并不意味着在加工阶段就不再有额外的控制。十分笼统地说,可以设想有两类控制。第一类是很粗放的控制,大群基因同时开关。如果断接有几种不同类型的酶,就可能发生这种情况。如果在分化的某些阶段,缺少其中一种酶,那么所有那些需要这种酶的转录本,就不能形成功能性的mRNA。显然,这可能是发育过程中对若干主要步骤的有用的控制。可惜,如果Chambon规律是对的,则它暗示mRNA只可能有一种酶。这一尝试性的结论无疑是错误的。例如,断接酶或许可分成两部分,一部分总是相同的,用于识别GU和AG碱基顺序和际的切断位置,而第二部分是识别碱基顺序的、二级或三级结构的其它一些特性。只有纯化了断接酶,才能证实这一点。

还可设想一种精细的控制,只可用于一个内含子或少数内含子。粗放的控制是正控制,相反,精细的控制是负控制。这种假设的抑制蛋白质将以某种特殊方法与特定的内含子结合,使断接酶失效。我认为,自然界很可能就是以这种过程演变某些内含子,但我不愿很勉强地猜测,受这种特定方式控制的内含子有多少。

控制的穿插

如果进化过程中确实发生DNA的插入和易位——实际上,许多接证据表明,这类事情是在发生着——这些额外的事情是发生在DNA中的特殊位置上的吗?多少是有点随机的吗?如果是出现随机的位置上,或者相当经常地出现在一些碱基顺序上,我们就应预料它们位于未转译的那些区域,包括控制转录的那些区域。实际上,往往认为这就是高等生物中需要有更多顺序的地方,因为多细胞生物的进化可能需要比较复杂和比较灵活的控制机制。插入的主要选择优势或许来自位于非编码区的那些顺序。这可能暗示着,我们今天在给一条多肽链编码的那部分DNA中所发现的一些插入,仅仅是一个过程的偶然的、往往是非必要的副产品,这个过程的主要功能是使对转录的控制模式演变得更精巧。

为了掌握进化过程中所发生的事件,必须了解伸展的DNA能在基因组内增殖,以及增添基因组或减少基因组的全部机制。这些机制包括DNA多聚酶的跳跃,各种类型的重组事件(尤其是串联重组),缺失机制,病毒或其它复制实体的插入,转化和各种易位机制,不管是专一的还是非专一的。自私基因”的理论必须推广至任何一段DNA。愿讨论真核类基因组进化的分子生物学家,不仅需要知道一些DNA及其转录本的活动方式,而且要知道一些群体遗传学的概念。

核酸分类学

这自然而然会使人考虑内含子和插入因子的分类学含义,它们究竟出现在基因组里的什么地方。我们坚定不移地预测,这将大大扩大我们对各种类型顺序的了解,不仅是外显子和内含子以及与它们相邻的区域,而且是所有各种类型的重复顺序和简单顺序。有志于分子分类学的人们,行将有一个重大欢庆的日子。实际上,新的发现无疑会大大改变我们对进化过程细节所持的概念。如果内含子的大部分顺序以相当快的速率漂变着;这已有了某些证据,我是不感惊奇的如果是这样,这些顺序将是研究短期进化的极好的工具。相反,全新的内含子只可能是难得出现的,研究它们可能有助于了解较长周期的进化过程。有时如果内含子的长度发生变化,如冷球蛋白基因中的大内含子,也为中等时间的进化提供了一个有效的标志。DNA断接的最新进展,结合DNA顺序测定的快速新方法,完全可能去研究许多物种的、许多不同个体的许多不同的基因。

无可否认,断接的发现震撼了我们的概念。最初的RNA转录本以某种方法被加工,当然只是猜测,但是我不同意有时认为断接仅仅是我们以前概念的细微扩大的观点。我认为,在断接发现之前,RNA加工的研究有点陷入困境了,所以断接不仅开拓了RNA加工的整个题材,而且为胚胎学和进化学说展示了新的前景。值得注意的是,在实际事实迫使我们考虑断接之前,从未严肃地考虑过断接的可能性。回顾过去,这也许是因为期的实验证据不可能指出会发生断接过程,至少对mRNA是如此。由于缺乏证据,使我们过分信任一些一般性的概念。

那么,断接除了证据零星之外,几乎肯定是一个真实的过程,也许还是个重要的过程。碱基顺序的深入研究,尤其是对执行操作的酶作深入研究,就可迅速增加这方面的知识。不久,人们就可望了解所有各种加工步骤,修剪(如存在的话)、戴帽、包装、外加的多腺苷酸、断接和从核内输出等,即使不是完全了解,至少可了解概貌。但是,对于这一激动人心的新领域的热情,不应使我们忘却先于它的甚至更基本的过程:转录和转录的控制。在我们感到已真正掌握了真核类的基因结构、基因控制和基因进化之前,对于这方面工作,无论在实验上或者概念上,都迫切需要有另外的突破。

[本文选自Science 1979年204卷4390期。王顺德译赵寿元校]