左侧依次为(从上至下)果蝇、线虫、人类、拟南芥、河豚、水稻基因的大致数目

20世纪90年代末,全世界的生物学家都在为阐明人类基因组的序列而努力——对组成人体DNA的30亿对碱基所包含的基因数目进行了排序。当时科学家们的看法比较一致,认为人类(个体)需要大约10万个基因来完成无数个细胞过程以维持人体的正常功能。但最终的结论是:我们人只有大约2.5万个基因,大致与一种被称为拟南芥(Arabidopsis thaliana)的植物相同,仅比线虫((Caenorhabditis elegans))的基因数多一点(拟南芥和线虫都是生物学上极其重要的模式生物——译者注)。

这一结论使遗传学家们逐渐认识到,人类和其他哺乳动物的基因组远比我们原来认识的复杂,多个基因可以产生不止一个的蛋白质(调节蛋白、RNA、少量的非编码DNA),甚至基因组自身的化学和结构改变,都能控制基因表达的时间、地点和方式。而所有这些元件是如何协调运作以保证基因表达完美无缺的?揭示出其中蕴含的奥秘是当前生物学家面临的一个主要挑战。

在过去的几年里,有一个发现已经得到了广泛认可:“选择性剪接”即人类基因组用如此之少的基因产生如此复杂性的一个原因。人的基因包括两部分,即蛋白质编码序列(即外显子)和非蛋白质编码序列(即内含子)。在一些基因中,外显子的不同结合方式在不同的时间段里能表现出不同的活性,每一种结合方式产生一种不同的蛋白质。

研究人员过去很长一段时间里认为,选择性剪接在基因转录中是很罕见的。但现在得出的结论是:半数的人体基因(也有人说接近全部)中都可能发生选择性剪接。这一发现,对解释我们人类用如此少的基因产生出成千上万种不同的蛋白质大有助益。不过,转录机制是如何决定在特定的时间阅读基因的哪些部分?这个问题基本上仍是个谜。

同样还要提到的是,决定哪些基因或基因的哪些位点在特定的时间和地点被打开或关闭的机制是什么?研究人员发现,每个基因都需要几百个“角色”来支持它完成这项工作。这些角色包括关闭或激活一个基因的多种蛋白质(如向DNA导入乙酰基或甲基可以激活或关闭基因);还有被称为转录因子的蛋白质,它们可以更直接地与基因相互作用。

借助于选择性剪接,会出现各位点的不同结合方式,激活这些结合方式将有可能对基因表达进行精巧的调控。然而,所有这些调控元件到底是如何工作的,或它们是怎样与选择性剪接一一吻合的?这些疑问仍有待研究。

在过去的大约10年里,研究人员也逐渐意识到染色质蛋白质和RNA在基因表达调控中起到的关键作用。染色质蛋白在DNA的包装过程中是必不可少的,且参与形成螺旋状的染色体。只要略微改变一下形状,染色质就有可能将不同的基因暴露于转录机制。

RNA的作用日益受到重视,DNA也可以伴随着RNA的曲调“翩翩起舞”。现在小RNA分子(很多都少于30对碱基)和其他的基因调节因子备受瞩目。最近5年里,不少过去关注信使RNA(mRNA)和其他相对较大的RNA分子的研究人员,都把注意力转到了这些较小的RNA上,包括微型RNA(microRNA或miRNA)和核内小分子RNA(snRNA)。令人惊奇的是,这些“伪装”下的RNA竟能够关闭或改变基因表达;在生物发育中,它们对细胞分化也起到关键作用。但是这些作用机理目前还没有完全弄清楚。

不过,研究人员在机理的探索方面已经迈出了几大步。遗传学家们通过将进化树不同分支上的生物的基因组相互比较、匹配,正在对调控区域进行定位,力求搞清楚像选择性剪接这样的机制是如何进化的。这些研究反过来也使人们更清楚地了解这些区域是怎样工作的。用老鼠进行实验(例如,对老鼠增添或去除一些调控区域,对其RNA进行操作等)和计算机模拟亦有助于机理研究。但是,这个中心问题可能在很长一段时间里悬而未决,那就是:所有这些“零件”是怎样组合在一起形成我们人体的?