科学家通过确认引发疾病的人类基因,能够创造出未来的治疗性蛋白质,并加速强效药物的研制开发。

几年前,美国马里兰州罗克维尔市人类基因组科学公司(HGS)的董事会主席及首席行政官员威廉•A•哈兹尔庭(William A. Haseltine)及一些志趣相投的同事断定,弄清人体内的不同基因是在什么位置及什么时候被启动的将会大大提高人们预测、预防、治疗及治愈疾病的能力。

哈兹尔庭等人意识到,弄清楚哪些基因表达在健康组织中,哪些基因表达在患病组织中,人们就能识别出组织发挥正常功能所需的蛋白质及牵涉在疾病中的畸变所需的蛋白质。拥有这些信息,科学家就可能研制开发出用于各种疾病的新的诊断试验及改变受疾病侵袭的蛋白质或基因活性的新药。研究人员还可能将已识别出来的蛋白质和基因用作治疗性药物。在某种意义上,哈兹尔庭设想从分子水平上对人体解剖学作出高分辨率的描述。

很清楚,识别出人体数10种组织中每一种组织所表达的全部基因是一项艰巨的任务。一个普通的人类细胞约有10万种基因,其中仅有少部分(一般约1.5万种)在任何一类细胞中均表达出来,但是被表达的基因也因细胞不同而不同。因此,只探究一两种细胞类型不能揭示表达在人体其余细胞中的基因。科学家还必须对人类发育所有阶段的组织进行研究。再者,为识别出致病的基因表达的变异,科学家必须对疾病组织和健康组织均加以分析。

技术进展已为完成这项工作提供了方法。现今,科学家能迅速地发现表达在特定组织中的基因。哈兹尔庭的策略已被证实是识别有重大医学价值基因的最快捷方法。

以动脉粥样硬化为例,在这种常见的疾病中,叫做斑块的脂肪物质蓄积在动脉内,特别是那些供应心脏血液的动脉(冠状动脉)内。哈兹尔庭的策略能列出表达在正常动脉中的基因目录以及每种基因表达的水平量度。然后,他们将此正常基因目录与动脉粥样硬化患者的基因目录进行比较。两目录之间的差异与动脉粥样硬化这种疾病所涉及的基因(及相应的蛋白质)一致;差异还表明了被该疾病增加或减少了的基因表达程度。然后,研究人员能够制造出由那些基因所编码的人类蛋白质。

—旦科学家能够制造出一种纯蛋白质,那么他们便能相当容易地设计出一种检测患者体内这种蛋白质的试验来。揭示斑块中所见的一种过度产生的蛋白质的试验可以发现动脉粥样硬化的早期体征,此时,可选择最佳治疗方案。另外,药理学家能够利用纯蛋白质开发新药。他们可考虑把抑制斑块中所见的蛋白质的产生的化学物质作为治疗动脉粥样硬化的一种药物。

哈兹尔庭称他们的方法为医疗基因组术,某种程度上超出了人类遗传学的主流。许多科学家都参与了“人类基因组工程”(Human Genome Project)。“人类基因组工程”是一项致力于找出人类DNA中的化学碱基的完整序列的国际合作计划。DNA中的所有密码都只是由4个碱基的不同组合构成。这种信息对研究基因作用和基因进化将具有重要意义,并且对研究遗传性疾病将特别有益。

寻找基因的直接途径

因为研制开发新药的关键主要在于人类基因所产生的蛋白质,而不是基因本身,所以人们想弄清楚,哈兹尔庭为什么竟为基因而大伤脑筋。原则上,科学家能直接分析一个细胞的蛋白质,然而,知道一种蛋白质的组分并不意味着能制造它及开发药物,所以,科学家必须制造大量似乎很重要的蛋白质。能做到这一点的唯一实用方法是分离出相应的基因,并把它们植入能够大量表达这些基因的细胞中。

哈兹尔庭寻找基因的方法关注一个基因被表达时细胞所产生的一种关键的中间产物上。这种中间产物叫做信使 RNA(mRNA),与DNA—样,它也是由4个碱基序列组成。当一个细胞由一个基因制造mRNA时,它本质上是在基因内复制DNA碱基序列。然后,mRNA作为模板来构建由该基因编码的特殊蛋白质。用于研究的mRNA的价值就在于,只有在相应的基因具有活性时,细胞才能制造它。不过,只与基因本身的序列有关的mRNA碱基序列为科学家提供了足够的信息,使他们能从细胞内的总体DNA中分离出该基因,并根据需要制造其蛋白质。

依据哈兹尔庭的宗旨,有关mRNA的难题是,它可能难于处理。因此,实际上哈兹尔庭正在研究一种替代品:稳定型DNA拷贝——mRNA分子的互补DNA(cDNA)。哈兹尔庭通过简单逆转细胞用于由DNA制造mRNA的过程来制造cDNA。

科学家以这种方式制造的cDNA拷贝通常是mRNA节段的复制品,而不是整个分子的复制品,整个分子可能有数千个碱基那么长。确实,一个基因的不同部分均可能产生cDNA,其共同来源不能直接显现出来。不过,仅含有儿千个碱基的cDNA仍保留着其亲本基因的独特特征。那是因为,两个不同的基因共享数千个碱基长的完全相同的序列是根本不可能的。就像从一本书中随机取一章就能独特地识别出那本书一样,这样一个cDNA分子也能独特地识别出产生它的基因。

一旦科学家制造出了cDNA,那么他们就能拷贝它,使其产生出人们所需要的数量。那意味着,科学家将有足够的物质来确定其碱基的顺序。因为我们知道细胞用来把DNA序列转变为构成蛋白质的氨基酸序列的规律,所以,碱基的排列顺序告诉我们相应蛋白质片断的氨基酸序列,

过去,分析cDNA序列往往极其费时,但几年来,已研制开发出了能可靠而自动执行这一任务的生物医学仪器。另一项进展也为使我们的策略切实可行所必需。排序设备在我们所熟视的标度上操作时,能产生极其大量的数据。令人感到欣慰的是,现在可以利用能处理所得数兆字节数据的计算机系统,科学家已研制出帮助了解大量遗传细节的软件。

解除迷惑

科学家识别细胞所使用的基因的技术是分析每个cDNA分子一端的300~500个碱基序列。这些部分性cDNA序列起基因标记物的作用,有时是指表达的序列标签。科学家之所以为其部分性cDNA序列选择这样的长度,是因为它恰到好处——短得足以使科学家相当快速地做出分析,却又长得足以使科学家明确地识别出一种基因。如果cDNA分子像一本书中的一章,那么部分性序列就像这一章的第一页——它能识别出这本书,甚至让人们了解这本书的大致内容。同样的,部分性cDNA序列能告诉人们基因源于何处的某些东西。在HGS,科学家每天产生约100万个罕见序列数据的碱基。

科学家的方法现已证实是成功的,在不到5年的时间里,哈兹尔庭研究小组便识别出了数千种基因,其中很多基因可能在疾病中起一定作用。其他公司和学术界的科研人员也开始了制造部分性cDNA序列的计划。

同时,科学家试图推断与部分性序列相对应的蛋白质的可能功能。一旦科学家预测出蛋白质的结构,他们就可根据这种蛋白质与已知蛋白质的结构的类似性而将其归类。科学家有时发现与另一种人类蛋白质的配对物,但常常看到与细菌、真菌、植物或昆虫中的蛋白质的配对物:其他生物产生很多与人类蛋白质功能类似的蛋白质。HGS的计算机不断地更新这些临时性的分类。

3年前,哈兹尔庭研究小组预测,含4个特殊康蒂格(Contig)的基因每个均能产生类似于那些已知能校正细菌和酵母DNA突变的蛋白质的蛋白质。因为研究人员已经知道,不能修复突变能导致结肠癌,所以,科学家开始研究这4个基因的完全序列。

随后的研究证实,这4个基因中的任何一个发生突变都能引起威胁生命的结肠癌、卵巢癌或子宫内膜癌。在北美和欧洲,多达1/200的人携带有这些“错配修复基因”中的一个的突变。知道这一点,科学家便能开发出旨在评价其亲属患有这些癌症的人的“错配修复基因”的试验。如果受试者显示出对疾病有遗传因素,那么,他们便能得到密切地监视。迅速检出肿瘤能导致挽救生命的外科手术,目前这类试验已被用于临床研究以识别有危险的人。

HGS科学家建立的数据库目前已拥有100多万个由cDNA衍化来的部分性基因序列,分类成17万个康蒂格。科学家认为,他们已拥有来自几乎所有表达的人类基因的部分性序列。一个指征是,当其他科学家将基因序列存入计算机的公共数据库时,哈兹尔庭研究小组发现,他们已经拥有其中95%以上的部分性序列。把部分性序列拼在一起往往会发现完整的新基因。哈兹尔庭等所识别出的新基因中有一半以上与已知W有特定功能的基因相似。随着时间的流逝,这一百分比很有可能增加。

如果一种组织产生异常大量的源自同一基因的cDNA序列,那么,这意味着,这一可疑基因正在产生大量的mRNA。这通常发生于细胞正在产生大赏的相应蛋白质时,提示这种蛋白质可能正在进行一项特别重要的工作。HGS还特别关注仅表达在小范围的组织中的基因,因为这类基因最有可能对治疗侵袭这些组织的疾病有用。在哈兹尔庭研究小组已发现的数千个基因中,他们已识别出约有300个似乎特别可能具有医疗价值。

新的基因,新的药物

现已证实,哈兹尔庭等所建的数据库对发现用于疾病“路标”的蛋白质具有重大价值。前列腺癌就是一个例子。一种广泛使用的检测前列腺癌的试验能检测出血中叫做前列腺特异性抗原的一种蛋白质的水平。前列腺癌患者常常表现出异常高的前列腺特异性抗原水平。不幸的是,生长缓慢的、相对良性的肿瘤以及需要侵袭性治疗的恶性肿瘤也能引起这种抗原水平升高,因此,这种试验尚存歧义。

HGS及其合作伙伴已对采自健康前列腺组织以及良性和恶性前列腺肿瘤的多重样本进行了mRNA分析。哈兹尔庭研究小组发现,约有300个基因在前列腺中表达出来,而在其他组织中则不表达;在这些基因中,约有100个仅在前列腺肿瘤中具有活性,约有20个基因仅表达在病理学家认为是恶性的肿瘤中。HGS及其商业合作伙伴正在使用这20个基因及其蛋白质产物来设计能识别恶性前列腺肿瘤的试验。哈兹尔庭研究小组正对乳腺癌、肺癌、肝癌和脑癌进行类似的研究工作。

部分性cDNA序列数据库还能帮助科学家找出引起罕见疾病的基因。例如,长期以来,研究人员一直知道,儿童某种形式的失明是半乳糖的化学降解发生遗传缺陷的结果。检索HGS所建立的数据库发现了两个先前未知的人类基因,据预测,其相应的蛋白质结构上类似于已知存在于酵母和细菌体内的半乳糖代谢酶。研究人员很快就证实,这两种基因中的任一种发生遗传缺陷都可引起这类失明。未来,这种酶或这类基因本身可能被用于预防这种疾病。

部分性cDNA序列也正在建立一个给人印象深刻的记录,以此来帮助研究人员找出适用于新治疗的较小分子。近年来,创造和测试小分子药物(最普通的类型)的方法已大大地改进、自动化设备能快速普查出能影响牵涉在疾病中的人类蛋白质的天然及合成型化合物,但有限的已知蛋白质靶推迟了这一领域的进展。随着科学家对更多的人类蛋白质予以研究,进展将加速。

HGS所建的数据库能使随机筛选有用的活性分子更加容易。了解一种蛋白质的结构能使科学家设计出以特殊方式与蛋白质相互作用的药物。这项技术称为“理性药物设计”,过去被用于制造某些新型蛋白酶抑制剂(现已证实对人类免疫缺陷病毒有效)、哈兹尔庭确信,部分性cDNA序列将使药理学家更多地使用“理性药物设计”。

HGS所建的数据库已被证实很有用,破骨细胞就是一个例子。正常情况下,破骨细胞存在于骨中,它们产生一种酶,能使骨组织降解。在某些疾病(如,骨关节炎和骨质疏松症)状态下,这种酶似乎过量产生。在数据库中,哈兹尔庭发现了表达在破骨细胞中的基因的一个序列,它似乎为这种破坏性的酶编码,其序列与引起软骨降解的一种酶的已知基因序列相似、哈兹尔庭研究小组证实,破骨细胞基因负责那种降解酶,并证实它不在其他组织中表达。这些发现意味着,科学家能发明挫败那种基因蛋白的方法,而不必担心这类方法会伤害其他组织。后来,哈兹尔庭研究小组制造出了这种蛋白质,史密斯•克兰•比彻姆公司(Smith Kline Beecham)已用它并借助高通过率的筛选和“理性药物设计”来识别可能的治疗方法。史密斯•克兰•比彻姆公司——世界上最大的制药公司之一还应用HGS的数据库筛选可能用于治疗动脉粥样硬化的分子。

从医学角度来讲,基因和蛋白质蕴藏量极其丰富的一类蛋白质——G蛋白质,它与受体形影不离。这类蛋白质跨越细胞外膜,并把生物信号从其他细胞传人细胞内。能够抑制这类重要受体的药物很有可能被用于治疗形形色色的疾病,诸如,高血压、溃疡、偏头痛、哮喘、普通感冒及精神疾病。HGS已发现了多达700种新的受体结合型G蛋白质。哈兹尔庭研究小组正在通过将他们已经发现的受体基因插入细胞内并评价制造这种编码蛋白质的细胞如何对各种刺激作出反应的来测试它们的反应。有两种基因引起了科学家的特别关注,这两种基因能产生似乎与高血压和成人发作型糖尿病有重大关联的蛋白质。哈兹尔庭的制药产业合作伙伴正在寻找能抑制这些受体所传递的生物信号的小分子。

HGS已发现的约200种全长基因序列的蛋白质很有可能作为药物来加以应用。哈兹尔庭研究小组已制造出绝大多数这些蛋白质,并已指定出了检测它们对细胞的活性的试验。其中一些在动物试验中被证实很有希望。这些蛋白质包括几种化学激动素(Chemokine)——刺激免疫系统细胞的分子。

自动化和计算机化发现基因方法的系统应用首次产生了一幅完整的图画,画出了不同的基因所表达的位置——人类基因表达的解剖学。另外,哈兹尔庭研究小组正开始了解疾病时基因表达的变化情况。要确切地知道何时医生将首次成功地应用这些研究来治疗疾病还为时过早,然而,哈兹尔庭研究小组的分析预测,由发现基因所导致的诸多治疗方法将构成21世纪药物的中坚。

[Scientific American,1997年3月号]