为了鉴定人类致病基因,迫切需要多套能覆盖每条人染色体的顺序重叠的克隆基因组DNA片段。这样一种物理图也提供了基因组结构和功能研究的极好材料。因此,我们对人类多态性遗传中心(CEPH)的酵母人工染色体(YAC)基因文库进行了详尽分析。该基因文库含有33,000个克隆,其中的插入片段大小已被各自确定,这些YAC基因库的插入子平均长度为0.9 Mb(百万碱基),覆盖面相当于10个单倍体基因组。将几种作图技术结合起来,就可提供这些克隆中的大多数克隆的多种结构信息。最后利用准一致地分布于该基因组90%区域的2,000多个遗传标志对该基因库进行筛选。这些研究结果将使科学界能够构建出所有人染色体的详细图谱。我们进一步提出了制造第一代覆盖大多数人类基因组的完整图谱的资料分析策略。

迄今科学家们已利用几种不同的方法来构建基因组的物理图。所有这些技术都能确定各克隆间的重叠以重建原来的基因组顺序,然而每种方法都有其自身的局限性。因此,我们决定将4种主要技术结合起来,以从大量YAC克隆中获取结构和位置上的资料。

过去一些年里,单一克隆的限制片段类型已被成功地用于建立大肠杆菌、酵母菌和秀丽隐杆线虫(C. elegans)的图谱。通过对含有由所述的3种酶产生的片段的中等重复顺序(THE和L1)进行检测,我们制得了我们的基因库中的所有33.000个YAC库的相似的“指纹”(Fingerprints)。

单拷贝位标筛选法(Single-copy landmark screening)也能确定许多重叠片段,这种方法的有限利用已经提供了两条最小的人染色体图。如果这些位标都是顺序标签位点(STS,指其在人类染色体上位置及碱基顺序均已知的DNA短片段),它们将能被利用减数分裂重组进行遗传排序并指定到特定的染色体。我们利用2,100个多态性遗传作图的STS,对部分或全部的相同的33,000个YAC库进行了筛选。得到了平均5.52个对一选定的1,068个STS子集(Subset)呈阳性的YAC库,对另外的714个STS,平均有2,05个克隆呈阳性。这使我们确定了6.580个克隆(占全部基因库的20%)的STS含量。

我们也利用另一种方法来进行迅速及广泛的单拷贝位标筛选,这种方法的基础是将YAC库用作杂交探针。通过在普遍存在的Alu重复顺序之间的多聚酶链式反应(PCR)扩增,我们得到了每一克隆的特异顺序。我们得到了一个平均大小为1.1 Mb的25,000个YAC库子集(相当于9个基因组)的PCR产物。在适度的富集(pooling)之后,将这些产物与来自单染色体体细胞杂交制图孔板(Panel)的Alu间PCR产物一道高密度地点种到尼龙膜上,并将这些尼龙膜与通过单独的YAC扩增产生的5,332个Alu间PCR探针成功地杂交。这些YAC库至少相当于两个基因组,我们也优先利用含YACs(2100)的多态STS,和来自为每条染色体制得的染色体特异性亚基因库的克隆。平均来说,对每一个YAC探针,有10个YAC被检出。用这种方法,我们在一套包括了YAC探针和它们的靶顺序的20,750个YAC库中建立了各克隆之间的同源关系,这个数目相当于所筛选的基因库的83%。我们可同时将5,332个YAC探针中的4,373个YAC探针提定到人染色体,并推导出15,000个靶YAC可能的染色体位置。

最后,利用S萤光素标记原位杂交技术(Fluorescence in situ hybridization,FISH),将大约500个含有遗传作图的多态STS[每7.4 cM(分摩,基因交换单位)中有一个]定位在细胞分裂中期的染色体上。这样就使遗传、物理和细胞发生图谱一体化,所有这些数据资料,连同克隆的大小,都可用于通过来自人类多态性遗传中心(CEPH)—Genethon作图工厂的无具名的FTP(File Transfer Protocol,文件传递协约)或者通过电信向ceph-genethon工厂索取,来达到科学信息(指参考文库)的共享。特别是克隆中的STS含量档案,Alu PCR杂交的结果,人重复顺序的L1探针及从“指印”分析得到的单个YAC的指印带大小以及各克隆间的同源关系,加上克隆的大小及它们的FISH位点,都可通过FTP得到。额外的有关筛选结果方面的信息资料最初将通过电信联系来取得。自1992年以来,我们的基因文库已经毫无保留地公布了。

通过将所述实验的资料结合起来,理论上,我们应该能够构建出覆盖所有人类染色体的重叠克隆的连续克隆体(continuum)。然而,实际情形远非理想。YAC克隆的主要不足是存在很高比例的(40~50%)嵌合克隆(指含有来自基因组非邻近部分的人为造成的连锁片段)。有两种类型的嵌合克隆可被确定:一种是连接来自不同染色体片段的克隆,它们极易利用染色体定位检测出,另一种是合成的嵌合克隆,它们较难检出。这些人工制品可产生包括基因组假连锁区的嵌合连续克隆体。另一种人工制品来源是在人基因组中存在许多具有差不多相同的顺序的同源区,它们同样会导致组装时形成错误的连续克隆系(contig)。在利用YAC库进行的大的制图项目中,通过细胞遗传方法,这些问题已部分地得到解决。在这种情况下,可借助于自然形成的缺失染色体将位标重新指定到特定的区域。然而,即使经过了这种试验以后,仍然找不到绝对有效的方法来证实某一假定的单拷贝探针确能检出一个单独的位点。

这里,我们提出了一种可供选择的多级(multilevel)制图方法,其中物理图谱的构建直接建立在与遗传作图结合起来的基础上。在这种方法中,通过染色体特异性的筛选过程,将重叠克隆的连续克隆体(continua)组装成短小的遗传限定的紧挨的间隔子(或间隔序列)。目前,我们分析研究的目标是利用与Genethon提供的通用减数分裂重组图相一致的遗传间隔顺序来填充重叠的YAC库的这张图谱包括了1,267个遗传确定的位点,并且估计覆盖了90%的人基因组。

通过利用与遗传位点相符的STS对该基因文库进行筛选,对其中的大多数,我们至少得到了一个YAC克隆。考虑到YAC的平均大小为0.9 Mb,以及这些遗传标志的准一致分布,仅这一点就提供了这种带有顺序YAC克隆的基因组的20~30%的物理覆盖面。我们认为,当某种起始于一个含第一个STS的克隆并于对另一个STS呈阳性的克隆结束的局部瓦状通道(Local tiling path)被组装成的时候,在相邻的STS之间的裂口(gap)会关闭。这里,我们把在这种瓦状通道中的最大克隆数目表示为“级”even)这样,level1(1级,余数推)表示只有一个对两种STS呈阳性的YAC用于填补一个裂口。在这一级上的结果表明全部遗传长度的11%被物理图覆盖。在瓦状通道组装过程中,我们仅保留那些染色体排序与两相邻STS的遗传位置不相矛盾的克隆。在这种方法中,在相邻的STS旁边,我们以所有位于特异的遗传间隔顺序之内的标志作为参考。此处level-1,表示这一间隔为10 cM。这使我们能设法取得在该遗传图中可能的区域倒位。实际上,由于遗传标记的顺序仅仅是随机分布的,因此永远无法百分之百地肯定。此外,在一个这般大小的间隔内,我们推测仅有0.12%的克隆是合成的嵌合体。目前的这张图是建立在性别均分的减数分裂图谱之上的。

利用我们先前为第21染色体长臂(21q)所作的高分辨率图谱,我们对这种新提出的方法(指多级制图方法)的可信程度进行了检验。这种连续克隆系中的部分YAC来自我们通用的基因文库。我们发现在毗连的多态STS之间已经在level-5上形成了一种有效的裂口闭合,当可进行比较时,发现两张图谱之间没有矛盾,尽管如此,我们仍担心目前的这张图谱仍有其缺陷,这不仅是由于存在嵌合和同源性问题,也是由于在酵母菌中的某些区域的非克隆性,部分YAC的不稳定性,以及重复顺序或遗传标志的分布偏差。目前,我们还不了解这些问题在人类基因组中的出现几率。而且,实验过程中的误差是不可避免的。对人类基因组的所有区域来说,STS筛选的有效性并不一致。第19,17染色体以及第1染色体的短臂(lp)的弱覆盖率主要是由于对这些区域的大多数位点来说,每个STS不能得到最少1个阳性YAC。目前我们正试图推出一些起确定作用的试验,但是在秀丽隐杆线虫上进行的开拓性研究工作已经表明,为精心制作这种图谱,需要更进一步的国际性合作。对可使用我们目前的这张图谱感兴趣的研究人员,可以向人类多态性遗传中心法国Genethon制图工厂申请,获得详细的瓦状通道资料。我们希望,当将新的重叠数据并入通用数据库时,将提高准确度,并有助于排除假连锁。然而,每当需要分离感兴趣的遗传限定区域时,都可利用我们已有的结果。充分利用从这种基因库中获得的结构和位置上各别的YAC数据,毫无疑问将有助于当前所进行的人类全基因组的制图努力。

[Nature,1993年12月16日]