目标4——功能基因组学技术

人类基因组计划正在对生物学和医学在下一个世纪及其以后的研究产生革命性的作用。整个基因组序列的获得为生物学带来了一种常称为功能基因组学的新方法——在基因组水平上阐明DNA序列的功能。一些已经完成测序的生物的经验证实了许多基因和基因组的其它功能元件仅在整个DNA序列已知的情况下才能得以发现,序列数据的积累将促进这些发现。但是,获知一个基因或者其它元件的结构仅仅回答了问题的一部分。下一步是通过了解基因组与它们所处环境的相互作用来阐明其功能。目前在基因组水平上研究DNA功能的方法包括直接比较和分析序列模式来推断功能,信使 RNA和基因的蛋白质产物的大规模分析,和各种通过破坏基因结构来研究其功能的方法。将来需要许多新的策略来诠释基因组的功能,这将是对整个生物学的挑战。HGP在这个方面要做的是加强对能够大规模应用、有效、能够将基因组作为一个整体产生完整的数据的技术的开发。根据现有资源的情况,应该推广的现有方法和应该支持的新的技术观念叙述如下。大规模识别基因转录本和它们的蛋白质产物可以大大加强功能分析。因此,对代表所有人类基因的全长cDNAs的识别和测序将是一项高度优先的任务。

a)开发cDNA资源。人类和各种模式生物体的全长cDNA克隆和序列的完全获得将对生物学家们极其有用,是一项迫切需要完成的任务。这些资源对基因发现和功能分析都将有益、不幸的是,克隆全长cDNAs或者识别稀有的转录本都还不是一项常规任务。因此应该把开发获得全长cDNAs的技术和发现稀有转录本的技术放在高度优先的地位。一旦这些技术被掌握后,就应该制作全长cDNA克隆和序列的完整的、有效的目录并且向同行们公开提供。

b)支持对非蛋白质编码序列研究方法的研究。除了编码蛋白质结构的DNA序列之外,还有大鼠的DMA序列行使其它功能,例如控制基因表达、RNA剪切、染色质结构域的形成、染色体结构的维持、重组和复制。其它序列则编码大量具有一定功能的不翻译RNAs。应该改进有关技术来为非蛋白质编码序列提供全方位的研究方法,包括相关文库的生产、比较测序和计算分析。

c)开发基因表达的综合分析技术。人类和各种模式生物体基因表达的空间和时间模式信息为理解基因表达提供了一把钥匙。需要开发高效而低成本的技术来为测量基因表达的各种参数提供可靠而可重复的方法。阵列技术、大规模原位杂交和其它检测基因表达的技术将需要互补DNA序列和有效克隆库及它们的特殊识别物。对表达数据进行定量、描绘、分析和存档的先进方法也应该开发。

d)改进基因组水平致突变的方法。研究基因功能的另外一种主要方法是产生突变来导致功能的丢失或者改变。能够大规模地在体内或者体外研究中应用的基因致突变和表型致突变技术在产生或者发现所有基因中的这些突变的过程中都是需要的。这些技术应该适用于不同的模式系统,既包括细胞培养水平也包括生物体整体水平。

e)开发整体蛋白质分析技术。对基因组功能的理解需要在基因组水平基础上理解蛋白质功能。开发实验的和计算的方法来研究蛋白质表达、蛋白质-配基反应和蛋白质修饰的整体空间和时间模式应该得到支持。

目标5——比较基因组学

因为所有生物体都通过一个共同的进化树而相互关联,一种生物的研究可以为其它生物的研究提供有价值的信息。分子遗传学的有益之处很大程度在于它可以根据另一种物种的相关基因的知识来分离和理解某种物种的基因。远缘基因组之间的比较为认识生物学机制的普遍性和寻找研究复杂生理和病理过程所需的实验模型提供了工具。而近缘基因组之间的比较则为认识基因结构与功能的详细情况提供了独特的视角。为了充分理解人类基因组,对一系列近缘和远缘模式生物体进行基因组分析的工作必须得到支持。

在第一个五年计划目标中,5种模式生物体中的大肠杆菌和酿酒酵母这两种基因组的测序已经完成。这些序列的获得导致了许多新基因和基因组中其它功能元件的发现。生物学家们已经从识别基因转到了基因的系统研究以理解它们的功能。余下3种模式生物体:美丽隐杆线虫(已于1998年12月11日完成,译者注)、黑腹果蝇和小鼠的DNA测序完成仍然具有高度的优先性,应该在资源允许的前提下尽快完成还应增加对其它某些模式生物体的分析以使比较基因组学的教益得到充分体现。这一不断增加的崙求是建立可持续的测序能力(见目标1和2)的主要理论依据。

a)在1998年完成对美丽隐杆线虫的测序。美丽隐杆线虫基因组的DNA测序已于1998年12月完成、一些难以测序的区域仍不能完成,应该继续对它们进行测序研究。这一计划中的经验和教训对设计较大基因组的测序策略将是至关重要的。

b)在2002年前完成对黑腹果蝇的测序。几十年来积累起来的关于黑腹果蝇的大觉信息使其成为一种极其重要的遗传学模型。所有的生物学家都翘首以盼它的DNA测序完成。为了达到这一目标,将需要对黑腹果蝇的测序能力投资给以显著性的增加,它的早期完成对比较生物学的益处是巨大的。私有企业的介入可能甚至会使这一目标在2002年之前即可完成。

c)小鼠基因组。小鼠是目前用于研究一大批生物医学研究问题的最佳哺乳动物模型。完整的小鼠基因组序列将是一种诠释人类基因组序列的极其重要的工具,因为它不论是编码序列还是非编码调控序列都具有与人类相比高度保守的功能特征n小鼠和人类基因组之间的比较也将发现区分小鼠和人类的功能上的重要差异。因此,投资于一系列小鼠基因组资源,最终完成其全基因组测序,以促进对哺乳动物系统中全基因组方法的开发该是时候了。

d)建立物理和遗传作图资源。现已建立的小鼠酵母人工染色体(YAC)/S1B整合图为建立定位克隆和测序计划所需的更详尽的作图资源提供了有益的框架。这些资源应该包括定位了的STSs、多态性标志、cDNA序列和BACs。对SNPs作为小鼠中多态性标志的有益性也应在近期加以探索。

e)建立其它的cDNA资源。我们需要更多的cD-NA文库和cDNA序列。它们应该来自一系列组织和发育阶段,并且能够很好地反映稀有转录本的情况。小鼠为人类cDNA序列中难以发现的那些不同发育阶段、解剖部位和生理状态的cDNA序列的获得提供了一种机会,这应该得到特别的重视。一旦得到了有效技术,就应对全长cDNAs加以建立和测序(参见目标4)。

f)在2005年前完成对小鼠基因组的测序。小鼠基因组序列是一种阐释人类DNA序列的关键性资源。为此,应该鼓励那些进行人类DNA测序的中心投人他们能力的10%对小鼠DNA进行测序,在今后几年中还应建立另外的小鼠DNA测序能力以达到2005年前完成对小鼠基因组测序的目标。在此初期,还应该更快地建立一幅小鼠基因组的工作草图(对人类基因组序列的工作草图的讨论见目标1)。'

g)寻找其它能够对理解人类基因组和支持适当的基因组研究有重要贡献的模式生物体。随着DNA测序能力的提高,应该寻找能够对理解人类生物学有所裨益的新的模式生物体进行基因组测序。即使这种能力在本次五年计划中不能达成,也应该对其它有益的基因组资源的开发加以考虑,科学界应该建立挑选那些可以作出最大贡献的模型的标准。与其它模型的系统发育学距离、基因组大小、转染校能力、突变能力和实验材料的可获得性等特征都应该考虑在内。因为不同的特征将对不同的目的有用,应该对那些系统发育学上彼此疏远和相互接近的物种进行研究。

目标6——伦理、法律和社会影响(EIBI)

尽管遗传学不是影响人类福祉的唯一因素,NIH和DOE还是敏锐地意识到了人类遗传学和基因组学将对每个个人和社会产生重要的影响。因此,对基因组研究的伦理、法律和社会影响的探讨是HGP的不可或缺的根本组成部分。随着计划的进行,生物学家和社会学家、卫生保健人员、历史学家、法律专家和其它领域的专家们以一种独特的合作形式承担起对这些问题的探究。ELSI项目在遗传信息的隐私性和公正应用、遗传信息在临床上的安全和有效应用、遗传学研究中的伦理学问题,以及有关职业和公众教育等领域内已经产生了一个重要的学术团体。这项研究的结果已经被用来指导遗传学研究的进行和开发相关卫生职业和公共政策。ELSI项目还刺激了生物学和医学科学其它领域的类似问题的研究。

要使ELSI项目取得持续成功,将需要对遗传学及其应用的迅速发展所提出的新的挑战给予S视。随着基因组计划越来越接近完成其第一个人类基因组序列的测序并且开始大规模研究人类序列的变异,生物医学科学家、ELSI研究者和教育者们应该更加重视这些发展对个人、家庭和群体的伦理、法律和社会的影响。ELSI研究和教育的新目标可以形象地比拟成一个相互关联的问题和事件组成的金字塔。鉴于ELSI发展目标中所涉及的问题的复杂性,这里仅列出主要领域的概要。为了更全面地描述这些将被解决的问题的内涵和外延,我们建立了一个网址(www.nhgri.nih.gov/98plan/elsi/),对每项目标所计划的研究问题和教育活动提供了一些例子。

今后5年中的主要ELSI目标:

a)完成第一个人类DNA序列测序和人类遗传变异研究中的各种问题的研究、

b)遗传学技术和知识在卫生保健和公共卫生事业中应用产生的问题的研究。

c)基因组学和基因-环境相互作用的知识在非临床活动中应用产生的问题的研究。

d)对遗传学知识与哲学、宗教和伦理学观点的相互作用的方式的研究。

e)研究社会经济因素和人种与种族观念对遗传学知识的应用、理解和诠释,遗传学服务的设施及其开发政策的影响。

目标7——生物信息学和计算生物学

对生物信息学的支持是实施各项基因组计划和将它们的成果公布于众所至关重要的。基因组计划所需要的生物信息学分为两个广阔的领域:(i)数据库和(ⅱ)分析工具的开发。在向公众公开的、用户友好的数据库中对不断增加的作图、测序和表达数据进行收集、分析、注释和储存,对基因组计划的成功是关键性的。另外,还需要开发一些计算方法使科学家们能够有效地提取、查看、注释和分析基因组信息。因此,基因组计划必须继续对这些领域给予实质性的投资。应该鼓励开发一些方便的软件对这些资源进行保存。

a)改善数据库的内容和应用。数据库是HGP数据的最终储存方式。由于新的种类的数据的产生和新的生物学关系的发现,数据库必须得到持续、快速的发展并且要适应于科学界的不断变化的需求。为了鼓励广泛的利用,数据库应该适应于不同的用户,包括数据提供、数据储存、数据访问和数据分析。应该使数据库的结构能够最大限度地圆满回答社会各界的查询,数据库之间的通讯必须得以改善。为此必须实现

术语的标准化,并需要建立一个类似于模式生物体数据库的人类基因组信息数据库,该信息库S该包括与多种表型信息的联系。

b)开发更好的数据产生、获取和注释工具。大规模、高通量的基因组研究中心需要简便实用的信息学工具来完成一些具有普遍性的任务诸如样品跟踪、过程管理、图谱制作、测序和数据的初步注释。较小规模的用户则需要可靠的工具来满足他们的测序和序列分析需要。不仅应该提供容易获取的各种工具的获取和应用信息,还应该提供对这些工具应用的培训.

c)开发和改善综合性的功能研究工具和数据库。在不久的将来,大S的基因表达和功能数据将不断产生。必须建立起以有效的方法组织和提供这些数据的数据库。能够在一批细胞和组织中、各种时间和不同条件下对表达和功能数据进行分析和比较的新的统计学和数学方法应该得到开发还需要开发模拟复杂网络和反应的工具,

d)开发和改善描述和分析序列相似性和变异性的工具。物种内部和之间的序列相似性和变异性的研究将成为研究生物学问题的一种日益重要的方法。将会有许多种序列变异形式,SNP只是其中之一,需要建立获取、提供和分析序列变异信息的工具、

e)建立一些机制来支持对可以广泛共享的方便实用的软件的开发。学术界和产业界都在开发许多有巨大应用价值的软件产品。但是,这些工具一般可移植性和商业化较差。要建立一些机制来支持将这些工具开发成可以共享的产品并且提供这些产品使用的培训。我们热忱欢迎私有企业的参与。

目标8——培训

HGP已经产生了对新的不同种类的科技专家的需求,他们能够在生物学和其它学科,例如计算机科学、工程学、数学、物理、化学和社会科学之间的交叉领域中做出创造性贡献。随着基因组研究的普及性的增加,这些专家大大地供不应求。过去,基因组计划已经从非生物学科学家的智慧才干中得到了巨大的收益,将来他们的参与更是不可缺少。我们迫切需要培养更多的能对基因组学做出贡献的跨学科领域的科学家,必须建立一些项目来鼓励对基因组学所需要的生物学和非生物学科学家的培养。尤其迫切的是那些受过生物信息学训练的人才的短缺。还需要那些在领导大规模数据生产项目中所需要的管理技能方面得到训练的科学家。另一个迫切需要的是那些在研究遗传学发现对社会影响方面训练有素的专家,他们应该同时具有基因组相关科学和社会科学的知识。最后,必须为基因组科学创造一个宽松的学术环境,有利于创新性研究并且保证对年轻人才的培养。这是学术机构的责任,但投资机构可以通过他们的资助项目来加以鼓励。

a)支持对基因组学研究中训练有素的科学家的培养。应该建立一些基因组学研究的培养措施,包括提供研究奖学金和职业奖金、鼓励建立专业培训项目和课程。培养措施还应该包括促进来自不同学科的科学家的合作,和向科学家们介绍新技术新方法的课程。

b)鼓励建立基因组学科学家的学术之路。必须建立一个有利的学术环境来鼓励各种人才进入这一领域。目前,产业界对基因组科学家的高度需求威胁着学术界基因组科学家队伍的稳定。必须建立有吸引力的机制来维持基本的人才规模以保证对下一代基因组学科学家的培养。

C)加大对既具有基因组学和遗传学知识又具有伦理学、法律或社会科学知识的科学家队伍的建设。随着遗传学发现的速度的加快,对在研究这些发现的社会影响方面受过足够训练的人才的需求也在增加。ELSI项目应该在提供博士后和资深研究员职位以促进跨学科训练方面下大力气,这样的职位不仅应该向那些想得到社会科学和人文科学训练的科学家和卫生专家提供,也应该向那些想得到基因组学或者遗传学科学训练的法律、社会科学或者人文科学专家提供。

(续完)

[Science,1998年10月23日]