摘 要
本文以对e-科学(e-Science)这一术语的含义下定义为开始,介绍了英国提出的斥资1.2亿英镑的e-科学倡议,其中5000万英镑用于资助科学和技术领域中的大规模e-科学领头项目。支持这些项目所需要的基础设施,旨在使分散而多种多样的计算和数据资源的共享及科学家小组之间的有效合作成为可能。这样一种基础设施被称作网格(Grid)。除了2000万英镑用于一种Teraflop计算机外,约1500万英镑用于e-科学“核心计划”——目的是在与工业合作中推进健全而通用的网格中间件(middleware)的发展。文中对核心计划的主要组成部分作了概述,包括一种e-科学网格测试台的细节,以及对早已向外界宣布的领头的e-科学项目作一简介,这些项目涉及从粒子物理学和天文学到工程和保健等广泛的学科领域。除这些重要的e-科学项目外,核心计划还正在资助许多短期的e-科学示范项目,以及网络通信工程项目和一些国际合作活动。最后,我们用对开发一种网格的数据体系结构的必要性作一些评论来结束本文,这种体系结构将使大家都能接通有关的数据库和平面文件成为可能。
引 言
“e-科学”这个术语,是由英国科学技术部(OST)研究委员会主任约翰 · 泰勒(JohnTaylor)博士提出的。作为Hewlett-Packard欧洲研究实验室的前任主任和OST主任的任职经验,泰勒认为科学的许多领域变得愈来愈依赖于合作性的、多学科交叉的新的工作方式。e-科学这一术语,是试图引起对这种新型的工作方式的重视。
e-科学是一门关于在重大的科学领域中进行全球性 合作和使这种合作成为可能的下一代基础设施的科学。
通常把使这种科学革命得以实现的基础设施称为网格(Grid)。e-科学项目的两个案例来自粒子物理学和天文学领域。案例一:目前粒子物理学界正在筹划一系列激动人心的试验,这些试验将在欧洲原子核研究组织(CERN)在日内瓦建造的新型“大型强子对撞机(LHC)”设备上进行。试验的目的在于寻找希格斯玻色子标记。这种玻色子对产生矢量玻色子和弱电磁交互作用标准模型的费密子的质量来说至关重要。实验物理学家也希望能找到诸如超对称粒子之类的其他新型物质的迹象,这种超对称粒子可以排除宇宙论的“暗物质”问题。这些试验是在物理学空前大的规模上进行的。每一种试验都需要来自欧洲、美国和日本的100多个研究单位和1000名以上的物理学家的合作。当LHC在2005年投入运行时,每一组试验每年将产生出1015个字节的数据。这些数量巨大的数据,需要进行预先处理,并分送给研究联合体的所有成员作进一步分析,以寻找显示希格斯玻色子或其他的奇迹出现的信号。物理学家必须重视LHC网格基础设施,因为它可以使这些分散的数据组的传输和提取成为可能。在欧洲和美国,有许多受资助的项目:EUData Grid,EU DataTag,UK GridPP(欧洲);NSF GriPhyN,DOE PPData和NSF IVDGL(美国),为此,粒子物理学家正在为建立能够支持这些需要的网格而工作。案例二是更直接得多的以数据为中心的。在英国,天文学家在e-科学AstroGrid项目中,正计划创建一种“虚拟观测台”。在美国,也有类似的倡议。这些项目的目标是,提供一种统一的接口,接通分散在各地的从无线电波到X-射线所有波长的天文数据的储存器手段。目前,用不同波长得到的天文数据来自不同的天文望远镜,并储存在各自不同的格式中。他们的目标是,创建某种类似天文数据的“数据库”,可以使新型的研究得以进行。天文学家也在考虑创制一种网格基础设施,以支持这些虚拟观测台的工作。
关于“网格”中间件的想法,应归功于伊安 · 福斯特(Ian Foster)、卡尔 · 凯斯尔曼(Carl Kesselman)和斯蒂芬 · 塔克(Stephen Tuecke),这种中间件可以提供一套核心服务以使这些新型的科学和技术的目标得以实现。在Globus项目中,他们开发了一种开源网格工具包样品的部件。他们选用“网格”这个名称,是为了说明这种中间件基础设施与一种未来的理念产生共鸣。这种理念是:计算源、计算周期和存储以及昂贵的科学设备和软件,可以根据需要而获取,就像今天的电力设备那样。这些“e-应用”概念,也使人联想起一种向着网络团体中出现的“网络服务”模式方向发展的新趋势。
英国的e-科学计划
英国的e-科学计划的资金来源和结构
根据英国政府2000年度的财政审核报告,科学技术部拨款9800万英镑用来建立一项为期3年的e-科学研究和开发计划。这一e-科学倡议包括了所有的研究委员会:生物工程和生物科学研究委员会(BBRSC)、研究委员会中心实验室委员会(CCLRC)、工程与物理科学研究委员会(EPSRC)、经济社会研究委员会(ESRC)、医学研究委员会(MRC)、自然环境研究委员会(NERC)和粒子物理与天文学研究委员会(PPARC)。每个研究委员会得到一笔专项拨款(图1),其中PPARC得到的拨款数最多(2600万),以便他们能够开始将支持LHC试验所需要的基础设施到位,这些试验计划于2005年投入运行。
Daresbury和Rutherford中心实验室(CLRC)得到了一笔2000万英镑的特别捐款,用于他们的试验设备网格化。总数为2000万英镑的专款用来研制一种新型的全国性的Teraflop计算系统。其余的大约1500万英镑的拨款被指定用于e-科学的“核心计划”。把贸易与工业部的2000万英镑拨款加在一起,用于核心计划的费用为3500万英镑。
就像在贸易与工业部(DTI)计划中常见的那样,2000万英镑的赞助款项需要来自工业部门的匹配赞助。预计还会有工业对个别的研究委员会e-科学导向项目的赞助,从而使赞助金额要比2000万英镑高得多。核心计划旨在支持各研究委员会的e-科学领头项目,并且在开发健全的、“有产业优势”的通用网格中间件方面与产业部门合作。在各种不同的e-科学应用中得出的必要条件和经验教训,能为更稳定的和更起作用的网格中间件的发展提供借鉴。这样的网格中间件,可以用来支持e-科学试验,并且对工业和商业有实用价值。
在图1中还表示出管理结构。一个网络技术顾问小组,为英国的核心计划主任提供咨询。托尼 · 海伊(Tony Hey)被任命为核心计划主任。各研究委员会的e-计划由e-科学指导委员会协调,该委员会的主任是戴维 · 华莱士(David Wallace)。核心计划主任是该委员会的一个成员。EPSRC代表所有的研究委员会为核心计划提供计划管理。
美国航空航天局的信息动力网格(IPG)
在过去的3年中,美国航空航天局(NASA)通过将它的几个研究与开发实验室的计算资源的连接,开发了一种新型的计算基础设施,以形成信息动力网格(IPG)。这一行动的领导人比尔 · 约翰斯顿(Bill Johnston)的想法是,通过解决NASA为“高性能”的计算和数据处理服务提供持续的基础设施,来处理大规模的科学和工程问题。这些服务可以根据需要处理大规模的或分散的问题所必需的多中心资源,并且提供支持流程处理框架所必需的辅助服务。而这种流程处理框架是用来协调分散的科学和工程问题的进程。
就NASA而言,这样的一种框架对他们来说是必需的。在NASA,不仅计算资源是分散的,而且专门知识和管理技术也是分散的。为了模拟整架飞机—机翼、CFD、起落架等,NASA必须具有不仅可以把必需的计算资源,而且可以把已建立的机制连接在一起的能力。通过这些机制,分散在各地的工程师和科学家可以进行合作。这便是他们的“内部网格”的目标,通过这种网格,可以把NASA在各地的机构同各种专门知识和硬件资源连接起来。
约翰斯顿在IPG发表的演说中强调指出,虽然能使如此分散的计算试验得以进行的技术有了许多年,但这些试验往往是一次性的演示系统,并且离不开有熟练的分散系统的工程师在场和他们的知识。他认为,目前我们所需要的是一种中间件,它能使这种系统的体系常规化——不需要专家来建造和维护这种系统。IPG是迈向“生产—质量”网格的第一步。
联系英国的情况,我们把IPG看作是一种认为关于网格是可以实现的观点“存在证明”。显然,目前的网格中间件的实施还仅仅是起步,而且还有许多不足之处。尽管如此,自从在英国发起一系列类似的网格基础设施的e-科学项目以来,我们把这种努力建立在NASA的经验的基础之上,并且利用Globus,Condor和SRB网格中间件作为一个起点,是深谋远算的。
国家和国际的网格项目
目前,全世界在网格研究和开发方面,已经进行了巨大的投资。为了同英国的计划作比较,我们在本文中提供了在美国(表1)和欧洲(表2)受到资助的网格项目清单。从近来IBM和Sun公司发表的关于支持网格观点的声明可以清楚地看出,网格作为一种成熟的中间件,可能不仅会变成e-科学的,也会变成工业和商业的重要的中间件,而且具有更多的功能。
大多数这样的网格基础设施和应用项目,将利用Globus工具包作为起始平台,在其上提供网格服务。
除美国和欧盟的项目以外,还有许多欧洲国家的项目(英国发起的项目除外)。这些项目包括:荷兰的VLAM和Dutch Grid;德国的Unicore;意大利的INFN Grid和波兰的PIONIER Grid。在爱尔兰和匈牙利也有网格项目;法国和瑞士也批准了对网格项目的资助。还有一种强烈的愿望:建造一种亚洲-太平洋网格。“预告”这个词是为了在作出比较之前,先对可以得到的用于网格中间件开发的资助作一比较。已宣布的对美国项目的资助,通常包括相当数目的用以购买硬件的资助。而英国则不同,几乎所有的2000万英镑都是用于中间件开发和e-科学软件工具。
[Future Generation Computing Systems,2002年,第18卷]
____________________
* 英国e-科学核心计划EPSRC主任。**英国e-科学核心计划EPSRC副主任。