面对每年科学数据量的成倍增长,亚历山大 · 斯扎莱(Alexander Szalay)和吉姆 · 格雷(Jim Gray)分析了从纸质记录本演化为巨大的在线数据库的的基础上,提出了如何实行数据共享的标准问题——

很久以来,科学家们就被训练成在实验室记录本中记录下实验数据和观察过程,以便用它们分析实验结果。其他人也可以依据这些记录重复他们所做的实验,伽利略、曼德尔、达尔文也都是如此。

当记录下的数据量不大,即时可以对数据进行计算的时候,这种工作方式还是挺不错的。但是,在现代科学几乎所有的学科里,数据量每年都在成倍成倍地增长,而且对这些数据的分析过程也越来越复杂,显然这一传统的实验室记录方法已无法应对目前呈指数级增长的数据量。

传统的研究方法是——做实验、记录结果、分析数据,然后将实验数据的分析结果予以发表。对此,关于未来研究方法的变革,有人甚至预言,到2020年,现在看到的那些传统的研究形式将会绝迹。

今天,绝大多数科学家已经把他们的记录本换成了功能更为强大的桌面计算机,用它来记录结果,查阅科学文献,并用电子邮件同合作者们联络。除此之外,这些计算机还承担数据分析的工作。尽管Matlab、Mathematica以及Excel都是现行的数据分析工具,然而,它们都难以处理数以百万计的数据,而且从很多方面来看,它们还是非常“原始”的。

随着数据量的不断增大,从中获取知识的难度也越来越大。科学家们花费大量的心血去组织、排列和优化数据。尽管每一个处理步骤都会让数据集小一点,但是最终的结果仍然是一幅巨大的图像。分析TB字节(1TB等于1000GB)的数据尚且是一个挑战,而PB字节(1PB等于1000TB)的数据又已经浮现出来。PB字节相当于10亿本书的容量,然而许多科学仪器——像大口径综合巡天望远镜(Large Synoptic Survey Telescope,LSST)——会在不久的将来以PB字节的速度产生大量的数据!

可以将来自太空(左图)的数据以及对土壤进行取样所得到的数据进行转换

为了应对这种数据洪流,人们在研究过程中开始把系统地使用数据库作为一项不可或缺的工作。数据库提供工具组织和使用某种判别标准去查找数据,并计算数据相关的统计量,以及通过分析从而找到其中的规律。今天,许多实验在实施前就把数据导入数据库,但是几乎没有什么工具能够在多种尺度和数据集上把数据可视化。如果我们不能在一张纸上容纳所有的数据并对它进行校验,那么我们又怎能“看到”一个新的规律或者发现一个数据点不符合假设呢?还好我们有一些数据库工具,例如数据立方体(data cube)可以履行这项任务。

共同的语言

尽管计算机目前已成为科学仪器中不可或缺的部分,它不仅被用来管理和分析大量数据集,还可以用来直接获取数据。但实验过程涉及到的仪器和参数的调整,或从一个永久保存的格式化记录中获取全部模式数据,包括软件的改进、参数的设置等步骤不是件轻易可操作的过程。比如,假定我们使用一台DNA测序仪进行测序,它的输出结果要和一个基因序列库作相关的交叉研究,就必须使用Matlab来分析这个结果。但把这些步骤全部记录下来仍将是一件艰苦的工作。即便在20年以后,尽管那时候Matlab和GenBank会有极大的改进,也不能想象有人能重复上述过程。因此,当实验产生更多的数据,分析愈发复杂时,数据就变得更加难以记录和再现。

可能有人会争辩说,复杂的生物学实验由于有太多的变量而一直都难以再现。关于这个问题目前我们还没有答案,但重要的是要认识到这个问题,然后想办法记录下实验流程,并去开发定义用于记录的设备状态、操作过程和测量结果的流程,这个流程将保证几十年以后这些记录能被再次使用。

基于此,科学家目前正在重事巨系统的开发与分析研究,这些系统要求把若干工作小组甚至若干学科的数据组合到一起,使不同部门或者不同学科之间的科学家能相互协作和共享数据。重大发现往往是由拥有不同专长的科学家组成的团队完成的,不仅包括生物学家、物理学家和化学家,还包括计算机科学家、统计学家和数据可视化专家。显而易见的是,今天的研究生们需要主修其专业之外的知识:他们需要掌握有关数据管理、可计算性的概念和统计技术等。

通过互联网把数百名科学家召集在一起的协作活动引出了一个问题,那就是共享数据的标准问题。把数据从一种格式转换成另一种格式,这样的事情花费了太多的精力。数据标准在以下几个层次上是十分重要的:在格式层面——一个小组书写的数据可以被另一个小组很容易地解读和理解;在语义层面——一个小组使用的术语能够无歧义地(常常是自动地)翻译成另一个小组使用的术语;在工作流层面——每个分析步骤可以在互联网上分别执行且可以重复这些步骤。

数据共享的标准是至关重要的,可以用一个土壤生态学的实例来理解这个问题。我们正在建立一套用来研究影响土壤生物多样性的长期环境趋势的系统(www.lifeunderyourfeet.org)。该系统能够把通过传感器网络传来的本地环境数据和水文学、气候、生物多样性以及生物地球化学的数据集成起来。由于这些数据对其他领域也有应用价值,因此数据将依据可控词汇表和标准的格式发布,同时相关设备和测量过程也被详细地描述。尽管对传感器和数据收集过程进行全面的记录还存在一定的困难,但重要是我们现在还没有什么可依赖的标准去完成此事。

数据淘金

多学科数据库提供了一个丰富的科学研究环境:科学家可以收集到新的数据,并把它们和其他保存在库中的数据进行综合,最终将处理后的数据保存回数据库。目前很多科学家都不再用老套的方法"做"实验了,他们从唾手可得的数据库中"挖掘",寻找新的规律和发现,再也不用试管一类的东西了。但是面对海量的数据进行科学研究也面临着挑战——互联网的速度还没有赶上科学数据的增长速度。

因此,在网络意义上,大数据库正在被"孤立"起来。尽管我们现在可以通过互联网复制GB字节的数据,但是还远不能拷贝PB字节数据。将来,基于大数据集的工作不再是将数据发送至你的工作站,而是将你的计算程序发送给数据。但这将给分布式计算的管理带来了安全、自由访问公共数据和网络花费等新的问题。当然目前还鲜有数据库会面临这些问题。

目前我们是否已经达到了这样的一个极限:一位科学家或一个实验室所能够独立完成数据处理和分析的极限?如果达到了,那就意味着我们发表研究论文的方式有待检验和改变。举例而言,一篇通过数据挖掘的论文需要包括一个明确的对数据库的查询方式的表述,以说明所分析的数据是如何收集以及如何过滤的,而不必将数据本身发表出来。这样,通过访问公共数据库的检验者就可以再生数据集并重复分析过程,因为在未来20年的时间里,只要有数据和工具保存着,这些数据分析就可反复去做。

出版过程本身也正在变得电子化,因此出现了一些新的发布科学信息的手段(如预印本数据库arXiv.org),但是尚没有一种发布大量数据的标准(如论文的附录放不下能够重现结果的全部数据)。一些学科创立了他们自己的数据库,像GenBank;另一些学科仅仅通过科学家自己的网站将数据发表出来,然后很快又消失了。而天文学家建立了国际虚拟天文台联盟(www.ivoa. net),集成了大多数世界级的中型和大型天文数据库。但这需要有新的数据交换标准以及一个提供天文学术语可控词汇表的语义字典来支持。

为了鼓励数据共享,像国际虚拟天文台所作的努力应该得到表彰。同时,公共数据库的创建者和发布者应该具备某种信用机制,数据档案应该能够自动提供数据来源的详细信息。当前的数据库距离这样的理想情况还有很长一段路要走。

科学数据呈指数级增长还将持续多久?今天的桌面计算机堪比10年以前的超级计算机。类似的进展也发生在科学仪器上——它们正在很快地被更好的更便宜的设备所淘汰。同样类似的,计算机性能的改进到2011年将会使得单位价格所实现的处理速度、存储量和网络带宽翻10倍。由此我们可以想象得到,数据量也得翻上10倍。

越小的越快

当然,不是所有的实验都在以指数级增长。有理由相信,增长得最快的不是以数10亿美元装备起来的庞大实验设备,而是更加小型化的实验仪器。当今科学呈现两种趋势:向上增长和向外扩张。一些科学家正在建立数10亿美元的设备,像天文学的大口径综合巡天望远镜和大型强子对撞机(Large Hadron Collider)。这些设备只有在国际合作的条件下才可能完成。在这样的设备上实现跨越式发展是不容易的。而且一旦这些PB级的设备开始启动,它们每年的数据产量大致不变,这只是一种线性的增长。

但是对于向外扩张的模式,那些使用小型设备阵列进行的实验会由于其使用更便宜、更常见的技术而取得爆炸式的增长。无线传感器从一年前300美元的价格降到了今天的100美元,明年也许会到30美元。类似的情况也发生在DNA芯片和基因测序设备上。应该认识到,这一现象是普遍性的。因此,尽管在一些学科上达到了数据生产的顶峰,但是科技革新很快又会让它们成为历史。2020年的科学家们还会继续工作在一个呈指数级增长的世界里。

[本文作者亚历山大 · 斯扎莱系约翰 · 霍普金斯大学的天文物理学家,吉姆 · 格雷系微软研究院的计算机专家。]