抗击癌症的战线正渐渐延伸至计算机网络空间。计算机专家们或许能在下一个十年找到对付癌症的最佳方法,并且更多的专家正参与进来。
大卫·帕特森
支持此类研究的一个原因是癌症的高发率。肿瘤学家悉达多·穆克吉(Siddhartha Mukherjee)在《万病之王》(该书曾获普利策奖)中写到癌症这一疾病是生活中恐惧的部分来源。在美国,四人中就有一人因癌症而死亡;在一生中,每三位女性中就有一人有患癌风险;对于男性而言,每两位中就会有一人面临此类风险。
穆克吉还写到,我们不确定的并非为我们是否会患此类可怕的疾病,而是何时罹患此类疾病。穆克吉在最近出人意料地强调,研究者发现癌症主要是因为基因突变引起的。基因突变不仅产生癌细胞,还能使癌细胞发生变化,这就使得要完全治愈癌症变得尤其困难。
当然,希望还是有的。通过对癌细胞的染色体组排序,医师将能够很快制定出一套个性化的治疗方案来阻止癌症的恶化或是治愈癌症。
沃尔特·艾萨克森(Walter Isaacson)在他新近出炉的传记《史蒂夫·乔布斯传》中提到,一支医疗团队曾为这位苹果公司总裁的胰腺癌细胞测序,并根据得到的结果来决定运用哪种治疗方法。考虑到乔布斯先生的癌细胞已经扩散,这项尝试变得更具有挑战性。每次测序需要花费10万美元。
幸运的是,对于我们来说,将基因属性转化为电子信息的花费已然降低:在过去三年间,此类花费下降了近百倍。在这项技术未推广前,最高价格曾为每个染色体组1000美元,这就能解释为何大量投资主要被用来研究如何降低成本。鉴于如此传奇的价格改变已经发生,我们将很快能够给成千上万的癌症病人进行癌细胞测序的,在过去只有亿万富翁才能承担此类开销。
计算机学家能帮到什么?
第一,正如最近报纸上报道的那样,得益于数据处理及数字化呈现能力的提高,通过基因测序工具对一个细胞成千上万的基因进行测序的花费有所下降。为了使每个人都能用上富有针对性的药物,我们必须降低信息处理的花费。
第二,我们应当搜集各类癌细胞的染色体组,并汇集入库,使得科学家和保健专业医生能获得此类信息。举例来说,加州大学圣克鲁兹分校的计算机学家大卫·豪斯勒(David Haussler)正在着手创建一个类似的信息库。一个5000万亿字节的数据库可以容纳超过两万的癌细胞染色体组的信息。
第三,在众多可能的药物治疗方法中为每一个肿瘤患者制定一套个性化的、有针对性的方案,其难度不亚于大海捞针。研究者们正在试图研究患者治疗方案间的交集,而传统的软硬件已经难以满足这一要求。
一个激动人心的实例名为“在线蛋白质折叠游戏(Foldit game)”,由华盛顿大学计算机学家卓然·波波维奇(Zoran Popovic)研发。得益于此,成千上万的志愿者能够一道参与揭示对于艾滋病研究十分重要的酶结构。
癌症、肿瘤基因组仅是计算机科学领域中要求海量信息的一个例子。此类海量的数据库往往是松散的,有些不一致的。要想建立此类数据库往往需要在传统数据库上有成千倍的提升。这并非是被按行按列整齐存储的。Youtube本身就有将近2的16次方的影像,换句话说就是1万亿兆字节。
海量数据库要求及时和高效,这促进了技术的进步。一支伯克利的团队,由来自8个学院的教师和40位博士生组成,正通过3套方案试图构建海量数据库:发明基于统计学构造原理的算法;将更多的计算机纳入“云”技术中;发展“人群搜索”技术让更多的人来帮助我们解决那些对于我们的算法和计算机而言都太困难的问题。
算法,计算机以及大众共同构成AMP实验室
AMP技术可以帮助我们对抗癌症。它需要更新的算法去完成大海捞针的任务。为了更快更低廉地处理染色体组数据,我们需要新的基础构架,让更多的计算机同时参与到我们的“云”技术中。此外,当我们的算法和计算机无法完成癌细胞染色体组发现和识别的任务时,它还能够让大众的智慧参与进来。
只有计算机学家才能给出有关计算机科学的专业知识,这也许是真的。但海量信息库证明情况不再是这样。完全可能发生的是:普通大众也有可能拥有必需的技术组合去和癌症抗争,并能有大量的方法来帮助科学技术的进步。
我们作出这个论断之后的晚上,我在半夜惊醒,有个问题萦绕在我脑中:假使数以百万的人患上癌症,如果计算机学家有可能拥有娴熟的技术手段去和癌症斗争,我们这些普通人是否应责无旁贷地去尝试?
资料来源The New York Times
责任编辑 彦 隐
――――――――――
本文作者大卫·帕特森(David Patterson),加州大学伯克利分校计算机科学教授。