就过去许多医学图像用过一次就存档不再使用这一现象,加拿大多伦多大学医学影像学系主任艾伦·穆迪(Alan Moody)认为,这些临床图像数据应该让研究人员充分得到利用。如果“我们能够拥有一种强有力的新工具,不仅会加速生物标记物的发现,也会加速了疹疗研发的进度。”
艾伦·穆迪
无论是沃尔玛每小时100万客户交易记录,还是脸谱网上的2 200亿幅照片,抑或是对人类基因组计划(HGP)30亿对碱基进行解码,与大量数据打交道都提供了一个获取和利用信息源的机会。这就是“大数据”的冲击,被世界经济论坛称之为可与金矿相媲美的一种新型经济,目前,对这种新资源的“淘金”之热正在兴起之中。
相比之下,在临床上积累下来的医学成像数据,其数据量之巨大,似乎是“大数据”的理想标靶――挖掘这类信息,具有为维护健康和治疗疾病提供巨大新认识的潜能。然而,到目前为止,大数据——更准确地说是“大图像”――还没有在当今信息社会中形成其应有的冲击和影响。
临床图像往往只使用一次或数次便束之高阁、为灰尘所掩埋,这无疑是一种资源的浪费。通过地区性、区域性、全国性或国际性合作,科学家或临床医生通过这些图像进行趋势研究和相关分析,进而带来科学和临床效益。但是,我们首先需要知道该如何对接目前的临床成像流程来获取这些数据。
挖掘这类大图像信息至少可以带来两个直接的效益:首先,病人图像资料往往同时被参考用来研究医学问题,其所反映的状况具有临床价值;其次,图像数据是免费的,或者通过现行的卫生护理系统购买,因而可以使用较少资金进行其他财力一时难以承受的群体性研究项目。
例如,可以针对眼下正在不断增多的阿尔茨海默氏症的医学危象问题。理想地说,我们应该集中鉴别出其中的风险人群,以便采取预防和早期治疗措施。在这里,成像是关键。但在阿尔茨海默氏症早期阶段,视觉上的线索可能是微妙的,而捕捉到足够量的合适个体则意味着(成像工作)要广泛撒网,成本巨大。或许,一些有早期症状的病人――比如不明原因的健忘症――可能已经在临床检查中进行过成像。如果将所有的这些成像数据进行整理或组合,应该说,数据的效力可以使图像中包含的微小信号从背景噪音中显现出来,用于早期亚临床疾病的研究。
与临床应用相反,研究方面的图像网络已经在建,比如“阿尔兹海默氏症神经成像计划”和“加拿大动脉粥样硬化成像网络”――这些网络被所研究的疾病预先限定了,招募的病人已有明显的症状。尽管如此,仍然有必要在群体水平上进行早期疾病或疾病前调查,通过建立临床图像网络,在更大规模上进行招募并利用现有的临床图像数据来构建大图像网络。
目前,成像技术的发展主要集中在图像的采集、分析和定性方面,目标是数据链尽可能地完善――尤其是生产高质量的图像以此改善诊断。接下来的关键是制作广泛的群体图像数据库,便于医生和研究人员使用。开发并利用好这种资源,两件事是必需的:一是培养图像数据处理专家成为嗅觉灵敏的“数据探矿者”,即能娴熟地将捕捉到的数据进行组合、分析和深度挖掘,而不是只擅长个体研究。
二是建立友好用户网络便于数据挖掘。临床图像目前普遍采取数字化存储归档,然后通过一系列技术进行分析和分类。而那些需要使用这些系统的医生或研究人员必须参与网络的设计,包括数据的存储、管理和访问过程。
在大图像中嵌入一些结构性报告将是很重要的。例如,癌症病人的临床图像等相关信息涉及到原发性肿瘤、淋巴结牵连和转移等。大规模组合数据将促进对原发性肿瘤生长特征和关联疾病传播的认识。
在研究中使用这样的临床数据,其伦理学标准要求每个病人的同意或知晓权,或得到对匿名病人数据归集的机构许可。解决这些和其他类似的问题是富有挑战性的,一旦取得成功,我们就拥有一种强有力的新工具,在加速生物标记物发现的同时,也加速了诊疗研发步伐。
探索挖掘这种新的资源、主动接受这些挑战的机构将被见证为这一领域的先驱,并能从这一数据宝库中收获丰厚的回报。
资料来源Nature
责任编辑 则 鸣