由于不断认识到各种空间因子和物理因子对细胞过程控制和功能的重要性,以及直接在体内观察功能的系统遗传学探索和努力不断增加,生物图像信息学得以产生。

  2001年底,人类基因组和其他几种重要模式生物体秀丽隐杆线虫、黑腹果蝇和小鼠的基因组测序工作完成。在人们掌握了这些生命的遗传密码之后,就不可避免地会产生这样的问题:“这些遗传密码编码的是什么?它们又是如何和谐地谱出生命之歌的呢?”要回答这个问题,有许多种不同的方法可供使用:比较测序、各种模式生物体或者各种组织细胞的表达分析、染色质的免疫沉淀反应分析、流行病学状态的确定,等等。就总体的效果来说,人们将这些对基因组序列的分析,在“系统生物学”的基础上改称为“系统遗传学”,指的是对每种人们感兴趣的、推定的基因组学元件进行系统地修饰、测量或者用仪器进行操作的能力。
  系统遗传学的探索性研究有两项早期的范例:一项是奥谢和魏斯曼的研究,他们针对大肠杆菌中的每个蛋白质构建了一种该蛋白质与绿荧光蛋白(GFP)的融合体、来对每种蛋白质的定位进行作图;另外一项是海曼和埃希韦里的研究,他们系统地敲除了秀丽隐杆线虫中的每个基因来观察其中哪个对有丝分裂有关键性的影响。在这两项研究中,“读出结果”都是一些从光学显微镜中得到的图像,它们有效地指导了对细胞内部中尺度图像的在体观察。尽管研究人员们已经能够对这些图像进行数字式捕获,他们还只能用眼睛对它们进行检验。这在很大程度上是因为还没有对这些图像进行精确分析和定量分析的软件。
  10年后的今天,分子生物学家们已经可以清楚地确认:细胞是一整套复杂的纳米规模的机器,它们可以在不同的细胞周期的相位转变中进行自我聚集和溶解;细胞在空间上来说是有组织的,它拥有许多附着在细胞膜上的亚细胞腔室;这些细胞彼此相互粘连在一起、产生各种作用力,对应地产生各种表达的模式。这些知识,没有一项能够在似乎是基因组学、转录组学和蛋白质组学的初级输出结果的相互作用网络中得到捕获,并且,尽管是需要的,事实上这些网络还不足以满意地解释许多现象,如果这些现象真会发生的话。例如,细胞极性的建立还不能针对各种蛋白质之间的相互作用进行满意的解释。如果要对此过程进行满意且可以理解的解释,需要针对肌动球蛋白和大脑皮层的生物物理学和空间组织来进行认识。

生物图像信息学

  由于不断认识到各种空间因子和物理因子对这种细胞过程的控制和功能的重要性,那些涉及到直接在体内观察功能的系统遗传学探索和努力的数目正在增加之中,这种系统遗传学的发展,不仅驱动了生物图像信息学(对通过光学或者电子显微镜得到的细胞和细胞集合的影像和信息堆栈进行分析)这样的年轻领域,还驱动了转基因学(用仪器操作细胞的能力)的持续发展、以及显微镜的通量和分辨率(观察用仪器操作细胞过程的能力)方面激动人心的进展。
  生物图像信息学是一个关于计算机视觉和图像分析的专门学科。在更大范围的学科领域中,大多数人们通常会关注如何来解释针对复杂的自然景观和人物进行高对比度的数字化捕获,这就与我们这个专业中的困难形成了对比,这种困难是我们不得不与低信噪比和有限的分辨率打交道,这在某种程度上抵消了这样的事实:景观一般来说是非常简单的、经常对被观察物体有非常优先的信息。
  广义地说,这个专业领域中的研究人员可以根据成像物体的大小分成三类:第一类是针对细胞图像进行研究,试图对细胞内的中尺度现象进行定量化和模建;第二类是对细胞集合进行在体和原位的观察,来理解发育轨迹和建立数字化的解剖学图谱;第三类是观察和分析整个生物体的行为。
  这个领域目前仍然处于发展早期,标准的生物图像信息学家还无法做到这样一些事情:他们要么是计算机视觉专家在这里寻找新的问题,要么是经典的基于序列的生物信息学家在寻找一些新的事物,抑或是一些物理学家和分子生物学家,他们的实验要求他们忍辱负重地对信息学难题进行研究。在这个领域,至今还没有建立一些大规模的讨论场所,比如相关的会议和杂志。这个领域的青年专家们针对面临的挑战提出了建立学术评价委员会的要求。这令人回忆起20世纪80年代早期生物信息学的发展状况:激动人心、有些混乱、但是人们都能够自由地发表自己的意见和争论,总是会有一些新的东西不断产生。
  基于序列的信息学领域还有一项令人回忆的事情是:基于图像的系统遗传学正在经历一种从只供一人使用的实验发展成为需要以下内容的流水线:(1)在人们开始最想进行的实验前进行一些小规模的预试验;(2)围绕最优化的使用方法建立强有力的过程工程学科,这种学科具有绝对的可复制性和持续的获取条件以及强有力的质量控制系统。有人会问:染色方法的应用范围有多宽广,还有人考虑在应用系统遗传学流水线中确实可以通过变换浓度、时间和温度来检验效果以进行最优化,但其回答是有些让人失望的。与早期的“高通量基因组学”相似的是:有一些研究项目并没有达到非常成功的精细,原因在于没有能够遵守相关的告诫和规定。一位伟大的系统遗传学家将不得不考虑在他们的研究项目中整合一些重大的工程问题。

  对各种图像进行计算分析的需要,还受到了以下两种因素的驱动:更新的显微镜产生此类数据的速度以及相关科研项目的规模与雄心的不断增加。近期新研发的各种光束显微镜的应用能力已经可以达到每天产生30兆兆字节(TB)的数据。人们运用电子显微镜对整个果蝇大脑进行成像的努力,估计可以建立达到150兆兆字节(TB)的数据集,而目前使用基于光学的方法来进行对果蝇大脑的解剖学作图,涉及到数以万计的三维信息堆栈,每个大小规模达到1至3千兆字节(GB)。
  今年第7期的《自然-方法》杂志介绍了生物图像信息学家们在建立一些系统来促进将影像转换成信息方面的初期工作。这些工具箱提供了一些有用的工具组合,可以用在小型和中型的科研项目中。大规模的项目需要完全自动化和高度谐调的性能,它们还需要专业的信息学研究工作,在某种程度上来说这种需要是长期的。而且,这些工具强调了对信息学提取的需要,使得研究人员开始熟悉和认识到一台计算机可以做到什么、不可以做到什么,以及能够和不能够从一个图像或者信息堆栈中提取出一些东西来。总而言之,这是一个良好的开端。
  总的来说,生物图像信息学之所以越来越重要,是因为其图像产生的规模不断增加,还因为那些旨在理解蛋白质组学信号和机制中决定性的物理和空间本质的系统遗传学探索的数目在不断增加。实际上,各种基因组序列与显微镜技术、计算技术的进展相互结合起来,使得我们有能力对任何一个感兴趣的遗传学实体进行直接的、在体的观察。坦率地讲,没有比这个更好的事情了。

资料来源Nature Methods

责任编辑 彦 隐