计算生物学(研究)需要计算机可读的信息记录。在产生出大量数据集的高通量实验和其他研究之后,元分析(meta-analysis)和预分类的信息正在与日俱增地得到应用;而纯文本的语义学富集(semantic enrichment)对于计算机辅助分析是至关重要的。通常,人们将语义学标记(semantic tagging)理解为文本采掘(text mining)的另一种形式,迄今人们已经开发了一些工具和技术从文本中回溯性地提取正确的信息,其结果常常充满了多义性。虽然在实验研究方面取得了一些引人注目的结果,但信息采掘工具的广泛应用却落后于预期。本文在述评基础上建议将语义学标记与电子出版集成为一个共同的过程。

语义学:文本的重要补充

不久前,“万维网之父”蒂姆 · 伯纳斯-李(Tim Berners-Lee)爵士说:“生命科学是最适合于开拓探索语义网(semantic web)的领域。例如,在药物发现领域,研究人员使用的许多数据库和信息系统已经是或者准备好转换为机器可读的格式。”

在生物信息学领域,人们日益借助于一些各自(主题)分散的文章和数据库记录的计算机辅助元分析,来帮助研究人员阐释大量的数据集。今天,流行病学研究和高通量技术(如微阵列技术)常常导致以数据集为单位的大量潜在相关论文被认同(发表),其数量之多远远超过了人们阅读、解释和综合的能力。在本文中,一般所提及的元分析是指那些来自许多记录的聚合体信息,跟着是整个数据集中那些概念的逻辑联系。遗憾的是,目前的信息来源提供的大多数信息都不容易获取,或者由于在文本格式中的各种概念的描述中存在的多义性,也不便于为计算机程序所阅读。

如果所有的单词都只有一种可能的意思,计算机将可以完美正确地对文本进行分析。但是在现实中,文本中的单词、术语和短语的多义性极高。拥有相关知识的人们在阅读中对这些多义性几乎没有什么问题,因为他们可以运用上下文来快速地消除歧义。但是,即使是馈给以大量语义学上完美的背景信息,目前的计算机在阐释自然语言的能力上还是远远地落后于人类。因此,为了使计算生物学能真正生存下去,文本中各种概念的适当的语义学标记是至关重要的。到目前为止,电子出版物也只是触及了这种需要的表面而已。

公开获取(免费)的出版物在这方面显示了极大的潜力,但如果信息继续埋葬在纯文本中,这种潜能就不可能完全发挥出来。而要在生命科学中使用计算的方法成为可能,把真正的语义学标记与公开获取出版物相结合以用于信息采掘是一项急迫的要求。

仅有数据库是不够的

当然,虽然质量好坏不一,我们毕竟拥有了数据库,并配备了一些令人饶有兴致的分析和可视化工具。这些数据库拥有大量关于各种生物分子的相互反应及通路的成熟知识,诸如“什么(基因)可能被打开或者涉及到。”但是,这些数据库内在的局限性和缺陷,今后还要花大量的努力,使数据库的误差水平保持在可接受的低水平并保持其内容的时新性。而且,生物学的复杂性远远超过复合的人们设想的通路的组合。因此,自由文本(无偿提供使用的文本)仍将是科学家们获取有用信息的关键来源。

自由文本具有持续价值的更大理由是:数据库中的预分类信息只包括浅显的知识,因而至多能提供“某些人已经知道的事物”的信息,尽管某些人可能还意识不到这一点。对新鲜事物的真正意外发现,以及除直接同时发生的概念之间的关联,并没有得到大多数现存工具的支持。

文本是计算机的“恶梦”

不幸的是,自由文本记录是一个多义性的恶梦。这些记录中充满了同物异名词(synonyms)和异物同名词(homonyms)。尤其是,基因和蛋白质的名称(符号)似乎是不可能根据它们的文本表达完全准确地得到解决的。在一种理想的世界中,科学家们会在文本中应用来自于人们认可的数据库如EntrezGene或Swissprot的正式识别名,而不会使用他们喜欢的(有关)分子的同物异名词。

在使用传统搜索文本的检索工具的情况下,这个问题至多是重复出现的麻烦事而已,而且传统的搜索引擎提供商更不会考虑多少,因为他们的用户“在第一(搜索)页上找到他们要搜索的信息”时就已经很满足了。而如今,由于文本记录的计算性元分析日益为研究人员所需要,进行这种元分析的数据集常常由数以万计的论文组成,要想手工清除掉与同物异名词和异物同名词有关的问题已变得不可能了。

面对语义学富集的挑战

在任何元分析算法被有目的地应用之前,对一个概念用独特的识别名进行基本文本的语义学分析和标记是需要的。理想的情况下,这种过程应该是一次性的工作。在完美的情况下,科学家们之间的通讯将完全发生在独一无二的概念水平上。但是,现实并非如此。研究人员在完成实验后思想上简洁明了的东西,在他们写作过程中会迷失在一系列多义性的词句中,而多义性无时不刻在产生着。因此,科技写作在某种程度上被讽刺为“信息埋葬”。但作者们倾向于用丰富多变的词语、同义词和格言警句,以及诸如此类的手段来使他们的文章“具有可读性”,看来这种状况在可以预见的未来仍将不可能得到改变,这意味着我们将不得不面对这些文本的语义学标记的挑战。

科学文本原本就很枯燥,那么,我们是否还应该试图强制性地使论文的作者根据严格的术语标准、使用结构性数据条目来达到语义学上的正确和一致呢?

鉴于科学知识的生产者们各持其创造性和个性化的思想,这种方法不仅不切实际,而且,这种假想成功的结果还会导致科学文献在形式上完全乏味无趣。最后,不管我们提供了什么样的计算辅助手段,研究人员仍将进行阅读以求得最后的证据。因此,我们需要提供一些背景信息使论文可被计算机所消化,让计算机为我们做此事?

由于新涌现的、大大改善的所谓实体标记(entity tagging)和语义学标记技术,人们将获得更为简洁实用的解决方案。自由文本中由各种单词和短语所表示的那些概念得到计算机的正确识别,以及随之带来的语义学富集,大大地便利了对各种文献子集的直接的元分析,这一预处理步骤还便利了各种论文信息和数据库信息之间更为准确的交叉链接。

奇怪的是,出版商们到目前为止几乎没有迈出任何一步,尽管这一方向几乎有无限的潜力,而且很清楚的是:只有纯文本的附加值是那些出版商们在将来可能不得不为那些文本记录支付费用的原因之想法。而目前基于概念集(ontology)的语义学标记软件所作的简单而技术上可行的增补措施,将使“客户标记”工具得以发展,从而将文本中多义的术语规范化成为它们所表示的独特概念(标准用语),并链接到对应的概念集上。

乍一看来,对新的和现有的文本的语义学标记,尤其是著名的、拥有1400万篇论文的Medline数据库的文本的语义学标记,似乎是一项令人生畏的举动。还没有人教会、也没有人鼓励研究人员在发表他们的论文或数据时采用语义网的方法。其结果是:在电子出版成为很平凡事情的数十年之后,大多数论文最后仍然静静地躺在电子档案中,成为一堆无用的、没有互动的页面,直等搜索引擎碰巧用一些关键词的正确组合检索到它们。

计算机和作者共同努力?

依照本文作者的观点,那些与作者互动型的出版工具不应该强迫科学家和作者们使用那些来自预结构化表格和术语集的特定术语。如果真要这样做的话,将使大多数术语标准化的努力毫无效力。相反,在人类基因组组织基因术语委员会(HGNC)的有价值的努力下,所建立的Entrezgenes和SwissProts数据库应该可以用来迅速消除术语的含糊意义,只是在概念集驱动系统不能对一个术语的含义做出知情决策的极少见情况下,才需要寻求作者的帮助。

总之,人们期望生物医学论文文本的绝大多数相关概念能在背景信息中得到迅速标记,不用有劳作者,不用为了解决偶尔的多义性而要把全文通读一遍。

让我们行动起来吧!

显而易见,对语义网方法的批评将会引起关于对遗赠文献进行标记的困难,以及关于迅速发展的知识的问题的争论。它们显然有一个潜在的要点:如果只有那些新近发表的文献被标记,那些依赖于标记的计算工具就会在资源上受到很大的限制。这里所提的技术方法将使我们通过注意那些“容易标记的”(文献),高度准确地迅速标记现有文本,只是在解决较少的残余多义性时才与作者或读者联系。而且,由于标记并不必要是固定的,被更新的概念集将使每次文本被检索到后都有(供选择的)更新的建议标记。这样,标记将被有效地限制在那些仍在使用的文本中。如果一篇论文从未被任何人检索,那么标记它可能没有多大的紧迫性。

鉴于一揽子语义学富集行动将带来巨大的影响,尤其是将影响生物信息学研究和计算生物学的许多方面,这一行动在多年前就应该启动了。那些公开获取的出版商,尤其以《BMC Bioinformatics》杂志为代表,应该在此行动中起到领导作用,来促进语义学标记的应用,这种行动应该开始于这样的时候:科学家最可能接受或倾听别人的指导,那就是在他们论文投稿的时候。