在“世界最乏味博客”网站上,最近有一篇博文是这样开头的:“我注意到门垫有点歪斜,因此就俯身把它拨正。”这篇博文虽然看似乏味且带有讽刺意味,但科学家们却惊讶地发现,从单调乏味的博客空间里确实能淘取一些有用的信息。
  美国南加州大学创新技术研究院的安德鲁·戈登(Andrew Gordon)博士及其同事一直在尝试探索计算机识别因果关系研究。计算机并不善于处理因果关系,虽然它们能识别特定的事件,但要厘清事件之间的关系却颇有困难。尤其是用计算机来分析人类经验时,情况更是如此。
  但事实证明,计算机能通过阅读个人博文学到许多有关因果关系的知识。每天大约会有百万篇用英语撰写的博文,其中大部分是对时事新闻、活动计划或个人生活感悟的评论。大约5%的博文是以故事形式讲述最近发生在博主身上的事件。
  为了让计算机系统能从博客中学到东西,戈登研究小组采取了以下两个步骤。第一步是让人们将成千上万篇博文标记为“故事”或“非故事”。与其他形式的语篇比较,人们在讲故事时会以不同的频率使用不同的词语。戈登指出,通过统计有标记博文中的不同词类――如代词(我、她、我们)和过去式动词(去过、说过、想过)――的使用频率,就有可能区分上述两类不同的博文,无论故事的实际内容是什么,计算机系统就能够浏览别人的博文,并分析出是属于叙事的还是非叙事的。
  第二步是教会计算机系统识别因果关系。戈登和他的学生们随机阅读了数千篇博文,并特别指出与因果关系有关联的措辞(比如,“我做了X,因此Y接着发生了”),便于计算机领悟。计算机识别出博文中的这些措辞就能够找出那些包含原因和结果的句子――例如“我猛踩刹车,最终却还是一头撞上了前面的汽车”,或“医生责备我摄入脂肪太多,有患心脏病的危险”,并将它们分门别类。
  该项研究的指导思想是最终产生一个能每天收集汇总大量有关个人生活统计数据――无法从其他任何来源获取的信息――的系统。戈登最终期待这种对博客上个人故事的分析能够像谷歌上的“流感追踪”系统那样被广泛应用。谷歌的流感追踪系统是通过搜索特定地区的相关流感术语,从骤增后的数据中依此能发现流感爆发的早期迹象。
  网络可加以开采,以便追踪有关新趋势或新动向等信息,内容包罗万象,从药物使用或种族关系紧张到对电影和新产品的兴趣。写博文的实质就是人们对日常生活事件迅速作出评论,而淘取此类信息或许还能因此揭示出思想观的传播方式,以及趋势是如何形成等方面的信息。
  在网络问世之前,日常生活琐事是通过人们的口头闲聊得以分享的,并不会被写记下来,因此这些口头闲聊不可能经历此类分析。今天,博主们在为子孙后代记录下自己的话语,并不时查看点击数以了解是否有人在浏览自己博文的同时,还能用一种想法聊以自慰,那就是,至少还有计算机认为他们的工作是引人入胜的。

资料来源The Economist

责任编辑 则 鸣