通过对世界各类书籍的数据挖掘,艾略兹·利伯曼·埃顿(E.Lieberman Aiden)正尝试实现绝大多数的人文研究的自动化。但是,这个领域准备好数字化了吗?
四月下旬的一天,利波曼·埃顿(左图)在他郊区住宅的阳光露台上,一边赤着脚来回带球,一边大声的祷告着:“Shalom aleichem(和平在您)”,此时的天空已变成靛蓝色,日光和煦,有一丝丝的暖意。
安息日晚餐
埃顿是个分子生物学家、应用数学家,在31岁时,就已经是数字人文领域的资深前辈。就在前一天晚上,他刚赶夜车从纽泽西州普林斯顿大学回来。在那儿,这位“极客”(美国俚语“geek”的音译。随着互联网文化的兴起,这个词含有智力超群和努力的语意,又被用于形容对计算机和网络技术有狂热兴趣并投入大量时间钻研的人――译注)向一屋子渊博的历史学家说明,他已经对500万册图书进行了数据挖掘,这会使他们的工作变得容易很多。比如,以前可能需要耗费整个职业生涯才能完成对历史学中某种思想的追踪,但运用埃顿和他同事发明的工具,只要几秒钟就可以完成。
然而,人文领域变革中所说的布道者,或者是末日先知的角色,这只是埃顿的众多身份之一。他还是一个揭示DNA是怎样从紧密聚集又适度松散而排列组成生命的突破性电脑协议的发明者;将传感器植入鞋子以帮助老年人保持走路平衡的iShoe公司的首席执行官;以及和妻子一起作为创始人,发起了将数以千计的填充动物玩具送给发展中国家儿童的“无国界熊”运动。在对于令他兴奋的各类项目投入大量精力的同时,埃顿并没有过分忽略,也没有在意它们之间的界限。尽管目前在他还是哈佛大学的一名博士后,但埃顿几乎将他个人项目的成果写成了《科学》和《自然》杂志的封面文章。他把这些封面都挂在露台后面的楼梯间,因此也被人非议过是在自我炫耀。
不过那些都是工作,现在正是安息日晚餐之时,犹太教规定的休假开始了:电灯的开关不能触碰,房间整晚都得是通亮的;盘子中的肉在计时加热,三根点燃的蜡烛代表着一家三口人。此时,埃顿用爽朗的男中音唱着歌并凝视着妻子阿维娃·普瑞瑟·埃顿(Aviva Presser Aiden),后者在微寒的夜风中抱着毛衣,以微笑回报。
一周前,他妻子得知自己获得了比尔-梅琳达·盖茨基金会十万美元的资助经费,用以研制在非洲给手机充电的微生物燃料电池。这个项目意味着她要暂停在波士顿哈佛医学院一年的时间,尽管她已经有了一个遗传学博士学位,目前正在攻读医学博士学位。
文化组学
埃顿常说,对于一个阅读时间有限的读者而言,通常有两种选择:你可以非常仔细地看少量的书,或者你可“非常非常不仔细”地阅读大量书籍。在一种被称为仔细研读的过程中,人们在资料中寻找原始出处,通过对文本的强调、注释、交叉引用,确定和解释作者意图、历史线索及语言的演变。2007年埃顿给《自然》杂志写论文时使用的就是这种方法――通
过筛选古老的语法书籍,他和同事们发现有177个动词在古英语时代(公元800年前后)是不规范的,他们研究了这些词语在中古英语(公元1200年前后)中的词性变化以及在当代英语中的使用。研究发现,相对于常用的词语,不太常用的动词规范化的速度要快很多,如“加工”演化成了“工作”,而“去”却还是“去”。这项研究让埃顿直接体会到,传统的人文研究方法是多么地艰苦。
不过,埃顿想到,如果你“不那么仔细”地阅读了所有的书会如何呢?你可以展示出动词的变化并非只存在于某个历史时刻,而是和文化的演变一起持续的。开始思考这个问题后,埃顿意识到,这种“读”书方式可能正是谷歌图书项目的雄心所在――谷歌数字化的1800万本图书,其中绝大部分是1800年后出版的。2007年,埃顿给谷歌图书团队成员发出了电子邮件,出乎意料地,仅仅一周后,他就受邀同谷歌研究部总监彼得·诺维格(Peter Norvig)会面。
和谷歌以及他的主要合作者、29岁的哈佛大学心理学博士后杰·B·米歇尔(Jean B.Michel)一起,埃顿设计了一个名叫“n-grams”统计器的软件工具,绘制出在一个包含500亿单词的语料库中的词语出现的频率。“1gram”测算单个单词,比如“女权主义”在一段时期中出现的频率,“2gram”用来显示组合词组,例如“联系相关人员”。
2010年12月16日,谷歌推出了“n-grams”工具。也就在同一天,埃顿和他的同事在《科学》杂志上发表论文,描述怎样使用这个工具。例如,要确定规范化最快的动词,会发现从“骂”到“斥”到“斥责”仅花了200年时间。“我们发现‘已发现’出现了20万次,远远大于‘已然发现’的次数”,他们似乎游戏一样地写着。“相比之下,‘已居住’出现的次数仅仅是‘已然居住’的60倍”。
通过对比20世纪前半叶的德语和英语文本,研究小组展示了通过已知被纳粹政权压迫的犹太画家夏卡尔,“n-grams”工具可以确认至今未知的其他被压迫的艺术家、作家和活动家。埃顿和米歇尔把他们的方法称为文化组学,用类似基因组分析的方法研究书籍数据库,并希望在未来的研究中,将报纸、博客、艺术、音乐都纳入其中。
“n-grams”工具推出24小时后,就已有超过100万次点击。弗吉尼亚州乔治梅森大学的罗伊·罗森茨维格历史和新媒体中心主任丹·科恩(Dan Cohen)称其为数字人文学领域的“入门毒品”。数字人文领域在过去的几年中已经有了些许进展,它不仅指涉媒体和其他文化数据的大型数据库装备,也包含了人文科学家对于发展其算法并运用的愿望。“这些工具是对我们的工作方式以及研究议题的变革。”丹·埃德尔斯坦(Dan Edelstein),加州斯坦福大学的一位历史学家称。他本人就曾用地图软件绘制出了意想不到的成果:启蒙运动时期伏尔泰信件在欧洲的传播模式。
然而,也有一些传统阵营的人文学科研究者抱怨,称他们领域的研究内容,是“n-grams”工具的单词、词组频率图永远无法完全囊括的。“我认为把所有的书比作人类经验的DNA,这是个非常危险的类比”,科恩说。你怎样分解同样是文化一部分的家具、舞蹈、或是电影院的票根呢?他发问。还有那些从未出版的图书以及世界上广大不识字人口所体验的文化呢?
还有一些学者对于整个数字人文科学运动都持有强烈的保留态度,特别是当其涉及到要牺牲传统研究方法利益的时候。“你一定会担心将来其他所有的人文科学的经费都被扫光了。”普林斯顿大学的历史学家、美国历史学会主席安东尼·格拉夫顿(Anthony Grafton)说。他曾经使用一个巨大的木质圆轮装置来管理他的大型文艺复兴时期的文本。他期望研究者们能够守住由他们的特有资源带来的研究权,包括那些扫描仪会漏掉的书籍页边或潦草的笔记。“你不会愿意放弃自己的核心研究”,他说。
继承传统
回到埃顿的房子。安息日晚餐的客人们都用杯子里的水洗过手,回到阳光露台上享用犹太逾越节的薄饼球汤。埃顿谈起和米歇尔在普林斯顿向历史学家解释他们的工作时,他感到一些不安。“我进去的时候有点紧张”,他说,“我真以为我们在某个时刻会受到谴责。”
虽然埃顿和米歇尔对于传统人文学者的感觉很敏感,但他们还是太年轻、太不安分、太雄心勃勃,不愿放慢他们的追逐。埃顿认为人文科学技术所产生的影响已经跨过了一个转折点。他说,这些工具和它们提供的方法,是研究人员无法忽视的。但他也不认为传统的方法会就此消失。“我认为人们应该使用所有方法中最合适的那个”,他说,“而且我觉得,这些方法包括仔细地阅读原文,探索作者自己的想法。”
丹尼尔·科尔(Daniel Koll),晚餐的客人之一,羞涩地打断他的谈话:“埃顿,你是否觉得也许你的宗教思维某种程度上影响了你?从我有限的局外人角度看来,犹太教有一套很强的解释元素,没有哪个单一的文本和其他权威。”他想知道埃顿是否会像其他优秀的人文学者那样,能像喜欢冰冷的硬数据那样热衷于推敲宗教经文的模糊之处。
显然,答案是肯定的。否则男主人怎么会花一年的时间在纽约的神学院研究犹太法典和犹太判例法呢?但是埃顿更喜欢谈论他人和他人的想法,而不是自己的,因此他借用历史典故作了个间接的答复。他谈起16世纪的新教学者伊萨克·卡素朋(Isaac Casaubon),因为认出了经文注释中的一处几百年后才可能出现的希腊用语,从而否定了一个被公认为出自埃及的词组。“这种解释的客观程度就像任何科学家的评论一样”,埃顿说道,“因此人文学科的研究方法是非常、非常利害的。我认为他们不该对现在新方法有如此不安的反应。”
两种文化
从纽约市立医院降生的那天起,埃顿就浸淫在两种语言和技术文化中。他的匈牙利母亲和罗马尼亚父亲都是以色列流亡者,埃顿在一个萨特马尔派(哈西德正统犹太教分支)社区长大,英语是他的第三语言,排在匈牙利语和希伯来语的后面。九岁时,他就帮助父亲(一个自学成才的发明家)一起处理家庭电锯制造生意的英语合同。埃顿曾在布鲁克林的宗教高中学习,但他很快发现视频游戏的诱惑更大。在高二那年,他开始逃学并沉湎于《幽浮:太空防御者》游戏中,最后不得不戒掉。“那其实是个了不起的游戏”,他略带伤感地说。
不久,埃顿很快找到了更有益释放精力的方式:他被允许每周少去学校一天,在布鲁克林学院的分子生物学实验室学习,同时他也开始了自己的电脑维修业务。在哈西德标准看来他们的家庭很世俗,只在犹太新年和赎罪日这样的重大节日才去教堂。高中时的一天,他去汉堡店买他常吃的培根奶酪汉堡,突然间决定尊重犹太教义不吃培根,但他没有意识到包裹着奶制品和牛肉的汉堡包本身在犹太教义中,就是不洁净的。
从基因组中得到启发,埃顿团队设计出一种软件工具,n-grams――该工具给出随时间推移文化是如何改变的定量数据,包括随时间推移单词使用的频率
在普林斯顿大学读本科期间,埃顿并不满足于仅仅学习数学和物理,还修满了哲学学位要求的所有课程。甚至在每学期要学六、七门课程的时候,他还去创意写作课和俳句专业旁听。从普林斯顿毕业后他在神学院学习时,通过教数学来支付自己历史学硕士的学费,并完成了犹太教研究的一年级课程。“他是个不墨守成规的人,并且乐在其中”,阿维•博斯韦奇(AviBossewitch),他的《塔木德经》研究伙伴说。不过他又说,“他是我认识的人里最不傲慢的。”
科学的魅力最终证明了它的强大。埃顿离开神学院后,在哈佛-麻省理工的博德研究所读博,师从著名的遗传学家埃里克•兰德(Eric Lander)。但即使在掌握了分子生物学时,他也不忘运用他的数学才能。当他发现一篇120年前的数学论文中论述过的希尔伯特曲线:分形球,即可以用来描述2米长的人类基因组是如何折叠成比自己小100万倍的细胞核的。随后,他开发了一个电脑协议程序证实了自己的假设。这项研究成果揭示了分形球如何使得分散的DNA舒展和交流,这成为他在《科学》杂志上发表的第一篇封面文章。“他的兴趣没有边界”,兰德说。他和许多人都怀疑,文化组学最终也可能只是埃顿的数学生物学研究中的一项副业。
工作和游戏
安息日的晚宴接近尾声时,儿子加布里埃尔醒了,给已经明显很疲惫的普瑞瑟·埃顿又增添了负担。但是她的丈夫并不想错过当晚的重点、埃顿家的特色主食:甜点对决。在这个环节,每位客人都要就一个主题设计一块布朗尼蛋糕进行比赛。考虑到科尔和他的女友对分子烹饪学颇有兴趣,埃顿决定当晚的主题为食品科学:一盒贝蒂·克罗克牌可食用装饰物已经陈列待用。
科尔将他的布朗尼做成了一个锅的横截面,他的女友做了只猪――绝对不是犹太菜,而埃顿的蛋糕造型却很复杂:他做了一片星光灿烂的夜空,有五颜六色的星星和银河。这和食品科学有什么关系呢?“嗯,你知道”,他略带自得地说,“美食(gastronomy)和天文学(astronomy)只差一个字母啊。”
随着午夜的临近,埃顿开始滔滔不绝地讨论2008年的电影《功夫熊猫》里拉面的数学之美,又说起数学软件KnotPlot可以帮他的妻子做出非常地道的犹太甜蛋面包。最后,客人们终于帮了普瑞瑟·埃顿一个忙,告辞回家了。
不过,埃顿即使在夜晚也能继续保持运转,他可以连续工作70-80个小时,只需要健怡可乐和垃圾食品维持能量。随着他和米歇尔添加了更多的语言、书籍和媒体到他们的“n-grams”数据库,他对于文化组学有了更大的设想:他正在考虑一个新项目,同埃德·博伊登(Ed Boyden),一位著名的麻省理工学院的年轻神经生物学家合作,开发一种方法来同时检测上千个独立细胞中的基因表现。不过在今晚和明天,即使他不会因严格的宗教信念而遵守安息日的规则,他也不会开电脑了。这样可以强迫他抛开工作的想法,与妻子和孩子去公园散步。
然而,工作和娱乐之间的界限,就像自然科学和人文科学的界限一样,并不是埃顿所重视的。兰德认为,这可能正是他成功的原因。几个世纪以来,最好的科学家都是从最会玩的科学家中产生的。想想沃森(Watson)和克里克(Crick)热衷于打网球而逃避实验室,还有一头乱发的爱因斯坦骑自行车的例子吧。
“孩子们做什么?”兰德说,“他们学习,他们有好奇心,他们被刺激。问题在于,在某些时候,人们就被困住了。他们不再对学习有兴趣。他们不会再为周围的食物着迷和兴奋。埃顿,他没有失去游戏的心。”
资料来源Nature
责任编辑 彦 隐