横亘在互联网用户和非用户之间的“数字鸿沟”正在孕育一个孪生恶魔:“语言鸿沟”。
互联网起源于美国军方和大学的研究项目,用英语实施,这种语言目前仍然是国际商务和科学交流的首选。然而,情况也在快速变化,数千万网络用户既不说也不阅读英语,他们用自己的语言上网。仅在中国就有4亿网民――比美国人口还多――绝大部分只用中文阅读。
互联网属于每一个人
“有一个我们不大与之打交道的中国网络,也有一个与我们来往不多的阿拉伯网络,”全球之声(一个在全球拥有超过300名博客和翻译者的团体,他们致力于寻找在主流新闻媒体不常听到的声音)的创办人之一伊凡·佐克曼(Ethan Zuckerman)说,“那些只能用母语阅读的人正在错失了解全世界的人所想所说所感的绝好机会”。
5月,国际互联网域名管理组织在调整域名方面创造了历史,它允许三个国家――埃及、沙特阿拉伯和阿联酋――将他们的网址(埃及网站后缀是.sa,沙特是.ae,阿联酋是.ae)改成阿拉伯字母。其他国家,包括中国,也将跟进。
我们正在“走出”英语作为网络语言的范围,佐克曼说,他的“全球之声”网站被200多位志愿者翻译成超过15种语言,“如今互联网属于每一个人”。
网络巨人谷歌在使更多网站可读上发现了商机,不论它是帮助说英语的人阅读乌尔都语还是帮巴斯克人阅读英语网页。谷歌现在提供一种快速的、由计算机产生的57种语言之间的互译,包括乌尔都语(印度和巴基斯坦有6000~9000万人使用)和巴斯克语(西班牙和法国有60万使用者)。
谷歌浏览器Chrome提供了一种可以把任何网络语言翻译成用户自己语言的工具栏。
规则的弊端
“最近几年谷歌翻译涌现了许多种语言,”谷歌发言人纳特
·泰勒(Nate Tyler)说,“我们的目标是使它尽可能地好,就是说它不如人工翻译好,也很难知道它何时才能同人工翻译媲美。”
通常,计算机化的翻译关键在于设计需要遵循的规则,有些规则如:如果你看到这个单词或短语,意味着它们表达的是另外一个意思。但各种各样的问题产生了,有些需要专门的方案。如果一个新闻标题说“克莱门森老虎队击败了佐治亚斗牛犬队”,这是否意味着一个体育队伍“真的击败了”另一支?总部位于马萨诸塞州坎布里奇的雷声宽带网技术公司语言部副总裁普瑞姆
·纳塔拉简(Prem Natarajan)问道。而且,非正式的对话随处可见。
谷歌通过比较网上的大量翻译文件如联合国或欧洲议会创建的文件,从而忽视了规则概念。谷歌不用创建规则,而用统计分析判断每次翻译中出现的单词或词组的位置并记录它们之间的关系。这个程序不需要弄清单词的意思来达到更精确的翻译。“他们的优势在于有海量的数据”供分析,佐克曼说,谷歌对主要几种欧洲语言很好用,“我能用谷歌翻译读许多法文报纸并且读起来还很顺畅”。
转战手机领域
尽管存在局限性,计算机翻译已经开始转战手机领域。
谷歌Goggles是一款用于Android操作系统的手机应用程序,可以分析用手机拍摄的照片。Goggles可以阅读条形码,例如,可以帮你网上比价。它可以识别著名的商标,收录了超过10万张以封面作为标志的商标图片。Goggles负责人哈穆特
·尼文(Harmut Neven)表示,这款程序也能进行简单的语言翻译,拿一张中文路标或法文菜单的图片来说,Goggles先用光学识别软件判断出图片上的单词,然后用谷歌翻译发送翻译结果。
“你能很好地把握翻译要点,有时译得恰到好处”尼文说。雷声宽带网公司也正在开发手持式翻译器,用于军事和人道主义用途。雷声宽带网公司正在测试装有声音识别和翻译程序的移动电话。开始的两种语言是普里图语和达里语,均在阿富汗地区使用。一名赴阿富汗的士兵或救援人员携带一部手机,美国人可以在电话这边用英语说,电话另一端将会听到翻译过来的普里图语和达里语。
雷声宽带网与谷歌不同,前者的声音识别和翻译在电话内部就可以完成,不需要联网。与互联网联接“可行时则很好,但也不必依赖。”特别是在偏远地区,纳塔拉简表示。
纳塔拉简说,语音翻译软件包可能在两到三年内出现在消费者的电话里,但他告诫说这些软件将只有有限用途,例如问路,距离科幻小说中描述的移动“万能翻译机”的诞生仍有很长的路要走。“你问的是计算机科学中最难的两个问题”――将语音转化为文本然后将文本翻译成另一种语言。佐克曼说,“你在将两个很难的问题放一起做。”
资料来源The Christian Science Monitor
责任编辑 彦 隐