近几十年来,计算机技术得到飞速发展,但是人机交换界面依然很老套,人们仍然要在键盘上敲敲打打,依赖鼠标的帮助,通过最普通的界面进行计算机操作。

这种连续敲打键盘不仅容易造成手腕肌腱损伤,还把使用者一直束缚在键盘上。或许自动语音识别系统能让我们稍稍感到轻松一些——这种系统在办公室内的“听写”功能还是相当不错的。但是,如果碰巧在嘈杂的公共场合(比如汽车里、火车站或者在放置收银机的角落),那么即便是在最好的运行状态下,语音识别也可能出错。毕竟在判别语音上,人类还是比任何计算机都更为敏锐和精确。

不过,如果我们教会计算机读“唇语”,就可以提高自动语音识别系统的准确率了。比如,听者通过说话者的嘴形变化很容易辨别出“Bat”和“Pat”之间的发音区别。我们只需一部便宜的摄像机的协助,增添一个计算机数据库和强大的处理器,就可使语音识别软件的性能大大提高,即便在吵闹的环境中也能正常工作。

地处纽约州威斯切斯特县的IBM公司研究中心、英特尔公司在中国和加利福尼亚的研究中心,以及其他许多实验室都在开发这样的数字唇读系统,用以提高语音识别系统的精确度。

查拉帕斯 · 内特(Chalapathly Neti)是IBM托马斯J · 华特生研究中心(Thomas J. Watson)负责视听语音技术研究的高级研究员。在过去的四年里,他一直在关注怎样提高带有摄像机的语音识别系统的性能。他说:“我们人类利用听觉和视觉共同判定我们听到的是什么,而一台计算机通过训练也可以做到。”在IBM,这种“训练”已经开始了。他们让计算机和摄像头对准一个正在说话的人,譬如,扫描其说话时面部皮肤的变化情况,以获得面部的像素点。然后,建立一个统计学模型,用以探测任何类似脸部的目标。这样,当面部在可视的范围内,把焦距对准(说话者的)嘴部区域,通过视觉算法识别该说话者的许多面部表情的特征,包括嘴唇的中心和嘴角的特征变化。

内特介绍说,如果识别系统仅“看”嘴型的变化,只能分辨出12~14种音节,比如,首字母为“p”的爆破音和它的近亲“b”之间的不同发音。后来,研究小组扩大了脸部在镜头里的可视范围,“我们试着利用辅助发音的其他部位在发声时的特征变化,如说话时下颚和面颊下部的变化,以及舌头和牙齿的其他活动等,”内特说,“结果证明这对语音识别非常有帮助。”然后,统计学模型结合记录下的音频和视频特征来分析,就可以确定讲话者说的是什么了。

利用价廉的便携式摄像机,研究小组对新系统进行反复测试。实验证明,在有大量的背景噪音的实验室里,音频和视频相结合的语音分析系统运行良好,比只用音频分析的正确率提高了一倍。

这是一个令人振奋的结果,但是正如内特指出的那样,并不是所有的工作环境都像在演播室里一样。一些带有摄像机的语音识别系统在实验室控制的环境下可以正常工作,但像在汽车内这样的环境中就完全不同了。由于光线不稳定,或者抖动时造成人的脸部溢出镜头之外,致使图像信号很差,无法起到语音识别的作用。

针对这个情况,内特和他的同事们研究了几种解决方案。

方案之一,是在原有装置上再配备一套支架上有小型摄像头的头戴式可视受话器。“这样就能让嘴部区域一直处在可视的范围之内了。”内特说,无论是转动头部还是走路,图像都不会受到影响。同时,IBM也在开发对红外线反射镜的运用,旨在让嘴部区域保持恒定的亮度。据内特介绍,当人们应用语音识别系统填表或者输入数据时,这种头戴式可视受话器可能会非常适用。

另一种解决方案是利用IBM研究小组设计的一个反馈系统。这套系统可以结合音频信号和视频信号的特性来跟踪置信水平,根据两个信号源的相对强弱来做决定。当讲话者的脸离开镜头时,置信水平就会变为0,此时系统自动忽略视频信号,仅依据音频信号进行识别。当视频信号增强时,系统自动结合音视频共同识别语音。“你获得嘴部周围的像素越多,你就会得到更好的信号。”内特说。这套系统的目标就是要优于那些仅靠单一的音频或视频信号进行识别的系统。“即便在最差的情况,它也和音频语音识别系统一样。而最好的情形,它会比单独的音频语音识别好很多。”

英特尔公司的研究者们也开发出了可视音频语音识别软件,该软件是公司的开放源代码计算机可视库的组成部分,目前已经公开发布。领导这个项目的高级研究员阿拉V · 内凡恩(Ara V. Nefian)介绍说:“我们选取视觉特点和声学特性,然后综合两者,用模型分析它们。”在嘈杂的环境中测试,系统能正确分辨出五句话中的四句。内凡恩补充说,这套系统识别汉语和英语的功能一样好,因此,他认为任何地方的人都可以采用这套系统。

电机和计算机工程学教授阿格洛斯 · 凯茨格洛斯(Aggelos Katsaggelos)在伊利诺州艾凡斯顿的西北大学工作。目前,他也在开发一种可视音频语音识别系统。他认为,这种系统将来也许会被用于提高鉴别的可靠性。比如,用这样一个系统或许可以判定在最近录像中露面的到底是萨达姆本人还是冒牌者。“当鉴别一个人的身份时,原则上,用图像和声音共同来分析的精确度要高得多。”

卡内基 · 梅隆大学的机器人学院的科学家伊恩 · 马修斯(lain Matthews)主要从事面部跟踪和建模工作,他认为视听语音识别是必然要迈出的一步。“心理学在50年前就表明,如果你能看见说话的人,你就能更加了解他。”

[The New York Times,2003年6 月28 日]