用数学家求实的眼光来诠释人类的视觉,以巧妙的方法将这些知识转化为图像压缩技术——

传统上,神经科学分为理论和实验两部分:理论学家通常专注于理想化的数学抽象,游离于基于真实的实验生理数据之间;而实验神经科学家则不屑于研究这些问题,认为它们太理论化于自己没有什么实际用途:对此,纽约大学霍华德-休斯医学院的视觉研究人员伊罗 · 西姆内斯利(Eero Simonelli,见图),是目前正在致力于沟通理论和实验之间的鸿沟的计算神经科学家之一。

自40多年前发现视觉细胞的基本原理以来,电信号如何由眼睛的杆状和椎状细胞传输以至形成的视觉感知仍然是一个谜。为了搞清楚这个问题,西姆内斯利将物理学方法引人到神经科学中(在物理学中理论和实验更容易结合在一起,就像物理学家用精确的数学语言取代对自然界的不太精确的、定性的描述一样),打算设计出视觉的基本等式。他说:“我正在用精确的数学术语来描述大脑运动的基本原理。”

目前,西姆内斯利已经解决了视觉领域中几个长久的未解之谜:如大脑是如何组织运动图像的、人为什么在大雾中容易超速驾驶。他还帮助解释了大脑进化过程是如何塑造对视觉环境的最佳响应:在应用方面,他发明了图像压缩以及除噪(如电视信号中的雪花噪声)新技术。西姆内斯利的合作者、纽约大学神经科学家安东尼 · 默维斯霍(Anthony Movshon)说:“伊罗能够与提高JPEC图像质量的人,以及将信息压缩至DVD的人相提并论。然而将这些适用于生物却是一项独特的技术。

西姆内斯利甚至希望他的工作能够加深人们对意识的认识,旧金山市史密斯-凯特勒韦尔眼睛研究中心的神经学家马特 · 卡拉登尼(Matteo Carandini)认为:“他的工作非常棒而且易于理解。”伯克利加州大学的计算神经科学家布鲁诺 · 奥尔肖森(Bruno Olshausen)则说:“他的研究小组是最优秀的,他们的工作给许多人带来很多启发。

大脑机器

西姆内斯利从懂事时就对大脑感兴趣,曾一度因不能将这一兴趣与他在哈佛大学所学的生物学知识联系到一起而苦恼,于是他决定主攻物理学。随后,他在麻省理工学院爱德华-阿德勒森(Edward Adelson)的视觉实验室工作,并获得了电子工程的博士学位。在他的博士论文里,西姆内斯利对处理视觉运动的神经元网络进行了数学描述(他的模拟神经元所执行的运算能够模拟神经生理学家实验所记录的神经元的响应特性)。阿德勒森说:“他对于图像和视觉有着敏锐的直觉,并将一些工程原理和生物学知识融合在一起。他设计出的模型是世界上最好的视觉信息处理模型之一。”

在博士论文里,西姆内斯利对运动的分析抓住了一个其他研究者都忽略了的关键点:处理视觉信息的神经元的非线性。工程师们偏爱线性系统,因为线性系统遵循一个简单的规则:系统对两个刺激的响应等同于系统对两个刺激单独响应之和。与此相反,非线性系统能够产生更复杂的过程。西姆内斯利说:“我们理解大脑之所以有如此大的困难,就是因为大脑的活动并不是遵循线性的原则。”

20世纪90年代中期,西姆内斯利作为宾夕法尼亚大学的视觉科学教授,用非线性方法解决了一个经典的图像分析问题:确定了构成场景图像的像素点之间关系的一些规则。他的分析结果导致了一种艺术级的图像压编技术和除噪方法的产生,这种方法至今仍是世界上最好的除噪方法(该除噪方法可能最终会用于制造数码相机高清晰的图像传感器,或者清除人造卫星接收的电视信号的噪声)。

沟通鸿沟

西姆内斯利下一步的打算是将他的图像分析与人类视觉系统联系起来。他假设进化使得大脑用最有效、数学上最优的方式对外部世界的刺激信息进行编码。基于这一假设,西姆内斯利和同事在2001年报道了他们的研究成果——位于大脑后部初级视皮层中的神经元的非线性响应与外界视觉信息的统计特性(即视觉场景图像的亮度与灰度的数学模式)之间存在着映射关系。这也帮助解释了进化为什么使某些视觉神经元对目标边缘和轮廓特别敏感。

去年,西姆内斯利和同事报道了基于他的非线性神经元模型的图像压缩的新工具。他推理出,如果大脑视皮层在处理图像时是最有效的,那么大脑在压缩图像时也应该是最有效的,而且大脑压缩图像所带来的失真也在允许的范围内。他说:“如果皮层的表示和我们大脑中的一样,那么我们就不会观察到任何差别。”事实上,新的压缩技术的性能远远优于JPEC标准。

与博士后贾维尔 · 波特里拉(Javier Portilla)一起,西姆内斯利研究出了大脑对纹理感知的一种新的数学描述模型,并在大量的纹理图像上验证了该模型。如可以直接用于草或衣服纹理的合成图像处理(这一合成技术保持了物质特有的外观特征)。他说:“这个模型很好地描述了当人们观察纹理时所感受到的效果。”

伯克利加州大学的奥尔肖森是这样评价的:“这一模型表现得近乎完美,它不仅给视觉科学家指清了纹理的本质特性,也可以帮助电影制造者在电脑生成的图像_上添加逼真的纹理图案。”

尽管西姆内斯利的工作有巨大的实用和商业价值,但其很大程度上仍处于象牙塔中。西姆内斯利过去已申请了3个专利,但他至今仍未为他的新纹理模型申请专利,包括除噪和图像压缩技术也是如此。对此他解释道,申请专利会延迟公开发表这些成果的时间。此外,申请某一软件的专利,“感觉像是买彩票,中奖的机会非常渺茫。我对申请专利所带来的报酬不是十分在乎。”

运 动

最近,西姆内斯利解开了几个运动感知方面的谜团、在今年《自然神经科学》4月号上,他和博士后艾伦 · 斯托科(Alan Stocker)解释了“汤普森效应”:当周围的场景缺乏强对比度时,运动的速度似乎变慢了。这一幻觉是25年前由心理学家彼得 · 汤普森(Peter Thompson)描述的,这为大雾天容易引起超速驾驶提供了心理学依据。西姆内斯利和斯托科让一组受试者判断,在计算机产生的两组栅状波中,哪一组看上去运动的更快(他们不断改变栅状波的速度和对比度,要求受试者对6000次的实验做出判断。然后用贝叶斯统计理论(将期望和新信息融合在一起的一个数学分支)分析了实验数据,并从受试者对速度的感知中推导每个人的期望。结果显示:人们对低速运动的期望超过对高速运动的期望,当感知到的信息比较粗略时,譬如在低对比度的情形下,这种期望会胜过真实的感知。

有望解开一个已存在25年之久的运动感知方面的谜团。科学家早就知道,初级视皮层细胞先处理视觉场景图像的局部信息,然后再由脑区里的其他细胞整合成更大的整体。然而当物体运动时,我们不清楚大脑是如何把局部信息组织到一起的。早在做博士论文时,西姆内斯利就已经开始研究计算机如何执行运算来模拟将运动目标的局部信息整合到一起并做出一致响应的系统,以及运用贝叶斯理论研究人类对运动的感知和视觉神经元的生理学数据。然后他将所有这些运算映射到他所构建的从视网膜到MT区(处理视觉运动的脑区)的神经元响应的模拟模型上。

在今年秋季出版的《自然神经科学》上,西姆内斯利、默维斯霍和尼科尔 · 拉斯特(Nicole Rust)、瓦莱鲁 · 曼特(Valerio Mante)将首次发表MT区细胞场景从局部到整体运动的精确数学描述。在实验中,他们让猴子观察一种特殊的刺激——像水波一样摆动的线,并记录下猴子MT区的单个神经元的响应,然后将结果对照他们建立的模型上。从模型中,他们可以获取MT细胞的生物信息,包括那些皮层细胞对MT细胞的输入。“MT细胞的工作模式是一种复杂的非线性模式”,西姆内斯利说,“我们的模型解释了这种模式如何由一系列简单的非线性模式按照层进的关系复合而成的。”

默维斯霍不断地通过实验为该模型寻找证据,他认为西姆内斯利的解决方案“既简单又完美",并认为这一工作为该领域引入了一种更为精妙的、从神经元响应的记录中提取和分析信息的技术。此外,西姆内斯利工作的最后一个重心在算法的设计上,面对视网膜神经元活动的海量信息,他们打算设计一套能帮助神经科学家记录的算法,而不是像传统方法一次记录一个。

西姆内斯利最终的目标,是将这些发现整合到视觉运动感知的统一理论中。他预计:“10年内,我们将会有关于运动的清晰的计算模型。”如果这还不算是有雄心的话,西姆内斯利将会探索更深邃的奥秘。他说:“在我们为大脑构建更好的描述模型并用实验去检验它们时,我希望能够获得解释大脑所有活动的基本原理——从感知到意识,那将帮助我们更好地了解我们自身。”