一个强大的,被称为深度学习的新型计算技术,给机器人视觉领域带来了一场风暴。
“如果你想感受机器人领域的艺术,”人工智能研究员斯科特·菲尼克斯(Scott Phoenix)说,“你就应该去YouTube上看机器人做三明治。”片中的机器人是一个四四方方的人形机器人,被叫做PR2。它刚在加利福利亚门洛帕克的威洛·格拉杰,一家全球最有影响力之一的机器人公司里被制造出来,视频录制时,它诞生还不到一小时。但表演的结果对于菲尼克斯来说,却显得有些讽刺。当PR2被安排去拿起一块面包时,它把面包片掉到了烤面包机上;当用叉子插起一片香肠后,PR2却把它举在空中……三明治最终组装起来了,但是这个过程相当的缓慢,视频需要提高10倍速度才能让人有耐心看下去。“每件物品都需要精心布置,”菲尼克斯说,“这需要精确到每个盘子在哪个地方,精确到每一把刀的摆放位置。”
Shimon Ullman的实验室发明了一种技术,它运用了一种来自于大脑视觉系统的反馈系统的灵感,在一张图片中识别出了一匹马并且进行了定位――仅仅缺失掉了尾巴的部分
展望“深度学习”
机器人很笨拙,是因为它们得费劲地搞清楚所有从它们的摄像头摄取的数据。“视觉是最大的挑战,”菲尼克斯说。根据它们的视角,物体会呈现出数百万种不同的形状。光线改变后,数量还会加倍――这还只是最简单的情况。一个物体重叠的凌乱场景则会是个噩梦。尽管机器人能在某种有约束的视觉作业――比如在上千张护照的照片中识别面孔,能够很容易地超越人类能力所能达到的成绩,但是,一旦它们冒险“到户外”,即实验室大门外,也就是机器人专家所称的“人类日常生活环境”,机器人就会混乱了。
深度学习:从“看到”到“理解”
两年前,一个强大的,被称为深度学习的新型计算技术,给机器人视觉领域带来了一场风暴。人类大脑处理视觉信息的方式给研究者们带来了灵感,如果通过为每一物体创建一个视觉感受对象的状态数据储备,他们就能让一台电脑理解物体在每一天状态的区别。这些被称为“视觉配方”的数据储备已被编入智能手机的应用程序、台式电脑和包括PR2在内的机器人里,使它们具有能识别自身所在环境的能力。但是机器人专家们担心,深度学习不能使机器人具备理解这个世界的其他必要的视觉能力――它们需要去理解物体的三维自然属性,并立即飞快地学习新的事物――研究人员已经看到了深度学习在未来的巨大进步潜力。
菲尼克斯合作创立了这个被命名为代理人(Vicarious)的公司,该公司的探索方向之一就是用代码捕捉人类的视线。他们对自己的研究信心满满。在过去的2年里,深度学习飞速地推进了机器人视觉功能,计算机曾经需要经过很艰难的努力,才能探测出某些类似于照片上的狗的存在。但是,如果有了深度学习的帮助,计算机不止能认出是一条狗,甚至能辨别出它的品种。
“理论上讲,深度学习在数十年前就已经实现了,”燕乐存(音译)说,他是纽约大学的机器人视觉研究员,是该学术领域的领跑者之一。他追溯自己的灵感,表示它们来自于大卫·胡贝尔(David Hubel)和托斯腾·咸塞尔(Torsten Wiesel)这两位在生物视觉上获得1981年诺贝尔奖的科学家。从1960年至1970年,通过对被麻醉的猫所做的大量研究,胡贝尔和咸塞尔发现了大脑中神经元的分级系统,并模拟了图像的呈现流程,先是从像轮廓这样简单的元素开始,慢慢地逐步建立起更为复杂的特征,比如人类个性化的脸。计算机科学家已经开始着手尝试捕捉这一生物系统的本质。最后,燕乐存说:“大脑是已知的唯一功能完备的视觉系统处理软件。”
深度学习架构也被称为深卷积神经网络。信息在一个网络中虚拟的神经元之间直接流动。这些电子神经元仿佛是大脑的视觉系统中真正的神经细胞,它们被分配在分别独立而又相互联系的层级中,每个处于后方的层级根据前一层传导来的信息行使更加复杂的功能。举个例子,看着一幅图片上的狗,这个深度学习网络首先需要把照片里的狗按边缘分解成深色和浅色两区域,然后把这个信息传递到下一个层级进行处理,下一层级再将这些信息逐步细化。当到达最后一层时,系统能提供一个数学函数来回答这个问题:“这玩意儿到底是不是一条狗?”
这个问题攻克了“狗检测功能”的技术难关。“我们只是没有能够达到要求的电脑,”燕乐存说。网络需要处理数百万已知的狗的图片来学习一条普通的狗长什么样,在1980年,甚至超级计算机都不具备这样的速度或存储能力来处理这样的训练。因此,研究人员放弃了深度学习的进一步开发。因为这个延迟,机器人视觉直到2012年才得到进一步的提高。
那一年,由加拿大多伦多大学的计算机科学家杰弗里·希尔顿(Geoffrey Hinton)带领的队伍接受了图像网络的挑战,在每年一度的计算机程序竞赛中,参赛的机器人必须在现场提供的数千张照片中识别出各种物体――人、动物、车辆。希尔顿的队伍使用了深卷积神经网络,在大规模的标记图像中采集。不像1980年的电脑那样处处受限,今天,一台很便宜的电脑也能有足够的速度和存储功能来用以计算。他们的系统在竞赛中非常抢眼,甚至获得了全场激动的叫好声。
“技术改变了所有事情,”燕乐存说,“深卷积神经网络的精度之高,吸引了所有正在研究机器人视觉的人。他们都放下自己正在做的项目,转而研究起深度学习。”从此之后,数以亿计的美金被投入到深度学习的研究中去。希尔顿为谷歌发明了深度学习的应用,希望创造出能自动驾驶的汽车。在Facebook公司,燕乐存现在正负责人工智能设计与开发工作――一个被称作DeepFace项目,用于自动识别任何照片上的任何一张脸(至于脸部照片的拥有者是否同意被识别,那就又是另外一个问题了)。
“场景”:仍然存在大问题
但是在深度学习的淘金热中,有些研究人员却对该技术的前景持怀疑态度――参考一下PR2同三明治史诗般的斗争,你就能多少感受到一些这种忧虑了。深度学习使机器人认识了它周围的物体――面包、意大利腊肠、烤面包机――但它仍然需要知道这些物体具体在哪里,从而来移动自己的手臂。当面包掉下去时,预测它会去哪里则需要物理系统的处理。如果烤面包机没插电呢?机器人会对为什么面包不能被烘烤感到摸不着头脑。“在机器人能像人类一样观察四周环境之前,研究者们还有很长的路要走,”在麻省理工学院研究机器人和生物视觉的托马索·波乔(Tomaso Poggio)如是说。
美国国家基金会(NSF)对此表示赞同。波乔目前是由NSF资助,被称为“大脑、思想和机器中心”的科研项目负责人。该中心的大部分研究都专注于理解人类大脑中负责视觉的部分是如何工作的,并用电脑进行模拟。“比如,”波乔说,“我可以给一个孩子展示几个样品,然后他可以不经过训练就在数百万张图片中再次很容易的识别出来。”他把这种方法称作物体不变性――物体的表现形式允许人类在任何场景、任何角度、任何光线下都能识别出来――他的研究方向就是,用计算机的计算方法来捕捉它,从而让机器人也具备这种能力。
科技公司是不会驻足观望的。有些公司正在探索新的生物激发性计算机硬件。菲尼克斯和他的代理人Vicarious以及同事们正专注于与视觉智能软件相连接的电脑分析方案上。2013年,他们宣布他们通过分裂验证码(CAPTCHA)而设计的算法已经超过了深度学习,取得了更为精确的效果。分裂验证码就是由扭曲的字面组成的视觉谜题,这正是被用在网页上以混淆并扫除网络爬虫的软件。代理人Vicarious对这个实验的细节严格保密,但根据公司的合作创业者迪利普·乔治(Dileep George)所说,它完全不是基于深度学习之上的进一步设计,而是一个独立开发的全新程序。“我们是从人类大脑如何处理视觉信息方面着手的。”
当被问到更多实际问题时,乔治像所有疯狂的秘密工作的企业家一样,表示并不愿意透露。“在我们把所有资料整合到一起之前还需要几年时间,”他说。那这份工作的目的何在呢?“为了使一个机器人具有3岁孩子的视觉能力。”那将意味着,机器人会具备远比做一个三明治更多的能力。至于结果会是如何,就让我们拭目以待吧。
资料来源Science
责任编辑 粒 灰