利用大量数据识别照片和语言,深度学习系统正在朝向真正的人工智能迈出了一大步。深度学习具有的一种属性是,如果你给他更多的数据,它会做得越来越好。或许,再过几年将会看到这样一个景象,即越来越多的人加入到深度学习的潮流中。

http://www.nature.com/polopoly_fs/7.14688.1389093616!/image/deep_learning.jpg_gen/derivatives/landscape_630/deep_learning.jpg

  三年前,位于美国加州山景城的谷歌X实验室,研究人员从YouTube网站视频中提取了1 000万张静态图片,输入谷歌大脑――由1 000台电脑组成的程序网络――让其像幼儿一样对周围的世界进行学习。图片循环播放,三天后,谷歌大脑能完全独立地分辨某些类别的重复图片:人脸、人体……还有猫。
  这是深度学习复兴的里程碑:三十多年来在处理大量数据引发的技术进步,使计算机可以处理杂乱的问题,从识别人脸到理解语言,这些问题对人类来说几乎是凭直觉来解决的。

另一种超越

  深度学习本身是一个古老的计算思想的复兴:神经网络。这种系统的灵感大概来自大脑里无数互相连接的神经元,在经验的基础上,通过改变模拟神经连接的强度来模拟人类的学习过程。谷歌大脑具有100万个模拟神经元和10亿个模拟连接,规模比以往任何深度神经网络大10倍。这一项目的缔造者是吴恩达(Andrew Ng),任职加利福尼亚州斯坦福大学人工智能实验室主任,目前正在致力于打造规模更大的深度学习系统。
  谷歌大脑让人工智能(AI)进入了一个激动人心的时代――尝试让计算机像人类一样思考(虽然结果经常令人沮丧)。几年来,谷歌、苹果和IBM等公司网罗了大批新兴公司和深度学习研究专家:对于普通消费者,软件能更好地帮助他们整理照片、理解语音指令和翻译外语文本;对于科学家和工业界,深度学习计算机能筛选药物、绘制真正的大脑神经网络图谱或预测蛋白质的功能。
  “AI总是在不断地失败中逐渐取得进展的。这次应该是另一超越,”深度学习领域的先驱之一、纽约大学数据科学中心主任伊恩·勒坤(Yann LeCun)表示。“过几年,我们会看到疯狂的景象,深度学习会成为一种潮流,”加州大学伯克利分校计算机图像识别学者杰腾德拉·马利克(Jitendra Malik)认同以上观点。但从长远看,深度学习可能并不占上风,一些研究人员正在寻求其他可能的技术。“我是个不可知论者,”马利克说,“随着时间的推移,届时人们将会确定在不同的领域采用效果最好的技术。”

受大脑启发

  早在上世纪50年代,计算机还是个新生事物,从事AI研究的首批科学家曾预测,完全成熟的AI即将到来。但是,当他们意识到现实与期望存在的巨大差距后,这种乐观情绪就逐渐消退了,尤其是面对感知问题时,什么使一个脸孔看起来像人脸,而不是面具或其他?很多研究人员曾为此花费了几十年时间,从制定规则、到设定计算机识别物体时所需分析的所有特征等。“提出特征是困难的,不仅耗时,而且需要专业知识,”吴恩达说,“我们不得不寻找别的更好办法。”
  上世纪80年代,一种在神经网络中进行深度学习的方法出现了――可以从头学习,建立自己的规则,以实现大脑般对称的功能。这种名为模拟神经元的方法由几个层次组成:第一层次将关注到明暗像素点;下一层次可以识别一些由像素点组成的边缘;再下层次识别出水平线和垂直线;最终层次将识别出眼睛,并意识到人脸通常有的两只眼睛(见“脸部识别”)。
  据马利克回忆,第一个深度学习程序,其表现还不如最简单的系统。“操纵神经网络是非常精巧的艺术,中间有些过程是不可思议的,”他说。神经网络需要从丰富的例子中学习,就如同婴儿从周围世界里获取信息一样。在上世纪80年代到90年代,可利用的数字信息不多,计算机不得不耗费大量时间对信息进行处理,应用程序也很少。
  本世纪初,勒坤及他以前的主管、加拿大多伦多大学的计算机学家杰弗里·希尔顿(Geoffrey Hinton)确信,随着计算能力的提高和数据的爆炸式发展,意味着是时候重新推动AI研究了。“我们希望向全世界展示这些深层神经网络可以真正帮助我们,”希尔顿的学生乔治·达尔(George Dahl)如是说。
  首先,希尔顿、达尔等人解决了语音识别这一难点,这在商业上很重要。2009年研究人员报告称,他们的深度学习神经网络成功地把语音转换成文字,这在由标准规则导向方法下已10年停滞不前了。达尔说,这一成果吸引了智能手机主要厂商的注意,包括微软公司。“在几年内,他们都转向了深度学习研究领域。”例如,iPhone的语音数字助理Siri开发,就依赖于深度学习。

巨大的飞跃

  谷歌在其安卓智能手机操作系统上采用了基于深度学习的语音识别后,单词错误率减少了25%。“在以前,这需要十年的时间才能实现。”希尔顿认为,至少这反映出在这方面取得的进展是多么困难。
  与此同时,吴恩达一直在说服谷歌公司允许他使用它们的数据和计算机(这些计算机后来成了谷歌大脑的一部分)进行无监督学习项目的演示;而无监督学习在当时是一种最难的学习任务。吴恩达很快就陷入了困境,因为在谷歌之外很少有研究者能拥有用于深度学习的工具。“在我的许多次讲座中,沮丧的研究生经常会无奈地走到我身边说,‘我不可能拥有1 000台电脑,怎么研究呢?’”
  回到斯坦福后,吴恩达开始借助图形处理器(GPUs,一种超高速芯片)开发规模更大更廉价的深度学习网络(其他人也在做同样的事情)。吴恩达说:“在硬件上投入10万美元,使用64个GPUs,我们能建立一个110亿连接的网络。”
  然而,要超越计算机视觉科学家还需要努力:他们想在标准化测试中看到增益。马利克还记得希尔顿向他提出的类似问题。除非赢得对国际知名的ImageNet(世界上最大的视觉数据池――译注)挑战的胜利,马利克回答说。
  在这场竞赛中,用来训练计算机程序的数据集大约有100万张图片,训练过后,要求程序给从未见过的图像分类:每张图片有5次机会,如果5次答案都不正确,就为一次错误。以前的错误率通常在25%。2012年,希尔顿实验室是参赛选手中首次使用深度学习系统的,错误率仅有15%。
  “深度学习战胜了一切,”勒坤评论道,尽管他不是这个团队的一员。希尔顿以此获得了在谷歌公司的兼职,2013年5月,公司用这一程序升级了谷歌网站和照片搜索软件。马利克被征服了。“在科学上你必须被实验证据说服,这次就是明显的证据,”他说。从那以后,马立克也采用了这种技术,在其他的视觉识别比赛中屡次打破纪录。很多人纷纷效仿:2013年,ImageNet的所有参赛者都使用了深度学习系统。

  随着成功掌握图像和语音识别,现在科学家更大的兴趣转向了利用深度学习理解自然语言,包括理解人的演讲,或能够复述和提出有关问题。比如,把一种语言翻译成另一种语言,虽然产生的结果可以理解(有时也很滑稽),但远远不及人工翻译的流畅。“深度学习将有机会做得更好,”众包专家路易斯·冯安(Luis von Ahn)说:“大家的一个共识是,现在得尝试些不一样的东西了。”尽管他的多国语言学习公司的文本翻译仍然是人而不是机器。

最佳的选择

  实践证明,深度学习可以在诸多工作中发挥作用。“在数据集中找出应用模式,深度网络表现确实不错,”希尔顿说。2012年,默克制药公司悬赏寻找筛选药物的程序,前提是必须胜过默克公司目前已有的最佳程序。筛选范围是该公司数据库中的30 000多个小分子,即每一个分子都有成千条化学属性的描述,并预测如何作用于15个不同靶分子。最终,达尔团队的深度学习系统赢得了22 000美元,他说:“我们使默克公司的药物筛选基线提高了大约15%。”
  包括麻省理工学院的塞巴斯蒂安·程(Sebastian Seung),采用深度学习系统分析脑切片的三维图像,即在一大团密密麻麻的神经元图像中辨认连接点,用于绘制神经连接图并进行计数。过去这项工作是由大学生完成的,随着项目的继续,将会出现数亿甚至数十亿的连接点,自动化将是唯一的处理途径,而深度学习系统似乎是最佳的选择。目前,有研究人员在使用深度学习程序绘制视网膜某一区域的神经元,然后通过EyeWire在线游戏,把结果转发给志愿者校对。
  西雅图市华盛顿大学的计算机学家威廉·S·诺贝尔(William S.Noble)一直利用深度学习程序,希望该程序可以预测一段氨基酸序列合成蛋白的结构,或形成螺旋和环,或溶液分子进入结构空隙。未来几个月,他还将进入蛋白质数据库(Protein Data Bank),因为这个全球蛋白质数据库内有接近10 000种不同的结构。
  “深度学习具有的一种属性是,如果你给它更多的数据,它会做得越来越好,”吴恩达写道,“尽管其算法可能不具备这样的特性,但它们可以说是最好的――当然也是最简单的。这就是它未来的希望所在。”达尔目前正在考虑创业;去年12月,勒坤被Facebook聘用掌管一个新的人工智能部门。

才刚刚起步

  并非所有的研究人员都这么想,包括西雅图市艾伦人工智能研究所所长奥伦·埃奇奥尼(Oren Etzioni)。他说,“这就像当初我们发明了飞机,”但最成功的飞机设计并没有仿照鸟类生物学。他的具体目标是:设计一种必须能够阅读和理解图表和文字的计算机程序,并通过标准化的小学、中学理科测验(水平不断上升),最终通过大学预科考试。目前还不确定艾伦研究所将如何做到这一点,但对埃奇奥尼来说,神经网络和深度学习方法不是他的首选。
  一个竞争性的想法是,计算机可以在输入事实的基础上加以推理,而不是试图从头开始学习建立自己的逻辑。比如,可以编写“所有的女孩都是人”的计算机程序。然后,当文本提及女孩时,该程序可以推断所讨论的女孩是一个人。为了覆盖常识性知识,需要成千上万(甚至更多)类似的知识输入计算机。比如,IBM的沃森电脑就是利用了类似的技术,在2011年电视智力竞赛游戏节目“Jeopardy”中战胜了人类。即便如此,该公司的技术总监罗布·海伊(Rob High)表示,在提高模式识别方面,沃森电脑解决方案对深度学习抱有深厚的实验兴趣。
  谷歌也是如此。虽然其图片标注上的最新进展是基于希尔顿的深度学习网络,但该公司的一些部门正在进行着更广泛的研究。2012年12月,谷歌聘用了未来学家雷·库兹韦尔(Ray Kurzweil),采用包括深度学习在内的各种方式让计算机从经验中学习。去年5月,谷歌购买了一台加拿大D-Wave公司研制的量子计算机――该计算机很有希望完成非人工智能的工作,比如困难的数学计算,理论上它也适用于深度学习。
  就深度学习而言,尽管目前取得了一些成功,但其仍处于起步阶段。达尔说:“这是未来的一部分。在某种程度上它是惊人的,而且我们才刚刚开始。”

资料来源Nature

责任编辑 则 鸣