杰夫·迪恩(Jeff Dean)是谷歌公司的人工智能项目负责人,他与《美国科学家》(American Scientist)主编费内拉·桑德斯(Fenella Saunders)对谈,讨论了当前人工智能研究所面临的若干重大进展和担忧,以及这种局面会如何影响人类社会。
机器学习领域已经取得许多进展,你认为其发展方向在哪?
我们已经在深度学习方面取得重要进展。深度学习本质上是人工神经网络的重塑。人工神经网络已经出现三四十年,作为从相关的输入和输出信息中进行抽象学习的方式。但现在证明,深度学习可用于计算机视觉、语音识别、语言理解和语言翻译领域中的各种问题。
现在,依靠机器学习,我们突然之间能攻克设计和工程领域的许多重大挑战。诸如“我们如何让人们的医疗保健更好?”或者“我们如何发展或重建都市的基础设施?”的问题是机器学习能够解答的。例如,在重新思考应当如何设计城市时,自动驾驶车辆将会是重要的考虑因素,因为自动驾驶车辆与我们现在驾驶的车辆截然不同。
机器学习建立在这样模型上,即向计算机展示许多实例,直到计算机明白其中的关联。现在还有其他学习机制吗?
各种最为成功的机器学习都是这种形式的:收集你感兴趣的输入和输出信息,形成大型数据集。数据集也许是许多图片,每张图片上标示着“这是卡车”“这是鸽子”“这是一种猴子”。通过暴露在许多这样的实例下,系统就能学会归纳一张全新的图片。现在它可以说“哎,那张图片也是卡车”。这个过程被称为监督式机器学习。
然而,其他类型的机器学习方法也在取得重大进展。在一项被称为强化学习的技术中,你可以实施一组行动,每一步你试图预测:什么行动最合理。在行动过程中,你开始明白你采取的那组行动是好还是坏。
如何使数据集和算法不易受到无意识偏差(unconscious bias)的影响?
机器学习算法中的偏差是个大问题,我们需要意识到这个问题。关于我们如何让这些系统以自动方式减少偏差的问题是非常活跃的研究领域。问题之一是:有时候训练使用的数据本身具有偏差。
或你已经收集到一组数据集,但它不匹配你训练模型的数据分布。比如说,假如你以北美婚礼的照片来训练模型,然后开始试图识别印度婚礼,数据集的分布和你可能看到的图像是迥然不同的。所以,对于你关注的问题,收集到具有正确分布性质的数据集是机器学习的重要技巧。
还有一项技术是让你能从算法层面调整机器学习模型,达到所需的结果。譬如说,当所有其他条件相同时,你希望这两组实例拥有获得某种结果的相同概率。这样就能采用在训练时具有偏差的模型,从算法层面调整它的结果,使得它的偏差变小。
在机器学习的时代,你对隐私有什么见解?
当民众利用许多新式在线服务时,他们生成了如何使用那些服务的许多数据。商业公司常常利用这些数据来改善服务,比如通过理解“人们观看这类视频时,也许对那类视频也感兴趣”的现象改善服务。或者,当用户误输入这个单词、接着又纠正单词时,我们也许能学习到一种拼写纠正机制。
我相信,对于是否收集那些数据,民众应该有控制权;假如用户同意收集数据,他们也应该有删除数据的能力。而且数据的删除应该及时生效,像人们更新他们的机器学习系统一样快捷。
机器学习有没有方法帮助人类突破樊笼?
我认为:在算法上存在这样的机遇,即促进用户接触事物的多样性。这肯定是我们在产品层面上思考的东西,我们想让用户接触到一些让他们思维激荡的信息,而不是接触完全符合他们当前思维的东西。
尽管机器现在可以自我训练,但机器学习程序仍然是人类创造的。你是否强调团队成员背景和文化的多样性,借此确保团队能诞生更强健的研究?
是的,绝对是这样。计算机科学和机器学习正在全球范围创造出有趣的新产品与应用,它们在影响几十亿人。于是,你会希望那些服务由使用它们的广泛人群所创造。对我来说,重要的是我们要在全球范围寻找有才华的人,他们有各种各样的背景,帮助创造出新的机器学习算法、新的研究手段、新的产品。
我希望,研究人员和背景的多样性能有助于机器学习和计算领域。
资料来源American Scientist