机器学习的能力范围及其对劳动力的影响

发布时间：18年04月18日

编译陈轶翔

深刻的变化即将到来，但人类的角色依然存在。

　　在过去的几十年里，数字计算机已经改变了社会上几乎所有工作。机器学习（ML）能够加速自动化的步伐，而机器学习的最新进展正在为更大、更迅速的转变拉开帷幕。然而，尽管机器学习显然是一种“通用技术”――就像蒸汽机和电力那样――可产生大量额外的创新和能力，但对于机器学习系统所擅长的任务，并没有达成广泛共识。因此，对于机器学习在更广的层面上对劳动力和经济的具体预期影响，也未达成一致意见。我们将讨论我们所看到的对劳动力的主要影响，借鉴当代机器学习系统可以做什么和不能做什么的相关内容。尽管很多工作的部分任务可能“适合于机器学习”（SML），但是这些工作的其他任务并未很好地适应机器学习。因此，对就业的影响比一些人所强调的简单替代和补充要复杂得多。尽管目前机器学习的经济效应相对有限，我们也不会面临“失业”――像有时宣称的那样，但机器学习对未来经济和劳动力的影响是深远的。

　　任何关于机器学习可做什么、不能做什么和如何影响经济的讨论都应该首先意识到两个广泛而潜在的因素。我们离通用人工智能还很远，机器不能完成人类所能做的全部工作。此外，尽管创新通常对总体收入和生活水平的提高都很重要，尤其是机器学习之前的信息技术系统的第一波浪潮已经创造了数万亿美元的经济价值，“技术进步导致工资不平衡的状况很严重。”尽管有许多因素导致了不平等，例如全球化的加剧，但十年内由于机器学习而造成巨大、快速变化的可能性，表明对经济的影响会极具破坏性的，产生了赢家和输家。这将需要决策者、商业领袖、技术专家和研究人员的高度关注。

　　当机器自动完成一些任务――某一特定工作或过程中“适合于机器学习”的任务时，剩下的非SML任务可能会变得更有价值。在其他情况下，机器将增强人类的能力，并使全新的产品、服务和过程成为可能。因此，对劳动力需求的净影响（即使是在部分自动化的工作中）可能是负面也可能是正面。尽管更广泛的经济影响可能是复杂的，对于机器学习能够替代的工作，劳动力需求更有可能下降，而对于机器学习只能作为补充的工作，劳动力需求则更有可能增加。每当机器学习系统跨过一道门槛，即做同一项任务比人类更具成本效益时，追求利润最大化的企业家和经理将会设法越来越多地用机器代替人工。这会对整个经济产生影响：提高生产率、降低价格、转移劳动力需求和重组产业。

我们知道的多于我们表达的

　　正如哲学家波兰尼所说的“我们知道的多于我们表达的”。识别人脸、骑自行车和理解言语都是人类非常擅长的任务，但我们对于如何执行这些任务的反思却很差。我们不能轻易地将许多任务编纂成一套正式的规则。因此，在ML之前，波兰尼的悖论限制了可以通过编程计算机自动完成的系列任务。但如今，在很多情况下，与我们手动编程相比，机器学习算法可以使计算机系统更精确和更有能力。

　　直到最近，创建新的计算机程序涉及手工编码的劳动密集型过程。但是，这个昂贵的过程正逐渐被更加自动化的过程所取代，即在适当的训练数据上运行现有的机器学习算法的过程。这种转变的重要性是双重的：首先，在越来越多的应用程序中，这个范例（与人类程序员相比）能够生成更精确、更可靠的程序（例如，人脸识别和信用卡欺诈检测）。其次，这种范例可以大大降低创建和维护新软件的成本。这更低的成本减少了实验的障碍，扩展了潜在任务的计算机化，鼓励了计算机系统的开发，将自动实现很多常规工作流程的自动化，而很少或根本不需要人工干预。

　　在过去的6～8年里，在机器学习方面取得的上述进展尤其迅速，这在很大程度上是由于某些任务可获得的训练数据的数量，数量之大足以捕获有高度价值的、以前未注意到的规律，或许大到个人不可能分析或理解的程度，但在机器学习算法的能力处理范围之内。当有足够大的训练数据可用时，机器学习有时产生的计算机程序远超最好人类在特定任务中（例如：皮肤病诊断、围棋游戏、检测潜在的信用卡欺诈）的表现。

　　机器学习进展的关键还在于综合了改进的算法（包括深度神经网络，DNNs）和快得多的计算机硬件。例如，针对每天超过45亿的语言翻译，Facebook将基于短语的机器翻译模型转换为DNNs。DNNs图像识别技术使得ImageNet（一组超过1万个标记图像的大数据集）错误率大幅度下降，从2010年的超过30%下降到现在的不到3%。同样，自2016年7月以来，DNNs还帮助降低了语音识别的错误率――从8.4%降低到4.9%。图像及语音识别的错误率阈值为5%――这一点很重要――当给予相似的数据时，5%大约是人类的错误率。

自动化的实现

　　为了生成定义明确、可应用机器学习算法的学习任务，我们必须明确说明该任务、性能指标和培训经验。在大多数实际应用中，要学习的任务与某些指标函数相对应，比如从输入医疗患者健康记录到输出患者诊断的函数，或者从自动驾驶汽车的当前传感器输入到下一个正确的方向指令的函数。最常见的培训经验是包含了指标函数的输入-输出对的数据（例如，病历记录与正确诊断的配对）。在许多领域，获取真实的训练数据是困难的，例如精神病诊断、雇佣决策和法律案件。

　　一个成功的商业应用程序中的关键步骤通常包括：精准确定要学习的函数；收集并清理数据，使其能够用于培训机器学习算法；提取数据特征，挑选那些可能有助于预测目标输出的特征，或者收集新的数据来弥补原始数据特征的不足；尝试使用不同的算法和参数设置来优化学习分类器的准确性；以提高生产率的方式将生成的学习系统嵌入到常规业务操作中，如果可能的话，以持续捕获额外训练样本的方式。

　　有一种方法特别适用于测量未来自动化的速度，那就是“学徒式学习”方法（有时被称为“人在回路”），即人工智能（AI）程序作为学徒帮助人类工作者，同时通过观察人类的决定、捕获额外的训练样本而不断学习。这种方法带来了新的商业模式。

　　训练一个人工智能学徒模拟人类的决策，使机器可以从它帮助的多人的综合数据中进行学习，最终机器的表现可能会超越其训练团队的每个人。尽管如此，它学习的经验技能或许受到两个因素的限制：人类团队的技术水平和相关决策变量的在线可用性。然而，在计算机能够访问独立数据以确定最佳决策（基本事实）的情况下，就可以改进人类的决策，帮助人类改进其表现。例如，在从皮肤病学图像进行皮肤癌的诊断时，用随后的活组织检查结果作为训练的黄金标准，可以产生比人类医生诊断准确性更高的计算机程序。

最适合机器学习的任务

　　尽管机器学习系统的能力最近取得了令人印象深刻的进展，但它们并非适用于所有任务。当前的成功浪潮很大程度上利用了称之为“监督式学习”（通常使用DNNs）的范式。在非常适合这种用途的领域中，这种方法可以很强大。然而，该方法的能力比人类决策要狭窄和脆弱许多，而且对于许多任务来说是完全无效的。当然，机器学习还在不断取得新的进展，其他的方法可能更适合于不同的任务。我们确定了8个关键的标准，帮助区分“适合于机器学习”的任务与机器学习不太可能成功的任务，至少在使用当前主流的机器学习范例的时候是如此的。

学习将定义明确的输入匹配到定义明确输出的函数这其中包括分类（例如，根据癌症的可能性对狗的品种进行图像标记或病历记录标记）和预测（例如，分析贷款申请以预测未来违约的可能性）。尽管机器学习可能会学习预测与任何给定输入X相关的Y值，但这是一种学习的统计相关性，可能无法捕获因果效应。

存在或者能够创建规模巨大、带有成对的输入输出的数字化数据集可获得的训练样本越多，学习的准确度就越高。DNNs的显著特点之一是：在很多领域的表现似乎并没有在一定数量的训练样本之后达到顶点。在训练数据中捕获所有相关的输入特征尤其重要。虽然原则上任意函数都可以用一个DNN表示，但计算机很容易模拟和延续训练数据中存在的不必要的偏差，也容易丢失无法观察的变量的相关规则。创建数字数据可以有几种方式：通过监视现有流程和客户互动，通过雇佣人工来明确标示或标记部分数据或创建全新的数据集，或通过模拟相关的问题设置。

该任务提供具有明确定义目标和指标的清晰反馈当我们能够清楚地描述目标时，机器学习就能够很好地工作，即使我们并不一定能确定实现这些目标的最佳过程。这与早期的自动化方法形成了鲜明的对比。捕获个人的输入-输出决策的能力，尽管它可能允许机器学习去模仿这些个体，却或许不会产生整个系统的最佳性能，因为人类本身可能做出不完美的决策。因此，明确定义整个系统的性能指标（例如，为了优化整个城市而不是特定十字路口的交通流量）就为机器学习系统提供了黄金标准。当训练数据按照这样的黄金标准进行标记时，机器学习尤其强大，因为明确了所需的目标。

没有依赖于不同背景知识或常识的、连串的逻辑或推理机器学习系统在学习数据的经验关联方面非常强大，但是当任务需要连串的推理或复杂的计划时，这些推理和计划依赖于计算机所不知道的常识或背景知识，机器学习就不那么有效了。专用移动游戏终端的“一秒钟规则”表明，机器学习在需要快速反应并可提供即时反馈的视频游戏中表现良好，但在另一种游戏中却表现不佳――游戏中最佳行动的选择取决于记住很久以前发生的事件以及关于世界的未知背景知识（例如，知道可能会在房间里的什么地方发现新引进的物品）。例外的情况是像围棋、象棋等类游戏，因为这些非物质游戏可以快速模拟，而且准确度非常高，因此可以自动收集数以百万计的完美的自标记训练样本。然而，在现实世界的大多数领域中，我们缺少这样完美的模拟。

无须对做决定的方式给予详细的解释大型的神经网络学习通过巧妙地调整多达数亿的与人工神经元互连的数值权重来做出决定。向人类解释这些决定的原因可能很难，因为DNNs通常不使用人类所用的中间抽象。虽然可解释的人工智能系统正在研究中，但目前的系统在这个方面比较薄弱。例如，尽管计算机可能像专家医生一样很好地诊断某些类型的癌症或肺炎，甚至可能比专家医生做得更好，但与人类医生相比，计算机在解释诊断的原因或方式方面的能力却很差。在很多知觉任务方面，人类也很不善于解释，例如，如何从听到的声音中识别单词。

容许错误，无须零出错的最佳解决方案几乎所有的机器学习算法都是从统计和概率上推导出其解决方案。因此，几乎不可能训练机器学习达到100%的准确率。即使最好的语音、对象识别和临床诊断的计算机系统也会出错（最好的人类也是如此）。

容许学习的现象或函数不应随着时间而迅速改变一般来说，只有当未来测试样本的分布类似于训练样本的分布时，机器学习算法才能很好地工作。如果这些分布随时间发生了改变，那么再培训通常是必需的，因此，成功取决于变化速率，相对于新训练数据的获取率而言（例如，垃圾邮件过滤系统能够很好地与敌对的垃圾邮件制作系统保持一致，部分原因是新邮件的获取率比垃圾邮件的变化率要高。）

没有专业化的灵敏、物理技能、或所需的机动性在非结构化环境和任务中处理物理操作时，机器人与人类相比仍然相当笨拙。这与其说是机器学习的不足之处，不如说是目前机器人的一般物理机械操纵工艺水平的结果。

对劳动力的影响

　　机器学习之前的信息技术的主要影响是相对狭窄范围的常规性、高度结构化和重复性的任务。这是一个关键性原因――导致处于技能和工资范围中间部分的劳动力需求下降，比如职员和工厂工人；而同时处于底层的（例如，房屋管理员或家庭健康护理）和高层的（如内科医生）劳动力需求在大多数发达国家则保持不变。但是，一系列更广泛的工作将在未来几年由机器自动完成或帮助人类完成。其中就包含：人类无法形成策略而数据中的统计资料可揭示出策略所需的规律。尽管将工作分为常规与非常规的框架在描述适合最新一波自动化的任务方面做了非常有效的工作，但SML任务系列却通常大不相同。因此，简单地按照过去的趋势进行推断会引起误导，我们需要一个新的框架。

　　工作通常由许多不同但相互关联的任务组成。在大多数情况下，只有一些任务可能适合于机器学习，但这些任务不一定能够使用以前技术而易于实现自动化。例如，我们发现：可以训练机器学习系统帮助律师为案件的潜在相关文件进行分类，但是要对潜在证人进行面谈或者制定成功的法律策略则困难得多。类似地，机器学习系统在解读医学影像方面取得了快速的进展，在某些应用程序中的表现优于人类。然而，与其他医生进行互动的非结构化任务以及与患者沟通并安慰患者的潜在情感任务等，都不太适合于机器学习方法，至少目前是这样。

　　这并不是说所有需要情商的任务都超出了机器学习系统的范围。一个令人惊讶的发现是，销售和客户互动的某些方面可能非常适合机器学习。例如，销售人员和潜在客户之间的大量在线聊天记录可以用作简单聊天机器人的训练数据，聊天机器人可以识别对于某些常见问题的哪些回答最有可能促成销售。很多公司也在使用机器学习来识别视频中人们的微妙情绪。

　　SML脱离常规框架的另一个领域是涉及创新的任务。在旧的计算模式中，一个流程的每个步骤都需要预先精确地指定。机器没有可以发挥创造力的空间，也无法独立想出一个特定问题的解决方案。但机器学习系统是专门设计用以独自想出解决方案的，至少对于SML任务来说是这样的。所需要的不是预先详细地定义这个过程，而是要确定所需解决方案的属性，并且有一个合适的模拟器存在，以使机器学习系统能够探索可用的替代方案，并准确地评估它们的属性。例如，过去一直是人类比机器更能胜任设计复杂新设备的任务。但是，生成设计软件可以为像热交换器（见下图）这样的物体形成新的设计，能够比人类的任何设计都更有效地满足所有需求（如重量、强度和冷却速率），并且具有非常不同的外观和感受。

　　它是“创造性”的吗？这取决于人们对“创造性”的定义。但是，一些以前人类专属的创造性任务在未来几年将变得越来越自动化。当最终目标可以得到确定时，这种方法就能够很好地运作，并且可以自动地评估解决方案的正确与否和好坏。因此，我们可以预期这样的任务将日益受到自动化的影响。同时，在更清晰地确定目标方面，人类的作用将变得更加重要，科学家、企业家、以及通过提出正确问题而做出贡献的人将发挥日益重要的作用，即使一旦明确了目标，机器往往更有能力找到这些问题的解决方案。

六大经济因素

利用衍生设计的机器而设计热交换器

　　在机器学习对劳动力的影响方面，涉及很多非技术因素。具体来说，机器学习对劳动力需求和工资的整体影响涉及六种不同的经济因素：

替代由机器学习创建的计算机系统将直接代替某些工作，取代人工，减少对劳动力需求。

　　价格弹性通过机器学习的自动化可以降低任务的价格。这可能导致总支出的减少或增加――取决于需求的价格弹性。例如，如果弹性小于-1，那么价格的下降会导致购买数量的超比例增长，而总支出（价格乘以数量）将会增加。打个比方，科技的发展使得1903年之后航空旅行的价格降低，而这类旅行的总支出增加了，那么这一行业的就业机会也增加了。

互补对于自动化的任务A来说，任务B可能是重要和不可缺少的补充。随着任务A的价格下跌，对任务B的需求将会增加。比如说，随着计算的自动化，对人类程序员的需求增加了。机器技能也可以是人工技能的补充。例如，机器分析技能与人际交往能力日益互补。

收入弹性自动化可能会改变某些个体或更广泛人群的总收入。如果一个商品的收入弹性不为零，这将反过来改变对某些商品的需求，而生产这些商品的工作的派生需求也会随之发生改变。例如，随着总体收入的增加，美国人花费在餐馆就餐上的支出也增加了。

劳动力供给弹性随着工资的变化，从事该工作的人数也将会有所变化。如果有很多人已经具备了必要的技能（例如，开网约车），那么供给将相当灵活，即使需求增加（或下降）很多，工资如果有变化，浮动也不会很大。相比之下，如果是比较难以获得的技能，比如成为数据科学家，那么需求的变化将主要反映在工资而不是就业上。

业务流程再设计生产函数（将任何一组不同类型和数量的劳动、资本和其他投入与产出联系起来）不是固定的。企业家、管理者和工人在不断革新相关的流程。当面对新技术时，他们将通过设计来改变生产流程，并找到更有效的生产方式。这些变化可能需要时间，而且往往会节约最昂贵的投入，增加需求弹性。类似地，随着时间的推移，面对某些职业或地区的高工资，个人可能做出的选择有：投资于工作所需的新技能的培训或者搬到新地方，如此一来就提高了相关的供给弹性。因此，根据勒夏特列原理（Le Chatelier’s principle），长期的需求和供给弹性比短期大。

　　技术的应用和传播通常需要数年或数十年的时间，因为需要对生产过程、组织设计、业务模型、供应链、法律约束、甚至文化期待做出改变。这种互补性在现代组织和经济体中随处可见，因为它们是微妙而难以识别的，其可以产生相当大的惯性，减缓激进的新技术的实施。与需要较少更改的应用程序相比，需要在多个维度上进行补充性更改的应用程序，往往需要更长时间才能对经济和劳动力产生影响。例如，自动驾驶卡车整合到城市街道上可能需要交通法规、责任条例、保险法规、交通流量等方面做出改变，而一家客户服务中心由人工客服向虚拟助手客服的转变则仅需要对业务流程或客户体验方面做出改变。

　　随着时间的推移，另一个因素变得越来越重要：新的产品、服务、任务和流程可以不断发明。这些发明可以创造出全新的任务和工作，从而可以改变上述关系的重要性。从历史上来看，随着一些工作的自动化，释放出的劳动力会重新部署，去生产新的产品和服务，或者投入到新的更有效的生产过程中。作为提高整体收入和生活水平的一种力量，这些创新比增加资本、劳动力或资源投入更加重要。对于很多符合上述标准的任务，机器学习系统可能会加速这一过程。

　　随着网络上出现越来越多的数据，我们可以发现哪些任务应该由机器学习自动完成，我们将会更快收集数据来创建更有能力的系统。不同于人类所掌握的任务的解决方案，很多通过机器学习自动化的任务的解决方案几乎可以立即在全世界范围内传播。我们有充分的理由期待：未来的企业软件系统将被嵌入每个在线决策任务的机器学习中，这样自动化的成本就会进一步降低。

　　最近一波的监管学习系统已经产生了相当大的经济影响。机器学习进一步发展的最终范围和规模可能会匹敌或超过早期的通用目的技术，如内燃机或电力。这些进步不仅直接提高了生产率，而且更重要的是，在机器、企业组织乃至更广泛的经济领域引发了一波互补性的创新浪潮。做了正确的互补投资（例如，在技能、资源和基础设施方面）的个人、企业和团体将因此而繁荣，而其他企业不仅未能全面受益，而且在某些情况下可能变得更糟。因此，理解各种机器学习的精确应用及其对特定任务的影响对于理解其可能的经济影响至关重要。

资料来源Science

责任编辑岳峰

――――――――

本文作者埃里克·布伦乔尔森（Erik Brynjolfsson）是麻省理工学院教授，汤姆·米切尔（Tom Mitchell）是卡内基梅隆大学教授、美国工程院院士。