随机试验能否消除全球贫困？

发布时间：15年12月16日

编译斯汀

新一代的经济学家们正试图通过随机对照试验来改变全球发展政策。请看来自《自然》杂志记者杰夫·托尔夫森（Jeff Tollefson）的报道。

试验显示，激励措施可以增加接种疫苗诊所的到访量

　　在印度哈里亚纳邦管辖的70家当地诊所中，如果孩子开始接受一系列标准疫苗接种，其父母可以获得诊所免费提供的一公斤糖。如果父母保证孩子完成所有疫苗注射，他们还可以免费带回家一升的食用油。

　　这些简单的赠品是一项关于奖励能否提高本地区贫困儿童一贯低迷的免疫接种率的大规模试验的一个部分。根据通常被用于测试药物有效性的随机对照试验（RCT）模型，科学家们在免疫接种率最低的七个地区随机指定各诊所是否赠送礼品。初步的试验结果有望明年出炉。但更小规模的试验表明，此类奖励有可能起到作用。2010年在印度完成并公开结果的一项试点研究显示，每月的医疗营项目已经将免疫接种率提升了三倍，另外，给参与免疫的家庭提供的一公斤扁豆和一套盘子使免疫接种率提高了六倍多。

　　参与了2010年此项试验，目前正与哈里亚纳邦合作的麻省理工学院经济学家以斯帖·迪弗洛（Esther Duflo）说道：“我们已经了解到造成低免疫率的一些原因。”她认为，问题并不一定在于人们反对免疫接种。而是诸如缺少时间或金钱这样的一些阻碍，使得他们很难去诊所。她说：“你可以用一些小的激励来缓解这种困难。”

　　这是那些用严格测试各类社会项目效能的试验以改革经济领域的研究者的见解之一。他们的目标涉及从教育项目到预防交通事故等诸多领域。他们偏爱的研究方法是随机试验。因此，他们渐渐地被人们称为“随机主义者”。

　　随机主义者们尤其在全球发展领域深受欢迎。尽管第二次世界大战以来，大约有16万亿美元的援助流入发展中国家，但有关于这些援助是否改善了受助者的生活的实验性数据却少得可怜。随机主义者们认为他们的试验可以获得此类数据，向政府提供工具以促进发展、缓解贫困以及敛集财富投入相关事务。

　　并非每个人都对此表示信服。怀疑论者们认为，随机主义者对于评价具体援助项目的关注会使他们忽略诸如能源、基础设施、贸易以及腐败等宏观经济问题，而这恰恰是一个国家繁荣的核心能力，但这些是无法随机做到的。新泽西州普林斯顿大学的经济学家安格斯·迪顿（Angus Deaton）表示：“发展最终和政治相关。”

　　尽管如此，随机主义者的运动势头大增。每年，大学源源不断输出更多具有随机对照试验相关经验的经济学专业研究生。从英国国际发展部到西雅图市的比尔和梅琳达·盖茨基金会这样的组织，都在为此投入大量财力支持。康涅狄格州纽黑文市的耶鲁大学经济学家卡兰（Karlan）主任也置身此项运动的前沿，他说：“有成百上千的随机试验在进行，与十年前完全是天壤之别。我们已经改变了对话规则。”

　　而需求还在不断上升。今年九月，各国政府在联合国的赞助下于纽约集会，批准一系列新的可持续发展目标，旨在引导未来十年的投资方向。另外，今年12月在巴黎的联合国气候峰会上，关于资金援助的问题将会提上议程，各国政府希望通过这届峰会签署一项新的气候协议，可能会包括工业化国家承诺将投资用于较贫穷国家的可持续发展。在这两个事件中，项目的有效性可能就是一个关键问题。

　　美国国际开发署（USAID）位于华盛顿特区，其全球发展实验室执行主任张安美说：“这个问题在很多人的议事日程上都排在前面和中间。在哪里我们才能获得最大收益，事半功倍呢？”

进步与机遇

　　至少从上个世纪60年代以来，随机对照试验（RCT）一直被用于测试社会项目的实效。然而，现代研究开始于1997年，当时公共政策领域最著名、最有影响力的一项RCT在墨西哥启动。

　　该试验起源于更早的三年前，当时墨西哥总统埃内斯托·柴迪洛（Ernesto Zedillo）在一场经济危机中临危受命，指派经济学家圣地亚哥·利维（Santiago Levy）设计一个帮助穷人的项目。利维对诸如为玉米圆饼和能源等产品提供补贴这样的传统方法表示怀疑，他的设计是为贫困家庭提供现金支付，前提条件是这些家庭符合一定的要求，比如到访诊所，或者让孩子们在学校就读。利维目前负责华盛顿特区泛美开发银行战略发展规划，他说：“因为当时人们一直对我所做的事持有批判态度，我想要保证我们掌握数据，这样我们就能在充分知情的情况下展开一场辩论。”

　　碰巧，利维在他的试验中有一个天然的对照组。政府当时正在按步骤推开他们的支付项目，他正好在最先铺开项目的村庄和未被纳入项目的对比村庄收集相关家庭的数据。在几年时间里，他的团队收集到的数据显示，名为PROGRESA的项目进展相当顺利。与对照组相比，参与项目的社区中诊所的到访率要高出60%。那些社区里的儿童患病率也下降了23%，贫血病症减少了18%。在几个不同年龄段中，夜间就诊数量减少了一半。

　　这些数据有助于巩固对项目的支持。被称为Propera的项目几乎覆盖了所有墨西哥的最贫困人群，在拉丁美洲和非洲也开始激发了类似项目的启动。

　　全球发展中心是位于华盛顿特区的一个智囊团，其负责保证援助工作有效性和卫生政策研究的威廉·塞夫朵夫（William Savedoff）说：“PROGRESA是首个获得严格评估的此类大型全国性项目之一。目前，有条件的现金转移支付项目在全球各类项目中获得的评价最高，我认为这是墨西哥经验带来的直接结果。”

　　利用确凿的证据来测试公共政策的想法在美国开始冒泡了。初期的试验开始于1994年，分析在肯尼亚一些学校中改进基本的教室设备，并提供教材和校服等做法所能带来的效果。哈佛大学经济学家迈克尔·克莱默（Michael Kremer）之前在肯尼亚教书多年。他的一个在非盈利组织工作的朋友正在启动项目，克莱默提出可以推出该项目作为试验。他说：“我当时倒没有一定指望有什么结果。”

　　克莱默与该小组合作，在14所学校收集了学生的数据，这其中一半的学校接受了干预。接受干预的学校里，入学率提高了，但考试成绩没有提高。类似的结果来自1995年另一项涉及到100所学校的试验。那项试验结果表明，提供教材对于考试的平均成绩几乎没有什么影响，可能是因为语言的障碍，英文教材对大多数学生来说是个挑战，英语并非他们的母语。那些考试分数已经高于同龄人的学生们如果有课本的话，成绩会更加遥遥领先。

　　克莱默继续进行其他项目的随机对照试验，然而正是迪弗洛，当时是他的一个学生，将自己的想法推进成后来的主流。迪弗洛1999年的论文中，一部分内容提到了在印度尼西亚的教育改革计划，即在上世纪70年代的六年中建成61 000所小学。她想测试一个大家共同关心的问题：如此快速的扩张是否会导致教育质量的滑坡，从而抵消所有的收益。想要就此运行一项试验是不可能的，但迪弗洛可以利用各地区差异的数据来说明，事实上，项目不仅带来经济效益，还增加了教育的机会。

　　这与其他早期的工作激发了迪弗洛对随机对照试验的态度，将它看成是生成数据并明确衡量政策和项目有效性的方法。她说：“只要我有更长的时间范围和一些经费，我就开始着手做一些事。”

　　迪弗洛早期的论文中有一篇发表于2004年，利用了1993年印度宪法的修正案，允许公共投资下放更多的权利给地方议会，并保留那些议会中三分之一的领导权归妇女。迪弗洛意识到，这种做法有效地创建了一个随机对照试验，测试有妇女领导的议会的工作效果。在分析数据的过程中，她发现，由妇女领导的议会提高了其他妇女的政治参与，并将资金投入解决那些妇女提出的问题。例如，在有些地区，女性负责获取饮用水，妇女领导的议会在水利设施建设方面的投资便高于其他男性领导的议会。迪弗洛说：“政策的规模和主题那时候非同寻常。这让我有了感觉，知道RCT这样的工具或许可以覆盖的范围。”

　　21世纪初期，随机主义者们的势头正旺。2002年，迪弗洛的一个学生卡兰与她及其他研究人员一起协作，在纽黑文组成了发展创新组织，即现在为人熟知的“扶贫创新行动”。第二年，迪弗洛与麻省理工学院的阿比吉特·班纳吉（Abhijit Banerjee）和森德希尔·穆莱纳桑（Sendhil Mullainathan）携手，成立了现在位于剑桥的阿卜杜勒·拉蒂夫·贾米尔贫困行动实验室。

　　此后的工作迅速展开，阿卜杜勒·拉蒂夫·贾米尔贫困行动实验室目前已经在62个国家进行了将近600项评估，受培训人员超过6 600人。迪弗洛最新项目之一将重新审视她关于印度尼西亚教育的论文，这次涉及中学和随机对照组。迪弗洛说：“我希望不久我们将完成关于教育利益的论文，这次是随机对照版本。”

风险投资

　　随机主义理论的一位狂热追随者是盖茨基金会的工作人员拉吉夫·沙阿(Rajiv Shah)，他于2010年成为美国国际开发署（USAID）署长。他曾经创建了一个名为发展创新投资企业（DIV）的基金会，旨在测试并扩展针对发展问题的解决方案，他还任命克莱默为该基金会的科学总监。沙阿表示，其目的是利用获得的证据，“将发展推向一个全新的领域。”

　　至此，该发展创新投资企业已经投资了超过一百个发展项目，其中将近一半涉及随机对照试验。一个由两名来自华盛顿乔治城大学的研究人员在肯尼亚展开的项目测试了一种简单方法以减少面包车碰撞事故，克莱默认为那是交通事故的罪魁祸首，而且数量还在不断增多。他说：“两辆面包车相撞，结果40人丧生。”

　　2008年，研究人员与1 000余名司机一起在公共汽车上贴上标签，鼓励乘客举报野蛮驾驶的行为。然后他们从四家大型保险公司收集相关信息，结果发现，与没有标签的公共汽车相比，有标签车辆的严重事故索赔率下降了50%。发展创新投资企业提供资金开展另一项更大型的试验，结果发现索赔减少了25%~33%；他们第二次拨款近300万美元帮助肯尼亚在全国推进此项目。

　　克莱默说：“真正的胜利是当发展中国家或公司，或非政府组织改变了他们的政策。”然而发展创新投资企业目前面临的一个问题是，此类策略，或者说任何证明在某一环境下有效的项目是否能够被重新包装并适用于其他国家，因为存在的文化因素截然不同。

扩大规模

　　引发政策变化是全球创新基金的明确目标。全球创新基金启动于2014年9月，并将在五年间得到来自英国国际发展部、USAID以及其他机构的2亿美元资助，他们遵循发展创新投资企业的严格测试的模型。从USAID临时借调来的负责人杰弗瑞·布朗（Jeffrey Brown）表示，基金会目前已经收到来自110个不同国家的1 800余份项目申请，今年晚些时候基金会将宣布第一批受资助名单。他说：“我们根本上是想为一些好的发展思路提供穿越死亡峡谷的桥梁。”

　　然而，此类机构提供的仍然只是每年需要花在发展援助上的数十亿美元中的一小部分，更不要说政府投入国内社会项目的数万亿美元。即使是在那些已经考虑到基于证据的项目架构的贷款机构，严格评价所覆盖的投资比例还是很小。

　　世界银行于2005年开设发展影响评价司，以RCT或其他方式正式接受影响力评价的项目数量从2003年的不到20个增加到2014年的193个，其中大部分涉及诸如农业、卫生和教育领域。不过，评价部门的负责人阿里安娜·莱格维尼（Arianna Legovini）也承认，这些仅代表了世界银行所有项目的15%。阿里安娜负责一个23名专职人员组成的团队，拥有约1 800万美元的年预算量。尽管这些评价当中有很多从长远来看是可以收回成本的，但有一个限制就是先期的投入：一项影响力评价的平均成本大约50万美元。阿里安娜说：“如果我没有捐助者的基金，这些研究就不会进行。”

　　世界银行正在努力充分利用其资源与发展中国家直接合作，开展项目。自2005年以来，已经有3 000余人参加了各类研讨会和培训，其中大多数参与者是从世界银行获得基金支持的发展中国家的政府官员。

　　世界银行同时在尽一切努力对影响力评价项目本身做好评价，尽管评价分析主要基于项目支付作为项目实施的代理，是否按时完成。由阿里安娜和她的两名同事所做的一项分析表明，接受正规影响力分析的发展项目，比那些没有接受评估的项目按时实施的可能性更大，可能是因为经过评估后，项目在前期启动、推出以及监控等方面获得更多关注。

　　此项发现对于单个项目来说是个好消息，但对于很多RCT来讲却是潜在的麻烦。在项目扩大、政府接管或者所有的额外关注都消失的情况下，在试验环境下出现的正面影响可能也会无影无踪。

　　国际影响评价行动华盛顿特区办公室负责人安妮特·布朗（Annette Brown）说：“现在流行的做法是让我们先做试点，如果有效果我们就扩大规模继续接着做。”国际影响评价行动是一个为现有研究进行元分析并为影响力评价提供资助的组织。布朗表示，研究人员和政府或许应该在任何项目准备扩大规模的时候对它进行严格研究，以保证其结果能够继续有效，就好比哈里亚那邦政府目前正在做的工作。

随机化的偏见

　　从政治的角度看，赞成架构完善的RCT的强烈观点可能也是应对它们最大的因素，随机对照试验不会撒谎。当地的政客往往希望启动项目，将资金投放社区，而包括政府和非政府组织在内的国际捐助又希望能有一些王牌项目，来显示它们如何改善了世界。他们不欢迎项目没有效果。利维说，即使是在墨西哥，他创建PROGRESA项目时反对的补贴政策，却重新获得了政治的青睐。

　　然而，机会主义者一直以来都被指责为屈服于他们自己的偏见。一些人担心他们坚持随机对照试验会对一些更小的政策问题研究有所偏向，也对规模更大的、宏观经济的问题显得有所怠慢。马丁·拉瓦雷（Martin Ravallion）给了我们一个例子。作为乔治城大学的经济学家、世界银行的前研究主管，他援引了在中国的一个扶贫项目，该项目上世纪90年代从世界银行获得4.6亿美元的资助。尽管项目涉及道路建设、住房、教育、医疗卫生，以及为贫困家庭条件性现金支付等诸多范围，在付款项目完成四年之后，根据2005年收集到的数据所做的研究表明，该项目对国民的平均影响力微乎其微。拉瓦雷说：“这是农村综合发展的唯一一项长期研究，也是发展援助最常见的形式。”

　　然而一些家庭的确受益，根据与经济模型相结合的统计数据，拉瓦雷和他团队的研究显示，在诸如教育水平这样的基础问题上存在差异。在拉瓦雷看来，援助最应该针对文盲，或者更广泛一些，针对读写能力这样的问题。他说：“政府需要了解这些事情。他们不能只是知道与随机化相符的那些事情的点滴。”

　　对于迪弗洛以前的学生阿莱克西斯·戴蒙德（Alexis Diamond）来说，随机主义者和保守的经济学家们之间的争论在很多方面还是与地位和权力有关。迪弗洛负责世界银行在华盛顿特区私营企业发展部门，国际金融公司的项目评估。戴蒙德认为，保守的经济学家们耗费终生钻研更复杂、抽象的模型。然后“随机主义者过来说，‘我们对此毫不关心，关键问题是谁能占有一席之地。’”

　　戴蒙德表示，他尝试在他的组织中做好协调，因为大多数评价仍然依赖包括专家判断在内的定量和定性数据的综合。

　　迪弗洛对此争论不以为然，她认为自己只是想为政府官员提供信息，以及所需要的工具来更明智地花钱。她说：“国际援助资金最好是用于为国家政府提供证据和经验。”

　　她提到印度古吉拉特邦工厂的一个反污染项目。该州与美国一些研究人员合作，在2009年进行了一项试验，把近500家工厂分成两组。对照组的工厂继续使用传统体系，工厂自己聘用审计人员检查污染法规的执行到位情况。其余工厂则使用专门聘用的独立审计人员。这样做是希望消除审计人员的顾虑，担心因为提交了真实的报告而被拉黑。事实上的确如此：独立审计人员违规给工厂打及格分数的比例减少80%，很多聘用独立审计人员的工厂通过审计遏制了污染。今年一月，监管机构在全邦范围内推广了该项目。

　　迪弗洛表示：“我希望，最好的情境是，接下去的十年里，政府理所当然在他们想学习的空间里，会有很多很多这样的项目运行。”

资料来源Nature

责任编辑彦隐