威廉·萨瑟兰(William J.Sutherland)、大卫·施皮格尔霍尔特(David Spiegelhalter)和马克·伯格曼(Mark A. Burgman)所列出的内容将帮助非科学人员如何咨询其顾问,如何掌握证据的局限。

说明: http://www.nature.com/polopoly_fs/7.13745.1384885961!/image/20-things-2.jpg_gen/derivatives/landscape_630/20-things-2.jpg

科学和政策在一些有争议的重大问题上已经发生冲突,如蜜蜂数量减少、核电、獾对牛结核病的作用等等问题

  几十年来人们一直在呼吁,在政治决策中要更多地运用科学。然而,从能源到健康,从环境到教育,在其政策中的科学运用方面还存在着严重问题。
  为改变现状,有人提出这样一个建议,那就是鼓励更多的科学家参与政治。该建议虽然值得称道,但期待大批科学家参与政治是不现实的。还有人建议:扩大首席科顾问的作用,增加科学顾问人数,让他们更深入地参与政治过程。这两个建议均未触到核心问题,即很多在议会有投票权的人根本不懂科学。
  也许我们可以给政治家们上科学课程?这是一个有吸引力的想法,但忙碌的政治家们有足够的时间吗?实际上,决策者几乎从不阅读科学论文或科学书籍。关于当今热门课题的之研究,例如,线粒体更换、牛结核或核废料处置等等,都是由顾问或外部专家向政治家进行解释。再则,几乎不存在这样的受控实验,即设计精美、双盲、随机、可重复、大样本、对解决具体政策议题有明确结论。
  在这种情况下,我们认为,当务之急是要提高决策者对科学不完美性的理解。决策者的基本技能应包括:能够明智地询问专家和顾问,了解其证据的质量缺陷和个人偏见。我们把这些称为解释科学的技能。这些技能比理解基础科学本身的技能更容易获得,大多数政治家都能够具备这些技能。
  为此,我们提出了20个概念,它们应该是公务员、政治家、政策顾问、媒体工作者以及那些需要与科学和科学家互动的人所受教育的一部分。对科学人士持怀疑态度的政治家更倾向于用这种关键知识来武装自己。
  我们还没有天真到认为完美的政策决定会自动产生。我们充分意识到科学判断本身是有价值倾向的,偏见和语境对如何收集和解释信息具有影响。我们所提供的仅仅是一系列观念,这些观念可能有助于决策者分析证据如何影响决定,有助于决策者避免受既得利益者的潜在影响。
  差异和机会引发变化现实世界的变化难以预测。科学的主要任务是去发现是什么形成了我们所看到的模式。为什么最近10年比过去10年更热?为什么有些地区比其他地区有更多的鸟类?对于这样的趋势有许多解释,因此,研究面临的主要挑战是:从无数的变化过程(从像农业的强化和入侵物种蔓延那样的广泛变化到像决定生物生死的或然事件那样的地区变化)中挑选出吸引人的自然过程(例如,气候变化对鸟类种群的影响)。
 测量具有非精确性几乎所有的测量都有一定的误差。如果重复测量过程,人们可能得到别样的结果。在某些情况下,测量误差可能比实际差异大。因此,如果你得知,上个月经济增长0.13%,很有可能经济实际上已经萎缩。呈现在你面前的结果其准确性应该与相关的误差相称,应避免引用不客观的精确。

说明: http://www.nature.com/polopoly_fs/7.13744.1384943576!/image/20-tips.jpg_gen/derivatives/landscape_300/20-tips.jpg

偏见是普遍存在的实验设计或测量装置在一个给定的方向上可能产生非典型的结果。例如,通过询问街上的行人和居家者或者通过互联网来确定投票反应可以反映不同的人口比例,所有这样的询问可能得到不同的结果。因为“统计意义”结果的研究报告很有可能会报道和出版,科学文献往往夸大问题的重要性或解决方案的有效性。某项实验可能会因期望的缘故而发生偏差:某个治疗方法的参与者可能想当然地认为他们会有不同的体验,所以会有不同的行为或者效果。收集实验结果的研究者可能因知道接受治疗的人是谁而受影响。理想的实验是双盲的,即参与者和收集信息者均不知道是谁接受治疗,均不知道接受何种治疗。这种实验可能在药物试验中多见,但是对很多社会研究来说,这种实验是不可能进行的。当科学家发现研究所依据的是他们自己所偏好的某个理论,他们在对待自己的研究结果上就会缺乏批判,或停止寻找相反的证据,这样,在确认研究结果时会出现偏差。
 样本越大越好从大量的观测数据可以获得比少量的观测数据更多的信息。也就是说,随着我们积累的证据增多,我们的知识亦提高。这一点在我们的研究工作遇到大量的自然变化和测量误差时显得特别重要。例如:药物治疗的有效性对不同受试者来说自然是不同的。从有数万个受试者参加的试验得出的平均有效性会比从数百个受试者受试者参加的试验得出的平均有效性更可靠更准确。
相关并不意味因果人们倾向于假设:一种模式导致另一种模式。然而,相关可能纯属巧合,或者两种模式的结果可能是由第三个因素(“共同”或者“隐藏”变量)引起的。例如,曾经有一个时期,生态学家在认为:河口湾的鱼类正遭到毒藻类灭杀。而真实情况是,藻类在鱼类死亡的地方生长,藻类并没有引起鱼类死亡。
使用平均值可能误导人数据中的极端模式有可能是(至少部分是)由偶然性或者误差引起的异常,下一个模式可能就没那么极端了。例如,如果车速摄像头放置在事故多发地,事故的减少不能归因于摄像头,任何情况都有可能导致事故减少。
  越出数据范围的推断是危险的在给定范围内发现的模式并不一定适用于该范围之外。因此,当生态系统的变化速度快于现有物种进化历史中所经历的变化速度,或者当极端天气可能是完全新出现的,生态系统对气候变化的响应就很难预测了。
 谨防基率谬误一次确定某种条件的不完美测试效力取决于该条件出现的可能性(基率)。例如,某人接受了一次血液测试,测试为阳性和患有罕见病的结论具有“99%准确性”,然而,他可能没有得此疾病。如果有10 001个人接受测试,他们当中只有一人患该疾病,那人几乎肯定会有一个阳性的测试结果。但是,其他100位(1%)虽然没有患病,也可能测试结果为阳性。在考虑任何筛选程序时,例如对在机场里的恐怖分子来说,这种类型的计算是有价值的。
认识对照实验的重要性用完全相同的方法去进行对照组和实验组,除非该方法对两组都不适用。没有对照实验就难以确定某个给定方法是否真的有效力。对照实验有助于研究者确信不存在影响结果的混杂变量。有时候,试验者因环境或者提供疗法的人,或者甚至一片药片的颜色之缘故,给出阳性结果的报告。这种情况表明了结果与某种对照物(例如无活性成分的片剂[一种用作对照实验以决定药物效力的无效对照剂])作比较的重要性。
 随机化避免偏见实验应该尽可能地让受试个人或者群体随机介入。例如对孩子的教育成绩进行比较,实验者往往会因孩子家长的缘故表现出偏见,而出自有良好教育家庭的孩子可能更愿意参与受试。设计完美的实验往往是随机地选择家长来参试。
  要真重复而不是假重复一般能在多个研究中独立重复和相互一致的研究结果更可靠。若干这样的实验结果可以形成系列观点或元分析,为研究课题提供全景视野,这样的研究比个体研究具有更大的统计力量。对某个群体(例如一个班级的儿童)实施干预可能会产生误导,因为孩子会有许多干预之外的共同点。研究者要是把发生在这些孩子身上的现象概括成是更多人群的现象,那就犯了“假重复”错误。假重复引导人们相信没有根据的结果。例如,研究者对在加拿大纽芬兰大浅滩的大量鳕鱼所作研究得出的“假重复”结论是导致这个曾经是世界最大的鳕鱼渔场崩溃的原因之一。
  科学家是普通人科学家在其工作中投入了极大精力,尽管有时是为了获得直接经济利益,但通常是为了地位和获得进一步研究基金。这可能导致科学家有选择地报道研究成果,且偶尔会夸大成果。同行评议并非无懈可击,报刊编辑可能偏爱积极和具有新闻价值的研究成果。多个独立证据和重复的研究成果更可信。
 统计显著性有意义统计显著性(P)是表明结果可能是偶然产生的。例如,P=0.01意味着治疗效果可能是随机发生的,只有1/100概率,而事实上是几乎没有效果。通常情况下,当P值小于0.05(1/20)时,科学家的测试结果才有意义。
  将无效果与无统计显著性区分开无统计显著性的结果并不意味着没有潜在效果,它表明没有检测出效果。一项小规模研究可能无法测到真正的差异。例如,转基因的棉花和马铃薯等作物产生一种免遭虫害的毒素,研究者对这种毒素所作检测结果表明,它对像传粉昆虫那样的益虫无不利影响。然而,还没有大样本的实验检测出对有益物种的影响。
效应大小至关重要很难检测到小的反应。许多重复研究会引出具有统计意义的结果,但是它们的效应小(也许是不重要的)。效应大小的重要性在于,它是一个生物、物理或社会的问题,而不是一个统计问题。上世纪90年代,《美国流行病学杂志》的编辑要求作者在其投稿中停止使用统计显著性,因为作者通常曲解统计显著性实验的意义,导致出现无效或误导人的公共卫生政策建议。
研究相关性局限的归纳一项研究的相关性取决于该研究所处条件与所考虑问题所处条件相似到什么程度。例如,人们从动物或者实验室实验归纳出的结果与从人类研究获得的结果存在差异。
情绪影响风险认知从总体上讲,风险可被认为是特定时间内某事件发生的可能性,而事件产生的后果被扩大。人们关于风险的认知受到许多事情的不同影响,这些事情包括:事件的多样性、人们确信能够控制的程度、结果的不利影响、风险是否自发产生等。例如,在美国,人们对在家里手枪的相关风险低估了100倍,同时对在某个核电站附近居住的风险高估了10倍。
 相关改变风险人们有可能计算出个别事件的后果,如极端潮汐、大暴雨和重要工人没上班等。但是,如果诸事件是相互关联的(例如,风暴引起潮汐,或大雨阻止工人进入工地),那么诸事件同现的概率远远高于预期。信誉评价机构保证:次级抵押贷款的组合有超低的违约风险,但这些组合一起确是2008年信贷市场崩溃的主要因素。
 数据可以收集也可以选取人们可以对证据进行整理以支持某个观点。在解释妊娠期间食用酸奶和后代发生的哮喘之间存在明显关联时,你需要知道这种关联的提出者是在着手检验这个假定,还是正巧从大数据获得了这个发现。相比之下,关于希格斯玻色子的证据能说明:研究者在寻找希格斯玻色子作出了多么艰苦的努力。
 极端测试可能误导人任何测试结果会由于先天能力、样本、偏见、测试误差等因素而变化。然而,由此产生的变化通常解释为先天能力的不同,而其他因素则被忽视。这样,关于某个极端结果(如及格率成倍提高)的陈述、将极端水平与平均值作比较等是成问题的,将体育联赛排名作为各队成绩的评价是缺乏可靠性的。

资料来源Nature

责任编辑 岳 峰