斯坦福大学的布拉德雷 · 埃夫隆(Bradley Efron)说:“统计学实在是被人们小看了。”大多数从根本上想到统计学的人都只是单单把它看作一种工具,一种能说出数据是否有意义的方法,或对信任区间作出估计的方法。然而,统计学是一个深刻的哲学课题,它要弄清我们是怎样向经验学习的。这是一个变化着的领域,充满着争论,而且当它的使用者利用大规模运算能力时,它正开始改变其本质。

四十五岁的埃夫隆是新统计学的开拓者之一。他曾发明了一种极有希望的新统计学工具,称之为“靴襻”(bootstrap),他说,“它能用思索代替运算”。

虽然统计学常常被认为是数学的一个分支,但事实上它是处于数学和哲学的边缘地带。埃夫隆说:“显而易见,统计学具有数学的结构,这是人人都能者得出来的。”但是统计学的主题同从公理演绎出结论来的典型的数学推理并无多大关系。它的逻辑是相反方向的。统计学家们从事物的例子出发,企图确定从这些例子中能给出什么公理,“从你所已经看到的东西,倒退着找出它所能够给出的东西,这在逻辑上、数学上和实际上都是很难的。”埃夫隆指出,“我们统计学家认为演绎是儿童的游戏。从某种意义上说,统计学是最为雄心勃勃的智力进攻。”

对于埃夫隆来说,做一个统计学家的决定是一点点产生的,而且只是在意识到他做一个数学家的极限是什么以后,他才拿定主意。'他说,他原来一直想做一个数学家,但是有一个疑问。“我是一个极端的十九世纪式的数学家。给我一个微积分问题,我会干得漂漂亮亮。但我不是一个很好的二十世纪数学家。我喜欢运算。现代数学家是不计算的。他们把他们的思想组织成为超出计算的抽象水平。我害怕像现代抽象代数这样的东西。我不喜欢它。”

埃夫隆生长在明尼苏达的圣保尔,是一个卡车司机的儿子,这位司机也是一个数学爱好者。他从父亲那儿学到了怎样心算。他想当数学家,因此在加利福尼亚技术学院学数学,以全班第二名的成绩毕业,然后他在斯坦福大学研究生院学习,还是攻数学。可是他被令退学了,因为他作为学校里幽默杂志的编辑,写文章嘲讽宗教。后来当他回到斯坦福大学时,他进了统计学系。

埃夫隆开玩笑说,他的被令退学将缠着他,直到他进坟墓。“我常说,如果我能治癌,斯坦福的报纸就会以这样的开头来写他,‘布拉德雷 · 埃夫隆,曾被踢出斯坦福,现在发明了癌症的治疗法。’”然而他进入统计学系真像是天意,这是一个让他称心如意的领域,一个运算统治局面的领域,在这儿他可以发明出一些方法,让统计学家算出更多东西。

仔细想一想逻辑和数学之间的相互作用,可以看到统计学中有埃夫隆所说的“两股相反的潮流”。其中一种是本世纪初期由英国统计学家罗那尔德 · 费歇(Sir Ronald Fisher)所开创的,它建立在这种思想的基础上,即解决统计学问题的途径是了解这个问题的逻辑根据。这是一个不确定推理问题。如果你说,“约翰是一个男人,男人寿命比妇女短”,这是否意味着你就能够断定约翰将没有他妻子活得长?

埃夫隆给出另一个不确定推理的例子。“假如你说,青霉素对治疗肺炎比磺胺类药更好。那么,你怎么来证明这一类的事呢?你到底是什么意思?你是不是指,如果你给个个病人用青霉素,他们都会好得快些?如果你这样想,那么做一下试验看,定叫你出乎意料。”在现实世界上,大多数事情不总是百分之百的每次都兑现的。

统计学的第二种思想是由杰西 · 内依曼开创的,他在伯克利的加利福尼亚大学度过了很长时间。他认为,解决统计学题目的问题,本质上是数学上的最优化问题。埃夫隆解释说,“每一种可能的方法都给出了一个当你用它解释数据时作出不正确陈述的概率。内依曼的理论是说,如果你能发现一种解释方法,使得作出不正确陈述的可能机会最小,你所做的就是正确的。”最优化的思想听起来颇为动人,但据埃夫隆看来,它只能对很简单的问题成功实行。

这两个学派对统计学都有所贡献,而且在该领域的主要问题上都表明了取平均值的意义。这是一种做了将近50年的工作,在1950年左右就有了定论。这问题是,如果你积累的数据是以钟形曲线分布的,你怎么办?“一个明显应做的事就是取平均值,”埃夫隆评论说,“逻辑学派的胜利是指出了,一旦你有了平均值,你就可以把其他数据扔掉。你可以像使用所有数据一样使用平均值。而最优学派证明平均值确能给你最好的答案,从而结束了争论。”

“当我还是一个学生时,最优学派统治了斯坦福的局面,”埃夫隆说,“但是生物统计学家主要使用推理学派的结论。看到那些年两派哲学之争所引起的辩论,真是很有趣的。”

埃夫隆说,统计学是“一个渐入佳境的领域”,对它产生感情是要时间的。“从来没有过19岁的统计学天才”,埃夫隆评论说,“我花了15年中相当长的一段时间,才弄清我应该干些什么。”

埃夫隆最近的工作是研究经常烦扰科学家的一个普遍问题:如果有更大量的数据,那么又将会看到什么东西?作为例子,他讲了他为斯坦福大学医学院一位研究者分析的实验。此实验检查了120个人 - 鼠杂合细胞,其中40个能制造令人感兴趣的蛋白质。研究者想知道她的结果如何易变。它们是碰机会出现的吗?如果她有10倍之多的杂合细胞,能制造蛋白质的细胞是否仍是三分之一左右呢?在这种情况下,埃夫隆可以用大家熟知的方法得到标准误差,从而回答了她的问题。但是他说,“这是一种极简单的情况。常常有些情况有1000条信息和100个未知参数。然后请问你确定的某个参数何等精确。这时你永远也得不到'真正的'答复。这种分析的全部实质在于,必须知道如果取得更多的数据,概率的变化范围将是什么。”

推理学派的创立者费歇是一种所谓“最大似然法”的开创者,此法为一般问题提供了平均值和标准离差的估计。可是埃夫隆说,“在复杂情况下这一理论就变得靠不住了,尤其是在未知参数很多的时候。它给出的标准误差可能是糟透了的近似值,最糟的是你不是总能够计算它的。它要构造一个概率模型,假设存在钟形曲线这类东西。我所做的是试图建立不需要这种假设的自主方法。我注意到,很多运算是可以自动进行的,你只要用这种模型就行了。”

埃夫隆称他的方法为“靴襻”,因为“你利用数据去估计出概率,然后你提着自己的靴襻把自己拎起来,看看在此框架中数据是如何易变的。”作为运用此法的例子,埃夫隆讲了他和斯坦福的同事佩西 · 狄阿考尼斯(Persi Diaconis)所作的研究,关于年级分数平均值(GPA)和法学院入学考试成绩(LSAT)的相关关系。例子是简单的,狄阿考尼斯和埃夫隆用靴襻法所得结论也可以用经典方法顺利获得。但是它直截了当地演示了靴襻法的程序。

对1973年的15个学校,各校平均LSAT分数与平均GPA分数的相关系数是0.776,这说明LSAT分数与GPA是高相关的。但这是否意味着,对所有法学院来说,LSAT和GPA都是高相关的?靴襻法能够回答这个问题。

第一步是将样本中每个学校的数据复制很多次,比如说10亿次。这就造出了150亿个数据点的点域,每个学校有10亿个数据点。计算机每次从中随机抽出15个数据点,称为靴襻样本,然后对这样的每一组样本计算相关系数。(埃夫隆指出,在具体处理时并不真正造出160亿个数据点,而是借助于随机数发生器,从原来的15个点中抽取。)

狄阿考尼斯和埃夫隆考察了1000个由计算机产生的相关系数,发现其中68%是在0.654和0.908之间。这一靴襻分析的结论是15个靴襻样本随机抽样的相关系数观测值与真实值的偏离为0.127。

因为他们已掌握1973年全国所有法学院的数据,埃夫隆和狄阿考尼斯就可以检验他们用靴襻模型做出的预测。真实的相关系数是0.761,容量为15的样本的真实偏离为0.135。而靴襻法的偏离为0.127,可见在此例中靴襻法是相当准确的。

埃夫隆的方法看上去像魔术,像巧妙的戏法。很多统计学家本能地不信任它。埃夫隆回忆说,“当我向人们描述这一方法时,他们说它不会有用处。有些人说它太简单了。还有些人却说它太复杂了。”在伯克利的加利福尼亚大学的大卫 · 弗利德曼(David Freedman)曾经做过靴襻法的讲座,他说他得到了同样的反应。“在我的课堂上,很多人从密苏里赶来,想了解这种方法。有些人你简直可以称为炮筒子脾气”,弗利德曼说,“我从来没有像我讲到靴襻法时那样,树了那么多敌人。人们担心它是变了什么戏法。”哈佛大学的弗利特列克 · 莫斯泰勒(Frederick Mosteller)说,他认为靴襻法是“一个出色的主意”,不过他也同情那些怀疑此法的人。他说,“靴襻法是有点叫人难以相信,它看上去乱了套了。你是要通过对样本作出抽样来了解样本的误差。”他评论说,统计学家“通常是不会卷入像这样的反直观的事情里去的。”

但是,弗利德曼说,归根结底靴襻法确实不是变戏法。“统计学里是没有白饭寸吃的。要从数据中得出结论,你必须为产生结论的处理过程作出假设。而在应用靴襻法的时候,你确实是使用了数据,也作出了假设。”

靴襻法正逐渐地得到应用,这部分地要归功于弗利德曼和伯克利的加利福尼亚大学彼得 · 毕克尔(Peter Bickel),他们建立了此法的理论基础。“我认为它是一个强有力的工具”,弗利德曼说,“我认为它会成为统计学中的一项标准技术。它将对这个学科产生重大影响。”

不过靴襻法并非完美无缺,没有什么统计学方法是完美的。弗利德曼、毕克尔、在麦迪逊的威斯康星大学杰费列 · 吴(Jeffry Wu)和其他一些人都已证明,有些情况是靴襻法无能为力的。弗利德曼说,“它会给出完全错误的答案,很难预先说出什么时候它能干好,虽然我们已经开始得到一些相当好的线索了。”有一些统计学家,包括埃夫隆,正在努力探索,什么时候此法有效,什么时候此法无用。

在圣底亚哥的加利福尼亚大学理查德 · 奥尔森(Richard Olshen)给出了医学统计学问题中的两个例子,他用靴襻法作了处理。在其中一例中,此方法是出色的。在另一例中则必须作一些修正。

第一个例子是对儿童步态演变的研究。奥尔森,一位统计学家,和整形医生大卫 · 苏特兰(David Sutherland),工程师爱德蒙 · 比登(Edmund Bidden)和理疗学家马里林 · 约特(Marilyn Wyatt)(他们都在圣底亚哥的儿童医院和健康中心工作)一起,想描绘出一些曲线,用来表明正常的儿童从1岁到7岁走路时腿部、臀部和踝骨转动的角度。到7岁时儿童的步态就形成了。这些曲线很像身高曲线和体重曲线,儿科医生一向用这种曲线来确定儿童的发商是否在正常范围内。不过步态曲线的建立要难得多。

奥尔森说,步态曲线和显示正常步态分布的百分位数,对于评估儿童在轻微脑神经麻痹、肌肉萎缩等情况下的身体发育情况,是极有价值的。为了作出百分位数,奥尔森收集了400多个正常儿童的数据。他回忆说,“取得曲线的平均值和标准离差曲线的形状并不太费事。但是要从理论上取得百分位数,这是一个我还不知道怎么做的问题。我花了好长时间才看清楚,我必须用靴襻法。”他评论道,埃夫隆的方法是“为这种问题设立的”。

靴襻法的局限在奥尔森与哈佛医学院李 · 高尔特曼(Lee Goldman)及哈维 · 费堡(Harvey Fineberg)研究的一个问题中表现得很清楚。这个问题涉及心脏病突发的诊断。当病人跨进急诊室诉说胸疼的时候,你怎样迅速确定他们是否心脏病突发呢?研究者掌握了从耶尔 - 纽哈文医院得到的急诊病人的数据,他们想建立一套诊断标准,然后在波士顿的彼得 · 本特 · 布林汉姆医院的病人那儿检验这套标准。他们的目标是作出一个“决策树”,它能告诉医生,在诊断心脏病突发时,每一步应做些什么决定。

奥尔森说,问题在于“在诊断技术中,你估计误差率时可能有很大的偏移。靴襻法对微小偏倚是很好的,但不如对大偏倚那样好。”奥尔森说,这并不奇怪,因为靴襻法是没有可变性的。“在统计学中有一条不确定原理。很多无偏移的技术有很大的可变性,反之亦然。”

在心脏病突发研究中,奥尔森用他的所谓“偏移调整法”避开了靴襻法的局限。他利用了医生的主观知识去“修剪”决策树。最后所得的决策树是如此好,使得研究者可以用它来做到,比仅仅用医学知识判断的医生更好地确定胸疼病人是否心脏病突发。

确定靴襻法的局限,确定什么时候、怎样把此法和其他方法结合起来,这个问题是非常困难的。“作为一门学科的统计学有一件棘手的事,就是很难证明事情是否顺当,”埃夫隆说,数据集的“真实世界”是不存在的。你想要得到对医药公司、经济计量学等所有数据集都有效的方法。这是什么意思,实在很难有一致看法。

与此同时,埃夫隆正在研究靴襻法的一个斜的方面。他相信此法能够给出比传统技术更好的信任区间,为了证明这一点,他正勤奋地为这项理论统计学问题工作着,耗费着大捆的草稿纸。但是,归根结底,常常是这种折磨人的理论性工作使统计学家信服。埃夫隆很想让整个统计学界都相信他的观点——大规模运算是未来的浪潮。他说,“统计学家们是很难说服的。他们在实践中倾向于极端保守,他们应该这样。这东西不能马虎。它是给人用的。”

[Science,1984年7月]