关于统计学的教学工作已经由国际统计学会(ISI)等单位组织了多次讨论,起到了有益的作用。我想讲讲在制定统计学教育和训练计划中的一些问题和在贯彻中的困难,希望我的经验对从事这些工作的人来说会有用处。
关于统计学作为一种训练,一门科学或一种专业人们已经讲了许多话。登载于美国统计协会杂志(JASA)与皇家统计协会杂志(JRSS)上的历年国际统计会议主席致辞中都会讲到对统计学的未来表示关心,对科学界不承认统计学是一门独立的学科表示惋惜,批评大学中统计学的教育计划太过理论化,强调缩小搞理论与搞实际的人之间“不正常隔阂”的必要,等等。至于这些话起了什么作用就不清楚了。
不管对统计学的现状看法如何,统计学实际上已经成为人类致力于科学研究、复杂的决策乃至在安排我们的日常生活等各方面不可缺少的工具。在皇家统计协会上题为《统计学发展》的主席致辞中,R. A. 费歇(R. A. Fisher)是这样描述统计学的:
“……统计学是人类进步的独特方面,给廿世纪带来它的特点;实际上与会者从他们个人和专业经验中了解到,正是现时代向统计学家提出了什么是现代所有重要活动中最根本的东西。他们是每一项有意义事业的‘智囊人物’。”
从本世纪廿年代开始兴起的统计学的应用持续不断,世界各地大量的统计学会成员以及统计学理论与应用的专门刊物的大量增加,证明了统计学活动日益受到重视。它的成长不仅因为它像数学一样已达到了自生阶段,可以创造它本身的问题,还因为其它领域的研究需要它。没有一种问题像纯统计学问题那样以统计学方法来解决。尽管统计学不得不依靠其它科学提供新问题,统计方法的发展本身还需要良好的数学基础。注意到由勃克斯(Box)给出的表说明“和实际事物互相渗透是富有成效的”,被提到的研究者的名字有高斯(Gauss),伯努利(Ber-noulli),拉普拉斯(Laplace),瓦尔德(Wald),费歇等等,从实际问题中导出统计学中的重要方法的都是杰出的数学家。
费歇和马哈兰诺比斯(Mahalanobis)均强调只有通过新的应用才能取得统计学的进步、同时他们也认为统计方法的发展离不开有关数学的应用。下面摘录马哈兰诺比斯的一段话:“纯数学为提供严格的逻辑基础,为揭示统计理论的范围和改进是不可少的,但基本上从来没有给统计学以新的概念和新的工具。新的统计概念和方法只能在涉及到对现实世界的观察中不断地形成。”当然作为应用统计学家所必须具备的数学教育水平则是要认真研究的另一个问题。
数学作为一种推理方法和发展思维的严格的基本训练,为以后在大学学习基础学科做准备都是必不可少的,并且必须在早期进行教授。认为所有学科都离不开抽象数学正是在中学讲授适当深度的数学的基本论据。但是数学的学习只强调演绎性推理这一方面,即由给定的前提做论证或者依据给定的一组假设来推导结论。这在本质上是有很大的局限性的,只让学生看到问题的一个方面。看来对青年人的智力发展来说归纳性推理也一样重要。归纳推理是由给定的结论出发得出前提并由此获得新的知识。演绎推理早在二千多年前通过数学的研究已系统化了,而归纳推理则由于它的不确定性仍未完善。只是到了本世纪初,由于作为描述“由样本推断母体”的方法的统计学的出现,人们作了一系列认真的尝试,通过适当的统计方法论给出归纳推理的法则。这样在数学给出描述自然现象的抽象结构的同时,统计学提供了具体的方法以寻求一种有效的模型来描述被观察的现象。
如果我们同意学生在早期通过学习统计学来接触推断型推理方法是重要的,那么我们必须认真地考虑如何在中学课程中引入统计学。统计学作为独立的课程来开设还是取消原有课程教学大纲中的某些内容而加进统计学的内容;统计学作为必修课程,还是以后准备从事社会科学和生命科学的那些学生才学习统计学。关于这些问题,发表于1980年哥登堡统计教学专题讨论会会议录上的霍尔姆斯(Peter Aolmes)写的两篇文章,提出了有益的看法,现摘录如下:
“……与地理学、经济学和生命科学等有关学科的数值内容越来越多,为此已向在英国的审查委员会提议,把学习这些学科的数学课程中的理论力学改为概率论与统计学,这样做对学生或许更为有用。为了响应这一号召、审查委员会开始对用纯数学与统计学代替传统的纯数学与理论力学的做法,做力所能及的检查。”
上面只是给出这样一个例子,通过取消数学教学大纲中的某些内容引进统计学,并且统计学只作为某些学生的必修课程。这种决定是否明智?
统计学作为独立的课程决定在中学阶段开设之后,该课程应包括哪些内容?人们自然会想到通过排列组合讲授初等概率,通过直方图引入概率分布,通过利用具体公式计算中值、众数以及少量的矩;还有介绍相关、回归概念以及初等假设检验。霍尔姆斯指出,自1959年统计学被引入后的一段时间,人们对这一课程就越来越感到不满足。这一点从按包含统计学内容的教学大纲而编写出来的中学课本来看是明显的,大纲规定了教师讲授的内容并要求学生阅读和记忆有关公式以应付考试。学生感到这样的课程单调乏味,并且没有达到早期开设这一课程的目的、霍尔姆斯提到在英国已作了某些改变,教学大纲中包括了让学生接触实际数据资料的计划。这就是所期望的,尽管在很大程度上取决于教师以及教学计划的设想,还有如何强调统计学的作用。
一种比较理想的做法是不把统计学作为独立的课程,而是重新改写社会科学和生命科学还有自然科学的教学大纲,把统计学的概念和方法插进去。这类试验在霍尔丹(J. B. S Haldane)指导下于印度统计学院作了尝试,霍尔丹本人亲自设计并教授预科水平的统计学。这不是一件轻松的工作,但值得—试。
我们必须记住,早期教授统计学的目的并非传授统计的技巧本身,而是对学生揭示统计的概念,自然界中的随机机制,以及用他们学习内容中的实例说明如何对现实情况中的不确定性作出决策。
在专业统计学家的教育和训练计划中,必须考虑不同的领域对统计学家的要求,考虑到他们研究的问题的性质以及他们希望掌握的技术。我认为对统计学家需求最大的是工业界和企业界,在某种程度上还有联邦政府、州政府和地方政府。中学和大学所需要的统计教师数量有限。除了某些公共基础课程外,对于准备从事不同领域的工作的统计学家,还需要为他们开设相应的不同类型的课程。
美国统计协会关于《为工业中的职业准备统计学家》的报告中提到工业统计学家的训练时指出:
“当一位统计学家离开学校后,其技术和经验必须包括统计知识、解决问题的实践、咨询实践以及口头上、文字上和非统计学家交流的能力。”
上述观点一般适用于所有类型的应用统计学家的训练。
基于作为统计学教授和顾问的经验,我建议下列大学和研究生水平的学习计划以训练专业统计令家。课程分为三大类。
第Ⅰ类课程介绍统计学概念与理论方面的基本知识,并且可以在与具体应用无关的情况下进行讲授。这些课程对所有统计学家来说是必修的。其中某些专题的数学深度,可以根据学生所具备的数学知识作不同程度的处理。但是对大多数专题的严格处理来说,高等微积分知识应是足够的了。
第Ⅱ类课程,尽管其'中某些方法在具体领域中比其它方法具有更普遍的应用,但是,对于任何领域的应用统计学家来说,这些课程都有很大的价值。这些课程的教学大纲应存所区别,像试验设计扣样本调丧,这些课程的,理论可围绕实际应用来建立。有许多关于这方面内容的好书,书中给出了大量例子,对于发展适应各种实际情况的理论,这些例子提供的想法。作为向学生介绍诸如试验性调查、成本函数、方差函数、一致试验等在最优调查和试验设计中起重要作用的概念,这些内容是十分理想的。它们还提供了像依据抽样结构和单元定义总体,样本的代表性,响应误差,漏失数据和重复调查等可以作为测验用的研究课题,这些对任何领域的应用统计学家来说都是必须知道的。
除了用例子阐明有关的理论外,还可以给学生布置一定的作业。作业包括试验设计、样本调查、数据的收集与分析。在条件容许下还可以给出内容更加广泛的作业。
安排学生访问试验农场和政治部门从事大规模调查的可能性应加以探索。这样的访问可以为学生提供一个机会,看看所学到的理论在实际当中是如何应用的。
第Ⅱ类中还列举了两种值得加以重视的课程,计算机模拟与交叉检验。计算机模拟是大家熟悉的,它是建立模型和解决数学上的难题的得力助手。一般说来计算机模拟与数值分析方面的经验,对应用统计学家都是很宝贵的。关于这方面的内容有广泛的文献资料,而为统计学家拟订一个适用于计算机模拟课程的教学大纲是一项值得花精力去做的事情。
数据的交叉检验是由费歇作为对原始数据作初步分析而提出的术语。其字面上的意思是在对数据作更为细致的统计分析以前先审查一下并从中提取某些信息。已给数据的适当模型是什么?观察值是否由相似的母体获得?数据中有没有反常值、记录错误、污染观察值和其它缺陷?给出的数据是真的还是伪造的?这些问题并不常发生或者常被使用统计方法的人忽略了。统计学的教科书不强调出现这些问题的重要性,也不强调从数据中找出答案,以便指导我们选择适当的统计方法和解释有关的结果。这些问题并不容易回答、因为没有一套系统的方法指导我们。数据的交叉检验和适当的统计方法的选择更多地还是停留在技艺的范围内,并且很大程度上依赖于统计实践者的技巧和经验。可以参阅费歇和霍尔丹写的关于伪造遗传学数据的有启发性的文章及马哈兰诺比斯写的关于复查数据方面的文章。不管怎样,最近几年,人们通过大量的尝试,设计出数据交叉检验的系统方法,并且也有足够的资料作为独立的课程来讨论这个问题。对于这一课程,我建议采用下列试验性的提纲:
数据的交叉检验
· 表示数据的图像法;
· 检验数据中的反常值和其它缺陷的方法;
?检验数据真伪的方法;
· 多元技术如主成分分析法;
· 对已出版的包含了对真实数据作统计分析的文献作批判性评论。
格那德西坎(Gnanadesikan)和土基(Tukey)著的书可以为教授这一课程提供有关资料。另外上面提到过的费歇,霍尔丹和马哈兰诺比斯写的文章也可以作为课堂讨论的补充读物。还有不少已发表但有统计学应用方面错误的文章,可以选择一些给学生做批判性评论。
第Ⅲ类是选修课程。那些准备从事工业的人可以修应用于工业的特殊的统计方法,诸如品质控制、样本验收、探索响应曲面的试验设计以及调优运算,运筹学等等,这些可以广义地概括为技术统计学。那些想在政府办公室和企业部门工作的人可以修经济模型、时间序列、经济结构和社会指数等课程,这些可以广义地概括为经济统计学。那些希望在医药公司,医院和公共卫生部门工作的人可以修生物统计学,内容包括生物化验、多元分析、数量遗传、生命表等等。最后,少数希望专门从事统计理论方面工作的学生可以修概率论和统计推断方面的高级课程。
第Ⅲ类专门课程在理论和应用方面的水平都应该高一些。在印度统计学选修这一类专门课程的学生,被要求作为见习¥在统计办公室工作一段时间。这样选修技术统计学课程的学生则被派到那些有工业统计处的工业、企业单位;而那些选修经济统计学课程的学生则被派往政府统计办公室等等。
第Ⅲ类专门课程的目的是准备让学生独立承担在他们的特定领域中的实际调查研究工作和找出新问题,并由他自己或和他人合作进行发展新的统计方法的研究工作。
关于通过大学适当课程的学习和训练,培养专业统计学家方面,我已作了详细的论述。这些课程使学生获得作为有较高专业造诣标志的硕士学位。而作为统计学家的博士学位则需要慎重考虑。作为授予博士学位的标准,各地各校有很大的差别并且很多年来变化也很大。
在我第一次访问美国期间,我问一位名牌大学统计系系主任,他们那里有哪一种统计学学位计划。他回答说研究生毕业后就可以获得博士学位。我又问他们培养学生的目标是什么,他说是统计学的博士学位。这与我同费歇工作时的切身经验相矛盾。当我来到剑桥大学的时候,我在印度已做了可以获得博士学位的研究工作。但是,我想我必须同费歇一道工作并且在剑桥取得博士学位。第一次和费歇见面,我向他要一个可以获得博士学位的论文题目,费歇回答说我必须自己去选择题目而他或许可以在解决问题时给以某些帮助。费歇用波音卡尔的话“问题在于什么是问题”提醒我注意,发现问题的能力是做研究工作的首要一步。如果一个学生在完成了硕士学位计划而无法选择一个可以作为研究的新问题,那么这个硕士学位计划将是一个失败的计划。
摘译自《Optimum Balance Between Statistical Theory and Applications in Teaching》
——————
·C.R.Rao是印度著名统计学家,任印度统计学会主席,1982年曾来我国访问。