必读网 - 人生必读的书

TXT下载此书 | 书籍信息


(双击鼠标开启屏幕滚动,鼠标上下控制速度) 返回首页
选择背景色:
浏览字体:[ ]  
字体颜色: 双击鼠标滚屏: (1最慢,10最快)

女士品茶

_2 萨尔斯伯格 (美)
什么是中心极限定理?
大量数据集合的平均数都有一个统计分布,而中心极限定理则阐明,无论初始数据是怎么来的,这个分布都可以用正态概率分布来逼近。这个正态概率分布与拉普拉斯的误差函数(Laplace’s error function)相同,有时也叫做高斯分布(Gaussian distribution),而在浅显通俗的普及书里,也常被称为“钟形曲线”(bell-shaped curve)。在18世纪晚期,亚伯拉罕?棣莫弗(Abraham de Moivre)已经证明,由机会博弈(games of chance)所得数字的简单集合符合中心极限定理。然而,在此之后的150年里,对这个猜想的证明没有丝毫的深入进展。
用正态分布来描述大部分数据都是正确有效的,因此,中心极限定理普遍被认为是一个正确的猜想。一旦假定数据服从正态分布,数学上的处理就容易多了。正态分布具备某些非常优良的性质:如果有两个随机变量服从正态分布,那么两变量之和也同样服从正态分布。就一般而言,正态变量的各种类型的和与差也都服从正态分布。因此,由正态随机变量(variate)推演得出的许多统计量,其自身也服从正态分布。
正态分布只有K?皮尔逊四个参数中的两个——平均数和标准差,另外两个参数对称性偏度(symmetry)和峰度(kurtosis)均为零。因此,一量知道了平均数和标准差这两个参数值,其他的一切也就一清二楚了。费歇尔曾指出,由一组数据得出的平均数与标准差的估计值就是他所说的充分估计量(sufficient estimator),因为这两个参数值已经把这些数据中所有的信息都包括在内了。既然这两个参数值已经涵盖了能够从那些原始测量值中揭示出的一切,就根本没有必要去占有任何原始测量值了。如果有足够的测量值可以用来相当精确地估计出平均数与标准差,就不再需要其他任何测量值了,任何为搜集这些数据所做的努力,都不过是浪费时间而已。例如,有两个重要指标服从正态分布,如果你正打算得出这样一个正态分布的那两个参数,那么你只需要收集大约50个测量值就足够了。
正态分布的这种数学上便于处理的特性,使科学家能够构建一个复杂关系模型。只要其基本分布是正态的,费歇尔的似然函数通常就有了以简单代数进行处理的一种形式。即便模型复杂到必须用迭代运算法去解的程度,只要其分布是正态的,用纳恩?莱尔德(Nan Laird)和詹姆斯?韦尔(James Ware)的EM演算法去解,就变得轻而易举了。由于正态分布在数学上的计算处理非常敏捷,因此在建模时,统计学家常常要假定所有的数据都服从正态分布。不过,做这样的假定就不能不援引中心极限定理。
但是,中心极限定理是否成立?说得更准确一点,它在什么条件下成立?
在20世纪20年代和30年代,斯堪的纳维亚地区、德国、法国和苏联的一批数学家,运用20世纪早期发明的一套新的数学工具,倾心于上述这些问题的研究。但就达个时候,整个人类文明都正面临着一场日益迫近的浩劫——那些极权主义的国家的恶性膨胀。
数学家并不有昂贵设备的实验室。在20世纪二三十年代,黑板和粉笔就是一个数学家最具代表性的实验设备。对数学研究而言,用黑板比用纸张更方便,因为数学研究过程的演算总免不了出错,而黑板上的粉笔字很容易擦掉。几乎没有数学家是关起门独自做研究的,只要你是一个数学家,你就必定要同其他的数学家一起讨论自己在研究的问题,你就必定要接受别人对你那些新想法的批评审视。在数学研究过程中太容易出错,或者太容易在研究中隐含着自己毫无察觉而在别人看来却是显而易见的假设。有一个数学家的国际组织,在这个团体中,数学家们书信往来、开会、审阅彼此的论文,经常交换相互的批评和质疑,探究分歧所在。20世纪30年代初期,德国的威廉?费勒(William Feller)和里夏德?冯?米泽斯(Richard von Mises),法国的保罗?利维(Paul Lévy),俄罗斯的安德烈?柯尔莫哥洛夫(Andrei Kolmogorov),斯堪的纳维亚的亚尔?瓦尔德马?林德伯格(Jarl Waldemar Lindeberg)和哈拉尔德?克拉美(Harald Cramer),奥地利的亚伯拉罕?沃尔德(Abraham Wald)和埃尔门?哈特利(Herman Hartley),意大利的圭多?卡斯泰尔诺沃(Guido Castelnuovo),还有许多其他数学家也都在这个团体中,其中不乏那些利用新工具来检验中心极限定理这个猜想的数学家。
然而,这种自由轻松、无拘无束的相互交流不久就将不复存在。它将毁于斯大林的肃反运动、纳粹的种族灭绝和墨索里尼的帝国梦。黑暗笼罩着欧洲。斯大林正把非法操纵的示众式的公开审讯同半夜里的秘密逮捕结合运用到了极致,处决、恐吓和威胁任何一个受到他偏执狂式的无端猜疑的人。起初,希特勒及其罪大恶极有党羽把犹太裔教授从各大学里清洗出去,随后将他们关进惨无人道的集中营。墨索里尼则把国人强行禁锢在他所谓的“组合国”(Corporate state)所划定的各个社会等级中。
“死亡万岁!”
这一猖獗的、反理智主义(anti-intellectualism)的极端事件,就发生在西班牙内战时期。当时长枪党的党徒们(以西班牙的法西斯主义者闻名)已经占领了古老的沙拉曼卡大学(University of Salamanca)。该大学的校长是享誉世界的西班牙哲学家米格尔?德?乌纳穆诺(Miguel de Unamuno),当时他已经70岁出头了。长枪党的米连?阿斯特赖(Millan Astray)将军,一个在先前的战争中失去了一条腿、一只手臂和一只眼睛的残疾人,当时任这个刚以武力控制了西班牙的恶势力的宣传部长。他的座右铭就是:“死亡万岁!”如同莎士比亚笔下的国王理查德三世,阿斯特赖身体上的残缺不全恰恰映射出他扭曲的邪恶心灵。有一次,长枪党在沙拉曼卡大学的纪念大厅举行盛大的庆典,台上有新指派的省长、弗朗西斯科?佛朗哥(Francisco Franco)夫人、M?阿斯特赖、沙拉曼卡的大主教,还有年事已高的乌纳穆诺,他是被当作被征服的战利品拖到台上的。
“死亡万岁!”阿斯特赖高声狂呼,挤满了人群的大厅里随声附和着他的喊叫。又有人高呼:“西班牙!”大厅里的人也跟着喊。“西班牙!死亡万岁!”穿着蓝色制服的长枪党的党徒们齐刷刷地站起来高呼,并朝着台上的佛朗哥肖像行法西斯的举手礼。就在这一浪高过一浪的叫嚣声中,乌纳穆诺站起身来,从容地走向讲台,镇静地开始演讲:
你们大家都记住我的话。你们都了解我,并且知道我不可能保持沉默,因为沉默也可以解释为默认,沉默中常常意味着谎言。我想对刚才的演讲做个评论,我们不防就叫它“M?阿斯特赖将军的演讲”吧……。就在刚才,我听见一种嗜尸成癖的愚蠢无知的叫嚣:“死亡万岁!”而我,一个终生致力于各种悖论研究的人……我必须告诉你们,作为一个权威,这种荒诞怪异、语无伦次的谬论让我恶心。阿斯特赖将军是个残疾人……他是战争造成的一个残疾人……。不幸的是,眼下的西班牙这种残疾太多了。而且不久,如果上帝不能拯救我们,这种残疾人甚至还会更多……。
M?阿斯特赖把乌纳穆诺推到边上,厉声吼叫:“该死的臭知识分子!死亡万岁!”与他的叫嚣相呼应,那些长枪党徒们蜂拥而上,抓住乌纳穆诺。但是,老校长仍然继续说道:
这里是知识的殿堂,而我才是这个殿堂的领袖。是你们亵渎了这个神圣的地方。你们可以凭借极其残暴的兽行获胜,但是你们无法得到人们的认可。因为要让人认可必须靠说服而不是压服,要达到说服的目的所必须具备的东西,恰恰是你们所没有的,那就是理智和正义……。
乌纳穆诺遭到软禁,不出一个月就被宣告“自然死亡”。
苏联的大清洗运动切断俄国数学家与欧洲其他地方的联系;希特勒的种族政策几乎毁掉了德国的大学,因为欧洲许多伟大的数学家要么是犹太人,要么是与犹太人联姻,而非犹太裔的那些数学家又大多是反纳粹的。结果,威廉?费勒去了美国的普林斯顿大学(Princeton University),亚伯拉罕?沃尔德到哥伦比亚大学(Columbia University)去了,埃尔门?哈特利和里夏德?冯?米泽斯去了英国伦敦,埃米尔?J?冈贝尔逃到了法国,埃米纳脱(Emmy Noether)在美国国宾夕法尼亚的布林莫尔学院(Bryn Mawr College)求得一个临时工作。但是,并非每个人都逃得脱。不能出示证明受聘到美国去工作的那些人,美国移民局对他们总是大门紧闭;而拉丁美洲那些国家的国门则由于那些小官僚的反复无常而时开时关。纳粹军队占领了波兰首都华沙后,大肆搜捕能找到的华沙大学所有的教授和学者,逮捕他们并惨绝人寰地将他们杀害,然后一起埋在一个巨大的坟墓里。在纳粹的种族主义世界里,波兰人和其他斯拉夫人只配做他们这些亚利安(Aryan)主人的奴隶,没有受教育的权利。欧洲那些历史悠久的大学里许多有培养前途的青年学生就这样被毁掉了。在苏联,大部分数学家都躲进了纯数学中去寻求庇护,而不敢在应用领域中做任何尝试。因为,那些从事应用研究的科学家,正受到斯大林令人不寒而栗的无端猜疑。
不过,在这些黑暗没有完全成为现实之前,欧洲的数学家们就已经解决了中心极限定理的证明问题。芬兰的亚尔?瓦尔德马?林德伯格和法国的保罗?利维分别发现了能够使中心极限定理这个猜想成立所必需的一组重叠的条件。这证明了至少存在三种解这个问题的方法,而且证明了中心极限定理不是只有一个单个的定理,而是有一组定理,其中每个中心极限定理都能从略有区别的一组条件中推导出来。到了1934年,中心极限定理(组)终于不再是猜想了,一个科学家必须要做的只是要证明林德伯格?利维条件(Lindeberg-Lévy Conditions)成立,那么中心极限定理就成立,于是,他就可以随意地把正态分布设为一个合适的模型。
林德伯格?利维条件与U统计量
然而,就一个特定情况而言,要证明林德伯格?利维条件成立很难。但在理解林德伯格?利维条件上倒有几分安慰,因为他们描述的条件看上去是合理的,而且在大多数情况下都是成立的。不过要证明其成立却是一个棘手的问题,这也正是战后远在北卡罗莱纳大学辛苦工作的瓦西里?霍夫丁(Wassily Hoeffding)在这个故事中竟会有如此重要地位的原因。1948年,霍夫丁在《数理统计年报》(Annals of Mathematical Statistics)上发表了一篇论文,题目是“渐近正态分布的一组统计量”。
回想费歇尔曾把统计量(statistic)定义为:从观察到的测量值得出的、可用来估计其分布参数的一个数值。费歇尔还建立了有用的统计量应该具备的一些准则,在这个过程中,他还指出了利用皮尔逊的许多方法导出的统计量不符合这些准则。有很多种计算统计量的不同方法,其中的很多统计量都能满足费歇尔提出的准则。一旦计算出统计量,为了要用它,我们必须知道它的分布。如果它服从正态分布,用起来就容易多了。霍夫丁提出了一种他所谓的“U-统计量(U-statistics),并指出一个统计量如果属于这种U-统计量,则满足林德伯格?利维条件。正因为如此,我们只须指出一个新的统计量是否与霍夫丁的定义相一致,而不必去解那些很困难的数学来证明林德伯格?利维条件成立。霍夫丁所做的一切就是用一组数学必要条件取代另外一组。然而,霍夫丁的条件事实上很容易检查。因此,霍夫丁的论文发表之后,几乎所有的论文在证明一个新统计量服从正态分布的时候,都是通过证明该统计量是一个U统计量来完成的。
霍夫丁在柏林
第二次世界大战期间,霍夫丁处在一个不确定的微妙境况中。他1914年出生在芬兰,父亲是丹麦人,母亲是芬兰人。第一次世界大战之后,芬兰沦入俄罗斯帝国的统治,就在这个时候,霍夫丁随家人迁往丹麦,随后又迁往柏林,因此他拥有斯堪的纳维亚地区两个国家的双重国籍。1933年他高中毕业,随后开始在柏林攻读数学。就在那个时候纳粹开始在德国掌权。预料到以后可能发生的事,霍夫丁就读的那所大学的数学系的系主任R?冯?米泽斯早早地离开了德国,不久之后,为霍夫丁授课的其他许多教授,有的逃走了,有的被解除了职务。在动乱中,年轻的霍夫丁所选的课都是由一些低水平的教师来讲授的。即便如此,这些教师中的很多人也没能维持到把他们承担的课程教完,因为纳粹在持续不断地“净化”大学教师队伍,把大学教师中所有的犹太人和犹太人的同情者全都清除出去。
随同数学系里的其他学生一道,霍夫丁被迫去听路德维希?比贝尔巴赫(Ludwig Bieberbach)讲授的一堂课。比贝尔巴赫一直都是教师中的小角色,只是因为对纳粹党的狂热拥护,才合他成为数学系新的系主任。比贝尔巴赫这堂课讲的是“亚利安”数学与“非亚利安”数学的区别,他声称颓废的“非亚利安”(解读为犹太)数学家仰仗着复杂难解的代数符号做研究,相反,“亚利安”数学家则在更高贵、更纯粹的几何直觉领域里从事研究。结束了讲课的时候,他让学生提问题。坐在后排的一个学生问他,为什么偏偏是这个里夏德?库朗(Richard Courant,20世纪初德国伟大的犹太裔数学家之一)运用几何洞察力创建了他的实分析理论(theories of real analysis)。此后,比贝尔巴赫再也没有就这个题目上过公开课。但是他创办了《德国数学》(Deutsche Mathematik)杂志,这个杂志很快就成为当政者眼中居第一位的数学期刊。
1940年,霍夫丁完成了他的大学学业,像他这个年龄的其他男青年都要应征到部队去服兵役,但由于他的双重公民身份,并且当时的芬兰已成为德国的一个盟国这样的事实,他因此不必服兵役。他找到一份工作,在一家跨校际的精算杂志社的办公室兼职。与比贝尔巴赫创办的那个杂志不同,这是一个很难约到论文,因此也很难定期出版发生的杂志。霍夫丁甚至连寻找一份教书的工作都不能,因为他必须申请到正式的德国公民身份才有资格去教书。
1944年德国政府宣布,具有“德国血统或相关血统“的非德国籍青年也要服兵役。不过,在霍夫丁体检的时候,发现他患有糖尿病而免于服兵役。这时他终于有了找工作的资格。他兼职的那家期刊的编辑哈拉尔德?格佩特(Harald Geppert)建议他从事某种军事应用方面的数学研究工作,他提这项建议的当时,期刊的另一个编辑赫尔曼?施密德(Hermann Schmid)也在场。霍夫丁犹豫了一下,然后,出于对格佩特的谨慎的依赖,他对格佩特说,任何一种与战争有关的工作都违背他的良心。施密德出身于一个普鲁士贵族家庭,霍夫丁希望他的家族荣誉感能让他对这次谈话守口如瓶。
随后的几天里,霍夫丁一直提心吊胆的,但什么事都没有发生,他得以继续他的研究。当俄国军队逼近柏林的时候,一天早上,格佩特在早餐里放了毒药喂给他年幼的儿子,随后他和他的太太也服毒自杀了。1945年2月,霍夫丁和他的母亲一起逃到汉诺威的一个小镇上,他们在那里的时候,这个地方成为英军占领区的一部分。而他父亲仍滞留在柏林,在那里,他被俄国秘密警察以间谍罪逮捕,因为他一度曾为美国驻丹麦的商务参赞工作过。好几年时间,他杳无音信,直到他设法越狱,又历尽千辛万苦逃到了西方。在此期间,年轻的霍夫丁于1946年秋天到达纽约,继续他的学业,后来应邀到北卡罗莱纳大学任教。
运筹学
纳粹的这种反理智主义、反犹太主义倒行逆施的结果之一,就是让第二次世界大战的同盟国因此而丰收了许多才华横溢的科学家与数学家,在他们的鼎立相助下打赢了这场战争。英国生物学家彼得?布莱克特(Peter Blackett)向海军部建议,武装部队应该请一些科学家来协助解决战略和战术上的问题。无论是哪个专业研究领域的科学家们,他们都训练有素,能够应用逻辑和数学模型来解决问题。他建议组成科学家的攻关小组,让这些小组从事有关战争问题的研究,由此诞生了一门新学科——“运筹学”(operational research,在美国称之为operations research)。从事不同领域研究的科学家组成的科研小组联合起来共同研究,决定用远程轰炸机对付潜艇的最佳使用方案;为防空武器提供射击表;决定靠近前线的军火补给站的最佳选址;甚至还要解决军队的食物补给问题。
战争结束后,运筹学的应用由战场搬到了商场。那些在战争期间被征募到军队去服务的科学家已经证明了用数学模型和科学的思维来解决战事中的战术问题是多么有用。同样的步骤和许多相同的方法也能用来组织工厂里的生产,找出仓库与销售部门之间的最优关系,解决许多别的商务问题,均衡有限的资源,或改进生产与提高产量。从那时候起,大公司里大部分都设立了作业研究部门,而这个部门所从事的多数工作都与统计模型有关。
我在辉瑞公司工作的时候所做的几个项目,其目的都是为了改善对药物研究进行控制和提取新产品进行测试的方法,在所有这些研究中涉及到的一个重要方面就是,当条件可以满足时,有能力用正态分布去处理问题。
第10 章 拟合优度检验
20世纪80年代,出现了一种新型数学模型,激起了公众的遐想,主要是因为这种数学模型的名字——混沌理论(chaos theory )。这个名字提示着某种形式的统计建模明显带有杂乱无序特征的随机性。创造了这个名字的人有故意避开使用随机(random)这个词的嫌疑。实际上混沌理论是尝试着在一个更高端的层次上,通过复兴决定论(determinism)来动摇统计革命。
回想一下,在统计革命之前科学所处理的那些“事件”,要么是已有的测量,要么是生成这些测量值的自然事件。伴随着统计革命,科学的事件变成了能左右测量值分布的参数。在早期的确定性方法中,有一个信条是,越精确的测量,对所考察的自然客体的描述也就越精确;而在统计方法中,分布参数有时候不必有一个自然客体,无论多么精确的测量系统,分布参数的估计值终究是有误差的。例如,在确定性方法中,重力常数是描述物体如何向地球下落的一个恒定不变的值;而在统计方法中,我们对重力常数的测量值永远都不会是一样的。为了“通晓”落体的性质,这些测量值分布的离散状态才是我们想要确立的。
1963年,混沌理论专家爱德华?洛伦兹(Edward Lorenz)做了一个后来时常被引用的演讲,演讲题目为“巴西一只蝴蝶翅膀的翩翩舞动,会引起德克萨斯州的龙卷风吗?”洛伦兹的主要论点是,混沌的数学函数对初始条件非常敏感,初始条件的些微差异,经过多次迭代之后,中以导致全然不同的结果。洛伦兹相信,由于存在这种对初始条件微波差异的敏感性,以至于对所研究的问题不可能得出一个确定的答案。隐含在洛伦兹演讲中的是确定性假设,即理论上每一个初始条件都是促成某个最终结果的一个起因。这个被称之为“蝴蝶效应”(butterfly effect)的观念,已经被那些混沌理论的普及者们当作一个深邃而睿智的真理接受下来了。
然而,没有任何科学的证明揭示了这样一种因果关系的存在,也没有任何数学模型有准确的依据表明客观现实中存在着这一效应。它只是一种信念的表述而已,就其科学的有效性而言,它与关于鬼神的描述相去无几。而统计模型是用分布参数来对科学探索明确地进行解释,它们也是建立在对现实世界的一种信念所做的描述上。然而,我自己在科学研究上的经历让我确信,比起对信念的确定论的陈述,统计上的陈述更有可能是真实的。
混沌理论与拟合优度
混沌理论源于这样的观察:一个固定不变的确定性公式生成的数字有可能看上去是一个具有随机性的模型。早在一批数学家处理相对简单的迭代公式并绘出其结果的时候,就曾经发现过这种现象。在第9章,我曾经把一个迭代公式描述为:首先得到一个数,接着把这个数代入方程式中得到另一个数,用第二个数又得到第三个数,如此等等。其实,早在20世纪的最初几年,法国数学家亨利?普安卡雷(Henri Poincaré)就尝试着把这些连续的成对数值绘在图上,用这种方式理解一组复杂的微分方程式。普安卡雷在图中发现了一些值得关注的图式,却因不知道如何对这些图式做进一步的研究而放弃了深入研究的想法。而混沌理论就是以普安卡雷的这些图式为起点发展起来的。当你在绘制一张普安卡雷图形(Poincaré plots)时,会发现图纸上出现的那些点起初好像完全不成形状,表面上这些点以一种偶然的方式出现在随便什么地方,但承受着绘在图上的点数的不断增加,图式开始显现出来,有时是几组平行线,有时也可能是一组相互交叉的线,或许是很多个圆,或是和直线相交的圆。
混沌理论的拥护者认为,现实生活中那些看上去是纯随机的测量值,实际上是由某个确定性的方程组生成的,这些方程可以从普安卡雷图形的模式推演出来。例如,有些混沌理论的拥护者记录下了人类心脏动脉搏动的间隔时间,并绘成普安卡雷图形。他们声称在这些图上看到了一些形状,并且已经发现一些似乎能产生同类形状的确定性生成方程。
直到写这本书时为止,以这种方式应用的混沌理论仍存在着一个严重的缺陷。根据数据绘出的图形与用一组特定方程组生成的图形,这两者之间的拟合度如何,并未测量。他们只是要求读者观察两种相似的图形,并以此为依据证明给出的生成方程是正确的。统计分析上已经证明这种用肉眼检验的方式难免出错。因为,用肉眼判断类似的或几乎完全相同的两个图形,如果改用为此目的创建的统计分析工具仔细检验之后会发现,两者往往是大不相同的。
皮尔逊的假使优度检验
这是K?皮尔逊在他的学术生涯早期就已经意识到的一个问题,K?皮尔逊最伟大的成就之一就是创造出第一个“拟合优度检验“(goodness of fit test)。通过观测值与预测值的比较,皮尔逊构造出一种能对拟合优度进行检验的统计量,并称之为“χ2拟合优度检验”(chi-square goodness of fit test)。之所以用希腊字母χ(读作“kai”),是因为这个检验统计量的分布属于一组偏斜分布,而他称这组偏斜分布为χ家族(chi family)。实际上,这个检验统计量很像χ的平方,因此命名为“χ2”。在费歇尔看来,既然是一个统计量,就会服从一种概率分布。K?皮尔逊证明了无论用哪一种类型的数据,χ2拟合优度检验都服从相同的分布。也就是说,他能列出这个统计量的概率分布表。每一个检验都能用到同样的那套表。χ2拟合优度检验只有一个参数,费歇尔称之为“自由度”。费歇尔在1922年的那篇论文里,首次批评了皮尔逊的研究,指出在比较两种比例时,皮尔逊得出的那个参数值是错误的。
但是,没有任何理由只因为皮尔逊理论上的一个很小的错误,就贬低他的这项伟大成就。皮尔逊的拟合优度检验是现代统计分析中一个重要组成部分的先驱,这个重要组成就是“假设检验”(hypothesis testing)或“显著性检验”(significance testing),它允许分析人员提出用来模拟现实的两种(或多种)不一致的数学模型,然后利用数据来放弃其中的一个。假设检验应用得如此广泛,以至于很多科学家认为这是他们唯一能用的统计方法。在后面的章节中我们会发现,假设检验的应用甚至涉及到一些严肃的哲学问题。
检验女士是否真能品尝出茶的区别
假设我们要检验那位女士能否品尝出两杯茶的不同:是把牛奶倒进了茶水里,还是把茶水倒进牛奶里。我们给她两杯茶,告诉她一杯是茶水倒入牛奶里,另一杯是牛奶倒入茶水中。她尝了尝,正确区别开了这两杯茶。有可能她是凭猜测,猜对的机会是一半对一半。我们再给她同样的这样两杯茶,她又说对了。如果她仅仅靠猜测,那么连续两次都猜对的机会是四分之一。如果我们再给她两杯茶,假如她仍然能正确地分辨出来。若这人结果完全是猜出来的,此时猜对的机率则只有八分之一。我们继续两杯两杯地让她品尝更多杯茶,而她依然每次都能够正确地识别出来。某种意义上,我们就不得不相信她真的能品尝出其中的差别了。假定她说错了一次,假定说错的这一次就发生在第24组,而其他的全对,那么我们能否依然认为她真的有分辨不同奶茶的能力呢?假如她的错误是二十四分之四呢?或是二十四分之五呢?
假设检验(或者说显著性检验)是一种正规的统计方法,是在“待检验的假设为真”的假设前提下,用来计算以往观测到的结果发生的概率。当观测结果发生的概率很低时,我们得出原假设不成立的结论。重要的一点是,假设检验提供了一种拒绝某个假设的工具。上述例子中,待检验的假设是:那位女士只是凭猜测。假设检验的目的不是让我们接受某个假设,即使与那个假设有关的概率非常高也不能接受。
在这个普遍被接受的概念发展的早期,“significant”(显著的)这个词只是用来指“概率低到足以拒绝的程度”,数据如果可以用来拒绝某个分布,则它就是显著的。在19世纪后期的英语里,这个词仅仅是指计算结果意味着或表明了什么意思。进入20世纪之后,英语“significant”这个词在原有含义的基础上又扩展了其他的解释意义,也指某些事情是非常重要的。在某个待检验的假设条件下,统计分析仍沿用“significant”这个词“显著的”含义来表示计算结果发生的概率很低,在这个层面上,“significant”这个词有一个精确的数学涵义。但令人遗憾的是,使用统计分析的人常把显著性检验统计量理解为某种更接近这个词的现代语意的东西。
费歇尔对P值的运用
现在运用的显著性检验方法,其中大部分都是费歇尔构造出来的。他把判定具有显著性的那个概率,称为“P值”(P-value)。他对P值的涵义和有效性坚信不疑。在《研究工作者的统计方法》一书中,很多地方都专门介绍了怎么计算P值。正如我在开头的时候谈到的,这是一本专门给想要应用统计方法的非数学专业人士写的书。在这本书中,费歇尔并未解释这些检验是如何推导出来的,也从没有明确指出究竟多大的P值才算是显著的。他只是举出一些计算实例,并说明结果是否显著。在一个例子中,他给出一个小于0.01的P值,并且说明“一百个值当中,只有一个值会偶然超过(计算出来的检验统计量),因此,很显然,计算结果之间的差异具有显著性。”
1929年,费歇尔在《心灵研究学会刊》(Proceedings of the Society for Psychical Research)上发表的一篇论文中,几乎等于定义了一个在任何情况下都将是显著的特殊的P值。“心灵研究”(psychical research)提到试图用科学的方法来证明“超视力”的存在。心理学的研究人员大量运用了统计学的显著性检验来证明,在受实验者完全随意猜测这种假设条件下,其结果是不可能的。费歇尔在他这篇论文中,先是谴责某些作者完全错误地使用了显著性检验,接着他申明说:
运用生物学的方法对生物界进行观察的时候,统计学的显著性检验是必不可少的。其作用就在于防止我们被一些非主要的偶发事件所欺骗。并不是因为我们希望去研究或试图去查明这些偶发事件,而是因为它们与许多我们无法控制的其他境况联系在一起。一个观测的结果,倘若在我们正在寻找的真正原因根本不存在的情况下,几乎从未发生过,可以判断这个观测具有显著性。如果偶然发生的机率低于二十分之一,通常的做法是判断其结果具有显著性。对实际调查者来说,显著性水平的选择是任意的,但便于应用。不过,它并不意味着可以让自己每20次实验中就被骗一次。显著性检验只是告诉他什么是应该忽略掉的,也就是说应该把所有那些无法得到显著性结果的实验忽略掉。当他知道如何设计一个实验,而这个实验几乎一定能给出一个显著性的结果时,他也只能说明,这仅是一种实验上可以验证的现象。所以,对那些孤立的具有显著性的结果,他不知道如何才能让它们再现出来,只能留待以后再做进一步的调查研究了。
注意“……知道如何设计一个实验,而这个实验几乎一定能给出一个显著性的结果……”这句话,正是费歇尔使用显著性检验的核心之所在。对费歇尔而言,显著性检验只有在连续实验的相互联系中才有意义,所有这些实验的目的在于解释特定处理的作用。读过费歇尔的应用性论文之后,你会在他的引导下相信,使用显著性检验是为了得出三种可能的结论之一:如果P值很小(通常小于0.01),他断言某种结果已经显现出来;若P值很大(通常大于0.2),他宣称即便真的存在一个结果,也会因为该结果发生的可能性太小,所以不可能有任何显示出这个结果的大规模的实验;如果P值介于前两者之间,他讨论了应该如何设计下一个实验,才能得到一个更好的结果。除了上述情况,费歇尔从来没有明确说明科学家应该怎么解释P值。对费歇尔而言,看上去是如此显而易见的事,对读者来说可能并不清楚。
我们将在第18章回过头来重新审视费歇尔对显著性检验的态度。费歇尔始终坚持,从来都没有显示过吸烟有害健康,这也正是他的一个较大错误的核心之所在。费歇尔对有关吸烟和健康的证据做了犀利的分析,我们暂且把它放下,以后再谈。现在把话题转到1928年,看看当时35岁的耶日?奈曼。
J?奈曼的数学教育
当第一次世界大战在东欧爆发,奈曼的祖国陷于战火之中的时候,他还是一个在数学系读书的非常有发展前途的大学生。他被迫搬到俄国,就读于卡尔可夫大学(University of Kharkov)——一个远离数学活动的视野偏狭的地方。学校缺少具有当代最新数学知识的合格老师,而且由于受到战争的影响,他是在学期中途才入学的,因此,在卡尔可夫,他只学到一些最基础的数学知识。奈曼只能寄希望于那些能得到的数学期刊,从中查找论文文献。可想而知,奈曼受到的正规的数学教育只相当于19世纪学生学到的内容,20世纪的数学知识则是他通过自学掌握的。
对奈曼来说,可利用的数学期刊仅限于卡尔可夫大学的图书馆和后来在当地的波兰学校图书馆里能找到的。偶然的机会,他发现了亨利?勒贝格(Henri Lebesgue 1857-1941)的一套论文集。20世纪的最初几年,勒贝格提出许多现代数学分析的基本思想,但是他的论文晦涩难懂。后来的数学家把勒贝格积分、勒贝格收敛定理以及这个伟大数学家的其他一些创见简化并整理成更容易理解的形式。现在已经没有人再去读勒贝格的原著了,学生们都是通过阅读这些新版的文章来学习勒贝格的思想。
所谓的“没有人”当然是除了奈曼之外的,当时他只有勒贝格的原文可以读,他苦读这些原文,从中感受到了这些全新的(对他而言)伟大创见所蕴含的辉煌。此后的许多年,奈曼一直非常景仰勒贝格,20世纪30年代末在法国的一次数学研讨会上,终于得以与勒贝格见面。据奈曼所说,勒贝格表现得态度生硬、粗鲁无礼。当奈曼热情洋溢地表达对他的仰慕时,他阴郁冷淡地回应了一句,就转身离开了正在喜出望外地等待与他交谈的奈曼。
这种冷淡让奈曼深受伤害,并且,奈曼可能把这次经历当作了反面教训,他对青年学生一直都格外的亲切有礼,仔细地倾听他们的谈话,并对他们的热情给予鼓励和回应。奈曼正是这样的一个人。所有认识他的人都对他的亲切和蔼、富于同情心的为人记忆犹新。他与人为善、体贴入微、待人真实宽厚。当我见到他的时候,他已经80多岁了,一个身材瘦小、举止高贵、衣着讲究、蓄着整洁白胡须的老人。他在听别人讲话和别人深入交谈的时候,蓝眼睛神采奕奕地闪烁着,对每个人都同样地全神贯注,无论对方是谁。
在他的职业生涯之初,奈曼好不容易才找到工作,成为华沙大学(the University of Warsaw)的一个年轻的教师。当时,刚刚独立的波兰因资金短缺,没钱资助学术研究,也很少有给数学家的职位。1928年,他在伦敦的生物统计实验室呆了一个暑假,并认识了E?皮尔逊和他的太太艾琳(Eileen)以及他们的两个女儿。E?皮尔逊是K?皮尔逊的儿子,但是父子两人在个性上的天壤之别可谓绝无仅有:K?皮尔逊精力充沛,有支配控制他人的欲望;E?皮尔逊却腼腆谦虚。K?皮尔逊喜欢追逐新观念,常在数学概念还相当模糊,甚至还存在某些错误的时候,就忙着发表论文;E?皮尔逊则极其小心谨慎,甚至为每一步计算的细枝末节担忧。
E?皮尔逊与奈曼的深厚友谊长存在两人1928-1933年间的通信中。这些信件展示了他们对社会科学卓越的洞察力,以及两颗富于独创精神的心灵是如何提出各自的想法,或批评对方的想法,并共同解决难题的。E?皮尔逊踌躇地指出奈曼的提议或许不可行,这时他表现出谦逊的一面;奈曼巧妙地剖析复杂的问题,并抓住每个难题的重要本质,这时展现出他的独创力。有人如果想知道数学研究为什么是需要经常进行合作的事业的话,我建议他看看奈曼与E?皮尔逊的通信。
E?皮尔逊对奈曼提出的第一个问题是什么呢?回想K?皮尔逊的χ2拟合优度检验,他创立这种方法来检验观测数据是否与理论分布相符。但事实上根本不存在像χ2拟合优度检验的这种东西。分析人员有无数种方法可用来对给定的一组数据进行检验,似乎没有任何准则能够判定如何在这么多的选择中挑选出“最好的”。每次用到检验的时候,分析人员必须做出一个相当随意的选择。对此,E?皮尔逊问了奈曼以下的问题:
如果我用了χ2拟合优度来检验一组服从正态分布的数据,但我没能得到一个显著的P值,那么我怎么知道这组数据确实服从正态分布呢?也就是说,我怎么知道至今尚未发现的另一种χ2检验或者另一种拟合优度检验不会已经产生了一个显著的P值,而允许我在拟合数据的时候拒绝这个正态分布呢?
奈曼的数学风格
奈曼把这个问题带回华沙,并由此而开始了两人之间的书信往来。奈曼与小皮尔逊都对费歇尔建立在似然函数基础上的估计概念印象深刻。通过检查与拟合优度检验联系在一起的似然函数,他们开始了调查研究。两人联名发表的第一篇论文介绍的就是那些研究的结果。这是他们撰写的三篇顶尖论文当中最难的一篇,它几乎彻底变革了关于显著性检验的全部思想。当他们继续探索这些问题时,奈曼极度清晰的洞察力使问题在蒸馏中不断提纯,精炼出最基本的元素,使他们的研究成果变得更为清晰,也更容易理解。
虽然读者对此可能不太相信,但在数学研究领域,一个人写文章的风格确实发挥着很重要的作用。有些数学文献的作者似乎写不出让人容易理解的文章;有些人则似乎以写成一行又一行的数学符号与注释为乐事,一篇论文中充斥着无比繁琐的细节,以至于把总的思考都迷失在了微不足道的细节中。与之相反,有些作者却总是有能力用非常简单而有说服力的方式表达复杂的思想,数学的发展在他们的表达中显得如此的鲜明而平实。只有在回顾已经学到些什么时,读者才会确实认识到结果的伟大力量。奈曼就是这样的作者,读他的论文是件令人愉快的事,数学观点自然地展开,使用的符号简单得令人无法相信,结论的显现竟如此的自然,以至于让人感到难以理解,不禁要问,为什么很久以来居然没有人发现这项结论?
我在辉瑞的研究中心工作了27年,该中心每年都赞助康涅狄格大学举办一次学术年会。该校的统计系通常会邀请一位生物研究方面的重要人物来一天,与学生们见面聊聊,随后,会在下午的晚些时候发表演讲。由于我曾经参与负责一年一度的研讨会的资金事宜,因此有幸会见统计学界的一些大人物,奈曼就是应邀者之一。在一次研讨会前,奈曼想让他的演讲以一种特殊的方式进行,他先介绍一篇论文,随后组织一个专题组来评判他的论文。由于是大名鼎鼎的奈曼,研讨会的组织者联系了美国新英格兰地区著名的资深统计学家组成了这个专题讨论组。在研讨会开幕前的最后一记得,有位专题组成员无法出席,于是会议安排我代替他。
奈曼事先已经把他打算演讲的论文印发给了我们。那真是篇激动人心的论文!论文中奈曼利用他1939年完成的研究成果,去解决一个天文学上的难题。我知道1939年的那篇论文。几年前,当我还是个研究生的时候就看到了它,并留下了深刻的印象。论文中阐释了奈曼已经发现的一类新的分布,他称之为“散播分布”(contagious distribution)。论文中所提到的问题,开始是试着模拟土壤里昆虫幼虫的分布情形:即将排卵的母昆虫带着满肚子的卵在田野里四处飞,然后随机选取一个地点排卵,一旦排完卵,幼虫孵化出来,就从那个地点钻出地面。现在,从田野里取一个土壤样本,那么,在这个样本里发现的幼虫数量的概率分布是什么?
散播分布描述了这种情形。奈曼1939年的论文,运用一系列看似简单的方程,导出散播分布。推导的过程看上去明显而自然。显然,看完论文之后,读者会觉得除了奈曼的做法之外,再没有更好的推导方法了。但这只是在读了奈曼的文章后才清楚的。自从1939年那篇论文发表之后,人们发现奈曼的散播分布适用于相当多的领域,如医学研究、冶金术、气象学、毒物学,以及解决宇宙中星系的分布问题(就像奈曼在辉瑞的那个研讨会介绍论文所描述的)。
演讲结束,奈曼坐下来听专题小组的讨论。讨论组的其他成员都是著名的统计学家。由于太忙,不能提前阅读他的论文,他们把辉瑞的研讨会作为对奈曼荣誉的肯定。他们的“讨论”包括对奈曼的学术生涯和以往建树的评论。我作为最后一记得的替补者加入到这个专题组中,并且被告之不能提及我先前和奈曼相处的经历(其实我根本没有这种经历)。因此,我就应他的本意,直接评论奈曼那天演讲的东西。我提到在几年前是如何发现了1939年的那篇论文,以及为了准备参加座谈会,重读了论文。我尽一切所能描述论文的内容,谈到奈曼创立的分布参数其意义的巧妙方式时,我显出极大的兴趣。
奈曼对我的评论显得非常高兴。之后,我们俩热烈地讨论了散播分布以及它的用法。几周以后,我收到寄来的一个大包裹,是一本加州大学出版社(The University of California Press)出版的《J?奈曼早期统计论文选》(A Selection of Early Statistical Papers of J. Neyman),在书的内封有一行题词:“致大卫?萨乐斯伯格(David Salsburg)博士,衷心感谢他在1974年4月30日对我演讲的有趣讲评。J?奈曼。”
我把这本书视为珍宝,一是由于奈曼的题字,二是因为书中那一系列精美绝伦、文笔极佳的论文。从那时起,我有机会与奈曼的很多学生和同事交谈,得知这个我在1974年碰到的、友善的、风趣的、有感召力的人,也是他们深知并崇敬的人。
第11章 假设检验
在他们一开始合作的时候,E?皮尔逊就问耶日?奈曼,在检验一组数据是否为正态分布时,如果没能得到一个显著性的P值,那么怎样才能看这组数据是正态分布的呢?他们的合作从这个问题开始,然而,E?皮尔逊最初的这个问题,却打开了一扇通往更广阔领域的大门。在显著性检验中,如果得到的是一个不显著的结果,那么它的涵义是什么呢?如果我们找不到拒绝一个假设的证据,我们能做结论说这个假设为真吗?
费歇尔其实已经间接地回答了这个问题。费歇尔把比较大的P值(代表没有找到显著性证据)解释为:根据该组数据不能做出充分的判断。依据费歇尔的解释,我们绝对不会得出这样的推理,即没有找到显著性的证据,就意味着待检验的假设为真。这里引用费歇尔的原话:
相信一个假设已经被证明是真的,仅仅是由于该假设与已知的事实没有发生相互矛盾,这种逻辑上的误解,在统计推断上是缺乏坚实根基的,在其它类型的科学推理中也是如此。当显著性检验被准确使用时,只要显著性检验与数据相矛盾,这个显著性检验就能够拒绝或否定这些假设,但该显著性检验永远不能确认这些假设一定是真的,……如果显著性检验真的被人们理解到这种程度,那么就说明显著性检验的道理已被人们认识清楚了……
在这之前,K?皮尔逊常常利用他的卡方拟合优度检验来“证明”某些数据符合某些特定的分布。在费歇尔把更精确的方法引入到数理统计之后,K?皮尔逊的方法就不再为人接受了。但问题仍然存在。为了知道应该估计哪些参数,为了确定这些参数与所研究的科学问题之间有何关系,我们必须假设该数据符合某一特定的分布。统计学家们常常会利用显著性检验来证明数据符合何种分布。
在他们的通信往来中,E?皮尔逊与奈曼经常探讨一些由显著性检验中浮现出来的悖论,不假思索地使用一项显著性检验,可能会把一个显然为真的假设拒绝掉。但费歇尔从未陷入这种尴尬,因为对他来说,显著性检验怎样被误用他是非常清楚的。奈曼问:用什么标准来判断一项显著性检验的应用是正确的还是不正确的呢?逐渐地,随着E?皮尔逊与奈曼的书信往来,加上奈曼在暑期到英国的几次访问以及E?皮尔逊的几次波兰之旅,假设检验的基本思想已经浮出水面 。
现在,在所有基础统计学的教科书中,都可以发现一个简化的奈曼-皮尔逊假设检验理论公式。该公式结构简单,我发现大部分的大学一年级学生很容易看懂,因为已经被编纂整理过,所以这个公式很精确,也很有说服力。假设检验理论必须这样来写,当然这也是教科书所需要的写法,也只能这样来写。这种直接表述假设检验的方法已经被一些政府和社会机构所接受,如美国食品及药品管理局、美国环保署,许多医学院在给将来做医学研究的人授课时,采用的也是这一套方法。此外,这种方法也逐渐地被应用到了司法界,当法院处理某些需要鉴别的歧视性案子时,就经常会用到这种方法。
当由奈曼和E?皮尔逊创建起来的这种理论以奈曼的这种直接而简化的方式来讲授时,由于集中于公式中有错误的一面,从而曲解了他的发现。奈曼的主要发现是,除非至少有两个可能的假设,否则显著性检验根本就没有意义。也就是说,你不可能检验一组数据是否服从正态分布,除非你认为该组数据也可能会被其它的一些分布或分布集来拟合。这些备择假设的选择,决定了显著性检验的执行方式。当一个备择假设为真时,该备择假设被接受的概率奈曼称之为该检验的效力(power)。在数学里,要清晰阐述一种思想,通常要给某一特定的概念赋予清楚明确的定义。为了区别被用来计算费歇尔P值的假设与其它可能的一个或多个假设,奈曼和E?皮尔逊把被检验的假设称为“零假设”(null hypothesis),称其它可能的假设为“备择假设”(alternative hypothesis)。在他们的理论公式中,计算P值是为了检验零假设,而检验的效力则是指在备择假设为真的条件下P值的表现效果。
奈曼由此得出两个结论。第一个结论是,检验的效力是用来测量一个检验方法好坏的指标,两种检验方法中效力较强的方法就是较好的方法;第二个结论是,备择假设不能太多。统计分析师不能这样来表述,某一组数据来自于一个正态分布(零假设),或者它来自于任何其它可能的分布。这种备择假设集涵盖的范围太广了,没有哪种检验方法会有那么强的效力能处理所有可能的备择假设。
在1956年,芝加哥大学的L?J?萨维奇与拉杰?拉克?巴哈杜尔(Raj Raghu Bahadur)证明,对于一个零假设未通过的情形,并不一定要求有很多的备择假设。他们构建了一个相对较小的备择假设集,除此之外的所有检验的效力均为零。在20世纪50年代,奈曼就发展出了有限制的假设检验的想法,其中的备择假设集被定义得非常狭窄。他证明得出了这样的结论:这种检验方法比那些处理较多备择假设的检验方法效力更强。
在很多情况下,假设检验的目的是用来推翻零假设的,而这个零假设就好比我们所要攻击的稻草人。举例来说,当我们比较两种药的临床效果时,待检验的零假设是两种药的效果一样。但是,如果真是如此,研究工作就永远不必进行了。所以,“两种处理的效果相同”这一零假设,就是我们所要攻击的稻草人,应该被我们研究的结果来推翻。因此,根据奈曼的思想,该项研究的设计必须使最终数据有最大的检验效力,这样才能推倒这个稻草人,即表明这两种药的效果有多大的不同。
什么是概率?
遗憾的是,为了对具有内部一致性的假设检验设计出一种数学方法,奈曼必须处理一个已被费歇尔扫到地毯下的问题。这是一直困扰假设检验的一个问题,尽管奈曼的纯数学解非常简洁巧妙。这也是统计方法应用到一般的科学领域中通常会碰到的问题。从更一般的意义讲,这个问题可以这样来概括:在现实生活中,概率的意义是什么?
统计学的数学公式可用来计算概率。而这些计算出来的概率可使我们应用统计方法解决科学中的问题。就所用到的数学而言,概率的定义很明确。但这种抽象的概念怎样和现实相联系呢?当科学家试图决定什么为真、什么不为真时,他该如何解释统计分析的概率陈述呢?在本书的最后一章,我将讨论这个一般性的问题,并分析长久以来设法解答这些问题所做的努力。但现在,我们将分析促使奈曼找到他的答案的特殊情况。
前面我们谈过,费歇尔利用显著性检验产生了一个他称为P值的数字。这是一个计算出来的概率,是在零假设为真假定下,与观测数据有关联的一个概率。例如,假定我们要检验一种新药,对做过乳房切除手术的妇女来说,这种药可以防止乳腺癌的复发。我们把这种药的效果与一种安慰剂作比较。此时的零假设(那个稻草人)就是,该新药不比安慰剂好。现在,假定5年之后,用安慰剂的妇女有一半乳腺癌复发,但用新药的完全没有复发,这样能证明新药“有效”吗?答案当然得看这个50%代表多少病人。
如果在这项研究中,两组各仅有4名病人,也就是总共有8名病人,而其中2人在5年后复发。假定我们任选一个8人团体,把其中两人做上标记,接着把人随机分成两组,每组4人,那么做标记的两个被分在同一组的概率大约是0.30.因此,如果每组只有4名妇女,“所有复发的妇女都落在安慰剂组”是不显著的。如果该项研究中每一组包含500名妇女,且乳腺癌复发的所有250名妇女都落在安慰剂姐,这是极度不可能的,除非新药真的有效。如果新药并不比安慰剂有效,这250名妇女都落在同一组的概率就是P值,计算出来的结果将小于0.0001.
P值是一个概率,它就是这样被计算出来的。既然P值被用来表明一个假设(P值就是在该假设下计算出来的)为假的概率,那它的实际意义又是什么呢?答案是,P值是在极可能为假的条件下,与观测值相关联的一个理论概率。P值与现实没什么联系,它是一种对似是而非问题的间接测量。它不是我们错误理解的新药有效的概率,它也不是出现任何一种类型误差的概率。但是,为了决定哪一种检验方法比别的检验方法更好,奈曼必须想出一种办法把假设检验放进一个架构里,使得与根据检验所做出的决策相联系的概率能够计算出来的。因此,他需要将假设检验的P值与现实生活联系起来。
概率的频数定义
1872年,英国哲学家约翰?维恩(John Venn)提出了一个数学概率的公式。这个公式使得概率在现实生活中有了含义。他把一个重要的概率定理转了一个方向,这个定理就是大数定律(law of large numbers)。大数定律指出,如果某事件有给定的概率(比如掷一个骰子,得到六点这一事件的概率是六分之一),而且如果我们重复地进行相同的试验时,该事件发生的次数的比率就会越来越接近这个概率值。
维恩指出,与一个给定事件相联系的概率,是该事件从长期来看所发生的次数的比率。按照维恩的意见,概率的数学理论并没有隐含大数定律,反而是大数定律隐含了概率的思想。这就是以频数为基础对概率的定义。1921年,约翰?梅纳德?凯恩斯(John Maynard Keynes )推翻了这种定义方式,认为它不是一种有用的或有意义的解释,并指出这种定义具有根本性的矛盾,因而无法在许多要求计算概率的情况不应用概率的频数定义。
在用正规的数学方法来构造假设检验时,奈曼又重新回到了维恩的概率的频数定义上。奈曼利用这个定义来证明他在假设检验中对P值解释的合理性。在奈曼-皮尔逊的公式中,科学家设定一个固定的值,比如0.05,之后,当显著性检验的P值小于或等于0.05时,就拒绝零假设。按照这种理解,从长期来看,该科学家会正好有5%的机会拒绝一个正确的零假设。假设检验当前就是这样来讲授的,奈曼所采用的频数方法被得到强调。我们太容易把奈曼-皮尔逊的假设检验公式看作是概率的频数方法的内容,因而太容易忽略奈曼所提的观点中更重要的见解,即为了检验零假设这个“稻草人”,必须要有一组定义明确的备择假设。
费歇尔误解了奈曼的见解。他把注意力集中到了显著性水平的定义上,但却忽略了检验效力和需要定义一组备择假设这些重要的思想。在批评奈曼时费歇尔写到:
奈曼认为他自己修正并改善了我早期所做的关于显著性检验的工作,结果“改进了自然知识”,不过实际上他只是用技术性与商业性的形式,也就是大家所熟知的接收程序,重新解释了这些检验方法罢了。现在,在当代世界里,这种接收程序变得十分重要。例如,当英国海军总部接到某工程公司的大批材料时,我认为要安排很仔细的检查与检验,以降低残次品被接收的频率,……不过在我看来,这种管理运作与透过物理或生物实验的科学发现工作相比,它们之间的逻辑上有很大的差别,所以拿这两者做类比是没有多大帮助的,而把它们当成是同一回事,更是一种决定性的误导。
尽管存在对奈曼基本观点的这些扭曲,假设检验还是成为科学研究中应用得最多的统计工具。奈曼提出的精巧数学构思,在科学的很多领域中都占有一席之地,变成了一种固定的观念。大部分的科学期刊都要求论文的作者在做数据分析时要采用假设检验方法,甚至连科学期刊之外的领域也开始这么做。美国、加拿大与欧洲的药物管理机构,纷纷把假设检验方法的使用列为对药品检查的强制性要求,就连法庭允许原告用这种方法证明自己受到就业歧视。假设检验已经渗透到统计学的所有分支学科中。
奈曼-皮尔逊的理论攀升到统计学的巅峰地位,一路上也不是没有挑战的。费歇尔从一开始就攻击它,而且在他有生之年一直在攻击这个理论。1955年,费歇尔在《皇家统计学会期刊》上发表一篇文章,题目是“统计方法与科学归纳”,而在他的最后一本书《统计方法与科学推论》(Statistical Methods and Scientific Inference)里,更进一步详述了他的看法。在20世纪60年代晚期,不久之后就出任《生物统计》期刊主编的大卫?考克斯(David Cox),发表了一篇分析清晰的文章,分析了假设检验在科学中的实际用途,同时也证明了奈曼的关于频数的解释不符合实际状况。在20世纪80年代,W?爱德华兹?戴明(W. Edwards Deming)攻击了假设检验的整个思想,认为假设检验的整个思想都是荒谬的(第24章还会再提到戴明对统计学的影响)。年复一年,在统计学文献中一直有相关文章发表,指出在教科书中已成定格的奈曼-皮尔逊理论中发现了新的毛病。
不过,在奈曼-皮尔逊假设检验理论的神圣化过程中,奈曼本人并没有参与。早在1935年,他在《法国数学学会会刊》《bulletin de la Société Mathématique de France》上就用法文发表过一篇文章,对是否能找到最佳的假设检验方法提出严厉的质疑。在他后来的文章里,奈曼很少直接使用假设检验方法,他的统计方法通常是由理论原则导出概率分布,然后再由数据来估计参数。
其他一些人则捡取藏在奈曼-皮尔逊理论背后的观点来进一步发展。在第二次世界大战期间,亚伯拉罕?沃尔德扩展了奈曼利用维恩关于频数的定义,发展成了一个叫统计决策理论(statistical decision theory)的领域。埃里希?莱曼(Erich Lehmann)给出了用来判断一个好的假设检验可供选择的标准,后来在1959年,他还写了一本有关假设检验问题的权威性的教科书,这本书至今仍然是该领域对奈曼-皮尔逊假设检验理论描述得最完整的一部著作。
就在希特勒入侵波兰,将邪恶之幕笼罩欧洲大陆之前,奈曼就到了美国,并在加州大学的伯克利分校开始创建统计系。在那里他一直工作到1981年去世,这期间,他把该系创建成全世界最重要的学术性统计学系之一。他把一些统计学界赫赫有名的人物引入该系,同时也提拔了一些默默无闻的人,这些人正致力取得卓越的成就。例如,大卫?布莱克韦尔(David Blackwell)原来只是只身孤单地在霍华德大学(Howard University)工作,没有数理统计同行与他来往。由于他的种族原因,他一直没能在“白人”学校谋得一职,尽管他很有潜能。奈曼把他请到了伯克利。此外,奈曼还招了一位出身法国农民家庭的研究生吕西安?勒卡姆(Lucien Lecam),他后来成为世界领先的概率学家。
奈曼总是非常和善地对待他的学生和同事。他们常常津津乐道的是系里每天下午茶歇的欢乐时光,这是由奈曼主持的他与职员亲近接触的一个重要场合。他总是亲切地鼓励学生和同事谈谈自己最新的研究成果,同时很和蔼地提出他自己的思路和见解,给出评论,加入大家的讨论。他常常在下午茶歇即将结束时举起茶杯说“为尊敬的女士们!”他特别关照女士,鼓励她们在学术生涯上不断进步。在他的女弟子当中,伊丽莎白?斯科特(Elizabeth Scott)博士是较为杰出的,她与奈曼一起做研究,共同发表论文,范围从天文学到致癌物研究,甚至动物学。还有伊夫琳?菲克斯(Evelyn Fix)博士,她在流行病学的研究上有很重要的贡献。
直到费歇尔于1962年去世,奈曼一直受到这位天才的尖刻批评。奈曼每做一件事都会遭到费歇尔的批评。如果奈曼成功地证明出了费歇尔某项非常难解的叙述,费歇尔就说奈曼误解了他写的东西;要是奈曼扩充了费歇尔的某个观点,费歇尔就批评奈曼说他把好端端的理论用错了地方。对比,不论是付诸笔端,还是在私人场合,奈曼从不回应(如果我们相信奈曼同事的说法)。
在奈曼去世前的一次访谈中,奈曼说了一件发生在20世纪50年代的往事。当时他准备在一次国际研讨会上公开发开一篇用法语写的论文。当他步上讲台时,意识到费歇尔也坐在听众席上。在演讲论文时,他知道一场激辩难免,于是开始武装自己,他预计费歇尔会抓住论文里某个无关紧要的小地方,将论文和他本人攻击得体无完肤。奈曼讲完之后,等待听众提问,结果只有几个问题。费歇尔相当平和,一言未发。后来奈曼才知道,费歇尔不会讲法语。
第12章 置信诡计
当20世纪80年代出现了艾滋病(AIDS)这种传染病时,有若干问题需要回答。一旦传染源HIV(human immunodeficiency virus,即人体免疫缺损病毒)确定了,卫生官员需要知道有多少人受到感染,以便安排需要的资源来应付这种传染病。幸运的是,在此之前的20至30年所开发出来的流行病学 数学模型,在这里可派上用场。
从传染病的现代科学观点来看,某些个体病人接触到传染源,其中有些人会被传染,而在经过一段所谓的“潜伏期”之后,那些被传染的人会显现该疾病的症状。一旦被传染,这个人就会成为其他还没有被传染人的潜在传染源。我们没有办法预测谁会与传染源接触,谁会被传染,或谁会传染他人。我们所能做的,只是处理相关的概率分布,并估计这些分布的参数。
参数之一是平均潜伏期,也就是从被传染到症状产生的平均时间。就艾滋病这种传染病来说,平均潜伏期对卫生官员是特别重要的参数。他们没有办法知道究竟有多少人被传染,又有多少人最终会得上这种疾病,但如果能知道平均潜伏期,他们就能根据已经患有这种疾病的人数,估计出受感染的人数。不仅如此,由于艾滋病传染模式的不寻常特征,卫生官员拥有一组患者,并知道这组患者感染的时间和他们的发病时间。有一个小的血友病患者群体由于使用了被污染的血液制剂而感染上HIV,他们提供的数据可以用来估计平均潜伏期这一参数。
这个估计值的准确性如何?流行病学家可以说,他们使用的是费歇尔意义上的最佳估计量。因为他们所得的估计值是一致的,又是最有效的。他们甚至还可以修正可能的偏差,并宣称他们的估计值是无偏的。但是,如果我们在前面章节里指出的,我们没有办法知道某一个具体的估计是否正确。
如果我们不能够说某个估计值是绝对准确的,那么我们还有没有办法可以说这个估计值与参数的真值之间有多接近呢?这个问题的答案在于使用区间估计(interval estimate)。点估计(point estimate)是一个单一的数字。例如,我们可能利用从血友病研究那里得到的数据,估计出平均潜伏期是5.7年。而一个区间估计会这样表述:平均潜伏期在3.7年至12.4年之间。在很多情况下,有区间估计的数字就够了,因为所需要的公共政策对区间估计的两端边界值来说是一样的。但有些时候,区间估计值显得太宽了,对最小的边界值和最大的边界值需要制定不同的公共政策。根据一个很宽的区间估计值所能得出的结论是,利用已有的信息不足以做出充分的决策,应寻求更多的信息,可以通过扩大调查的范围或进行一系列其它的实验来得到。
举例来说,如果艾滋病的平均潜伏期长达12.4年,则感艾滋病毒的人当中约有五分之一的人在感染之后要存活20年以上;如果平均潜伏期是3.7年,那么几乎每一个被感染的人在20年内都会发病。这两个结果相差太大。没有任何一种最佳的公共政策可以兼顾,因此需要更多的信息。
在20世纪80年代末期,美国国家科学院(National Academy of Science)如今国内一批顶尖的科学家组成一个委员会,讨论臭氧层破洞的问题。臭氧层可保护人类不受紫外线辐射的伤害,但由于人类使用的喷雾剂中含氟氯碳化物,可能破坏外层空间的臭氧层。这个委员会(主席为约翰?图基(John Tukey),是本书第22章讨论的主角)不做是或否的二分法回答,而是决定以概率分布的形式建立氟氯碳化物对臭氧层的影响模型。于是,他们计算出了臭氧层每年平均变化的区间估计值。虽然使用的数据量不是很多,但他们发现,该估计区间的下边界值暗示,每年臭氧层将以一个较大的幅度减少,而这将使人类的生命在50年内受到严重的威胁。
区间估计现在已经普及到几乎所有的统计分析领域。当一项民意调查指出44%的一般民众认为总统干得不错时,通常会加上一个附注,说明这个数字“具有正负3个百分点的误差”。上述民意调查结果的意思是,44%被调查的民众认为总统干得不错。由于这是个随机的调查,所求的参数是全国所有的民众中认为总统干得不错的人数的百分比。由于样本的容量较小,因此一个合理的猜测是,总体的参数值应落在41%(44%-3%)与47%(44%+3%)之间。
怎样计算区间估计值?怎样解释一个敬意估计值的涵义?我们能对一个区间估计值做出相应的概率表述吗?我们有多大的把握确信总体参数的真值会落在所估计的区间里?
奈曼的解
1934年,耶日?奈曼在皇家统计学会做了一个演讲,题目是“论代表性方法的两个不同方面”(On the Two Different Aspects of the Pepersentative Method)。他的论文是关于抽样调查分析的。正如奈曼作品的一贯风格,这篇文章非常优美,导出了形式简单具直观易懂的数学表达式(当然是经过奈曼的推导之后才会如此)。但全文最重要的部分却在附录里,奈曼在这个附录中提出了一个很直接的方法,用来创建区间估计,并确定所得的区间估计值有多准确。奈曼称这个新的方法为“置信区间”(confidence intervals),而把置信区间的两端称为“置信界限”(confidence bounds)。
G?M?鲍利(G. M. Bowley)教授是大会的主席,起身致谢辞。他先用几段话讨论了论文的主要部分。接着就说到了附录:
我不太确定是否应该要求给出一个说明,或者直接提出质疑。论文的字里行间暗示,论文很难读懂,而我可能是被这个暗示误导的人之一(在这段话之后,他举出一个例子,表明他完全理解了奈曼提出的方法)。我只能说,从我一看到这篇论文开始,我就很认真地读它,而且昨天我还很仔细地读了奈曼博士对这篇论文的补充资料。我指的是奈曼博士的置信界限。我不太有把握地说,这里的“置信”是不是一个“置信诡计”。
鲍利接着举了一个例子说明奈曼的置信区间,然后继续说道:
这个方法真的会将我们引向深入吗?我们会比艾萨克?托德亨特(Isaac Todhunter,一位19世纪末的概率学家)知道的更多吗?它会让我们超越K?皮尔逊和埃奇沃思(Edgeworth,数理统计发展早期的先驱之一)吗?它真的会引领我们到我们所需要的地方去吗?就是说我们所从中抽取样本的总体其比重会正好落在这些界限内吗?我看并不见得,……我不知道我是否已把我的想法表达清楚了,……自从我看到这个方法,我就觉得它是个难题。其理论陈述没有说服力,除非有人能说服我,否则我还是怀疑它的有效性。
鲍利对置信区间这个新方法的疑惑,是自从置信界限的概念被提出来以后大家对它的普遍迷惑之一。显然,奈曼在推导其结果过程中所用的四行优美的微积分式子,在抽象的概率数学理论上是正确的。它也确实能算出一个概率值。但这个概率值究竟代表什么则并不清楚。数据是观测得来的,参数是固定的值(尽管是未知的),因此参数取某个特定值的概率只有两个结果,或者是100%(如果它就是那个值),或者是0(如果它根本不是那个值)。然而,一个95%的置信区间涉及的是95%的概率。这个概率指的是什么?奈曼在此绕过了这个问题,把他的创造称为置信区间,回避使用概率这个词。但是鲍利及其他同行一眼就看穿了这个手法。
费歇尔也在批判者之中,不过他没有抓住这个要点。他所讨论的内容空洞又含混,而且根本不是奈曼论文里的内容。因为费歇尔根本没有完全弄清楚区间估计值的计算过程。在他的评论里,他所指的是“信念概率”(fiducial probability),而奈曼的论文里并没有这个词汇。长久以来,费歇尔一直试图解决这个问题——怎样确定与一个参数的区间估计相关联的不确定度?费歇尔从一个很复杂的角度来解决这个问题,有点像他的似然函数。不过他很快就证明,用这种方式研究这个公式并不符合概率分布的要求。费歇尔称这个函数为“信念分布”(fiducial distribution),但他后来又违反了他自己的思路,使用了其他人在处理适当概率分布时可能会用到的相同数学方法。费歇尔所希望的结果,是从观测数据中得到参数的一组合理的值。
这也正是奈曼所得的结果,而且如果该参数为正态分布的平均数时,两个方法会得到相同的答案。据此费歇尔认为奈曼窃取了他的偏偏分布的思想,只是换了个名字而已。费歇尔对他的信念分布的研究从来没有取得进一步的发展,因为他的方法在遇到更复杂的参数(比如标准差)时就不管用了。奈曼的方法对处理任何类型的参数都是有效的。费歇尔似乎从未理解这两种方法之间的差异,直到死前他还坚持认为,奈曼的置信区间最多只是他的信念区间(fiducial intervals)概念的推广。他坚信,在碰到足够复杂的问题时,奈曼的显然是推广的方法也不会奏效——就像他自己的信念区间方法一样。
概率与置信水平
不管碰到的问题有多复杂,奈曼的方法没有失败,这也是该方法在统计分析中得到广泛应用的原因之一。奈曼置信区间中的真正问题,倒不是费歇尔所提出的那个,而是鲍利在一开始讨论时就点出来的问题,即这个方法中的概率到底指的是什么?奈曼的回答又回到了现实生活中概率的频数定义上。正如他在这篇论文里所说的(他在稍后的另一篇探讨置信区间的论文里,对这一点做了更清楚的解释),不应该从每一个结论的角度看待置信区间,而应该其视为一个过程。从长期来看,对于一直计算95%的置信区间的统计学家来说,他们将发现,在总次数中,参数的真值将有95%的机会落在所计算的区间内。请注意,对奈曼来说,与置信区间相联系的概率并不是我们“答对”的概率,而是统计学家使用某种方法从长期来看做出正确陈述的频率。这个数字与当前的估计值有多“准确”根本没有任何关系。
尽管奈曼定义这个概念时非常仔细,尽管许多像鲍利这样的统计学家也都非常小心,力图保持对概率概念的清晰理解并使其不被误用,但在科学领域中对置信区间的普遍应用却导致了许多草率的思维。举例来说,有人使用95%的置信区间来表示他有“95%的把握”保证参数的真值会落在这个区间里,这是很普遍的。我们在13章会碰到:L?J?萨维奇和布鲁诺?德费奈蒂(Bruno de Finetti),并介绍他们对个人概率的研究,他们的研究结果证明了使用上述陈述的合理性。但是,计算某人对某一件事的把握程度,与计算一个置信区间完全是两回事。统计文献里有很多文章都谈到,根据一组相同的数据,以萨维奇和德费奈蒂的方法所推导出的参数范围,和以奈曼的方法为基础推导出的置信界限,两者之间是截然不同的。
尽管在奈曼的方法中人们对概率的涵义仍存有疑问,但是奈曼的置信界限已经成为计算区间估计值的标准方法。许多文学家计算90%或95%的置信界限,而且看上去好像他们有把握认为,该区间包含了参数的真值。
时至今日,已无人再谈论或在写作中涉及费歇尔的“信念分布”的话题了。该思想已随费歇尔的去世而消失。费歇尔竭力让他的思想能发挥作用,他做了大量的相当聪明而且非常重要的研究工作,其中有些研究成果已成为当今的主流,而其它部分则仍停留在费歇尔搁笔时的不成熟状态。
在费歇尔的研究过程中,他曾有好几次差点儿就建立一门统计学业的分支学科,也就是他所称的“逆概率”(inverse probability),但每次他都半途而废。逆概率的思想起源于18世纪的一位业余数学家雷韦朗?托马斯?贝叶斯(Reverend Thomas Bayes),贝叶斯与很多同时代的顶尖科学家都有密切的书信往来,并经常提出一些很复杂的数学问题给他们。有一天,他随意玩弄一些概率的标准数学公式,用简单的代数把其中两个式子结合在一起,竟发现一些令他很惊讶的结果。
下一章,我们来谈谈贝叶斯异论(Bayesian heresy),并且看看为什么费歇尔拒绝使用这种逆概率。
第13章 贝叶斯异论
从8世纪的早期,威尼斯共和国是地中海一带的一个主要的强权国家。在其政权鼎盛时期,威尼斯控制了大部分的亚得里亚海岸,以及克里特岛和赛浦路斯岛,同时还垄断了东方通往欧洲的商业贸易路线。威尼斯共和国由一群贵族家族所统治,这些家族之间保持着某种民主的程序。整个国家名义上的领袖是总督,从公元697年该共和国成立起,到1797年被奥地利吞并,总共有150余任总督,有的任期很短,只有1年或不到1年,也有的任期长达34年。在在的总督去世之后,该共和国会遵守一项很复杂的选举程序,他们先从贵族家族的长者当中,以抽签的方式选出一小群元老,这些被选出的元老还会再挑选一些人加入到他们之中,之后再从这一扩大的元老群中以抽签方式选出一小群人。这样的程序进行几次之后,会选出一群最后的总督候选人,总督就在这群人当中产生。
在威尼斯共和国历史的早期,每阶段的抽签都要准备一批大小相同的蜡球,有的蜡球里什么都没有,有的蜡球里面却有一张小纸条,上面写着“元老”二字。到了17世纪,最后几个阶段用的道具是大小完全相同的金球与银球。公元1268年,当多杰?拉伊涅里?泽诺(Doge Rainieri Zeno)总督去世时,在第二阶段有30位元老,于是准备了30个蜡球,其中9个蜡球内藏有“元老”纸条。一个小孩被带过来,他从装有蜡球的篮子中取出一个蜡球,交给第一位元老候选人,这位元老候选人就打开蜡球,看看自己是否能够成为下一阶段的元老候选人。接着,小孩从篮子中取出第二个蜡球,交给第二位元老候选人,第二位再打开蜡球,以此类推。
在小孩选出第一个蜡球前,候选人群中的每个成员被选为下个阶段元老的概率是9/30。如果第一个蜡球是空的,剩下的候选人中每个人有9/29的概率成为下坠估摸元老。但如果第一个蜡球里有纸条,则其余人被选中的机会就剩下8/29。一旦第二个蜡球被选定且被打开,则下一个人被选中成为元老的概率同样会减少或增加,是减少还是增加取决于前次的抽球结果。这样继续抽下去,直到所有的9个纸条都被抽出为止。而在这时,剩下的候选人下一阶段成为元老的概率就降为零。
这是条件概率的一个例子。某一特定候选人被选为下一阶段元老的概率,取决于在他的选择之前被选出的蜡球。J?M?凯恩斯曾指出,所有的概率都是条件概率。用凯恩斯所举的一个例子:从他的图书室的书架上随机地选择一本书,而选中的书是精装本的概率,也是一种条件概率,其条件取决于他的图书室里究竟有多少书,以及他怎样“随机”地选取。一个病人患小细胞肺癌的概率,是以该病人的吸烟史为条件的。对一个控制实验,检验没有处理效果这一零假设所计算出来的P值,是以该实验的设计为条件的。条件概率的重要方面是,某些已知事件(例如在彩票发行过程中,某一组特定数字能赢)的概率,会随前提条件的不同而不同。
在18世纪,为处理条件概率而导出的公式都是根据以下的思想做出的,即条件事件要发生在所研究的事件之前。但是到了18世纪后期,R?T?贝叶斯在摆弄条件概率的公式时,忽然有个惊人的发现,这些公式都是内部对称的!
假设有两个事件在一段时期内发生,就像先洗牌,再发出5张扑克牌。我们称这两个事件分别为“前事件”(the events before)和“后事件”(the events after)。以“前事件”为条件讨论“后事件”的概率是有意义的。如果牌没有洗好,当然会影响玩家得到一对A的概率。贝叶斯发现,我们也可以“后事件”为条件计算“前事件”发生的概率。这是没有道理的。就像玩家已经拿到一对A之后,再来确定整副牌里有4张A的概率。或是已知一个病人已患了肺癌,再来计算他是吸烟者的概率。或者是已经知道了有个叫C?A?史密斯的人是唯一得到大奖的人,然后再计算州立彩票游戏公平不公平的概率。
贝叶斯把这些计算结果搁置起来,没有发表。在他死后,这些论文才被发现,而后才被发表出来。从那里起,贝叶斯定理 就困扰着许多统计分析数学家。绝对不是毫无道理,贝叶斯将条件概率倒转过来反倒很有意义。当流行病学家试图想找出某种罕见医学病状的可能原因时,例如雷氏症候群(Reye’s syndrome),他们通常是利用病例控制研究方法(case-control study),在这种研究中,他们首先搜集一组患有该病症的病人,然后拿去与控制组的病人做比较,控制组的病人没有患这种疾病,但在其他方面与患有这种疾病的病人类似。于是,流行病学家在已知控制组病人已患有该疾病的条件下,计算某些先前治疗或先前条件导致该病的概率。吸烟对心脏病和肺癌都有影响,就是这样首次被发现的。镇静剂对新生儿畸形的影响,也是从这种病例控制研究中发现的。
直接应用贝叶斯定理,可以把条件概率反转过来,比这更为重要的,是使用贝叶斯定理估计分布的参数。有一种建议,可以把一项分布的参数本身看作是随机的,然后计算与这些参数相关的概率。例如,我们可能想要比较两种癌症治疗方法,并希望得到结论说“我们有95%的把握认为使用治疗方法A会比使用治疗方法B的5年期存活率高”。我们只要应用贝叶斯定理一两次就可以解决这个问题。
关于“逆概率”的问题
有很多年,以这种方式使用贝叶斯定理被认为是一种不适当的作法。当用于参数时,关于概率代表什么涵义有很多质疑。毕竟皮尔逊革命(Pearsonian revolution)的整个基础在于,科学的测量结果本身不再是我们所感兴趣的问题,相反,正如K?皮尔逊所指出的那样,我们所感兴趣的是这些测量结果的概率分布,而科学的调查研究的目的就是要估计出控制这些分布的那些参数值(固定的但却是未知的)。所以,如果这些参数被视为是随机的(而且以观测的测量结果为条件),那么这种方法就不再有这样清楚的意义了。
在20世纪的早些年,统计学家非常谨慎,避免使用人们所说的“逆概率”。有一次在皇家统计学会上,对费歇尔的一篇早期论文进行讨论时,就有人质疑他使用了逆概率,他坚定地为自己辩护,否认这项可怕的指控。在第一篇关于置信区间的论文里,奈曼似乎使用了逆概率的概念,但只是作为一个数学方法,用来得到一个计算结果,而在他的第二篇论文里,他证明不了不用贝叶斯定理也能得到相同的结果。到了20世纪60年代,为种方法的潜在力量与用途已开始吸引越来越多的研究者跟踪研究,这个贝叶斯异论变得越来越受尊重了。到了20世纪末,它已经达到了如此高的接受水平,如今在一些期刊像《统计年报》(Annals of Statistics)和《生物统计》上,几乎半数以上的文章现在都使用贝叶斯方法。不过,贝叶斯方法的应用仍然会经常遭到质疑,尤其是在医学领域。
在解释贝叶斯异论时碰到的一个困难是,目前有好几种不同的分析方法,而这些方法的应用又至少有两种完全不同的哲学基础。长期以来,看上去好像完全不同的思想却经常贴着相同的标签——贝叶斯。后面我将说明贝叶斯异论的两个种理论:贝叶斯层次模型(Bayesian hierarchal model)和个人概率(personal probability)。
贝叶斯层次模型
20世纪70年代早期,由于弗雷德里克?莫斯特勒(Frederidck Mosteller)和大卫?华莱士(David Wallace)早期的工作和贡献,原文分析的统计方法有了很大的进展,他们俩人曾运用统计方法来判定《联邦主义论文集》(Federalist)中一些匿名文章的作者。自1787年,在纽约州带头鼓动通过新的美国宪法期间,詹姆士?麦迪逊(James Madison)、亚力山大?汉密尔顿(Alexander Hamilton)和约翰?杰伊(John Jay)写了大约70篇文章,支持通过宪法。但这些文章都是匿名发表的。19世纪初,汉密尔顿与麦迪逊两人开始确认这些两个人都声称有著作权的论文,其中有12篇文章他们都认为是自己写的 。
在用统计方法对这些署名有争议性的文章进行分析时,莫斯特勒与华莱士找出了几百个无“特定内容”的英文词汇,如“if”、“when”、“because”、“over”、“whilst”、“as”、“and”等。这些字在句子里只有语法上的意义,本身并没有什么特定的含义,这些字的使用主要取决于作者的语言使用习惯。在这上百个没什么特定含义的字里,他们发现,大约有30个字在这两位作者的其他著作中使用频率不同。
例如,麦迪逊使用“upon”这个字的频率,是每千字平均0.23次,但汉密尔顿对这个字的使用频率很高,平均每千字高达3.24次(在12篇署名有争议的文章里,有11篇根本没有用“upon”这个字,而在剩下的那一篇文章中,平均每千字就出现1.1次)。这些平均的频率并不是描述一千字中任何特定组合。这些数值本身并不是整数,这就意味着这些频率并不是在描述任意一个观测的文字序列。这些数值其实是两位不同作者在写作时用字分布的其中一个参数的估计值。
对于某篇文章著作权的争议,所要解决的问题是:这些文章中用词的分布形态,是来自与麦迪逊相联的概率分布呢?还是来自与汉密尔顿相联的概率分布?这些分布各有各有参数,其中能够定义出各自作品的特定参数各不相同。参数值只能根据他们的论文来估计,而且这些估计可能是错的。因此,要想区分哪个分布可应用在一篇署名有争议的文章上,充满了这种不确定性。
估计这种不确定性水平的一种方法是,这两个人的分布参数的确切值,是来自于描述18世纪晚期所有北美洲有教养的人用英文写作时用字习惯的参数分布。例如,汉密尔顿每千字中用到“in”这个字24次,麦迪逊则是每千字用23次,而同时代的其他作家,使用“in”这个字的频率在每千字22至25次之间。
由于受到当时和当地一般用字分布形态的制约,每个人分布的参数是随机的,并且具有一个概率分布。这样一来,制约汉密尔顿和玫迪逊使用这些无特定含义的字的参数本身也有参数,我们可以称之为“超参数”(hyper-parameter)。根据当时和当地其他作者发表的文章来分析,我们就能估计出这些超参数。
英语语言总是随着时间和地域的变化而变化。例如在20世纪的英语文学里,使用in的频率通常是每千字少于20次,这表明从汉密尔顿和麦迪逊的时代到现在的200多年里,英语的用字型态已经稍微有所转变。我们可以把这些定义18世纪北美用字习惯参数分布的越参数,看作是它们本身也有一个相对于所有时间与空间的概率分布。因此,除了用18世纪的北美作品,我们还可以搜集其它地区和其它时期的英语文献,来估计这些超参数的参数,我们可以称这些参数为“超-超参数”(hyper-hyperparameter)。
通过重复使用贝叶斯定理,我们就能决定这些参数的分布,然后再决定这些超参数的分布。从原则上来说,我们可以用超-超-超参数求出超-超参数的分布,进而把这种层次分析引向深入,依次类推。但在我们的例子里,显然没有必要进一步分析,以免增添更多的不确定性。利用超参数与超-超参数的估计值,莫斯特勒与华莱士就能算出与下面这个陈述有关的概率:是麦迪逊还是汉密尔顿写了这篇文章。
自20世纪80年代早期以来,贝叶斯层次模型已经成功地解决了许多工程上和生物学上的难题。比如,一些数据看上去似乎是来自于两个或两个以上不同的分布,这个问题就属于这类难题。分析家可以建议,有一个未观测到的变量存在,而这个变量可以定义已知的一个观测结果究竟来自于哪个分布。这个差别标识本身是个参数。但它还有一个概率分布(含有超参数),这个概率分布可以纳入到似然函数当中来进行分析。莱尔德和韦尔的EM演算法特别适合于解决这类问题。
统计文献中对贝叶斯方法的广泛使用充满了混淆与争议。大家可以提出得出不同结果的不同方法,但却没有明确的标准来决定哪个是对的。通常,保守肖像统计学家反对使用贝叶斯定理,而贝叶斯学派的人彼此对他们模型的细节看法也不一致。这种混乱的状况亟需另一个像费歇尔这样的天才出现,找出一个统一的原则来解决这些争议。当我们进入21世纪的时候,还没有这样的天才出现。因此,相关的问题还是像在200多年前的贝叶斯时代一样,令人困惑。
个人概率
另外一种贝叶斯方法其基础看上去要坚实得多。这就是个人概率(personal probability)的概念。个人概率的意思自从17世纪贝努里一开始研究概率时就已经产生了。实际上,概率(probability)这个英文字创造的初衷,就是用来处理主观不确定性的。
L?J?萨维奇和布鲁诺?德费奈蒂在20世纪60年代和70年代,推导出了个人概率背后的许多数学模式。我在20世纪60年代末期曾参加一场在北卡罗来纳大学举办的统计学会议,会上萨维奇在演讲中曾阐述他的一部分想法。萨维奇认为,世界上并没有“已被证明的科学事实”这样的事情。有的只是一些陈述,而那些自认为是科学家的人对这些陈述持有很高的赞成概率。他举例说,在场听他演讲的人对“地球是圆的”这项陈述一定持有很高的认同概率,但若我们有机会对全世界的人做一次普查,则我们很可能发现在中国中部的许多农民对上述陈述持有很低的概率。讲到这里的时候,萨维奇不得不被迫停下来,因为校园晨一群学生正在会堂外游行通过。他们还高喊着口号“停止上课!罢课!罢课!停止上课!”这些学生在要求全校的学生罢课,以抗议越南战争。等到他们走远,四周又恢复平静,萨维奇才看看窗外,然后说:“看来,我们可能是认为地球是圆的人中的最后一代。
个人概率有许多不同的版本。其中一个极端是萨维奇-德费奈蒂的方法,该方法认为每个人都有其自己独特的一套概率。而另一个极端则是凯恩斯的观点,他认为概率是一种信仰程度(the degree of belief),这种信仰是一个在特定的文化环境中一个有教养的人可能期望持有的信念。按照凯恩斯的观点,一个特定文化环境中的所有人(萨维奇所说的科学家或中国中部的农民)对某一特定的陈述,会持有一个一般的概率水平。由于这个概率水平取决于文化和时间,因此从某种绝对的意义上为说,很有可能这个适当的概率水平是错的。
萨维奇和德费奈蒂则主张每个人都有自己特定的一套个人概率,他们还描述怎样运用一种叫做“标准赌博”(standard gamble)的技巧把这种人人概率求出来。为了让整个文化中的人能共享既定的一套概率,凯恩斯不得不弱化相关的数学定义,概率不再是一个精确的数字(例如67%),而是一种将想法排序的方法(例如,明天可能下雨的概率大于可能下雪的概率)。
不管个人概率的概念是如何被准确定义的,贝叶斯定理在个人概率中的应用方式,看上去与大多数的想法相吻合。贝叶斯方法一开始是假设在一个人的头脑中有一组先验概率(a prior set of probabilities),接下来这个人经过观测或实验产生了数据,然后再拿这组数据来修正先验概率(prior probability),生成一组后验概率(a posterior set of probabilities):
先验概率 → 数据 → 后验概率
假设这个人想确定是否所有的大乌鸦都是黑的。她首先存有一些关于“这个陈述是真的”概率的先验知识。例如,起初她可能对大乌鸦一无所知,对“所有大乌鸦都是黑的”这句话半信半疑,相信比例是50:50。数据则包括她对大乌鸦的观测。假如她看到了一只大乌鸦,而且这只大乌鸦是黑色的,她的后验概率就会增加。因此下一次她再观测大乌鸦时,她的新的先验概率(也就是上一次的后验概率)就会大于50%,如果她继续观测大乌鸦而且都是黑的,这个概率还会继续上升。
另一方面,一个人也有可能在进行观测之前就已经带着非常强的事前主见,其程度非常强,需要有很大量的数据才能改变这个事前主见。在20世纪80年代,美国宾夕法尼亚州的三里岛核电厂发生了近乎是灾难性的事故。反应炉的操作员面对一个很大的操作盘,通过上面的各种仪表和指示灯来了解反应炉的运转情况。这些指示灯当中有一些是警告灯,其中有的出过问题,以前曾经发出过假的警告。当时操作员有个事先的成见,当他们看见任何一个新的警告灯亮时,总是认为它是假的信号。结果,即使当警告灯的型态及相关的指示器都一致显示反应炉的水位过低时,他们仍然置之不理。他们的先验概率太强了,以至于新的数据也无法使后验概率产生多大的改变。
假定只有两种可能性,就像前面署名有争议的联邦主义论文的例子:它不是麦迪逊写的就是汉密尔顿写的。于是,在应用了贝叶斯定理之后,就会得到了一个先验胜率(prior odds)与后验胜率(posterior odds)之间的简单关系,这里的数据可以归纳成一种称为“贝叶斯因子”(Bayes factor)的东西。这是一种根本不用参考先验胜率来刻画数据的一种数学计算。有了这个计算工具,分析家就可以告诉读者,插入任何他想要的先验胜率,乘以计算出来的贝叶斯因子,再计算后验胜率。莫斯特勒与华莱士对12篇署名有争议的文章,每篇都是这样处理的。
此外,他们对文章里的那些无特定含义的字出现的频率,还进行了两种非贝叶斯分析。这样他们有了四种方法来判断有争议文章的作者:层次贝叶斯模型,计算的贝叶斯因子,以及两个非贝叶斯分析方法。结果如何呢?所有12篇文章都压倒性地指向麦迪逊。实际上,如果使用计算的贝叶斯因子,那么对某几篇文章来说,读者认为是汉密尔顿写的先验胜率可能要大于100000:1才有办法让后验胜率为50:50。
第14章 数学界的莫扎特
在20世纪统计学方法的发展历程中,费歇尔并不是唯一的天才。俄国数学家安德烈?N?柯尔莫哥洛夫(Andrei N. Kolmogorov)(比费歇尔年轻13岁,1987年以85岁高龄过世),在数理统计与概率理论方面留下了很多不朽的成就。他的成就虽然是以费歇尔的一此研究成果为基础的,但柯尔莫哥洛夫的成就在数学深度与细节上都超越了费歇尔。
不过,就像他的成就对科学的贡献非常重要一样,柯尔莫哥洛夫对所有认识他的人也颇具影响力。他的学生艾伯特?N?谢耶夫(Albert N. Shiryaev)在1991年写道:
A?N?柯尔莫哥洛夫属于那种很少数、你一接触就知道他与众不同的人,他很伟大、很杰出,感觉像个奇才。他的一切都和别人不一样:他的一生,他的中学和大学生活,他在数学……气象学、流体力学、历史、语言学、教育学等领域的开创性发现。他的兴趣异常广泛,包括音乐、建筑、诗歌及旅行。他的博学多闻也是罕见的。看上去好像他对任何事都有很高深的见解……。任何人只要和他见过面,只要与他简单交流,便会感觉他是那样的非常寻常。人们感觉到,他是那种具有连续深度心智活动的人。
柯尔莫哥洛夫生于1903年,那年他的母亲正从克里米亚(Crimea)返回家乡,她的家乡在俄国南部托诺西纳(Tunoshna)的乡村,在旅行途中生下了柯尔莫哥洛夫。有一位传记作家很精确地写到:“柯尔莫哥洛夫是个非婚生的儿子。”他的母亲玛丽亚?雅科夫列夫娜?柯尔莫哥洛夫(Mariya Yakovlevna Kolmogorov)在怀孕的后期被其男朋友抛弃,只得回家待产,不料阵痛提早发作,她只好在中途的坦波夫(Tambov)镇下了火车,在那儿生下了小孩。不幸的是,她自己却因难产死于这个陌生的小镇,只有她的初生婴儿回到了故乡托诺西纳。后来是他妈妈的几个未婚姊妹抚养了他,其中的薇拉?雅科夫列夫娜(Vera Yakovlevna),后来变成了他的养母。阿姨们为年轻的安德烈和他同龄的孩子在村子里办了一个小学校。她们甚至在家里印刷了一份小刊物,叫做《春燕》(Spring Swallows),他的第一篇作文就发表在上面。在他5岁的时候,他提出了他的第一个数学发现(也发表在《春燕》上)。他发现最小的k个奇数和和正好等于k的平方。随着他慢慢长大,他常拿一些问题问同学,这些问题与它们的答案也发表在《春燕》上。其中一个问题是这样的:缝一个四孔的钮扣,有多少种缝法?
到了14岁,柯尔莫哥洛夫从百科全书上学到一些高等数学,并且补充了其中没有证明的部分。在念高中的时候,他的一系列永动机的制造计划,考倒了年轻的物理老师。因为计划制定得太精巧了,连老师都不能发现其中的错误(柯尔莫哥洛夫把这些错误很小心地隐藏起来)。后来,他决定提早一年参加毕业考试。于是就正式向老师提出请求,老师要他午饭后回来听消息,然后他就出去散步了。等他回来的时候,学校考试委员会决定不必经过考试就发了证书给他。他后来对谢耶夫表示,这件事是他一生中最令人失望的事情之一,本来他希望迎接智力的挑战。
1920年,年仅17岁的柯尔莫哥洛夫来到莫斯科念大学。他注册读数学第,但到很多别的科系去听课,如冶金学,另外他还参加一个研究俄国历史的专题研讨会。作为研讨会的一部分内容,他报告了他的第一篇等待发表的研究论文,内容是分析15到16世纪时诺夫哥罗德(Novgorod)地区土地占有情况。他的教授批评这篇论文,认为柯尔莫哥洛夫没有提供足够的证据。几年后,有个考古队在该地区探险,证实了柯尔莫哥洛夫的猜测。
作为莫斯科国立大学的学生,他到中学兼职做教员,还参加了许多课外活动。后来他继续在莫斯科大学读数学专业的研究生。数学系要求学生修14门基础课程,而对于每门课程,学生可以选择或是参加期末考试,或是提交一篇具独创性的论文。很少有学生尝试写出一篇以上的论文柯尔莫哥洛夫从没参加过考试,而是写了14篇具独创性的精彩论文。他后来回忆说,“其中一篇的结果其实是错的,但我只是在后来才意识到。”
柯尔莫哥洛夫这位才华横溢的数学家得到西方科学家的赏识,是通过他在德国出版的一系列精彩的文章及一些德文书籍实现的。在20世纪30年代,俄国当局甚至还允许他去参加一些在德国和斯堪的那维亚举行的数学研讨会。不过在第二次世界大战期间以及战后,柯尔莫哥洛夫这个伟大的人物却消失在斯大林的铁幕后面。1938年,他发表了一篇论文,这篇论文建立了平滑和预测平稳随机过程的基本定理(这项研究在本章后部分还将做介绍)。诺伯特?维纳(Norbert Wiener)对于战争的状态给出了一个有趣的评论,维纳当时正在麻省理工学院(Massachusetts Institute of Technology),在战争期间和战后,他致力于将这些方法应用于军事问题。维纳的研究结果被认为对美国的冷战非常重要,以至于被宣布为最高级的机密。但是维纳坚持认为,他的所有研究结果都可以从柯尔莫哥洛夫早期的那篇论文中推导出来。在二次大战期间,柯尔莫哥洛夫忙于研究如何将该理论应用于苏联的战争中。柯尔莫哥洛夫一直谦逊地评价自己的学术成就,他认为这些基本思想应该归功于费歇尔,因为费歇尔在他的遗传学的研究中使用了类似的方法。
柯尔莫哥洛夫其人其事
1953年斯大林去世后,政治上处处怀疑的铁环开始松动。于是柯尔莫哥洛夫这个人又开始露面,参加一些国际学术会议,同时在俄国也组织一些学术会议。国际上的数学界开始认识他。他是一个热心、友善、开明、幽默的人,同时知识渊博,喜爱教学。他那敏锐的大脑对他的所见所疗总是不停地在思考。我手头有一张1963年柯尔莫哥洛夫在第比利斯(Tbilisi)听英国统计学家大卫?肯德尔(David Kendall)讲座时的照片,柯尔莫哥洛夫的眼镜搭在他的鼻尖上,他身体前倾,热切地跟踪讨论。你可以感觉到一种鲜明的个性,感染着坐在他周围的人。
柯尔莫哥洛夫最喜爱的一些活动是给莫斯科的一些有天赋的孩子讲课并组织课堂活动,他非常乐于将孩子们引入到文学和音乐的知识领域。他带孩子们远足和探险,他认为每个孩子都应该有一个“完整个性的宽广而自然的发展空间”。大卫?肯德尔曾写道:“这些孩子将来是不是都成为数学家,这并不是他所关心的。不管孩子们最终从事什么职业,只要他们的远见仍然宽阔,只要他们的好奇心并没有被遏制,他就会感到满意。”
柯尔莫哥洛夫在1942年与安娜?德米特里耶夫那?叶戈罗娃(Anna Dmitrievna Egorova)结婚。他们恩爱美满的婚姻一直延续到他们80多岁。他是一位狂热的徒步旅行和滑雪爱好者,在他70多岁的时候,还带领年轻人远足攀登他所喜欢的山脉,讨论数学、文学、音乐和普通的生活问题。1971年,他加入了一个科学探险队,在德米特里?门捷列夫(Dmitri Mendeleev)科学考察探险船上探索海洋的奥秘。他的同辈不断地对他所感兴趣的事物和他所拥有的知识感到惊奇。在他会见约翰?保罗教皇二世(Pope John Paul Ⅱ)时,他与这个爱好运动的教皇讨论滑雪,并指出,在19世纪,胖的教皇与瘦的教皇交替出现,并且还指出约翰?保罗教皇二世是第264任教皇。看上去他的研究兴趣之一是罗马天主教的历史。他曾经做关于俄国诗歌的统计分析方面的讲座,他还能记住并大段大段地背诵普希金(Pushkin)的诗歌。
1953年,莫斯科国立大学组织了一次大型活动,庆祝柯尔莫哥洛夫的50生日。作为该活动的一位演讲人,该校退休的名誉教授帕维尔?亚历山大德罗夫(Pavel Aleksandrov)曾讲到:
柯尔莫哥洛夫属于这样一类数学家,他们在任何一个领域中的每一项研究都会引领出一种全新的评价。在这些年,我们很难找到一个像他这样的数学家,不但兴趣广泛,而且对数学界深具影响力,……哈代(Hardy,一位著名的英国数学家)认为他是三解级数的专家,而冯?卡曼(von Karman,一位二次大战后的德国物理学家)则认为它是机械学专家。格德尔(G?del,一位数学哲学理论学家)曾说,天才的特质是永远保持着童心。所谓的童心有许多特质,感到兴奋是其中之一。对数学感到兴奋是柯尔莫哥洛夫作为天才的一个印证。除此之外,柯尔莫哥洛夫对事物的兴奋,还展现在他具创造性的研究成果中,在他为《俄国百科大辞典》(Large Soviet Encyclopedia)写的许多文章里,在他所开发的博士项目中。这些都只是他的一个方面,而他的另外一面,则是他专心致志的做事态度。
他这种专心致志的做事态度其结果是什么呢?要列出柯尔莫哥洛夫在数学、物理、生物与哲学领域中有哪些重要贡献,倒不如列出他在这些领域里的哪一方面没有多大贡献,后者比前者容易得多。1941年,他建立了研究湍流的现代数学理论方法。1954年,他在检验行星间的重力交互作用时,发现了一种模拟方法,可用来描述其中的“不可积分”性,这正是百年来数学分析所面临的一个挑战。
柯尔莫哥洛夫在数理统计方面所做的工作
对于统计学的革命,柯尔莫哥洛夫解决了两项最迫切的理论问题。在他去世之前同,他几乎解出了困扰统计方法核心的一个很深奥的数学哲学问题。这两个迫切的问题是:
1. 概率的真正数学基础是什么?
2. 面对像地震过后的余震(或地下核弹试爆)这类长时间搜集上来的数据时,我们可以做些什么?
当柯尔莫哥洛夫开始研究第一个问题时,概率在理论数学家的眼里名声并不太好。这是因为,很多人认为创建于18世纪的计算概率的数学技巧,只不过是比较聪明的计数法而已。(例如,从一副标准的扑克牌中,抽取3组牌,每组5张,可以有多少种发牌法只会让其中一位参与者成为赢家?)这些聪明的计数方法看上去似乎没有一个单一的基础理论结构,好像都是为了满足某项特殊需求而创造出来的特定做法。
对大部分的人来说,有个能解决问题的方法就够了,但对19世纪末、20世纪初的数学家来说这是不够的,他们需要一个坚实而严密的基础理论,以确保得到的这些解中不会有错误。18世纪数学家们所使用的这些特定方法虽然有用,但如果应用错了也会产生很难应付的悖论。因此,20世纪初期数学的主要工作就是把这些特定方法放在一个坚实而严密的数学基础上。亨利?勒贝格(就是让奈曼印象非常深刻的那位很有数学见地的勒贝格,但后来奈曼真的与他见面时,却觉得他粗鲁而没礼貌)的研究工作之所以这么重要,就是因为他把微积分的特殊方法建立在一个坚实的基础上。只要概率理论还停留在17和18世纪那种不完整的阶段,20世纪的数学迷朦就会认为概率理论是一种没多大价值的东西(许多统计方法也会遭此轻视)。
柯尔莫哥洛夫思考了概率计算的本质之后,最后终于发现,求一个事件的概率完全就像求一个不规则形状的面积。他把新产生的数学测试理论应用到概率的计算上。有了这些工具,他就能定出一套公理,再用这些公理建构出整个概率理论。这就是柯尔莫哥洛夫的“概率论的公理化”(axiomization of probability theory),至今仍是学校中讲授概率论时采用的唯一方法。这种方法永久性地解决了有关概率计算有效性的所有问题。
解决了概率理论的问题之后,柯尔莫哥洛夫开始攻关另一个有关统计方法的主要问题(与此同时,他还要教那些天才的儿童,组织研讨会,管理数学系,解决有关机械学与天文学的问题,以及如何让生活过得既充实又精彩)。为了使统计计算变得可行,费歇尔以及其他的统计学们家都假设所有的数据都是独立的。他们把一系列的测量结果看成像是掷骰子得来的。因为骰子没有记忆,不会记得它们上次出现的点数,所以每次新出现的点数都与先前出现的点数完全独立。
大部分数据并不是彼此独立的。费歇尔在《研究工作者的统计方法》一书中所举的第一个例子,是他的新生儿子每周的体重。显然,若小孩在一星期内增加很多体重,下一周的数据当然会反映这种结果;如果小孩此周生了病,体重没有增加,下周的体重数据也会把这个结果反映出来。在现实生活中,一个长时间搜集上来的数据序列很难被认为是真正独立的。
费歇尔在他的《作物收成变动研究》这一著作的第三篇中(也就是H?费尔菲尔德?史密斯教授介绍给我的那篇重量级论文),记录了连续几年的小麦收成量和那几年每日的降雨量。随时间所搜集得来的数据并不是独立的,他通过创建一组很复杂的参数来应对这一难题。他找到了一些有限的解,但这些解所根据的简化假设可能并不成立。费歇尔无法再进一步解决这个问题,也没有人继续从事他这项未完成的研究。
当然,我们说的没有人,是指在柯尔莫哥洛夫出现之前。柯尔莫哥洛夫把随时间搜集得来的前后相联的这一数值序列,称作“随机过程”(stochastic process)。他的许多篇先驱性论文(正好在二次世界大战爆发前发表)为美国的N?维纳、英国的乔治?博克斯(George Box)以及他自己在俄国的学生进行更深入的研究奠定了基础。由于有了柯尔莫哥洛夫的思想,现在我们已经能够对那些随时间搜集上来的纪录时行检查分析,而且可以得出很专门的结论。我们可以利用加州海岸的海浪数据来定位印度洋上的风暴;无线电波望远镜能区分不同来源的无线电波(或许有一天甚至还能接收到其它星球上高等生物发出的信息);我们有可能分辨一组震波纪录究竟是地下核弹试爆引起的,还是天然的地震引起的。在工程学的期刊上,许多文章所采用的方法都是根据柯尔莫哥洛夫对随机过程的研究成果而发展出来的。
现实生活中概率的意义是什么?
在生前的最后几年,柯尔莫哥洛夫攻关一个更困难的问题,这个问题不公是个数学问题,而且还是个哲学问题。到他去世的时候,这个问题还没有完全获得解决。不过,一代数学家已经在认真思考如何接续他的思路进行研究。在我写这本书的时候,这个问题还没有解决。不过,正如我在最后一章将要指出的,如果这个问题一直无法解决,那么对科学来说,统计方法的整个体系就会被它自己的前后不一致所搞垮。
柯尔莫哥洛夫研究的最后一个问题是:在现实生活中,概率的意义是什么?他已经为概率提出了一个令人满意的数学理论。这意味着,概率的所有定理和方法都是内部自身前后一致的。科学的统计模型则跳出了纯数学领域,把这些定理应用在现实问题上。为了做到这一点,柯尔莫哥洛夫为概率理论所提出的抽象数学模型,必须找到与现实生活某些方面的对应关系。实际上已有上百种方法想解决这个问题,每一种方法对概率在现实生活中的意义都提出了不同的解释,但每种方法都受到了批判。这个问题非常重要,因为如何解释统计分析的数学结论的涵义,取决于你如何在这些公理与现实生活中的情况之间找到对应的关系。
在柯尔莫哥洛夫的概率理论的公理化过程中,我们假设存在一个抽象空间,空间里的元素称为“事件”(event)。该空间中事件的集合,可以像我们测量门廊的地板面积或电冰箱的体积一样进行测量。如果对抽象的事件空间的测量满足某些公理,则称该空间为概率空间(probability space)。为了在现实生活中应用概率理论,我们得找到这个事件空间,而且要非常明确具体,这样我们才能实际计算出该空间概率的测试值。当一个实验科学家使用统计模型来分析实验的结果时,这个空间是什么?威廉?西利?戈塞特认为这个空间是实验的所有可能结果的集合,但他无法证明应该怎样计算与该空间有关的概率。除非我们能够确定出柯尔莫哥洛夫的抽象空间,否则由统计分析得到的概率陈述会有很多不同的意义,有些意义还可能互相矛盾。
例如,假设我们进行一项临床实验,以检验一种艾滋病新疗法的功效。假定统计分析显示,旧的疗法和新的疗法之间的功效差异是显著的。那么这是否意味着,医学界可以确信这一新的疗法能治愈下一个艾滋病病人呢?或者是否意味着,这个新疗法对一定百分比的艾滋病病人有效?或者仅仅是表示,只有对实验中经过高度筛选的这群艾滋病病人,新的疗法才会有效?
要找出概率的现实意义,通常可以通过柯尔莫哥洛夫的抽象概率空间给出现实的解释来实现。柯尔莫哥洛夫用的则是另外一种方式。他结合了热力学第二定律、K?皮尔逊的早期研究,以及一些美国数学家为了找出信息的数学理论所进行的研究尝试,还有保罗?利维对大数定律的研究,然后他从1965年开始,陆续撰写了一系列的论文,撇开了有关的公理和他自己对这一数学问题的解,而把概率视为……
1987年10月20日,柯尔莫哥洛夫去世。而在他逝世前最后那几年,他依然活力十足,具有独创性的观念仍源源不绝地涌出——至今仍无人能拣起他留下来的线索。
苏联统计学界的失败
虽然柯尔莫哥洛夫和他的学生在概率和统计的数学理论上有重大的贡献,但苏联从这场统计革命中却获益很少。为什么会如此?这个问题本身就提供了一个案例,说明当一个政府对所有的问题都知道其“正确”答案时,会发生什么后果。
在沙皇统治时代的末期以及俄国大革命开始的这段期间,俄国的统计学界相当活跃。俄国数学家在英国和欧洲发表的论文,被国际学术界广泛知晓。俄国数学家与农业学家的论文常发表在《生物统计》期刊上。具有革命精神的俄国政府设立了一个中央统计局,并且在各个苏维埃共和国里也设置了类似功能的地方统计局。中央统计局进行了一份报导统计学术活动的期刊《统计学通报》(Vestnik statistiki - herald,1994后改名为《统计学研究》,即Voprosy statistiki - statistical studies——译者注),上面有很多英文与德文期刊的论文摘要。在1924年年末,《统计学通报》上发表了一篇论述统计设计如何应用在农业研究上的文章。
随着20世纪30年代斯大林肃反运动的到来,所谓正宗的共产主义理论也渗透到学术界各个领域。在一些所谓的共产主义理论家看来,统计学是社会科学的一个分支。所有的社会科学都应服从于中央计划。随机变量的数学概念是统计方法的核心,但由于随机变量(random variable)译成俄文时,译成了“偶发数量”(accidental magnitude),所以对中央计划者和理论家来说,这种概念显然是一种冒犯。在前苏联,所有的工业与社会活动,都是计划出来的,没有什么事是偶然发生的。偶发数量可能描述资本主义经济中所观察到的事情,但绝不是在俄国。因此,数理统计的应用研究很快就受到压制。在1956年的《数理统计年报》(The Annals of Mathematical Statistics)中,S?S?扎尔科维克(S. S. Zarkovic)写了一篇回顾苏联时期统计发展史的文章,里面就很委婉地讲到:
随后几年,在俄国的统计学发展过程中,政治考虑成为愈来愈显要的因素,这便导致了在统计实践活动中理论应用的逐渐消失。到了20世纪30年代末期,《统计学通报》停止刊登用数学处理统计问题的论文。到了20世纪30年代结束时,这方面的论文完全销声匿迹,而且从此没再出现。这种趋势的结果是,统计学家完全放弃了应用,躲回到大学校园和其他研究机构中,以其他学科的名义从事统计研究。柯尔莫哥洛夫、N?V?斯米尔诺夫(N. V. Smirnov)、V?I?罗曼诺夫斯基(V. I. Romanovsky)以及其他很多人,都正式地离开统计学,变成数学家了。一个很有趣的例子是E?斯卢茨基(E. Slutsky),他本来是世界知名的计量经济学大师,结果连他也放弃统计学,改行去做天文学研究……。依照官方的观点,统计学变成了为政府制定国家经济计划的工具,当然它是一种社会科学,或换句话说,是一种阶级科学。其中的大数定律、随机离差思想,以及其它任何属于统计学的数学理论,都被当成是错误通论的构成元素,而遭到清除。
不只是官方的观点制约了统计学的发展。斯大林依赖一个大言不惭的生物学业家特罗菲姆?D?李森科(Trofim D. Lysenko),他拒绝接受遗传学的基因理论,声称动植物的遗传特征可以由环境来塑,毋需藉由遗传。那些想遵行费歇尔的成果以数学方式研究遗传学的生物学家都受到排斥,有些甚至入狱。当教条的理论降临苏联统计学界时,由中央统计局和它的下属统计局报出来的数据,也越来越受质疑。在中央计划之下,乌克兰与白俄罗斯共和国的肥沃农田,都变成泥泞的荒地,一大堆粗制滥造的机械成品根本不好用,支离厂矿的消费品由工厂流出来,也根本派不上用场。苏联甚至连填饱老百姓的肚皮都存在困难。唯一有效进行的经济活动是黑市交易。然而,中央政府依然捏造出虚假、乐观的统计数字,真实的经济活动水平被许许多多的经济增长率的比率指标所掩饰了。
此时,一些美国数学家,像诺伯特?维纳,则开始利用柯尔莫哥洛夫和亚力山大?亚?赫因强(Alexander Ya Khintchine)所提出的随机过程定理,强化美国的国防事务,而美国国家标准局的沃尔特?休哈特(Walter Shewhart)与其他人,则向美国工业界展示如何运用统计方法来控制产品投师。此外,美国、欧洲及一些亚洲地区的农场,作物的产量都在飞速提高。相反,苏联的工厂仍在生产一些没有用的东西,他们的农业依然无法解决人民的温饱问题。
直到20世纪50年代,尼基塔?赫鲁晓夫(Nikita Khrushchev)开始掌权,官方理论的控制开始放松,开始尝试把统计方法应用在工业与农业上。不过,官方的“统计”仍然是充满了假的数字与精心制作的模糊内容,而尽全力试图出版的应用统计学期刊,结果也只是不定期地出了几期而已。一直到20世纪90年代末期,苏联政府与它的中央计划经济制度完全解体,俄罗斯工业界才有机会大量采用现代统计模型。
也许这件事给大家都上了宝贵的一课。
第15章 “小人物”之见解
弗洛伦斯?南丁格尔(florence Nightingale)是英国维多利亚时期的传奇人物。与她打交道的国会议员和军事效仿视她为一个令人头疼的人物。一般人只把她看作是护士这个行业的创始人,一个温文尔雅、具有自我牺牲精神照料病人的护士。其实,是个很有使命感的女人,同时她也是一位自修成功的统计学家。
南丁格尔的一个使命是,强迫英国军方在战地开设医院,为战场上的士兵提供护理与医疗照顾。为了支持她自己的主张,她曾埋头于研究堆积如山的军事档案。后来,她带着一系列令人瞩目的资料与图表出现在皇家委员会面前。在这些资料和图表中,她指出在克里米亚战役(Crimean War)期间,英军死亡的主要原因是在战场外染上疾病,以及战场上受伤之后没有得到及时的照料所致。为了展示她的相关数据与资料,她还发明了饼图(pid chart)。和这些愚钝而又不学无术的军事将领打交道,南丁格尔感到很疲惫,于是她就会躲到艾文顿(Ivington)小村去住上一段时间,在那里,她总是会得到她的好朋友大卫一家人的欢迎。当年轻的大卫夫妇喜获千金时,还用她的名字为女儿命名,取名叫弗洛伦斯?南丁格尔?大卫(Florence Nightingale David)。南丁格尔的充沛精力和创造精神似乎也传给了这位同名的女孩(她一生以F?N?大卫的名字出版了10本书,在科学期刊上发表了一百多篇论文)。F?N?大卫在1909年出生,5岁的时候,第一次世界大战的爆发中断了她受教育的正常进程。由于住在偏僻的小乡村,大卫一开始接受的教育是当地牧师办的私人学堂。这位牧师对这个小弗洛伦斯?南丁格尔?大卫的教育有一些奇特的想法。他注意到这个小女孩已经学过一些自述知识,因此就开始教她代数。他发觉她已经学过英文,因此就开始教她拉丁文和希腊文。到她10岁的时候,大卫才转到普通学校接受教育。
到了大卫该上学的年龄时,听到大卫想要读伦敦的大学学院(University College,London),她的母亲大吃一惊。这个大学学院是英国哲学家杰里米?边沁(Jeremy Bentham)创办的(边沁的遗体经过弄干保存,如今还穿着正式的衣服展示在学院的回廊上)。这个学校是为“野孩子、异教徒,及不愿信奉三十九条教规(即英国国教基本教义——译者注)的人”而设立的,因为在该校创办之前,进入英国所有大学的教师和学生都必须信奉英国国教。就在大卫准备进大学的时候,大学学院还是不信奉英国国教的新教徒的温床。“那时,母亲对我要到伦敦大学学院念书……总觉得不光彩、不正当,诸如此类。”因此,她最后进了伦敦的贝德福德女子学院(Bedford College)。
很久以后在一场录音谈话里,她对哈佛公共卫生学院的纳恩?莱尔德(Nan Laird)教授透露,“我非常不喜欢贝德福德学院,但我倒是很喜欢每晚到剧院看戏。如果你是学生,你就可以花6便士到维多利亚剧院看一场戏……我当时过得非常快乐。”她接着说,在学校里,“有3年时间我只学数学,其它什么都没学,但我很不喜欢这样。我甚至不太喜欢学校里的人,可能当时我很叛逆吧。不过我并不怀念那段大学岁月。”
她在学校里学了这么多的数学,毕业之后能用来干什么呢?她想当个保险精算师,但当时这个行业只招男性。有人建议她去找大学学院中一位叫K?皮尔逊的教员,该教员研究的事情可能与精算或此类事情有关。于是她就来到大学学院,“我直接就去找了K?皮尔逊。”皮尔逊挺喜欢她,给她一笔奖学金让她继续学业,并且做他的研究生。
为K?皮尔逊工作
在为K?皮尔逊工作期间,大卫做的主要事情是计算一些复杂和困难的多重积分问题,以及计算相关系数的分布。这项工作使她写出了她的第一本著作《相关系数表》(Tables of the Correlation Coefficient),这本书最终在1938年正式出版。在那些年里,刀子所有的计算工作都是靠一架名为“布伦斯维加”(Brunsviga)的手摇式曲柄计算机完成的。“我估计我大概摇了那架计算机两百万次……我常常碰到机器卡住这种倒霉的事,在我学会使用长针(来解决机器卡住)之前……这个机器一卡住,你只好跑去告诉教授,于是他就会数落你一顿,非常令人懊恼。所以有很多次,机器一卡住我就悄悄溜回家,没告诉他。”虽然她很钦佩皮尔逊,而且在他晚年大半的时间都陪着他,但在20世纪30年代的早期,大卫还是相当怕皮尔逊的。
大卫也是个很大胆的女孩子,常骑着摩托车参加越野赛。
有一次我撞上了一堵16英尺的高墙,墙头上还有玻璃。我被抛向半空中,伤到了膝盖。有一天我在办公室,心情沮丧,此时正好威廉?S?戈塞特进来。他说,“你以后最后改玩钓鱼吧。”因为他自己是个钓鱼的高手。他邀请我到他家中。在他亨敦(Henden)的家中有他、他的太太和几个孩子。他教我钓鱼,待我很亲切。
当J?奈曼与埃贡?皮尔逊开始形容费歇尔的似然函数时,大卫也在该大学学院,老皮尔逊认为埃贡研究的东西毫无意义,因此相当不悦。埃贡怕苦恼老爸,所以没有把他们第一份研究论文交给他父亲的期刊《生物统计》发表,反而与奈曼一起筹创另一份期刊《统计研究纪事》(Statistical Reserch Memoirs),共经营了两年(F?N?大卫在上面发表了好几篇论文)。后来K?皮尔逊退休,埃贡接替他的父亲担任《生物统计》的主编,这时才把自己办的期刊停掉。
当这个“老家伙”(当时大家都这么称呼K?皮尔逊)被自己的儿子和费歇尔取代时,大卫当时也在。当年轻的J?奈曼刚开始做统计研究时,大卫就在那里。她回忆说,“我认为,20世纪20年代至1940年间是统计学界生机勃发的时候,而我则从一个小人物的视角见识到了各路统计精英。”
大卫称K?皮尔逊是个绝对的演说家。“他讲得太棒了,你只能静静地坐在那儿,沉浸在他的演说中。”他对学生提问题打断他的讲话很耐心和宽容,即使有人指出他的错误也不要紧,他会很快纠正错误,然后继续讲下去。但另一方面,她觉得听费歇尔的演讲“是一件可怕的事,我什么都听不懂。我很想问他问题,但是当我真的提出问题时,他一看我是个女生就不屑回答我。”因此,她就坐在一个从美国来的男同学旁边,一有问题就推他的手臂说,“问他!问他!”“每次听完费歇尔的演讲,我总要上图书馆呆上三五个小时,想弄清楚到底费歇尔讲了些什么。”
1933年,K?皮尔逊退休,F?N?大卫继续跟他做研究,成了他唯一的研究助理。大卫写道:
K?皮尔逊是个非同寻常的人。他已经70多岁了,但还整天工作,研究某些问题,有时候甚至会到早上6点才离开学校。有一次,当他正准备回家而我也正准备回家时,他对我说,“今晚你可以把椭圆积分的部分看一看,明天我们要用。”我当晚其实正准备和男朋友到切尔西(Chelsea)艺术厅参加舞会,但没有勇气告诉他。因此我还是和男朋友去跳舞,到了凌晨四五点才回到家,洗个澡之后就赶到学校去,看相关的资料做好准备,等皮尔逊9点左右到学校来。人年轻的时候总是好做傻事。
在K?皮尔逊去世前的几个月,F?N?大卫回到了生物统计实验室与奈曼一起工作。当奈曼得知她还没有取得博士学位时,感到非常吃惊。在奈曼的催促之下,她把最后发表的4篇论文整理出来,提交出去当作博士论文。后来有人问她,在得到博士学位之后,你的地位有没有什么改变?她回答,“没有任何改变,我只是付了20英镑的入门费。”
回忆以往的那些日子时,她说,“我总以为他们让我加入,是为了使奈曼先生保持安静,但那段时间还是非常喧闹的。当时费歇尔在楼上,时常大声发表意见,奈曼在一边,而K?皮尔逊在另一边,此外戈塞特每隔一周也会来一次。”其实她对这些年的回忆过于谦虚了,而她自己也绝不是她所说的那种配角,“加入是为了让奈曼先生保持安静”。她所发表的统计学论文,不论是在理论上还是在实践上,在很多领域中都大大提升了统计学的水平(其中有一篇更是非常重要,是她与奈曼联名写的,论述20世纪早期俄国数学家A?A?马尔可夫(A. A. Markov)的某个定理的广义定理。在我的书架上,几乎每一学派统计理论的书上,都会把F?N?大卫的论文当参考文献,可见她研究范围的广泛。
关于战争的研究
当第二次世界大战在1939年爆发时,大卫在国家安全部做研究工作,试图预测炸弹落在像伦敦这种人口中心时会有什么后果。预测的内容包括伤亡人数、炸弹对电力系统、饮水与污水管线系统的影响以及其它可能产生的问题,这些问题均可由她建立的统计模型估计出来。结果是,在1940年和1941年间英国对于德军向伦敦发动的闪电战,均做好了相关的准备,在及时抢救伤员的同时,还能维护主要的公共设施运转。
在战争快结束时,情况正如她所写的:
我坐着其中一架美国轰炸机,飞到安德鲁空军基地。我此行的主要目的是看看他们所造的第一批大型数码电脑……它就像个半圆筒形的活动式营房,长约100码,全部都是高架木板,你甚至可以在上面跑步。在两侧,大概每隔几英尺就有两个会眨眼的怪物,而天花板上除了保险丝什么都没有。每隔30秒左右维修人员就沿着木板巡视一遍,主要是抬头察看天花板上的保险丝……我回到英国以后,把看到的东西告诉一些人……他们则建议,“你最好是坐下来学习电脑编程语言。”我就说,“鬼才听你的!如果我这么做,我这辈子就只能做这个了,我不学,让别人去学吧!”
E?皮尔逊不像他爸爸那样喜欢权威式管理,他创造了一个新的惯例,就是系里的教授轮流当生物统计系的系主任。在轮到F?N?大卫当系主任的时候,她正好开始写《组合机遇》(Combinatorial Chance),这本书后来成为一本经典的作品。该书详细地解释了复杂的计数法,也就是我们熟知的“组合数学”(combinatorics)。书中把原本极为复杂的观念,用简单通俗的方式陈述出来,从而使这些观念容易理解得多。当有人问起她这本书时,她回答:
在我一生当中老是陷入同样的困扰。我先是开始于一些事情,接着就会感到厌烦。我很早就有组合数学的想法,而且更早就开始这方面的研究,甚至在我认识巴顿(D. E. Barton,她的书的合作者,后来成为大学学院计算机科学系的教授)或给巴顿当老师之前……但我还是请他来跟我共同写这本书,因为我设想的事情也该了断了。因此我们一起写,他做了很好很深入的工作。他是个很不错的人,我们还一起写了许多论文。
她最后到了美国,成为加州大学伯克利分校的教授,还继奈曼之后,成为生物统计学系的系主任。1970年,她离开伯克利到加州大学的河滨(Riverside)分校创办统计学系,并担任系主任。她在1977年68岁的时候“退休”,成为伯克利生物统计系很活跃的荣誉教授和研究人员。本章好多处引文出自于1988年对她的采访。她于1995年过世。
1962年,F?N?大卫出版了一本书,书名为《赛局、上帝与赌博》(Games,Gods,and Gambling)。下面是她就为何写作该书所做的描述:
我年轻的时候学过希腊文……当时我有个从事考古研究的同事,当他一天到晚忙着在某个沙漠里东挖西掘的时候,我觉得自己也对考古学开始感兴趣了。不管怎么样,他曾对我说,“我在沙漠里走来走去,在地图上标示出可能有考古碎片的地方。凭这个地图我就知道应该在什么地方挖掘可能找到各种餐具的碎片。”考古学家对金银不感兴趣,只喜欢一些瓶瓶罐罐。我把他的地图拿来,仔细思考之后,发现这和我研究的德国V型轰炸机的问题很像。伦敦在这里,轰炸机的落点在另一个地方,而你想知道的是轰炸机的发射地点,这样你就可以假设一个双变量(bivariate)的正态平面,然后预测出几个主轴。这就是我由碎片图得到的灵感。问题与问题之间似乎有某种共通性,很奇妙吧?而且总共可以归纳成大约6种不同的类型。
弗洛伦斯?南丁格尔?大卫对所有这些类型的问题都有著述,做出过相当大的贡献。
第16章 非参数方法
在20世纪40年代,美国氰胺公司的化学家弗兰克?威尔科克森(Frank Wilcoxon)深为一个统计问题所困扰。针对不同化学处理的结果,他采用“学生 ”t检验和费歇尔的方差分析做假设检验,,进行比较。这是当时分析实验数据的标准方法,统计革命已经深入到了科学实验室,有关解释这些假设检验所用统计图表的书,已经摆到了每位科学家的书架上。但是威尔科克森所关心的,是这些方法常常表现为失效的情形。
他进行了一系列的实验,在他看来,这些实验中不同处理的结果显然是并不相同的。但是,有时候t检验显示了统计上的显著性,而有时候却没有。当进行一项化学实验时,常常碰到,在实验程序之初反应发生器(即化学反应进行的地方)并未充分预热,也会碰到某种特殊酶的反应力开始发生变化,结果使得实验结果似乎有误,常常是某个数据要么过大,要么过小。有时可以找到产生异常结果的原因,而有时虽然结果是一个异常值(outlier),显著地不同于其它结果,但又找不到明确的原因。
威尔科克森考察了t检验和方差分析的计算公式,意识到这些极端的异常值显著地影响了结果,导致“学生”t检验统计量的数值比正常情形下的数值更小(一般而言,大的t检验统计量对应着小的P值)。这诱使他从观测值的集合中剔除异常值,用剩下的观测值计算t检验统计。这样一来,假设检验中的数学推导便出了问题。化学家如何才能知道一个数到底是不是异常值呢?必须剔除多少个异常值呢?当异常值被剔除之后,化学家还能继续使用那些基于标准检验统计量的概率图表吗?
弗兰克?威尔科克森着手搜集有关的文献,他确信那些发明统计方法的伟大数学家们早已注意到了这一问题。然而,他没有发现相关的参考文献。威尔科克森认为他找到了一个解决该问题的思路,但这一思路计算非常繁琐,要用到观测数据的组合与排列(前一章已经提到了F?N?大卫的组合数学)。于是,他便着手寻找计算那些组合数的方法。
唉,这实在是太荒唐了!为什么要由一个像威尔科克森那样的化学家去研究这些简单而繁琐的计算方法呢?统计学界早应有人完成了这一工作!他于是又回到统计学文献中去找以前的论文,但他还是没有找到这种论文。他便寄了一篇论文给《生物统计学》(Biometrics)杂志(不要与K?皮尔逊的《生物统计》(Biometrika)混淆),主要是想验证一下自己的数学方法。他并没有想过自己的研究会是一个原创性的工作,还想着审稿人一定知道文中内容早已在哪儿发表过了,从而拒绝他的论文,这样一来,也就等于审稿人告诉了他所需要的那些参考资料。然而,就审稿人和编辑们所知,这是一个原创性的研究,以前没有人思考过这一问题,他的论文在1945年发表了。
威尔科克森和《生物统计学》的编辑们都不知道,一个名叫亨利?B?曼(Henry B. Mann)的经济学家和俄亥俄州立大学(Ohio State University)一个名叫D?兰塞姆?惠特尼(D. Ransom Whitney)的统计学研究生都在研究一个相关的问题。他们正试图给统计分布排序,这样一来人们便可以认为,在某种意义上,1940年的工资分布“小于”1944年的工资分布。他们找到了一种排序方法,但要用到一系列简单而繁琐的计数方法。
这促使曼和惠特尼设计了一个检验统计量,该统计量的分布也能用组合数学计算出来,与威尔科克森的计算类型一样。他们在1947年发表了一篇论文,介绍这种新方法,这已经比威尔科克森发表的论文晚了两年。很快便发现,威尔科克森检验(Wilcoxon test)和曼-惠特尼检验(Mann-Whitney test)密切相关,产生同样大小的P值。但是,这两个检验统计量引出了一些新的东西。直到威尔科克森发表之时,统计学界普遍认为,所有检验统计量都是建立在数据分布的参数估计基础上的。但是新的方法是一种无需估计任何参数的检验方法,仅需要将观测数据的散点图与纯随机分布所预期的情形进行比较,这属于一种非参数检验(nonparametric test )。
由此,统计学在K?皮尔逊一些初步的想法之上迈出了革命性的一步,现在无需使用参数就可以处理数据分布的问题了。在西方,多数人都不知道,其实在20世纪30年代后期,苏联的安德烈?柯尔莫哥洛夫和他的一个学生N?V?斯米尔诺夫(N. V. Smirnov)就发展出了一种不同的无需使用参数的分布比较方法。威尔科克森、曼和惠特尼的研究发展了数学研究的一个新领域,将注意力引致了有序秩(ordered ranks)的根本性质上,斯米尔诺夫-柯尔莫哥洛夫的研究成果也很快被纳入其中了。
进一步的发展
一旦在数学研究中出现了一个新的领域,就会有人用不同的方法去思考。在威尔科克森最初的研究后,很快就涌出了许多不同的替代方法。赫尔曼?谢诺弗(Herman Chemoff)和I?理查德?萨维奇(I. Richard Savage)发现,威尔科克森检验可以看作是次序统计量(ordered statistics)的期望均值,他们还能将非参数检验扩展为关于不同基础分布(different underlying distribution)的一系列检验,都不需要进行参数估计。到了20世纪60年代早期,这类检验(现在被称为“非参数检验”(distribution-free tests)成了最热门的研究课题。一些博士研究生选择该理论中的某些小问题来做学位论文,一些会议专门讨论这种新的理论。威尔科克森也继续进行该领域的研究,提出了组合计算的更为精巧的算法,扩展了检验的应用范围。
1971年,捷克斯洛伐克的雅罗斯拉夫?哈耶克(Jaroslav Hájek)写了一本权威的教科书,书中提出了该领域的一般性理论。他针对所有的非参数检验作了根本性的一般化,将一般化的方法与中心极限定理(the central limit theorem)的林德伯格-利维条件(Lindeberg-Lévy conditions)联系起来了。这正是数学研究中常用的方法。从某种意义上说,所有的数学实际上都是相互联系的,但是这些联系的准确性质和用于挖掘这些联系的见识,常常需要很漫长的时间才能显现。哈耶克于1974年去世,年仅48岁。
当弗兰克?威尔科克森试图将其在统计上的研究成果推广应用时,他放弃了最初的化学领域,而是在美国氰氨公司及其勒德勒实验分室(Lederle Labs divison)建立了一个统计服务小组。1960年,他来到了弗罗里达州立大学(Florida State University)的统计系,成为一名倍受尊敬的老师和研究人员,指导了几名博士研究生。当他在1965年去世后,身后的学生和统计创新方法,仍然对统计学产生着重大的影响。
尚未解决的问题
非参数检验的发展促使人们在这一新领域进行了大量的研究。然而,在以前所用的参数方法与非参数方法之间,好像并没有什么明显的联系,因而还有两个问题尚未解决:
1. 若数据具有一个已知的参数分布,如正态分布,这种情况下我们采用非参数分析方法会有多不好?
2. 若数据不太适合采用参数模型(parametric model),那么数据必须偏离参数模型多远时,使用非参数方法才会更优?
1948年,《数理统计学年报》的编辑收到了一篇来自塔斯马尼亚大学(the University of Tasmania)的一位不出名的数学教授的论文,这所学校位于澳大利亚南部的海滨小岛上。这篇杰出的论文一举解决了上述两大难题。那时,埃得温?詹姆斯?乔治?皮特曼(Edwin James George Pitman)已经在《皇家统计学期刊》上发表了3篇早期的论文,在《剑桥哲学学会会刊》(the Proceedings of Cambridge Philosophical Society)上发表了一篇论文,回过头去看,后一篇论文奠定了他后续研究的基础,但是它被人们忽略或是遗忘了。除了那4篇论文,在向《数据统计学年报》投稿时,已经52岁的皮特曼没有发表过其它的著作,也没什么名气。
E?J?G?皮特曼于1897年生于澳大利亚的墨尔本。他考入墨尔本大学(the University of Melbourne)念本科后,由于第一读世界大战而中断了学业,服了两年兵役后,他回到学校念完了本科。“那时,”他后来写道:“澳大利亚的大学没有数学方面的研究生院。”一些大学为优秀学生提供奖学金,到英国继续上研究生,但是墨尔本大学没有。“当我学习4年后离开墨尔本大学时,我尚未接受过研究方面的训练,但是我想我已经学会该怎么去学习和使用数学,可以去就应付所碰到的任何问题……”然而,首要的问题是要赚钱来养活自己。
塔斯马尼亚大学正要找人教数学,皮特曼去应聘而成为了一名数学教授。整个系就两个人,一位新来的教授和一位兼职计量。该系要为所有其它系的本科生上数学课,因此新教授忙着讲课,占去了几乎所有的时间。当理事会决定招聘一位全职的数学教授时,一位理事曾听说过数学有一悠闲的的分支叫做统计学,因此问应聘者是否准备讲统计学的课程(不管统计学到底是什么东西)。
皮特曼回答:“我并不能说我具备统计学的专业理论知识,但是如果被聘用,我将稍做准备,在1927年开出这门课。”他不具备统计的专业知识,也不具备统计理论的任何其它相关知识。在墨尔本大学,他学地一门高级逻辑学的课程,老师用了几次课来介绍统计学。正如皮特曼所指出的,“当时,也就是在那里,我认定统计学并不是我所感兴趣的东西,也永远不会为它而苦恼。”
年轻的E?J?G?皮特曼在1926年秋天来到了塔斯马尼亚州的霍巴特(Hobart),只不过是一个本科生而已,却顶着教授的头衔。这是一个偏远的省级学校,根本感受不到身处伦敦和剑桥那种学术圈内的骚动。他写道,“直到1936年我没有发表过任何东西。之所以迟迟没有东西发表,主要有两个原因:一个是工作负担繁重,另一个是我所受教育背景的限制。”他的意思是说,他在数学研究方法上的训练不够。
到了1948年,当他将那篇非凡的论文投到《数理统计学年报》的时候,塔斯马尼亚大学数学系队伍有所壮大,已有一位教授(皮特曼)、一位副教授、、两位计量和两名助教。他们所开的数学课名目众多,既有应用数学方面的,也有理论数学方面的。皮特曼每周上12次课,周六也上课,同时获得了一些研究资助。从1936年开始,联邦政府为了促进澳大利亚高校的科学研究,每年拨出30000英镑进行资助。这些经费按人口在各州分配,因为塔斯马尼亚是一个较小的州,因此全校每年总共能得到2400英镑的资助。至于皮特曼能分到多少,他没有说。
慢慢地,皮特曼开展了多方面的研究,他发表的第一篇论文是关于流体力学中的一个问题。随后的3篇论文研究假设检验理论中几个特别的问题,这些论文本身倒并不怎么值得称道,但却是皮特曼的习作,探讨如何来发展自己的观点,怎样将数学的不同分支想到联系起来。
直到他开始撰写1948年那篇论文,皮特曼才建立起有关统计假设检验的性质以及过去的检验(参数方法)与新的检验(非参数方面)之间相互关系的一个清晰的逻辑框架。凭借着新方法,他解决了上述两大难题。
他的发现令人惊讶,甚至当原来的假设为真时,非参数检验也几乎与参数检验一样的棒。皮特曼成功地回答了第一个问题:当我们知道参数模型和本应使用特定的参数检验时,如果还使用非参数检验,结果会有多差呢?皮特曼的答案时,根本不差。
第二个问题的答案更让人吃惊。如果数据不适合用参数模型,得差多远时使用非参数检验才会更好呢?皮特曼的计算表明,只需稍稍偏离参数模型,则非参数检验将远远地胜过参数检验。看起来,曾经深信别人早已做出了这个简单发现的化学家弗兰克?威尔科克森,似乎也是在无意中碰到了统计学中一块真正的点金石(philosopher’s stone)。皮特曼的结论表明,所有的假设检验都应该是非参数方法的。K?皮尔逊发现了带参数的统计分布,这仅仅是第一步,现在,统计学家们在解决统计分布的问题时,无需再为参数而烦恼了。
数学这东西往往是玄而又玄。在那些看似简单的方法背后,威尔科克森、曼、惠特尼和皮特曼对数据的分布作了一系列的假设,要理解这些假设或许又得花上一个25年的时间。第一个烦人的问题是由芝加哥大学(the University of Chicago)的R?R?巴哈杜尔(R. R. Bahadur)和L?J?萨维奇(L. J. (“Jimmie”) Savage)在1956年提出来的。几年前,当我将巴哈杜尔和萨维奇的论文给我的一位来自印度的朋友看时,他拿他们两人的名字匹配当戏谑,“Bahadur”一词在印度语是“勇士”(warrior)的意思,率先质疑非参数统计检验理论的是一名勇士和一个野蛮人(savage)。
巴哈杜尔和萨维奇所提出的那些问题实际上也正是源于异常值的问题,威尔科克森正是由该问题而首次提出了非参数检验方法。如果异常值极少,并且是完全“错误”的观测值,那么非参数方法将降低它们在统计分析中的影响。但是如果异常值系统性地污染了数据,采用非参数方法可能只会使分析更糟糕。我们将在第23章讨论有瑕疵数据分布(contaminated ditributions)的问题。
第17章 当部分优于总体时
在K?皮尔逊看来,概率分布是可以通过收集有关数据来验证的。他认为,若收集足够多的数据,那么可以用来代表总体的相关数据。《生物统计》杂志的记者们从古墓中搜集到了数以百计的颅骨,灌入颗粒状物以测定颅腔的容量大小,然后将得到的几百个数据送给K?皮尔逊。一名工作人员还深入中美洲的丛林中,测量了成百上千个当地土著居民的胳膊长度,这些数据也送到了K?皮尔逊的生物统计实验室。
然而,K?皮尔逊所使用的方法存在一个根本性的缺陷。他获得的数据现在被称为“便利样本”(opportunity sample),都属于那些最容易得到的数据,并不能真正代表总体分布。他们测定的颅腔大小,都只是来自那些碰巧被他们发现而打开了墓穴,那些没有被发现的可能会与之大相径庭。
20世纪30年代的早期,印度发现了一个便利抽样的典型案例。大包大包的黄麻堆到了孟买(Bombay)的码头上,准备装船运往英国。为了估计黄麻的价值,便从每包中抽取一些,黄麻的质量就由样本来确定。抽样是将一把中空的圆形刀片插入包中,再拔出来,刀片中央的空处便带出了少量的黄麻。在包装和上船过程中,外层的黄麻开始变质,而里面的被压得越来越紧,冬天的时候常常冻得结得一块。取样员将空心刀片插入包中时,由于中央更硬而发生偏离,所取的样品更多的是外层已经变质的黄麻。这种使得样本就会产生偏差,样本的质量偏低,实际上整包黄麻的质量要高出许多。
加尔各答市(Calcutta)总统学院物理系的普拉桑塔?钱德拉?马哈拉诺比斯(Prasanta Chandra Mahalanobis)教授经常引用这个例子(这是他在铁道公司工作时发现的,该公司将黄麻运往码头),说明为什么使得样本不可信。马哈拉诺比斯生于一个富裕的商人家庭,因此能够供他上本科和研究生,并且选择学习自己感兴趣的科学和数学。20世纪20年代,他来到了英国,师从K?皮尔逊和费歇尔。他的同学如F?N?大卫只能靠奖学金生活,他却能一边上学,一边过着大地主般的生活。回国后,他担任了总统学院物理系的系主任。接着不久,他又在1931年用自己的钱,在自家的一处房产中建立了印度统计研究所(Indian Statistical Institute)。
在印度统计研究所,他培养出了一批卓越的统计学家和数学家,其中不少都在这一领域做出了重要的贡献,如S?N?罗伊(S. N. Roy)、C?R?拉奥(C. R. Rao)、R?C?博斯(R. C. Bose)、P?K?森(R. K. Sen)和马丹?普里(Madan Puri),等等。马哈拉诺比斯的研究兴趣之一在于如何生成一个合适的、有代表性的样本数据。很明显,在许多情况下,几乎不可能得到一个总体的所有数据。例如,印度的人口是如此庞大,多少年来也没有人试图在一天之内搞一次全国性的普查,而这样的人口普查在美国曾经开展过。与此不同,印度的人口普查是在一年内完成的,全国不同地区分别在不同的月份开展。这样一来,印度的人口普查数据就不可能精确,在普查过程中会有出生和死亡、人口迁移,人口的自然状况也会发生变化。因此,没有人能确切地知道在特定的一天印度到底有多少人口 。
马哈拉诺比斯推断,如果能够收集到一个具有充分代表性的小样本,那么可以用它来估计总体的特征。在这一点上,我们有两种可能的方法:一是构造所谓的“判断样本”(judgment sample)。在判断样本中,所有关于总体的信息都被用来选择一个小的个体集合。这些个体分别代表总体的不同部分。有关多少人在看某一电视节目的尼尔森收视率排行榜(the Nielsen ratings),就是依据判断样本来排定的,尼尔森媒体研究所(Nielsen Media Research)根据社会经济状况和生活地区的差异,选择不同的家庭作为样本。
初看起来,判断样本似乎是获得大总体的代表性样本的好方法,但它有两个主要缺点。第一个是只有当我们确信对大总体具有充分的了解,可以将总体划分为能用一些个体来代表的几个子总体(specific subclasses)时,判断样本才具有代表性。既然我们希望通过样本来了解的问题,正是据以将大总体划分为几个匀质组(homogeneous groups)的依据,如果我们对大总体已经了解得这么清楚,可能就无需再进行抽样了。第二个问题更加麻烦,如果判断样本的估计结果是错的,我们无法知道该结果与真值到底相关多少。2000年夏天,有人就批评尼尔森媒体研究所抽取的样本中西班牙裔家庭太少,因而低估了西班牙语电视的观众人数。
马哈拉诺比斯的解决办法是采用随机样本(random sample)。我们采用随机原则从大总体中抽取个体,由随机样本得到的数据很可能会错,但是我们可以用数理统计学的理论确定该如何最优地抽取样本并测定数值,以确保长期来看我们的数据将比其它数据更接近真值。并且,我们知道随机抽样概率分布的数学形式,可以计算总体那些待估参数的置信区间。
可见,随机样本要优于使得样本或者是判断样本,当然,这并不是因为它会保证得到正确的结果,而是因为我们可以计算一个数值区间,以较高的概率保证真值落入这一区间内。
新政与抽样
抽样的数学理论在20世纪30年代得到了迅速发展,其中一部分应归功于由马哈拉诺比斯领导下的印度统计研究所;一部分应归功于20世纪30年代后期奈曼发表的两篇论文;还有一部分应归功于一群年轻而富有朝气的大学毕业生,他们在美国实施新政的早期汇集于华盛顿。正是在这群在联邦政府商务部和劳工部任职的年轻人,热心于新政,提出了关于如何从总体中抽取样本的许多实际问题,并成功地解决了这些问题。
在1932年到1939年间,拿到学士学位的青年男女在跨出大学校门时,很难找到工作。这一切都是经济大萧条所造成的。在纽约州扬克斯市(Yonkers)长大的玛格丽特?马丁(Margaret Martin),毕业于巴纳德学院(Bamard College),后来成为美国预算局(the U. S. Bureau of the Budget)的一名官员,他写道:
当我在1933年6月毕业时,根据找不到工作……我的一个朋友比我晚一年毕业,找到了一个工作,在B?奥特曼百货公司(B. Altman department store)当售货员,一周工作48小时,可赚15美元,对此她已经感到非常庆幸了。即使是那样的工作,也很难找到。巴纳德学院有一位负责就业指导的工作人员,也就是弗洛伦斯?多蒂(Florence Doty)小姐,我跑到她那儿咨询有关去一年叫凯瑟琳?吉布斯(Katherine Gibbs)的秘书学校受训的可能性,我不知道从哪儿能弄到这笔钱,但是我想在那儿学到一技之长来养活自己。多蒂小姐……是一个不太好相处的人,许多同学都对她敬而远之……她只回答了我几句,“我绝不造成你去学秘书课程,如果你去学了打字,并且让别人知道你会打字,那你以后就再也不能干别的了,只能打字……你应该去找一个专业性的职位。”
最后,马丁在奥尔巴尼(Albany)找到了第一份工作,成了纽约州失业安置局(the New York State Division of Placement and Unemployment)研究与统计办公室(the office of research and statistics)的一名初级经济师,这个工作成了她上研究生的一块跳板。
一些刚刚毕业的年轻 人直接进了华盛顿的政府机构。莫里斯?汉森(Morris Hanson)于1933年从怀俄明大学(the University of Wyoming)经济学本科毕业,去了普查局(the Census Bureau)。他凭着本科时学的一些数学和匆匆读过的奈曼的几篇论文,着手设计全国第一次失业普查。内森?曼特尔(Nathan Mantel)从纽约城市学院(City College of New York)生物专业毕业,去了国家癌症研究所(the National Cancer Institute)。杰尔姆?科恩菲尔德(Jerome Cornfield)毕业于纽约城市学院的历史专业,进入劳工部(the Department of Labor)担任一名分析师。
那段时间,在政府工作倒是激动人心的,举国萧条,大部分正常的经济活动都停滞不前,可说是百废待举,华盛顿的新政府为此绞尽了脑汁。他们首先必须做的就是去了解整个国家到底已经糟糕到了什么程度,于是便着手对就业与经济活动开展各种调查。像这样试图准确地去判断这个国家到底是怎么了,在美国的历史上这还是第一次。很显然,这正是抽样调查发挥用武之地的时候。
这些干劲十足的年轻人首先要做的,就是说服那些不懂数学的人。劳工部在早些时候的一项调查显示,全国不到10%的人口占有将近40%的收入,这一结果受到了美国商会(the U. S. Chamber of Commerce)的公开指责,这怎么可能呢?调查人数还不到全国就业人口的0.5%,而且这些人还是用随机方式获得的!于是,商会自己也进行了调查,主要是征求会员们对收入占有情况的看法。最后,劳工部调查的结果被商会认为是不准确的,拒绝接受,理由是那只不过是一堆随机的数据。
1937年,政府想得到有关失业率的准确数据,同时国会授权在1937年进行失业普查。国会通过了议案,号召失业者填写登记卡,送到当地的邮局。那时,全国失业人口数估计在300万到1500万之间,仅有的较为可靠的数据是由纽约开展的几次随机调查所得到的。一群年轻的社会学家,在普查局的卡尔?戴德里克(Cal Dedrick)和弗雷德?斯蒂芬(Fred Stephan)带领下,认识到了可能会有许多失业者不填表,所得到的数据也可能包含着一些意想不到的错误。但他们还是决定,要在全国进行有史以来第一次严肃的随机调查。依据年轻的莫里斯?汉森对整个调查所作的规划设计,普查局从邮递线路中随机选取2%,那些线路上的邮递员各自把调查问卷分发到所在线路的每一个家庭。
即使按2%的比例抽样,普查局也被这样大量的调查问卷难住了。美国邮政服务局(the U. S. Postal Service)曾计划帮他们把问卷分类整理,并制作了一些原始的表格。问卷在最初设计时,还希望收集被调查人口统计和工作经历的详细资料,但是没有人知道该如何来处理这么大量的详细信息。别忘了,那时根本没有电脑,除了用“铅笔+纸张”绘制的表格之外,唯一可指望的就是手动的机械计算器。于是,汉森与耶日?奈曼取得了联系,当初他也是在奈曼的论文基础上完成了调查设计。用汉森的话说,奈曼指出,“我们不必知道或去探讨所有的细节,也不必弄清具体的关系如何”,只需为最重要的问题找到答案就行了。采纳了奈曼的建议,汉森和他的同事们抛弃了问卷中复杂而令人困惑的细节,只计算失业的人数。
在汉森的带领下,普查局作了一系列细致的分析,证实这种随机小样本调查的结论比起以前所用的判断样本要精确得多。最终,美国劳工统计局(the U. S. Bureau of Labor Statistics)和普查局都转入了以随机抽样为主要调查方式的新阶段。乔治?盖洛普(George Gallup)和路易斯?比恩(Louis Bean)又将这些方法引入了政治上的民意测验当中 。在1940年的普查当中,普查局还精心地设计了一些抽样调查计划。这时,普查局新来了一名年轻的统计学家,叫作威廉?赫维兹(William Hurwitz)。很快,汉森与赫维兹成了亲密的工作搭档和挚友,合作发表了一系列重要而有影响的论文,在1953年还合作出版了一本教科书《抽样调查方法和理论》(Sample Survey Method and Theory)(还有第三作者是威廉?马杜(William Madou))。汉森和赫维兹的论文与教科书在抽样调查领域里是如此的重要,并且极其频繁地被引用,以至于这一领域的许多人都认为有这么一个叫汉森?赫维兹(Hansen Hurwitz)的人。
杰尔姆?科恩菲尔德
新政期间,许多年轻人来到了华府,在政府机关和研究机构担任着重要的角色。不少人一直忙于发现新的数学与统计方法,根本顾不上去读研究生学位,最典型的要数杰尔姆?科恩菲尔德(Jerome Cornfield)了。科恩菲尔德在劳工统计局参与了最初的一些调查之后,来到了国家卫生研究所(the National Institutes of Health)。他和学界的领军人物合作发表了几篇论文,解决了个案控制研究(case-control studies)中的几个相关数学问题。他发表的科研论文内容广泛,涵盖了随机抽样理论、就业形态的经济学、鸡肉肿瘤问题、光合作用的问题以及环境毒素对人类健康的影响等诸多领域。他创立了许多统计方法,现在都已成为医学、毒物学、药理学和经济学等领域中统计分析的标准理论。
科恩菲尔德最重要的贡献之一,就是设计了弗拉明汉姆研究计划(the Framingham Study),并开展了初步的分析。这项始于1948年的计划最初是想以马萨诸塞州(Massachusetts)的弗拉明汉姆作为“典型小镇”(typical town),测定镇上每位居民有关健康状况的各种指标,然后对这些人进行多年的跟测。至今这项研究已经持续了50多年,期间曾发生过像“波林灾难”(Perils of Pauline)这样的事,因为政府减少预算开支,还常常试图降低对该计划的资助。但是现在这项研究已经成为分析饮食和生活方式对心脏病和癌症的长期影响的一份最主要资料。
为了分析弗拉明汉姆研究计划获得的头5年数据,科恩菲尔德碰到了几个基本问题,这些问题在以前的理论文献上还没有出现过。后来,他与普林斯顿大学的专业人员合作,一道把这些问题给解决了。其他人都沿着他所开创的理论发展方向继续写了不少论文,而科恩菲尔德为找到问题的解决办法而感到心满意足了。直到1967年,基于该项计划的第一篇医学论文发表了,他是其中的合作者之一。这篇论文研究了高胆固醇对得心脏病概率的影响问题。
1973年,我和J?科恩菲尔德同时参加一个会议,这是为国会某个专门委员会举办的系列听证会中的一场。某一天会议的间歇,有个电话找科恩菲尔德,原来是哥伦比亚大学的一位经济学家瓦西里?列昂惕夫(Wassily Leontief)打过来的,他说自己获得了诺贝尔经济学奖,并感谢科恩菲尔德在合作研究中所发挥的作用,正是他们的合作研究使他获得了这一奖项。他们的合作研究始于20世纪40年代后期,那时列昂惕夫曾跑去劳工统计局寻求帮助。
列昂惕夫认为,国民经济能划分为不同的部门,如农业、钢铁制造业、零售业,等等。每个部门都利用其它部门生产的原材料的服务,来生产某种原材料或服务,提供给其它部门,这种交叉关系能用数学中的矩阵形式来描述,常常被称为“投入——产出分析”(input-output analysis)。第二次世界大战后,当列昂惕夫刚刚对这一模型开始研究时,他曾到劳工统计局收集所需要的数据,劳工统计局指派了一名年轻的分析师协助他,这个人正是当时在那儿工作的杰尔姆?科恩菲尔德。
列昂惕夫可以将国民经济划分为几大部门,例如将所有制造业作为一个部门,也可以将各大部门进一步细分为若干个子部门。从数学原理上看,投入产出分析要求描述经济活动的矩阵必须存在唯一的逆矩阵,这意味着一旦获得了该矩阵,必须作为一个数学上“求逆矩阵”的去处。那时候,计算机并不普及,用手动式的计算器求逆矩阵非常的困难和繁琐。在我上研究生的时候,每个学生都必须练习求逆矩阵——我怀疑那简直是“净化灵魂”的一场仪式,记得当时求一个5*5阶矩阵,要花上好几天,大部分时间我是用来找错和改错。
列昂惕夫最初对经济部门的分类得到了一个12*12阶的矩阵,这样,杰尔姆?科恩菲尔德就要来求它的逆矩阵,看是否存在唯一的逆矩阵。大概花了他一周的时间,得到的结论是分类过粗,必须扩大经济部门的分类数目。于是,科恩菲尔德和列昂惕夫惴惴不安地对经济体系作进一步地细分,最后得到一个24*24阶矩阵,他们认为这是或许可行的最简单的矩阵形式了。两人都知道,这一去处根本不可能由一个人完成。科恩菲尔德估计,计算一个24*24阶矩阵的逆矩阵,即使是一周工作7天,也要花上几百年的时间。
第二次世界大战期间,哈佛大学发明了第一台非常原始的计算机。这台计算机采用机械式继电器开关,还常常卡住。战争结束后,没有什么军事任务需要做了,哈佛大学正在找项目来使用这台怪物似的机器,于是科恩菲尔德和列昂惕夫决定将这个24*24阶矩阵拿过去,用这台叫作“马克Ⅰ号”(Mark Ⅰ)的机器来求它的逆矩阵,完成这一繁琐的计算。事后,当他们要为这一去处过程付费时,却被劳工统计局的会计部门制止。原来,那时政府部门有一项政策,货物可以购买,而服务不能购买。这一理论意味着,政府部门自身拥有各种各样的专业人员来为它服务,如果有什么事情要做,政府机构内部应该有能做这件事的人。
他们对政府中的那名会计解释说,理论上这件事有人能够做到,但是他活不了直到把这件事情做完那么长时间。那名会计对此非常同情,但文件就是那样规定的,但也无能为力。最后,科恩菲尔德想出了一个办法,顺利地解决了这个难题。方法是由劳工统计局开出一张购买固定资产的订单。什么固定资产呢?在发票上写的是劳工统计局从哈佛大学购买一个“逆矩阵”。
经济指数
在新政伊始进入政府机关的这群年轻人所做的工作,对整个国家来说仍旧极为重要。根据他们的研究成果建立起来的许多经济指标,现在已经成为对经济活动进行微调(finetune)时常用的参考指标。这些经济指标包括消费者价格指数(the Consumer Price Index,针对通货膨胀)、当期人口调查(the Current Population Survey,针对失业率)、制造业普查(the Census of Manufacturing)、普查局在10年一次的人口普查之间所作的中期调整(the intermediate adjustment),以及其它许多不那么出名的调查工作,所有这些都被世界各工业国所依仿效和沿期。
在印度新政府成立之初,P?C?马哈拉诺比斯成为首相贾瓦哈拉尔?尼赫鲁(Jawaharlal Nehrn)的一位私人朋友。尼赫鲁政府模仿苏联中央计划的做法,但是在马哈拉诺比斯的影响下,印度也经常开展一些深入的抽样调查,了解新国家真实的经济状况,以修正相关的经济政策。在苏联,各级官僚常常造出一些生产与经济活动的假数据,吹捧那些当政者,这又进一步造成了中央经济计划愚蠢地膨胀。在印度,总是可以得到对真实状况的准确估计,尼赫鲁和他的继任者们看了或许并不高兴,但也不得不慎重地处理。
1962年,费歇尔来到了印度,此前受马哈拉诺比斯之邀他已经来过多次。但是这一次大为不同,全世界许多著名的统计大师都来到了印度,参加为印度统计研究所成立30周年而举办的庆祝盛会。费歇尔、奈曼、E?皮尔逊、汉森、科恩菲尔德以及其他来自美国和欧洲的众多嘉宾,云集印度。一系列的研讨会场面异常活跃,因为数理统计学还在蓬勃地向前发展,还存在着不少尚未解决的问题,同时,统计分析方法逐渐渗入到了各个科学领域之中,新的分析技术不断被提出,并接受检验。那时,全世界致力于统计学的科学学会已达4个,至少已有8种主要期刊(其中有一本是由马哈拉诺比斯创办的)。
会议结束后,嘉宾们各自回国。当他们回到家中,传来了噩耗——费歇尔在返回澳大利亚的途中,因突发心脏病在船上逝世,享年72岁。他的科学论文汇集成了5卷,所写的7本著作仍然对统计学的发展产生着影响,然而他卓著的原创性贡献却到此为止了。
第18章 吸烟会致癌吗?
1958年,费歇尔在《百年回顾》(Centennial Review)中发表了一篇题为《香烟、癌症和统计》(Cigarettes, Cancer and Statistics)的论文,在《自然》(Nature)上发表了题为《肺癌与香烟?》(Lung Cancer and Cigarettes?)和《癌症与吸烟》(Cancer and Smoking)两篇论文。他后来把这几篇论文汇集在一起,编成了一个小册子《吸烟:关于癌症的争议及对有关证据的评论》(Smoking: the Cancer Controversy. Some Attempts to Assess the Evidence),还加上了一个内容广博的序言。在这几篇论文中,费歇尔(照片中的他常常是叼着一只烟斗)坚持认为,吸烟会导致肺癌的证据存在着严重的不足。
当时,不单是费歇尔在研究中批评了那些有关吸烟与癌症问题的研究,梅奥诊所(Mayo Clinic)的首席统计学家、美国生物学界泰斗之一的约瑟夫?伯克森(Joseph Berkson)也对这些研究的结论提出了质疑。耶日?奈曼也提出了反对意见,认为将肺部与吸烟联系起来的研究推理当中存在问题。费歇尔的批评最为强烈。在随后的几年中,由于证据渐多,伯克森和奈曼慢慢地也似乎认可二者之间的联系被证实了,费歇尔仍然强烈地反对,甚至指责一些主要的研究者篡改了数据,使许多统计学家都感到很尴尬。那里,烟草公司认为这类研究并不能说明什么问题,指出这只不过是一种“统计相关”,并不能证明吸烟会导致肺癌。从表面上看,费歇尔似乎同意他们这一观点,费歇尔的争辩火药味很浓,例如,下面是他一篇论文中的一段话:
一年前,《英国医学会期刊》(the British Medical Association’s Journal)中登了一篇评论,得出了一个让人吃惊的结论:有必要运用当代所有的宣传手段让全世界人都详尽地了解吸烟的严重危害,这让我觉得有必要对此(那些试图证明吸烟与癌症之间关系的研究)作一个详细的分析。读这篇文章的时候,我觉得我很不喜欢“当代所有的宣传手段”这个词,而且在我看来,在这问题上应该有一个道德上的界限……为了让全世界一亿个烟民心存恐惧,而且还没说清到底该对这种舆论所反对的陋习担心些什么。,却花纳税人的钱而动用上了当代所有的宣传手段,对一个好公民来说,这实在是有点小题大做……
遗憾的是,在表示对使用政府宣传工具来传播这种恐惧的不满时,费歇尔并没有说清楚自己反对的到底是什么。这似乎印证了大家对他的看法,他就好像是那个反复无常的老头,只不过是不甘心扔掉自己那只心爱的烟斗罢了。1959年,杰尔姆?科恩菲尔德与5位来自国家癌症研究所(the National Cancer Institute,NCI)、美国癌症学会(the American Cancer Society)和斯隆-凯特林研究所(the Sloan-Kettering Institute)的顶尖癌症专家一道,对所有已公开发表的研究作了一个回顾,撰写了一篇30页的论文。他们审查了费歇尔、伯克森和奈曼提出的反对意见,同时也探讨了烟草研究所(the Tobacco Institute,代表烟草公司的利益)的反对意见。他们由这场争论引申出阵一些更细致的推论,并且指出,有关证据压倒性地支持“吸烟是人类肺部表皮癌发生率迅速上升的原因之一”。
这篇论文平息了医学界关于这一问题的论争。尽管烟草研究所仍继续花钱在流行杂志上登整版的广告,质疑吸烟与肺癌之间的关系,认为它们仅仅是一种统计上的相关,但是在1960年以后,任何一本有名词的学术刊物上都不再有对这一发现提出质疑的文章了。该文发表之后不到4年,费歇尔便去世了,无法继续进行论战,也没有别人再掀起争议。
存在因果关系吗?
费歇尔的反对,难道仅仅是一个想安安静静地吸烟斗的老头在无理取闹呢,还是有着一定的道理?我读过他有关吸烟和癌症的论文,还将它们与他以前写的有关归纳推理(inductive reasoning)的性质、以及统计模型与科学结论之间关系的论文作了比较,发现了一条前后一致的理论脉络。费歇尔所研究的是一个艰深的哲学问题——一个由英国哲学家伯特兰?罗素(Bertrand Russell)在20世纪30年代早期就提出来了的问题,这一问题抓住了科学思想的内核,但对许多人来说也许这并不算什么问题,即究竟何为“因果关系”?这一问题的答案绝对不那么简单。
许多读者也许都记得,那个满头白发、慈父般模样的罗素是一位世界著名的哲学家,在60年代,曾经公开批评美国政府介入越战。在那之前,他就被许多官员和学者认为是20世纪伟大的哲学家之一。他的第一部主要著作,是与艾尔弗雷德?诺思?怀特海(Alfred North Whitehead,比他早入道好些年)合写的,探讨了算术与数学的哲学基础问题,书名叫《数学原理》(Principia Mathematica)。这本书试图将数学的一些基本思想,如数字与加法,建立在集合论(set theory)所用的一些简单公理上。
罗素和怀特稍顷在这本书中运用了一个基本工具,就是符号逻辑(symbolic logic),这是一种新的研究方法,是20世纪早期的一项重大创造。读者可以回忆一下学过后亚里士多德逻辑(Aristotelian logic),例如,“人都难免一死,因为苏格拉底(Socrates)是人,所以他也将难免一死。”
尽管人类对亚里士多德式逻辑规则的研究已经大约2500年了,但相对而言这是一种没有什么用的工具。它过分强调那些很明显的事实陈述,建立一些武断的逻辑规则来判断什么符合逻辑,什么不符合逻辑,却未能模仿逻辑在数学推理中的运用,这恰恰曾是人们运用逻辑创造了新知识的一个领域。当学生们还在机械地背着像“苏格拉底也会死”、“乌鸦的羽毛是黑色”之类的逻辑分类规则时,数学家们正通过运用亚里士多德逻辑范畴之外的一些逻辑方法,发现着新的思想领域,如微积分。
在19世纪末和20世纪初,随着集合论和符号逻辑的发现,一切都发生了改变。从罗素和怀特海所用的最早形式来看,符号逻辑始于一些被称为“命题”(propositions)的思想元素。每个命题都有一个称为“T”或“F ”的真值,它们还能与一些代表“和”(and)、“或”(or)、“非”(not),以及“等于”(equals)的符号相结合与对照。因为每个原子命题(atomic propositions)都有一个真值,它们的任一组合也有一个真值,这个值可以通过一系列代数步骤来计算。在这个简单的基础之上,罗素、怀特海和其他人能够建立许多符号的组合,用来描述数字和算术,似乎还能描述各类的推理过程。
在所有的推理过程中,只有一种例外!人们似乎还无法创造出一套符号,用以表示“A引致B”(A causes B)。原因和结果的概念躲过了逻辑学家所作的各努力,总是无法套进符号逻辑的规则之中。当然,我们都知道“因果关系”意味着什么,如果我将一个玻璃杯摔到浴室地板上,那这一举动将使玻璃杯破碎;如果每当狗走错方向时主人就把它拉住,那这一举动将使狗学会走正确方向;如果农场主给庄稼施肥,那这一举动将使作物生长;如果一名妇女在怀孕前3个月服用催眠药(thalidomide),那这一举动将导致所生婴儿手足萎缩;如果另有一名妇女骨盆发炎,那是因为她在子宫里放了避孕器(IUD );如果某公司的高级主管职位中女性极少,那是因为这家公司部分经理人员存在着性别歧视;如果我表兄弟脾气异常火爆,那是因为他属于狮子座的。
正如罗素在20世纪30年代早期所明确指出的,通常意义上的因果关系是一种相互矛盾的观念。不同的因果关系实例不能套用相同的推理程序,实际上,根本不存在所谓的因果关系,这只是一种流行的妄想,一个含糊的想法,它经不起纯粹理性(pure reason)的攻击。因果关系包含了一套互相矛盾的观念,在科学论述中几乎或根本没有价值。
实质蕴涵
为了取代因果概念,罗素从符号逻辑出发提出了一个清楚定义的概念,称为“实质蕴涵”(material implication)。通过使用原子命题的基本观念和一些联结符号如“和”、“或”、“非”与“等于”,我们就能产生“若命题A,则命题B”的观念,这与“非B,则非A”的命题是等价的。这听起来有点像贝叶斯定理中隐含的悖论(在第13章中我们介绍过),但还是有很大的差别,我们将在后面的一章中进行研究。
在19世纪后期,德国医师罗伯特?科赫(Robert Koch)提出了一组必要的假设,用来证明某种病原体(infective agent)将导致某种特定的疾病。这些必要假设是:
1. 只要病原体能够培养出来,疾病就会发生。
2. 只要疾病没有发生,则病原体一定没有培养出来。
3. 当病原体被消除,疾病就会消失。
虽然有点累赘,但是科赫给出了实质蕴涵的条件。在判断某种传染病是否由某种特定病菌引发时,这些条件可能是足够的。但是,对于吸烟和癌症之类的问题,科赫的必要假设就没有意义了。让我们来看看,肺癌和吸烟之间的联系在多大程度上符合科赫假设呢(从而检验了罗素的实质蕴涵是否适用)?病原体是吸烟史,疾病是肺部表皮癌。一些吸烟者并没有得肺癌,不满足科赫的第一个假设。一些得肺癌的人却声称他们没有吸过烟,若我们信其所言,则不满足科赫的第二个假设。如果我们将癌症类型限定为小细胞癌(small oat-cell carcinoma),那么不吸烟却得肺癌的人数几乎为零,因而也许满足第二个假设。如果我们拿掉病原体,也就是让病人停止吸烟,他还是可能得病,因此不满足科赫的第三个假设。
如果我们应用科赫假设(从而也就是应用罗素的实质蕴涵),符合这些假设的,只有那些由血液或者其它体液培育出的特定病原体所引发的疾病。但是,对于心脏病、糖尿病、哮喘、关节炎或者其它形式的癌症,这些假设就不再适用。
科恩菲尔德的答案
让我们回过头来,看看科恩菲尔德与5位知名癌症专家在1959年发表的那篇论文,他们逐一介绍了有关吸烟与癌症关系问题所作的研究 。首先是理查德?多尔(Richard Doll)和A?布拉德福德?希尔(A. Bradford Hill)的研究 ,发表于1952年的《英国医学期刊》(the British Medical Journal)上。多尔和希尔对英国死于肺癌人数的急剧增加感到十分吃惊,于是搜集了数百名肺癌患者,将他们与一些非肺癌患者比较,这些病人也是同时进入同一家医院的,并且在其它方面相似(相同的年龄、性别和社会经济状况)。结果发现,肺癌患者中的吸烟人数几乎是非肺癌患者(在这种研究中,常常称为“对照组”(controls))中吸烟人数的10倍。到1958年底,这类研究另外还有5项,分别以斯堪的纳维亚、美国、加拿大、法国和日本的病人为研究对象,都得到了相同的结果:肺癌患者中吸烟人数大大地高于对照组中的吸烟人数。
这类研究被称为“追溯性研究”(retrospective studies)。
从一种疾病开始着手,向后看与这种病相联的有什么先决条件。这种研究需要有对照组(未患此病的其他组病人),用以断定恰恰是这些先决条件与此病有关,而不是病人某些更一般的特征。对于这种研究,常有人批评对照组可能与所研究的病例之间不相匹配。一项著名的追溯性研究是加拿大开展的,有关人造甜味剂(artificial sweetener)是否为膀胱癌(bladder cancer)病因的研究。结果表明,人造甜味剂与膀胱癌之间似乎存在着某种关联,但是通过对数据的仔细分析之后,发现这些病例几乎都来自社会经济地位较低的阶层,而对照组几乎都来自社会经济地位较高阶层。这意味着研究组与对照组之间不具有可比性。20世纪90年代初期,耶鲁大学医学院(the Yale Medical School)的阿尔万?范斯坦(Alvan Feinstein)和拉尔夫?霍维茨(Ralph Horvitz)对如何进行这类研究提出了一些非常严格的规则,以确保研究组和对照组相互匹配。如果我们将范斯坦-霍维茨 规则(Feinstein-Horvitz rules)应用到这些针对癌症和吸烟关系的追溯性病例对照(case-control)研究之上,那么所有这些研究都不符合规则。
另一种替代的研究方法是事前研究(prospective study)。在这类研究中,事先选定一群人,详细记录他们的吸烟史,再跟踪他们以观察会发生些什么事。到1958年,已单独地进行了三次事前研究,第一次研究(同样是希尔和多尔所作,他们开展了第一个追溯性研究)选取了50 000名英国医生。实际上,希尔和多尔这项研究中并未对研究对象跟踪很长时间,而只是通过面谈了解了这50 000名医生的健康习惯,包括他们的吸烟习惯,跟踪调查5年之后,其中很多人真地患上了肺癌。这一研究确实说明吸烟与癌症之间存在联系。他们依据吸烟量的大小将这些医生分成了不同组,结果表明,吸烟越多的医生得肺癌的概率越大。这就是所谓的剂量反应(dose response),是药理学中产生反应的关键证据。在美国,哈蒙德(Hammond)和堆恩(Horn)对187 783名男子进行了一次前事研究(发表于1958年),他们跟踪调查了4个月,也发现了剂量反应。
然而,事前研究还存在一些问题。如果研究是小范围的,结论也许只是针对某个特定群体而言的,不能将它推广到更广泛的人群当中。例如,早期大部分的事前研究都以男性为研究对象,因为当时女性肺癌病例过少,无法开展研究。事前研究的第二个问题是,为了让事件(肺癌)发生得足够多,允许作有意义的分析,研究持续的时间必须很长。解决这两个问题,都需要跟踪大量的人群。大量的研究对象保证了可以将研究结果适用于更为广泛的人群。如果短期内事件的发生率很低,但只要跟踪的人数足够多,短期内同样能得到足够多的事件用以分析。
希尔和多尔第二个研究之所以选择医生有两个原因:一是医生对自己吸烟习惯的回忆比较可靠;二是他们近观过专业的医学训练,因此这群人中发生的所有肺癌病例肯定都会被记录下来。但是,我们能将针对那些接受过良好教育的专业医生得到的研究结论,推广到学历不及高中的码头工人上吗?哈蒙德和霍恩以近200 000的男性为研究对象,希望样本更具有代表性——而这可能会使所获精确信息更少。说到这里,读者可能会想起,某些人批评K?皮尔逊的样本数据,理由是说那是一种便利样本。这些不也是便利样本吗?
为了回应这种反对意见,H?F?多恩(H. F. Dorn)在1958年研究了三个大城市的死亡证明书,然后对死者家属进行访问调查。这一研究选择了所有的死亡者,所以不能说是便利样本。结果再次压倒性地证实,吸烟和肺癌之间存在着关联。然而,还是可能有人提出争议,会说对死者家属的访问调查存在不足。因为直到进行这项研究的时候,大家普遍都知道了肺癌和吸烟之间的联系,这样的话,与因其它病死亡者的家属相比,那些因肺癌死亡者的家属可能会对死者生前是否吸烟记得更为清楚。
这也正是大多数流行病学研究的情形,任何一项研究都可能存在着某些不足之处。对于任意一项研究而言,批评者总可以假想出导致结论偏差的各种可能情形。科恩菲尔德和他的合作者们搜集了1958年前针对不同国家、不同总体所作的30项流行病学研究。正如他们所指出的,这么多项针对各种总体开展的研究压倒性地一致,都得到了相同的结论,因而具有较高的可信度。他们对各种异议一项一项地进行讨论,也考察也伯克森的反对意见,表明了该如何用其中的某些研究来回应这些批评。奈曼曾经指出,若抽烟者活得比不抽烟者长而肺癌又是一种老年病的话,最初的那些追溯性研究可能就存在偏差。为此,科恩菲尔德等人用由这些研究中的病人所生成的数据表明,对这些病人的这种描述并不准确。
他们从两个方面讨论了便利样本是否具有代表性的问题。一方面,他们表明了所涉及的病人总体范围,增加了结论对不同总体都成立的可能性。另一方面,他们还指出,这种因果关系可能是源自生物学的基本原理,与病人不同的社会经济状况和种族背景无关,并且回顾了毒物学的研究,证实了吸烟对实验室动物和组织培养存在着致癌效应
科恩菲尔德等人的这篇论文是流行病学研究中有关如何求证病理原因的经典例子。尽管任一单项研究都存在着一些不足,但是随着证据越积越多,一项一项的研究使得同 不念旧恶结论越来越有说服力。
吸烟与致癌 VS. 橙剂
与上述现象形成对照的是,越战的老兵们认为战争中曾用的橙剂(Agent Orange,一种除草剂——译者注)对他们的健康造成了影响,使他们在后来的生活中备受折磨。有关的研究认定导致他们身体损害的原因,正是这种除草剂(herbicide)中所含的污染物,几乎所有这类研究都只是针对这一小部分以不同方式接触到了这种除草剂的人开展的。但是针对其它人群开展的研究却并不支持上述发现。在20世纪70年代,意大利北部的一个化工厂发生的一次意外事故,致使许多人接触到了剂量更大的该种污染物,但并没有产生长期影响。针对新西兰草场工人的研究却表明,那些接触了除草剂的人患一种特殊生育缺陷的可能性增大,但是这些工人大多数都是毛利人,毛利人从基因上说就容易出现这种特殊的生育缺陷。
有关吸烟与橙剂研究的另一个不同之处在于,对于吸烟,人们认为会引起的是一种很明确的病(即肺部表层癌),而由橙剂引起的问题很多,包括神经系统和生殖系统的一些病症。这种情况与毒物学中的一般发现相悖,在毒物学上,一般认为特定的药剂会导致特定类型的病害。对于橙剂的研究,没有得到任何有关剂量反应的迹象,当然,也没有充足的数据能判断这些人到底接触到了多大的剂量。总的来看,这一研究的结果含混不清,就是伯克森、奈曼和费歇尔等人的反对意见也无人问津。
通过对流行病学研究的分析,根据罗素的高度确切性要求和“实质蕴涵”的思想,我们已经非常深入了。现在因果关系从对人群总体许多有缺陷的调查推出,这种关系仅仅是统计意义上的,分布参数的变化可能源于某些特定的原因。但是,一些更为明智的研究者,可以通过综合大量的存在一些不足之处的研究,去发现一些共同的内在线索。
论文发表上的偏差
会不会是这些研究都经过挑选呢?观察者所看到的文献会不会只是从实际所做研究中精心挑选出来的一部分呢?又会不会是那些下面的研究发表了而负面的研究就没有发表呢?别忘了,并非所有的研究都能够发表。有一些论文会因研究者没有能力或不愿意而未能做完,有一些论文会因为不符合杂志的规范而被编辑拒绝。特别是对所讨论的问题存在着争议时,编辑们常常倾向于发表那些容易为科学界接受的论文,而拒绝一些观点不易为科学界接受的论文。
这正是费歇尔提出批评的问题之一。他声称希尔和多尔最初的研究被改造过了,他多年力图让作者公布支持其结论的详细数据。而他们仅仅发表了论文的概要,但费歇尔认为这些概要掩盖了数据中实际所存在的不一致性。他指出,在希尔和多尔的第一个研究中,作者问吸烟者吸烟时是否吸入,这样将数据分为“吸入者”和“不吸入者”两类时,不吸入者得肺癌的多,而吸入者得肺癌的反而少些,希尔和多尔声称这一结果可能是因为部分被调查者没有弄清楚问题的含义。费歇尔对此很不以为然,并问他们为什么不公开真实的研究结论,让人们知道,虽然吸烟对你是有害的,但是如果你非得吸,与其不吸进去,还不如吸进去呢。
让费歇尔反感的是,希尔和多尔针对医生开展跟踪研究时,竟然将这个问题扔到了一边。那么,会不会还有其它什么问题也是精心挑选的呢?费歇尔很想知道。然而,更令他感到震惊的是,政府竟然不惜以大量的权力和金钱来将恐惧植入民众心理当中,他认为这种做法无异于纳粹利用传媒来操控民意。
费歇尔的答案
费歇尔也受到了罗素因果关系论的影响,他认识到实质蕴涵还并不足以描述大多数的科学结论,并写文章深入地讨论归纳推理的属性问题。他认为,如果很好地遵循了实验设计的有关原则,那么就有可能在某些特定研究的基础上得出关于生命的一般性结论。他还指出,实验设计中按随机原则将治疗方法分配给受实验乾,这种方法为归纳推论(inductive inference)提供了坚实的逻辑与数理基础。
那时,流行病学者都采用费歇尔所提出的实验设计分析工具,如他的统计估计与显著性检验方法。他们将这些工具用于便利样本的分析,在这类样本中实验处理的分配并非由研究之外的某种随机机制来决定,而是依据这些研究本身的复杂部分来确定。他的思索是,某些人吸烟而其他人却不吸,假定这是某种遗传基因的缘故,并且进一步假定,正是这种相同的基因结构导致了肺癌的产生。众所周知,多数的肺癌患者都具有家族性的特征。他因此提出,吸烟与肺癌之所以存在联系,大概是因为二者都由同一种因素所引起,即相同的基因结构。为了证明自己的推测,他收集了许多双胞胎的数据,结果表明,这些双胞胎要么两人都吸烟,要么都不吸,有着很强的家族性倾向。于是,他向其他人提出了挑战,要他们证明肺癌并非受相似的遗传基因所影响。
这场论战,一方是脾气火爆的天才费歇尔,他将统计分布的整个理论构建在了一个坚实的数学基础之上,正在作最后的一场战斗。而论战的另外一方是J?科恩菲尔德,他所受的正规教育只不过是一个历史学的学士,有关统计学的知识完全靠自学而来,忙于建立新的重要统计理论而没顾得上去拿更高的学位。费歇尔指出,不通过随机化实验,根本无法证明任何东西。科恩菲尔德却认为,有些现象本身就无法设计那种随机化的实验,但是承受着相关证据的累积也能说明一些问题。现在,两人都已经去世了,但他们学术思想的继承者尚在。在法庭上,当原告们举证自己受到了不公平的待遇时,这种争论便会时时现出;在分辨人类活动对生物圈的不利影响时,这种争论同样会扮演重要的角色;无论什么时候,一旦碰到医学中事关生死的重大问题,这种争论也必定会浮现出来。因果关系并不是那么简单就能够证明出来的!
第19章 如果您需要最佳人选……
1913年夏末,乔治?W?斯内德克(George W. Snedecor)从肯塔基大学(University of Kentucky)获得了数学博士学位。他听说爱阿华(University of Iowa)有个数学教师的空缺,就收拾简单行李,搭车前往应征。不幸的是,他对爱阿华州所处位置一无所知,结果到了爱阿华州立学院(Iowa State College)的所在地——埃姆斯(Ames),而非爱阿华大学的所在地——爱阿华市。爱阿华州立学院的人告诉他,该校没有招聘数学老师,但该校已录取的有些学生数学背景不太好,问他是否愿意来教代数。6年以后,他说服学校的人,应该让他设立一门关于统计方法新思想的课程。就这样,当费歇尔农业试验的第一篇论文问世时,斯内德克正在一所农业学校,并努力跟踪这些统计思想。
虽然斯内德克学的是数学,没有学过概率论,但他在埃姆斯研究这些新发展,并建立一个统计实验室。后来,他设立了美国的第一个统计系。他研究了费歇尔的论文,接着又阅读了其他人的著作,如皮尔逊、戈塞特(“学生”)、F?Y?埃奇沃思(F. Y. Edgeworth)、耶茨、冯?米泽斯等。斯内德克在原创研究方面贡献虽然不多,却是个伟大的编者。20世纪30年代,他编写了一本教科书,书名就是《统计方法》(Statistical Methods)。起初,只是油印版,1940年正式出版,立刻成为统计界的优秀教科书。他改进了费歇尔的《研究工作者的统计方法》,加进了一些基本的数学推导过程,并把类似的统计思想放在一起,还加了一大堆计算表,使读者不费什么力气就可以算出P值和置信区间。20世纪70年代,有一篇评论文章指出,在所有领域的科学论文中,斯内德克的《统计方法》被引用的次数最多。
斯内德克又是一名很有效率的管理人员。他常邀请统计研究领域中的重量级人物暑期访问爱阿华州立学院。20世纪30年代的多数夏季,费歇尔总会过来住上几个星期,讲讲学或担任顾问。从此,埃姆斯的统计实验室与统计系,成为世界上最重要的统计学研究中心之一。第二次世界大战前到此访问的教授们都是该领域的杰出人物。
格特鲁德?考克斯(Gertrude Cox,1900-1978)就是在这一时期进入了爱阿华州立学院。她原来梦想当一名传教士,到偏远的国度拯救灵魂。高中毕业后的大约7年时间内,她都在卫理公会教堂(Methodist Chruch)做社会服务工作。为了达到当传教士的心愿,必须完成大学学业。在大学学习期间,斯内德克使她相信,统计学比传教更有趣。因此,毕业以后,她继续跟随斯内德克,在统计实验室做研究。1931年,她获得爱阿华州立学院颁发的第一个统计学硕士学位,斯内德克又聘用她在统计系任教。此时,她开始对费歇尔的实验设计理论特别感兴趣,因此,在学校里首次开设了实验设计方面的课程。后来,斯内德克替她在加利福尼亚大学(University of California)找到了一个攻读心理学博士的机会,她又在那里学了两年多的时间,获得博士学位之后,回到埃姆斯,斯内德克让她负责统计实验室的工作。
与此同时,著名的统计学家们仍然不断地访问爱阿华州的埃姆斯。威廉?科克伦(William Cochran)曾经停留过一段时间,教了一段时间的书。他和考克斯一起讲授实验设计(这时侯,已经开设了好几门这方面的课程)。1950年,两人合写了一本教科书《实验设计》(Experimental Designs),这本教科书与斯内德克的《统计方法》一样,不但向读者讲述了统计方法,还介绍了该方法的坚实数学基础。书上有一组很有用的表,可以让实验人员针对具体情况修正实验设计、分析实验结果。《科学论文引用索引》(Science Citation Index)每年都会公布各个科学期刊上的论文引用书单,该索引用小号字体印刷,分为5列,《实验设计》每年都上榜,至少占上整整一列。
女性对统计学的贡献
读者或许已经注意到,除了弗洛伦斯?南丁格尔?大卫之外,本书到目前为止介绍的所有统计学家都是男性。统计学发展的早期,该领域主要是男性的天下。虽然也有很多女性在统计领域工作,但她们大都从事一些统计分析所需的繁复计算,实际上可以叫做“计算员”。正因为需要大量的计算,工具又只是手摇式的计算机,所以,这类繁琐的工作常由妇女来承担。女性比男性温顺、有耐心,大家比较相信她们,会让她们来检查计算结果是否正确。在K?皮尔逊带领的高尔顿生物统计实验室(Galton Biometrical Laboratory)里,最典型的情景就是,皮尔逊带上几位男士四处走动,检查计算机算出的结果,或互相讨论深奥的数学理念,而女士们正在进行计算工作。
随着20世纪的发展,情况发生了变化。特别是耶日?奈曼,他帮助并鼓励很多女性,指导她们的博士学位论文,或与她们共同发表论文,并在学术圈里为她们寻找合适的职位。到了20世纪90年份工,当我参加全国统计学会的会议时,发现与会者约有一半是女性。在美国统计学会、生物统计学会、皇家统计学会和数理统计研究院,女性都有很杰出的表现。不过,与男性相比还不完全平等。许多统计学期刊上发表的文章,约有30%的作者是女性或有女性参与,而美国统计学会的荣誉会员当中,只有13%是女性。不过,这种性别方面的差距正在改变。20世纪末的最后几年,占人类半数的女性已表现出她们所具备的较强数学能力。
但是在1940年,当斯内德克在火车上巧遇北卡罗莱纳大学(University of North Carolina)校长弗兰克?格雷姆(Frank Graham)时,情况还不是这样。他们坐在一起,谈论了很多。格雷姆曾听说过有关统计革命的情况,斯内德克正好是这方面的专家,他讲述了统计模型在农业及化学研究中的种种进展。格雷姆惊讶地得知,全美国居然只有爱阿华州立学院有正规的统计系,萨姆?威尔克斯(Sam Wilks,见第20章)在普林斯顿大学发展了一个数理统计小组,但还附属在数学系。亨利?卡弗(Henry Carver)所在的密西根大学(University of Michigan),情况也差不多 。格雷姆就火车旅行会谈中所了解的内容考虑了很多。
几星期后,格雷姆与斯内德克联系,表示自己已说服其姊妹学校——北卡罗罗莱纳州立大学(North Carolina State University),时机已经成熟,应该像爱阿华州立学院一样成立一个统计实验室,再发展成统计系。格雷姆询问斯内德克,能否介绍一位男士主持该部门的工作,于是,斯内德克坐下来列出了10个人的名字,认为他们可能会胜任该工作。他把考克斯叫进来,请她看看这份名单,并发表一下看法。她看完之后,问了一句:“您认为我怎么样?”
于是斯内德克在推荐信里加了几句话:“这些是我想到的最适合此工作的10位男士,但如果您需要最佳人选,我会推荐考克斯。”
后来,考克斯证明了自己不但是杰出的实验科学家和优秀的教师,还是一位出色的管理者。她组建的师资队伍,既是有声望的统计学家,也是优秀的教师。她深受学生的尊敬与爱戴,也深深地影响着学生们。我第一次遇见她时,是在美国统计学会的一次会议上,坐在我对面的是一个身材娇小的年长女士。当她说话的时候,眼睛里散发出一股热情,好像能燃起大家讨论主题的兴趣。不管讨论的是理论问题,或是实际应用问题,她的评论机智又风趣,叫人心服口服。当时我不知道她已经身患白血病,将不久于人世。她去世之后,她的学生每年夏天都会在各统计学会的传统联合年会上聚会,为纪念她而举办路跑,并筹措以她名字命名的奖学金。
1946年,由于考克斯的“应用统计系”非常成功,所以格雷姆终于能在建在教会山上的北卡罗莱纳大学设立一个数理统计学系,不久又成立了生物统计系。从此之后,北卡罗莱纳州立大学、北卡罗莱纳大学与杜克大学(Duke University)成为统计研究的“铁三角”,很多私人研究公司也都听从这几所学校专家的意见。考克斯创建的统计世界,使她的老师斯内德克的成就相形见绌。
经济指标的发展
在美国联邦政府的统计部门,妇女扮演了非常重要的角色,她们分别在普查局(the Census Bureau)、劳工统计局(the Bureau of Labor Statistics)、国家卫生统计中心(the National Center for Health Statistics)及管理预算局(the Bureau of Management and Budget)等部门身居要职。其中职位最高的是珍妮特?诺伍德(Janet Norwood)女士,她于1991年退休,当时是美国劳工统计局的局长。
诺伍德女士就读于道格拉斯学院(Douglass College),这是拉特格斯大学(Rutgers University)的女子分校,位于新泽西(New Jersey)新布朗斯维克(New Brunswick)。当时美国正式参加第二次世界大战,诺伍德的男友必须入伍从军,于是他们决定先结婚,当时诺伍德19岁,伯纳德?诺伍德(Bernard Norwood)先生20风。婚后诺伍德先生并没有立刻被征调到海外,因此俩人仍能见面。但是,这桩婚姻却对道格拉斯学院这样的封闭环境造成一些困扰。在此之前,校园里从来没有已婚的学生。对男性来访者的限制性规定要用在她先生的身上吗?她离开学校到纽约探望先生,必须通知学生家长吗?这些都是由诺伍德女士首开先例的。1949年,她获得塔夫茨大学(Tufts University)的博士学位,成了该校有史以来最年轻的博士。她自己写到:“接二连三地,在我工作过的几个岗位上,我总是第一个被提拔的女性。”她是美国劳工统计局的第一位女局长,从1979年任职到1991年退休。
1979年联邦政府任命她为局长的时候,可能对她了解的并不太多。在诺伍德女士上任局长之前,劳工部有一项惯例,就是派一位熟悉政策事务的代表,出席所有由劳工统计局召开的记者招待会。诺伍德上任后,通知部里的代表,以后不必出席这类记者招待会。她认为,局里拿出去的各种经济资料,不但内容上应该准确,而且应具有无党派性,连形式上都应该如此,她要求局里的所有活动,都尽可能避免行政干扰。她说过:
我发现把下面这件事情讲清楚很重要,那就是:在遇到重大问题时,要相信原则。……在政府部门做事,应该主张并坚持独立性。……不过,这并不容易做到。例如,当必须对总统的意见进行修正时,应该怎么办?这时,必须修订。
诺伍德女士与她丈夫都是经济学博士。她们结婚的头几年,尤其在她丈夫参与研究欧洲共同市场的相关制度时,她并没有外出工作,只是在家教养两个孩子,偶尔写一些学术上的文章,让自己保持活力。后来,全家定居于华盛顿,他们的小儿子也开始上小学,诺伍德女士就出来找事做。她想找的工作是要能有几个下午不必上班的那种,这样当孩子放学回家时能照顾他们。劳工统计局有这样的工作机会,每周有三个下午在家。
劳工统计局在劳工部里是个小单位,在政府部门中很少制造什么大新闻。与白宫和国务院的刺激性工作相比,这种小局里会有什么事?事实上,在整个政府机器里,它是个很重要的齿轮。政府的工作必须靠资讯,那些由各地赶到首都华盛顿参与新政(New Deal)的聪明青年男女,不久就发现,要建立适用的政策,必须充分掌握全国或各州的经济状况,但在当时,根本没有这类信息。新政的一项重要改革,就是设立必要的机构,来提出有关国家经济发展的重要资讯。劳工统计局一方面进行必要的调查工作,以生产该类信息,另一方面,则对其他部委,如普查局,收集的数据进行分析。诺伍德女士于1963年进入劳工统计局,1970年就得到晋升,负责消费者价格指数的编制。消费者价格指数有很多用途,可用来衡量社会保障的支付,追踪通货膨胀的现象,调整从联邦政府到各州政府的大部分转移支付。1978年,在诺伍德女士亲自策划与监督下,劳工统计局将消费者价格指数做了一次重大的修订。
返回书籍页