必读网 - 人生必读的书

TXT下载此书 | 书籍信息


(双击鼠标开启屏幕滚动,鼠标上下控制速度) 返回首页
选择背景色:
浏览字体:[ ]  
字体颜色: 双击鼠标滚屏: (1最慢,10最快)

女士品茶

_3 萨尔斯伯格 (美)
诺全德女士担任局长之后,劳工统计局统计的消费者价格指数及其他系列指数,都牵涉了一些较为复杂的数学模型和若干个相当难懂的参数,这些参数虽然在经济模型中具有意义,但对那些缺乏经济数学训练的人来说,却很难解释。
报纸在引述消费者价格指数(CPI)时,经常会有“上个月的通货膨胀率上升了百分之0.2”这类的说法。但是,消费者价格指数是一组很复杂的数字,反映的是全国不同地区和不同经济部门的价格形态变动。它从“市场篮子”(market basket)的概念开始,“市场篮子”指一个典型家庭可能购买的一组货物和服务。在组合出该组货物和服务之前,必须先经过抽样调查,看看一般家庭到底会买一些什么东西,以及多长时间买一次。计算时,对不同的货物和服务,要赋予不同的权数(weight),因为一个家庭每周都要买面包,但好几年才买一次汽车,至于买房子的次数就更少了。
“市场篮子”及其权数一经确定,劳工统计局就派出人员,用随机方式抽选商店,并在选中的商店中记录所列商品的现价。然后,他们再把记录下来的价格,依照加权方式计算出一个总数,在某种意义上说,这个数字就代表了给定规模家庭的月平均生活费。
从理论上看,用指数来描述某种经济活动的平均形态,是一种很容易理解的想法,但要构建这样一个指数,就不那么容易了。对于市场上的新产品(如家用电脑)应该如何计算?如果某种产品的价格过高,消费者转而选择其他类似产品(例如买酸奶酪而不买酸奶油)又该怎么处理?消费者价格指数和其他用来度量国家经济运行是否良好的指标都要定期检查。诺伍德女士亲自督导了上一次消费者价格指数的重要修订,以后还会有人再做同样的事。
消费者价格指数并不是衡量国家经济状况的惟一指标,还有其他指数用来描述生产活动、存货及就业形态。还有一此社会指标,如监狱罪犯的估计数等这些与非经济活动有关的参数。但实际上,这都是K?皮尔逊意义上的参数,是概率分布或数学模型的一部分,它们描述的不是具体的可观测事件,但又决定着可观测事件的形态。因此,美国没有一个家庭,每月的生活费正好等于消费者价格指数。同样的,失业率也不能描述实际失业人口,因为这个数字每小时都在变化,例如,什么人属于“失业人口”?从未工作过、也不打算找工作的人算不算?休假5周、领着离职金、正准备从前一家公司跳槽到另一家公司的人算不算?若有人每周只打算工作几小时,算不算?经济模型的世界中,对这类问题总是给出武断的答案,所牵涉到的众多参数永远不能确切地观测到,但它们彼此作用、互相影响。
在推导经济指标与社会指标时,可没有像费歇尔这样的天才,能够建立起最佳的标准。在每一个个案中,我们都设法把人们之间的复杂影响简化成一小组数字。不得不做出武断的决定。美国进行第一次失业普查时,只对户主进行计算(大部分是男性),而现行的失业率调查,则包括前一个月内想找工作的所有人。在修订消费者价格指数时,对武断程度差不多的定义存在着不同意见,作为督导者,诺伍德女士必须在它们之间求得一致,但永远会有诚恳的批评者就这些定义提出反对意见。
理论统计界的女性
本章提到的考克斯与诺伍德,扮演的角色主要是老师与管理者。20世纪后半叶,妇女对理论统计学的发展也起到了重要作用。第6章介绍过蒂皮特,他的第一条极值渐进线能用来预测“百年难得一见的洪水”。这种统计分布有个改良版,称为“威布尔分布”(Weibull distribution),在航天工业中有很重要的用途。但威布尔分布有个问题,它不满足费歇尔的正则性条件,因此,没有一种最优方法来对参数进行估计。后来,北美罗克韦尔(Rockwell)公司的南希?曼布之间有某种关联,因而,发展出一套方法,目前应用于该领域。
威斯康辛大学(the University of Wisconsin)的格雷斯?沃赫拜(Grace Wahba)女士采用一组特殊的曲线拟合法,叫做“样条拟合”(spline fits),并发现了支持当今样条统计分析的理论公式。
20世纪60年代末,部分统计学家与医学家组成了一个委员会,他们设法研究三氟溴氯乙烷(halothane)这种麻醉剂的广泛使用,是否是病人肝衰竭发病率增加的原因,伊冯娜?毕晓普(Yvonne Bishop)女士是该委员会的成员之一。由于大部分数据以记录事件次数的形式出现,因此分析结果令人困惑。在此之前的10年间,很多人试图像研究三氟溴氯乙烷那样,制作一种复杂的多维计数表,但都没有特别的成效。这些研究人员曾经建议,应该用类似费歇尔的方差分析法去建立这样的表,但这项工作并未完成。后来,毕晓普女士接手了这项研究,检验了一些理论上的分歧点,并建立起估计与解释的准则。她把三氟溴氯乙烷研究得到的方法加以修饰之后,出版了一本权威性的著作。这个方法后来被称为“对数线性模型”(log-linear model),如今成为大部分社会学研究中首先要做的一个标准步骤。
从斯内德克和考克斯那时开始,“最佳人选”经常是女士。
第20章 朴实的德克萨斯农家小伙
20世纪20年代末,塞缪尔?S?威尔克斯(Samuel S. Wilks,1906-1964)离开德克萨斯州(Texas)的家庭农场,到爱阿华大学读书。当时数学研究的工作主要是提升抽象之美。一些纯抽象领域,如符号逻辑(symbolic logic)、集合论(set theory)、点集拓扑学(point set topology)与超穷数理论(the theory of transfinite numbers)等,流行于美国各大学。由于过于抽象,使得任何与实际问题有关的灵感,哪怕只要沾到一点点边,都被抛到九霄云外。不少数学家一头栽进古希腊数学家欧几里德(Euclid)声称作为数学基础的公理当中。他们发现,在这些公理背后,还存在一些未被说明的假设。于是,他们设法去除这些假设,直接探索逻辑思维的基本构成元素,使自己沉浸在引人注目、但看似自相矛盾的想法中。如“填满空间的曲线”、“一个同时到处接触且不接触的三维体”等等。他们研究无穷大的不同阶数(order of infinity)及分数维度的“空间”。数学处于纯抽象思想之波四处席卷的高潮,没有丝毫现实世界意味。
没有任何地方像美国大学的数学系那样远离现实,深入抽象。美国数学学会(the American Mathematical Society)发行的刊物,是公认的全世界最顶尖的数学期刊,美国数学家在抽象的世界里一直往前走。正如威尔克斯几年后感伤地表示,这些数学系就像希腊神话中的海上女妖,不停地把全国最优秀的研究生引诱过去。
威尔克斯在爱阿华大学上的第一门研究生数学课程是由R?I?穆尔(R. I. Moore)讲授的,他是本校数学教授中最有名的。穆尔讲授的是点集拓扑学,这使威尔克斯接触到抽象世界之美。穆尔毫不讳言自己看不起应用领域,他坚持认为应用数学与洗碗、扫街处于同一水平。从古希腊开始,这种态度就流行于数学界了。传说有一次,欧几里德对一个贵族小孩子讲解某个定理的美妙证明,老师虽然满腔热情,学生似乎无动于衷,反而问这有什么用。欧几里德听了,叫来一个奴隶,吩咐说:“给他一个铜币,他好像一定要从所学的知识里得到好处。”
威尔克斯后来转向实际应用领域,是由于博士学位论文的指导教师埃弗里特?F?林奎斯特(Everett F. Linquist)。当时,威尔克斯正在进行博士论文的先是工作,而林奎斯特曾研究过保险数学,对新发展出来的数理统计学很有兴趣,因此,从中为威尔克斯推荐了一个问题。那里,大家对数理统计的评价并不高,至少在美国和欧洲各大学的数学系里如此。费歇尔先生的开创性大作多半发表在一些“非主流”期刊里,如《爱丁堡皇家学会哲学学报》(Philosophical Transactions of Royal Society of Edinburgh)。而《皇家统计学会期刊》与《生物统计》都刊登一大堆制成表格的统计数字,因而受人轻视。亨利?卡弗已经在密西根大学着手创办一份新期刊《数理统计年报》,但对大多数的数学家来说,其程度还是太低,不能引起他们的注意。林奎斯特发现,教育心理学用到的测量方法中,有个很有趣的数学问题,就建议威尔克斯试试。后来威尔克斯把问题解决了,并以此作为博士论文,最后发表在《教育心理学期刊》(Journal of Educational Psychology)发。
对纯数学领域的人来说,这件事算不上什么成就。教育心理学的东西,引不起他们多大兴趣。其实博士论文也只是踏入研究工作实验性质的第一步,很少期望学生在博士论文里就做出重大贡献。后来,威尔克斯到哥伦比亚大学做一年的博士后研究(以增加他处理重要抽象数学概念的能力)。1933年秋季,他受聘到普林斯顿大学,担任数学讲师。
统计在普林斯顿
普林斯顿大学的数学系也和美国其他大学的数学系一样,沉浸于许多冷酷、优美的抽象数学概念中。1939年,普林斯顿高级研究院(Institute of Advanced Studies)成立。高级研究院的第一批研究员中有H?M?韦德伯恩(H. M. Wedderburn),他致力于将所有的有限数学群(finite mathematical groups)完全一般化。研究院还有赫尔曼?韦尔,他以无维度向量空间(nondimensional vector space)的研究出名,库尔特?格德尔(Kurt G?del)发展出元数学代数(algebra of metamathematics)。这些人的风格影响到普林斯顿大学的教师们,这些教授本来就是世界知名的数学家,其中最突出的是所罗门?列夫契兹(Solomon Lefshefz),他打开了通往代数拓扑学(algebraic topology)这一新的抽象领域之门 。
尽管整个普林斯顿大学系都偏向抽象数学,对威尔克斯来说,幸好系主任是卢瑟?艾森哈特(Luther Eisenhart),他对所有的数学领域都很感兴趣,并且鼓励年轻教师依照自己的爱好进行研究,艾森哈特聘用威尔克斯到普林斯顿大学,就是认为数理统计是有发展潜力的学问。威尔克斯带着太太来到普林斯顿,追寻应用数学的远景,这使得他和数学系的其他教师们相比与众不同。他是个温和的战士,他那德克萨斯农家小伙的质朴,可以让任何人解除武装。他感兴趣的是个性的人,也能说服别人听从他的观点。他又是一个相当优秀的组织者,能安排各种活动去完成难以达到的目标。
当别人还在设法了解某个问题时,威尔克斯通常已经能直接切入该问题的核心,并想出一些可能的解决方法了。他的工作态度非常认真,也能说服别人像他那样努力工作。抵达普林斯顿大学不久,他就成为《数理统计年报》(也就是卡弗创立的那份统计期刊)的主编。他建立了论文发表的标准,并带领研究生一起编辑这份期刊。有位新来的同事约翰?图基,本来对抽象数学比较感兴趣,但威尔克斯说服他加入到他所从事的统计研究中。威尔克斯带过的许多研究生,第二次世界大战后纷纷在其他大学成立统计系,或在统计系任教。
威尔克斯的博士论文,处理的是教育心理学中的问题,因此,他有机会参与教育测试服务(Educational Testing Service)工作,帮助制定出抽样程度和评分方法,用于大学入学和其他学校的考试。他建立的理论工作,使得不同加权结构的计分方法仍然可以得到类似的结果。他和贝尔电话实验室(Bell Telephone Laboratories)的沃尔特?休哈特 也有联系,休哈特正开始把费歇尔的实验设计理论用于工业产品的质量控制上。
统计与战时事务
20世纪40年代,威尔克斯最主要的工作,可能是在华盛顿担任海军研究局(Office of Naval Research)的顾问。他认为,实验设计法可以改善武器的使用效果,刚好海军研究局的人容易接受他人的建议。在美国参加第二次世界大战时,陆军与海军准备将统计方法应用在美国式的作用研究当中。在国防研究委员会(National Defense Research Council)之下,威尔克斯建立了普林斯顿统计研究小组(Statistical Research Group-Princeton,简写为SRG-P)。这个研究小组招聘了一批聪明的年轻数学家与统计学家,其中很多人战后仍对科学有重大贡献。该小组的成员包括:约翰?图基,他把整个研究重心都转到应用上;弗雷德里克?莫斯特勒(Frederick Mosteller),他在哈佛大学设立了几个与统计有关的院系;西奥多?W?安德森(Theodore W. Anderson),他写的多变量统计教科书,后来成为相关领域的圣经;亚力山大?穆德(Alexander Mood),后来在随机过程理论上有重大的进展;查尔斯?温莎(Charles Winsor),他整个估计方法领域享有盛名;等等。
安德森在普林斯顿统计研究小组工作的时候,还是个研究生,他提到了当时为了找出一种毁坏地雷的方法而进行的种种尝试。就在进攻日本本土的日子越来越近的时候,美国陆军得知日本已经开发出一种非金属地雷,已知的探测工具无法测到它。日本人将在海岸线上,以随机形态在可能的入侵路线上布满这种地雷。仅这种地雷造成的死伤人数据估计将高达数十万,因此,亟需一种可以毁坏这种地雷的方法。在此之前,欧洲曾尝试过从飞机上丢炸弹来引爆地雷,但没有成功。安德森与研究小组的其他成员曾组织在一起,设计利用引爆绳索来毁坏这种地雷的试验。依据安德森的说法,实验数据计算的结果显示,这种方法不可能有效毁坏地雷,这也是导致美国在日本投下原子弹的原因之一。
该小组也研究一种用在防空火炮上的近爆引管(proximity fuses),近爆引管本身会发出雷达信号,当发现目标接近时会自动引爆。此外,他们还协助开发出第一个会自动飞向目标的精巧炸弹(smart bombs)、研究测距仪(range finders)和各种不同各类的炸弹。普林斯顿统计研究小组的成员,不断地为全国各地的军事设施或军工实验室设计实验、分析数据。后来,威尔克斯又在哥伦比亚大学,协助组建了第二个统计研究小组(Statistical Reaserch Group-Princeton,Junior,缩写为SRG-Pjr),这个小组的成果之一就是“序贯分析”(sequential analysis),这是一种当实验还在进行时,就可以对实验设计进行修订的方法。序贯分析所允许的实验修正,涉及每一个被检验的处理步骤。就算是最审慎的实验设计,得到的结果有时也会显示出,原先的设计要做一些变动,以使实验结果更为完整。序贯分析的数学理论会使科学家知道,在不影响结论有效性的 情况下,什么样的修订可行,什么样的修订不可行。
序贯分析研究从一开始就被列为最高机密,直到战争结束若干年后,参加这项研究的统计学家都不能对外发表论文。20世纪50年代,第一批有关序贯分析及其“近亲”——序贯估计(sequential estimation)的论文发表之后,激发了其他人的想象力,整个领域迅速发展起来。今天,统计分析里的序贯法(sequential method)已在工业产品质量控制、医疗研究、社会学研究等领域广为应用。序贯分析只是威尔克斯及其统计研究小组在第二次世界大战期间进行的许多创新中的一个。第二次世界大战后,威尔克斯继续与军方合作,协助他们改善对装备进行的质量控制,利用统计方法发送对未来需求的计划工作,并把统计方法用于军事领域的所有方面。威尔克斯反对那些埋头于纯抽象理论的数学家,理由之一就是他们不爱国。他认为国家需要数学家的智慧,而这些人却精力用在没有什么价值的抽象世界里。国家需要这些人的智慧,以前是为了战时事务,后来则是为了冷战。
然而,没有记录显示有人曾对威尔克斯不满。他自由、亲切地面对每一位人,不管是刚踏出校园的毕业生,或是陆军的四星上将。他只是一个来自德克萨斯农场的老“小伙儿”,他会暗示对手,他知道自己还有很多东西需要学习,但他也想知道是否能……,接着是对所遇问题的详尽推理与分析。
抽象理论中的统计
威尔克斯尽力使数理统计不但成为数学里令人尊敬的一部分,还是一种实用的工具,他努力把同行的数学家们从冷酷的抽象世界中拉回来,不要为抽象而抽象。在抽象数学理论里,确实有一种基本的美感,这些形式上的美感如此吸引希腊哲学家柏拉图(Plato),以至于他声称,所有我们可以看到与接触到的东西,事实上只是真实世界的影子,而这个宇宙里真正能找到的真实事物,只能透过纯粹的理性来获得。柏拉图对数学的知识相当天真,其实希腊数学家所珍视的纯粹性,很多是有缺陷的。但是,透过纯粹的理性思考所发现到的美感,还是很诱人的。
自从威尔克斯成为《数理统计年报》的编辑之后,出现在该年报 和《生物统计》上的文章越来越抽象。《美国统计学会期刊》(the Journal of the American Statistical Association)上的文章(这份期刊早期以政府统计项目为主)和《皇家统计学会期刊》上的文章也一样(早期刊登的文章不少是大英帝国的农业与经济统计方面的详细资料)。
曾经被数学家认为过度涉入实际问题泥沼的数理统计理论,此时已被重新澄清,恢复它的数学之美。通过高度抽象的理论归纳,亚伯拉罕?沃尔德(Abraham Wald)统一了已有的估计理论,被称为“决策理论”,在这种理论当中,不同的数理特性,会有不同的估计准则。费歇尔进行的实验设计研究,根据的斥是有限群论中的定理,用一些很巧妙的观点,比较不同的处理,由此推演出一个数学分支,称为“实验设计”(design of experiments)。但是,该领域的论文谈到的实验都较为复杂,因此,从未有实验科学家做过这种实验。
最后,当其他人继续研究安德烈?柯尔莫哥洛夫的早期著述时,概率空间与随机过程的概念变得越来越统一,但也越来越抽象。到了20世纪60年代,统计学期刊上的论文处理关于无穷集(infinite sets)的问题,通过对无穷集做并和交形成了西格互域(sigma fields)的集,即西格互域嵌套在西格互域中,使得无限序列在无穷远点收敛,而随机过程通过时间受限于一个小的有界状态集里,注定会永无止境地循环下去。数学统计的末世学,就和任何一种宗教的末世学一样复杂,甚至更复杂。数理统计的结论不但为真,更是可以证明其为真,这一点与宗教上的真理不所不同。
20世纪80年代。数理统计学家认识到他们所从事的研究领域与现实脱离太远。为了满足应用的迫切需求,美国各大学纷纷成立应用性院系,如生物统计系、流行病学系、应用统计系等,设法调整这种分裂,它们原本属于同一学科。数理统计研究院(the Institute of Mathematical Statistics)的一些会议,冠上了“应用”的名义。《美国统计学会期刊》也另辟专栏,刊载相关的应用性问题,皇家统计学会的三份期刊当中,有份就命名为《应用统计》(Applied Statistics )。但是,抽象理论的魅力仍在。成立于20世纪50年代的生物统计学,创办了《生物统计学》,打算刊登已经不受《生物统计》欢迎的应用性论文,但到了80年代,《生物统计学》的内容开始变的非常抽象,因此,又出现了其它期刊,如《医学统计》(Statistics in Medicine),以满足刊登应用性论文的需要。
当数理统计出现时,欧美各大学的数学系错失了发展良机。后来,在威尔克斯的带领下,很多大学成立了独立的统计学系。当数字计算机出现的时候,数学系很轻蔑地认为它只是一种从事工程运算的机器,又失去了机会。于是独立的计算机科学系成立了,有的从工程系分支出来,有的从统计学系分支出来。下一次重大革命是80年代分子生物学的发展,它牵涉到许多新的数学观点。正如第28章将会讲到的那样,数学系与统计学系都没搭上这班车。
威尔克斯逝世于1964年,享年58岁。在过去的50年间,他的很多学生都在统计学科的发展上发挥了重要作用。美国统计学会用他的名字成立了“S?S?威尔克斯将”(S. S. Wilks Medal),每年颁发一次,得奖人必须符合威尔克斯的数学创造力标准,以及对“现实世界”(real world)的热心投入。来自德克萨斯州的农家小伙,创造了自己的名声。
第21章 家庭中的天才
20世界的前25年,数百万的移民从东欧、南欧迁往英国、美国、澳大利亚和南非。这些移民中的大多数来自他们本国的贫穷阶层,他们逃离压迫人的统计者和混乱的政府,寻求经济机会和政治自由。他们大都寄住在大城市的贫民窟,在那里,他们希望通过教育这个魔杖,使自己的孩子摆脱贫困。在这些孩子当中,有些人显示出非同寻常的潜力,有的甚至是天才。本章就介绍两个移民孩子的故事,其中一个拿到两个理学博士和一个哲学博士学位,而另一个,14岁时就离开了就读的高中。
I?J?古德(I. J. Good)
古达克(Goodack)出生在波兰,但他不喜欢沙皇,也不喜欢沙皇对波兰的统治,特别不愿加入沙皇的军队。在他17岁的时候,就同与他有相同想法的朋友一起逃往了西方。他和他的朋友两人一共只有35卢布和一大块奶酪。一路上,他们没有车票,被发现时就用奶酪贿赂查票人员,晚上就睡在火车的座椅下面。古达克到达伦敦后,栖身在白教堂(Whitechapel)的犹太人贫民窟里,除了勇气和健康的身体外,当时他一无所有。后来他开了家修表店,而所有的修表技术都来自别的修表匠,他是靠在人家橱窗外偷看学会的(那里的光线倒很不错)。后来,他又对浮雕古董产生了兴趣,最后终于在大英博物馆附近开了一家古董珠宝店(从他未婚妻那里借的钱)。开业前,他雇了个画家,让他把自己的名字喷在新店铺的玻璃橱窗上,但那个家伙喝醉了酒,根本拼不出“Goodack”这几个字母,结果店名成了“古德浮雕定石之家”(Good’sCameo Corner),而这家人的姓氏也从此变成了“古德”。
古达克的儿子I?J?古德1916年12月9日出生于伦敦。最初,古达克为儿子取名为伊西多尔(Isidore),但有一年,由于戏剧《善良的伊多西尔》(The Virtuous Isidore)到镇上演出,到处都张贴着宣传演出的大型海报,使年轻的古德非常尴尬。从那以后,他改名为杰克(Jack),并以I?J?古德的名字发表论文和著作。
1993年,在与大卫?班克斯(David Banks)的一次访谈中,杰克?古德回忆起他大约9岁的时候发现了数字的奥秘,并且心算能力变强。当时古德患白喉不得不卧床休息,他的一个姐姐来教他如何算平方根。在那里的正规学校课程安排中,学生学完长除法后,才开始学开平方,开平方的过程包含一连串的平分及平方运算,写在纸上有点像长除法的形式。
因为被迫在床上静养,古德开始用心算的方法开2的平方根。他发现计算好像可以一直延续下去,而且当他把已计算部分的结果再平方时,得数只比2小一点点。他继续心算下去,想看看能否找到某些模式或规律,但没有找到。他认识到整个过程可以看成一个数的平方与另一个数的平方的两倍之差,因此,只有当一定的模式存在时,这个数才可以用两数的比来表示。躺在床上,只靠心算,10岁的古德就发现了2的平方根是无理数。与此同时,他也发现了“丢番图”(Diophantine)的问题的解,即“佩尔方程式”(Pell’s equation)。虽然早在古希腊时代,毕达哥拉斯学派(Pythagorean Brotherhood)就发现了2的平方根是无理数,佩尔议程式也在16世纪就解出来了,但这些都不影响一个10岁孩子在心算上的惊人成就。
在1993年的访谈中,古德沉思道:“那是一个不错的发现——曾被哈代(Hardy,活跃在20世纪20-30年代的英国数学家)称为古希腊数学家最伟大的成就之一。如果这一发现是当今的大人物所为,我会觉得很平常,但这在两千五百年前却是一个惊人之举。”
在12岁的时候,古德进入由缝纫用品商公司开办的艾斯克(Aske)男子中学 就读。这所学校位于哈姆斯代德(Hampstead),是专门为商贩的孩子们开办的学校,校规一向非常严格,它的校训就是要学会服务和服从(serve and obey)。在就读的所有学生中,大约只有十分之一能够升到最高年级;而这十分之一当中,又只有六分之一最后能进大学。在早年的求学生涯里,古德的老师是斯马特(Smart)先生。斯马特先生经常在黑板上抄一组练习题让学生去做,其中有些题是非常难的,他知道这要耗费学生很多时间,这样一来,他就可以利用这段时间在讲桌上做自己的事情。有一次,当他刚写完最后一题时,小古德就举手说:“我做完了。”斯马特先生略带惊讶地问:“你做完第一题了吗?”“不!”古德回答:“我全部都做完了。”
那时候,古德对数学难题的书异常地着迷。他喜欢先看答案,然后再在题目与答案之间找出一条捷径。在面对“一堆弹子”的问题时,他一看答案,就知道可以用比较繁琐的计算方法求出问题的解来。但对他来说,他感兴趣的是探索如果归纳解题的方法。在这个过程中,他发现了数学归纳法的原理,并完善了它。而这个原是仅仅是在300年前才被早期的数学家所发现。
19岁的时候,古德进入剑桥大学。在此之前,有关他的数学天才的传闻,却比他的人更早传到那里。尽管如此,他还是发现,在剑桥有许多同学和他一样具有数学天分。那时候,剑桥耶稣学院(Jesus College)的数学导师似乎更喜欢规范的数学证明方式,以至于在整个数学证明过程中,任何直觉的思维成分,都要受到排斥。更糟糕的是,导师在黑板上写证明过程时的速度非常快,往往学生还来不及抄下来,就已经被擦掉,又写上了新了内容。古德在剑桥表现杰出,连一些资深的数学家都对他特别青睐。1941年,他获得数学博士学位,论文阐述拓扑学的偏维(partial dimension)理论,是对亨利?勒贝格(就是前面曾提到过的那个成就令奈曼敬仰,但初次见面却对这个年轻人异常粗鲁的数学家)思想的扩展。
二战期间,古德成为一名密码破译员,他工作的地方就在伦敦附近的布莱奇利公园(Bletchley Park)里的一个实验室,其工作就是破译德国人的密码情报。一组密码往往由表述信息的字母转换成的一连串的符号或数字构成。在1940年,这些密码已变得非常复杂,转换的模式甚至可以随着每个字母的不同而改变。例如把“战争开始了”(war has begun)这段信息编成密码,一种方法是将这段话的每个字母配上一组数字,这样就构成了由12 06 14 09 06 23 11 19 20 01 13这样一行数字组成的密码。破译人员会注意到,其中06这组数是重复出现的,从而是可以判断它代表着同一个字母。如果这段信息足够长,且大约知道不同字母在语句中出现的统计频率,再加上一点幸运的猜测,密码破译员就有可能在几小时内把这段情报破解出来。
在第一次世界大战的最后几年,德国人研制出一种编码机器,可以为每个字母变换密码。譬如,第一个字母的编码也许是12,而当这个字母第二次出现时,机器就会给它一个与上次完全不同的编码,这个字母的编码可能就变成了14;等到第三次遇到同一字母时,也许编码又变了,如此这样编下去。依靠此种方法,密码专家就不会把上次已经使用过的数字,作为同一个字母的编码,再次使用。不过,作为密码的未来接收者,他们也必须了解这种新型密码的编制规律。因此,就机器编码来说,从一种编码转换为另一种编码,还是有一定的规律性的。密码破译专家可以依据一定的统计模式,估计出编码的规则性,从而找出破解密码的方法。然而,对于密码破译者来说,密码破译工作的难度还是越来越大:一旦最初的编码被一种固定程序所替换,那么整个程序就有可能被一种更高级的固定程序所替换,从而使衍生出来的新密码的破译难度更大。
所有这些工作,都可以用一种数学模式来表示,它很像第13章里讲到的贝叶斯分层模型。编码的每一级的变换形式,都可以用一个参数来代表,因此,我们所面临的就是如何测量的问题:编码资料里的数字可当成观测的初始值,参数代表第一层编码,超参数描述参数的改变,超超参数代表超参数的变换,如此一层层下去。最后。由于密码总要被接收者破译,因此,到最后一层,此时的参数是固定不变的,所以理论上这种密码也是可以破解的。
古德的一项主要成就,就是他从做密码分析师的工作发展出来的经验贝叶斯法(empirical Bayes)与层次贝叶斯模型(hierarchal Bayes methods)。由于战争时的工作经验,使他对数理统计的基础理论产生了极大兴趣。后来他在曼彻斯特大学(University of Manchester)教了一段时间的书,但英国政府又诱劝他回到情报单位工作,在这里,他成为电脑处理分析密码的重要人物。电脑可以大量检验各种数字的可能组合,使他有机会研究分组理论(classification theory),在分组理论中,观察单位按“贴近度”(closeness)的不同定义来组织。
在英国情报单位工作的同时,古德又拿到两个更高的学位,即剑桥与牛津两所大学的理学博士。他1967年到美国,被维吉尼亚理工学院(Virginia Polytechnic Institute)聘为大学杰出教授,一直到1994年退休。
古德永远对偶然出现的数字巧合感兴趣。“我在本世纪第七个十年的第七年、第七个月的第七日的第七时,抵达(维吉尼亚州的)布莱克斯堡(Blacksturg),被安顿在第七街区的七号公寓)一切就是这么巧合。”接着,他又说:“我有个不太成熟的想法,上帝对那些愈不相信他存在的人,提供的巧合愈多。让这些人自己相信比强迫他们相信要好得多。”这双能发现数字巧合的眼睛,也瞄上了统计估计理论中的工作。由于人类的眼睛可以在纯随机的数字中,看出某些模式,因此他会问,这样一个明显的模式,它的真实意义是什么?古德用他的头脑,探索出了数理统计模型的根本意义,正因如此,他后来所写的论文和书籍,哲学的味道愈来愈浓。
迪亚科尼斯
佩尔西?迪亚科尼斯(Persi Diaconis)是希腊移民的后代,1945年1月31日生于纽约。他的经历与I?J?古德完全不同,但和古德一样,他从小就喜欢数学谜题。古德看的是H?E?迪德内(H. E. Dudeney)写的书,书的内容在整个维多利亚时代的英格兰都很盛行;而佩尔西?迪亚科尼斯读的是马丁?加德纳(Martin Gardner)为《科学美国人》(Scientific American)杂志撰写的“数学娱乐”(Mathematical Recreations)专栏。后来还是在高中的时候,迪亚科尼斯遇到了加德纳,加德纳的专栏经常介绍一些玩扑克牌的小把戏,和一些使事情看起来很不同的方法,这些都使佩尔西?迪亚科尼斯非常着迷,尤其是有关概率的复杂问题。
由于佩尔西?迪亚科尼斯太沉迷于扑克片游戏,因此14岁时就离家四处游荡。其实早在他5岁时,就表演一些魔术游戏。在纽约,他经常到一些魔术师聚焦的饭店或商店去。在一家餐饮他碰到了魔术师迪亚?弗农(Dia Vernon),弗农在全国各地旅行,表演魔术。弗农邀请他当助手,一起旅行表演。“机会来了。”佩尔西?迪亚科尼斯叙述到,“马上出发。我没有跟父母说一声,就跟弗农走了。”
当时弗农已经60多岁了,佩尔西?迪亚科尼斯跟了他两年,把他的道具与技术都学到手了。后来弗农在洛杉机安顿下来,开了一家魔术道具店,佩尔西?迪亚科尼斯继续一个人旅行表演魔术。别人觉得他的姓氏拼写比较麻烦,因此他给自己取了个艺名佩尔西?沃伦(Persi Warren)。就像他回忆的那样:
那并不是什么了不起的生活,但日子过得还不错。有一次,我在卡兹奇(Catskill)表演,有人看了我的表演之后觉得很喜欢,就过来说:“喂,老兄,想不想到波士顿表演?……我可以付你200元美金。”……然后我就去了波士顿……安顿好表演场地,按确定的表演日期表演,……这时,或许就有经纪人来邀请你到别处去表演,日子就像这样。
24岁的时候,迪亚科尼斯厌倦了旅行表演的生活,回到纽约。但他没有高中文凭。他原本在学校念书的时候还曾跳级,但14岁离家出走时,还差一年高中才毕业。由于没有高中文凭,他注册念纽约市立学院(City College of New York)的成人教育班。后来他发现在他离家的这些年里,许多军队和大学与理工学院都寄信给他,请他去读书,而且信的开头都称呼他为“亲爱的毕业生”。看来在他离家逃学之后,学校的老师决定无论如何还是让他毕业,因此把最后一年的分数也给了他,使他能顺利拿到毕业证书。迪亚科尼斯并不知道,其实他已经是纽约华盛顿高中(Washington High School)的正式毕业生了。
迪亚科尼斯上大学的理由很奇怪。他曾经买过一本研究生程度的概率论教科书《概率论导论及其应用Ⅰ》(Introduction to Probability Theory and Its Application, Vo1.Ⅰ),作者是普林斯顿大学的威廉?费勒(William Feller)教授。他发现要看懂这本书很难(想看懂费勒这本书的大部分人都这样认为 )迪亚科尼斯进入纽约市立学院,想学到足够多的数学理论,以便把费勒搞懂。1971年,他26岁时拿到了纽约市立学院的学士学位。
有好几个大学的数学研究生院都接受了他的就读申请,以前有人告诉他,哈佛大学数学系从没收过纽约市立学院的毕业生(其实是误传),因此他决定申请哈佛的统计系而不是数学系。他想去哈佛,他认为,进入哈佛后,如果自己不喜欢统计,“那我可以转念数学或其他学科。他们会知道我很棒……”因此会接受他转系。结果,他对统计很感兴趣,在1974年拿到数理统计博士学位,并接受斯坦福大学的一个职位,还一直升至教授。写本书时,他是哈佛大学的教授。
电脑完全改变了统计分析特性的结构。开始,它用来做费歇尔、耶茨及其他统计学家做过的同样类型的分析工作,只不过快得多,能量也大得多。还记得(在第17章)杰里?科恩菲尔德要算一个24阶矩阵的逆矩阵时遇到的困难吗?现在我桌子上的电脑可以算出100阶矩阵的逆矩阵(尽管总是碰到这种情形的人大概没有很好地定义问题),就连一些条件不够充分的矩阵,也能通过去处,求出广义的逆矩阵,这在20世纪50年代还只是纯理论的概念。对于实验设计产生的数据(涉及多重处理与交叉对照),大量复杂的变异分析都可以通过电脑来完全,这类工作涉及到的数学模型和统计观念,其实可以追溯到1920年到1930年。试问,电脑还有什么不能做吗?
在20世纪70年代,迪亚科尼斯和一些年轻的统计学家在斯坦福成立了一个研究小组,试图研究电脑和数理统计的结构,设法回答上述问题。他们最早提出的答案之一是“投影追踪”(projection pursuit)数据分析法。现代电脑带来的其中一项弊端,就是很可能组成一些难度庞大的数据组,假设我们正在跟踪一群经诊断为高危心脏病的病人,他们每半年到医院检查一次,检查时,每个病人抽取10毫升的血,分析血液中100种不同酶的尝试,其中有许多种被认为心脏病有关。此外我们为病人做心电图检查,测量六种不同的项目,并进行心电图监控(或者要求他们一整天都载着监控器,记录一天下来约90万次的心跳)。为了医疗诊断,该测的测了,该量的量了,该抽的也抽了,得到了30-40个测量结果。
怎么处理这些数据呢?
假设每位病人每次检查会产生500个测量值,而在研究期间必须跟踪10次,一个病人就有5000个测量值。如果总共研究2万个病人,可以描绘成一个5000维空间里的2万个点。通常在科幻小说里,仅有四维空间就可让人晕头转向,但在统计分析的真实世界里,处理数千维空间则是很平常的事。在1950年,理查德?贝尔曼(Richard Bellman)就提出了一组定理,他把这组定理称为“维度的诅咒”(curses of dimensionality)。这组定理表示,当空间的维度增加时,得到确切参数估计的可能性就越来越小。一旦分析空间维度达到10至20个,观测值又少于10万,那么就分析不出任何结果。
贝尔曼的定理是基于标准的统计分析方法论。但斯坦福的研究小组发现,在这个5000维的空间里,这些真实的数据并非分散分布,实际上趋向较低的维度空间。假设这些分散在三维空间的点,全都落在同一个平面甚至同一条线上,这正是真实数据呈现的状态。每个临床研究病人的5000个观测值,不会毫无关联的呈分散状态,因为其中很多的测量值是彼此相关的。(普林斯顿大学和贝尔实验室的约翰?图基也曾提出过这种看法,他们认为至少在医学研究上,数据的真正“维度”通常不会超过5。)根据这种思想,斯坦福研究小组发展了一种电脑应用技术,以找出实际存在的低维度空间。这些技术应用最广的就是“投影追踪”。
在此期间,由于大量的无序信息的增加,引起了其他科学家的注意,许多大学纷纷设立信息科学这门新科学。由于这些受过工程训练的信息科学家并不知道数理统计界的最新发展,因此会在计算机科学领域做平行发展,因而有时会重新发现一些统计学上已经知道的事,但有时也会打开一个全新的、费歇尔或他的追随者不曾预料过的领域。本书的最后一章,还会讨论这个问题。
第22章 统计学界的毕加索
我在1966年完成博士论文后,曾经拜访过一些大学,介绍我的研究成果,看看是否能找到一份工作。我的第一站是普林斯顿大学,当时约翰?图基亲自到火车站来接的我。
在我求学期间,就已听说过关于图基学术上的传说,图基单自由度交互效应(Tukey’s one degree of freedom for interaction)、图基快速傅立叶变换(Tukey’s fast Fourier transform)、图基快速检验(Tukey’s quick test)以及图基引理(Tukey’s lemma)。这些还不包括他在探索性数据分析(exploratory data analysis)研究中的成就和他在此后年代中的杰出贡献。图基是统计系主任(同时也供职于贝尔实验室),他亲自到火车站接我,使我受宠若惊。那天图基穿棉织长裤和休闲运动衫,脚上是一双运动鞋,而我却是西装革履。60年代时尚风潮还没在大学教师中兴起,所以我的着装风格比他更正式。
图基带我穿过校园。路上我们谈论了在普林斯顿的生活条件,他还询问了我做论文时所用的电脑程序,他告诉我一些技巧,以避免程序中取整数上的差错。最后终于来到我要演讲的大厅。他把我介绍给大家后,就爬上了大厅的最后一排坐下。我开始演说,同时注意到,他正忙于修改学生的报告。
我讲完之后,有几个听众(都是研究生或教员)问了一些问题,并对一些细节提出建议。当确定没有人提问或评论时,图基就从后排走下来。他拿起粉笔,在黑板上把我的主要定理重写一遍,并且完全用我的符号 ,然后用另一种方法,很快证明出这个花了我几个月才证明出的定理。“哇!”我对自己说,“真不愧为是大师!”
图基1915年生于马萨诸塞州的新贝德福德(New Bedford),他那特有的拖长声的波士顿近郊口音,使他的谈话更加风趣。他的父母在他很小的时候就发现了他的过人天赋,因此把他留在身边自己教他,直到图基进入布朗大学(Brown University)。在布朗大学他拿到了化学学士与硕士学位,但后来他被抽象数学所吸引,因此到普林斯顿大学继续研修数学,于1939年获得数学博士学位。他最初的研究领域是拓扑学(topology)。点集拓扑学是数学根本理论产生的基础,而在拓扑学的基础之下,是一个艰深而神秘的哲学支派,称为“哲理数学(或元数学)”(metamathematics)。元数学告诉我们数学问题的解意味着什么,在逻辑应用背后有哪些未明确的假设。图基深入研究这些混沌不清的领域之后,提出了图基引理,成为他在这个领域的主要贡献。
然而图基的学术归宿并不是抽象数学。普林斯顿大学的塞缪尔?S?威尔克斯教授,一直推动那些学生和年轻教员进入数理统计领域。拿到博士学位后图基留在数学系当讲师。1938年,图基在准备论文时发表的第一篇文章就是有关数理统计方面的。后来到了1944年,他发表的所有论文几乎都是数理统计领域的。
二次大战期间,图基加入武器控制研究办公室(Fire Control Research Office)研究枪炮的瞄准、测距仪等与枪炮有关的问题。这种工作经历使他接触到许多统计问题的实例,成为他后来研究的题材,也使他对实践问题的本质有了进一步的认识。他常用精辟的格言总结重要的经验,其中有一句来自他的实际工作,那就是:“对正确问题的近似答案,胜过对错的问题的精确答案。”
多才多艺的图基
20世纪初,出现了一位震惊世界的绘画大师P?毕加索(Pablo Picasso),他的作品风格变化多端。有一段时间,他只用单色绘画,接着他又创造出立体主义,随后他又尝试古典主义形式,然后又去搞雕塑。毕加索每次的风格变化,都对艺术界造成革命性的影响,而其他人只能跟在他的后面,开发他留下恶报东西。图基也是如此。他从50年代开始研究安德烈?柯尔莫哥洛夫的随机过程概念,并发明了一种以电脑为基础的数据分析方法,可以分析一长串相互关联因素的影响结果,被称为“快速傅立叶变换”。就像毕加索的立体主义一样,图基在自然科学领域的影响是无人可比的。
在1945年,图基有关武器的研究把他带到了贝尔实验室设在新泽西州默里丘(Murray Hill)的研究中心,在那里他涉及到了各种不同的实际问题。在1987年的一次访谈中,他说:“我们有位姓布登博姆(Budenbom)的工程师,他造出了一种新奇的雷达跟踪仪,可以用来锁定飞行目标。他希望能到加利福尼亚去发表一篇论文,为此他希望有一份能显示新仪食品跟踪误差的图表。”布登博姆以频率范围来表述他的问题,但不知道如何得到频率振幅的一致估计值。尽管图基作为数学家很熟悉傅立叶变换,但从未把这种技术运用于工程中。最后,图基提出了一个似乎能满足布登博姆需要的方法(还记得他的格言吗?正确问题的近似答案也是有用的)。但他自己对此方法并不满意,于是他继续思考这个问题)。
结果是快速傅立叶变换。他是一种修匀方法,用图基的话说,就是向邻近的频率“借力”,这样即使没有大量的数据,也可得到良好的估计值。此外,快速傅立叶变换也是一种经过慎重思考的理论解决方案,带有最适的特性。50-60年代,在电脑的速度很慢、内存也很小的情况下,快速傅立叶变换还是一种非常有效的电脑演算方法。进入21世纪,这种演算方法依然有用,因为它比用更复杂的变换所得的估计值更精确。
电脑及其能力不断把统计研究的边界向前推进。我们在前面已提到电脑可计算大型逆矩阵的能力(这些如果让约翰?科恩菲尔德(John Cornfield)用手摇计算机做,可能需要数百年时间),此外,电脑在统计理论上还有另一压倒性优势,就是电脑的储存与分析大量数据的能力。
在60年代与70年代早期,贝尔实验室的工程师和统计学家是分析大量数据的先驱。监视电话线路的随机误差和问题,导致成千上万的数据项都存在一个电脑文件中,而用太空探测器传回的火星、木星及其他行星的数据资料,项目也都是数百万笔。你要如何看待如此大量的数据?又要如何整理它,才能加以检验?
按照K?皮尔逊开创的方法,我们总能估计出概率分布的参数,这就需要我们对这些分布做些假设,比方说假设这些分布属于皮尔逊系统。但如果我们不对分布做特别的假设,能不能有方法检验大量的调查数据,得到我们所需的信息呢?从某种意义上说,优秀的科学家一直是这么做的。格雷戈尔?门德尔(Gregor Mendel,奥地利遗传学家)做了一系列植物杂交实验,检验得出的实验结果,逐渐发展出他的显性和隐性基因理论。虽然大量的科学研究涉及到收集数据,并把收集到的数据和预先存在的某种分布模型对比,但有时仅收集数据,仔细地加以检验以发现意外结果也是非常重要和有意义的。
正如美国数学家埃里克?坦普尔?贝尔(Eric Temple Bell)曾经说过的:“数字不会说谎,但它有个偏好,就是在存心说谎的时候讲出真相 。”人类倾向于寻求模式,并往往在只有一些随机的、模糊的信息时,就认为已经找到了模式 。
这种现象在流行病学中比较明显,我们在调查数据时,常常发现在某些地方或某些时段有些疾病容易“群发”。假设我们发现马萨诸塞州的某个小镇,儿童患白血病的人数异常偏高,是否表示该镇上存在某种致癌因素?或者这只是碰巧发生的随机群体,在其他任何地方也有可能发生?假设当地居民发现有化工厂往镇的湖里排放化学废弃物,假设他们同样发现在儿童患白血病例较多的地区,饮水中芳香族胺(aromatic amines)的尝试较高,我们是否可以断定这就是导致儿童患白血病的原因呢?从更广义上说,在多大程度上,我们可以用倾向于模式的目光去检验数据,并且可以期望找到比这些随机的、模糊的讯号更多的信息?
在60年代,图基开始认真地考虑这些问题。他从这些问题中发现一种数据处理方法,可以说是K?皮尔逊方法的精炼版本。他认识到,即使没有武断的概率模型设定,还是可以把观测数据的分布当作一个分布来检验。结果,他发现了一系列论文,参加了很多场演讲,最后写成了几本书,被称之为“探索性数据分析”(exploratory data analysis)。在处理这些问题的过程中,图基采用了一种十分原始的方式来阐述他的观点。为了引起他的听众和读者的注意,使他们重新检验相关的假设,他对以前使用过的数据分布特征重新命名。同样,他脱离以往用标准概率分布的这个分析起点,转向检验数据本身的模式或形态,他还审视极值能改变我们观察模式的方式。为了调整错误的印象,他发展出一套图形工具来显示数据。
例如,他指出我们常用来表示数据分布的直方图(histograms),容易给人造成误导,会引导观测者去注意那些频繁出现的观测值。因此,他建议以观测值次数的“平方根”(square root)来观测值出现的次数,并以此数据画出的图形来取代直方图。他称这种图为“根图”(rootgram)。图基还建议将数据分布的中央区域画成一个小盒子开关,而把极值画成由盒子延伸出去的线段(他称这些线段为“腮须”(whiskers))。他提议的统计工具,有许多都被纳入标准的统计软件包。现在的分析师称它们为“箱形图”(box plots)和“茎叶图”(stem and leaf plots)。图基丰富的想象力扫遍整个数据分析领域,他的许多建议至今还在电脑软件中应用。我们至今用的两个英文单词,bit(位或二进位)和software(电脑程序,相对于电脑硬件)就是图基创造的。
对图基来说,世上没有什么事情会因为平凡而不值得去发挥原创力,也没有什么事情神圣到不容质疑。就拿最简单的记数过程来说:许多读者在计数某种东西时,或许已使用过一种记数符号。一代代的老师教我们的常用的符号就是先画4条垂直竖短线,第五条线穿过这4条线,表示5个数。不知读者看到过多少这样的场景:衣衫褴褛的犯人在监狱的墙上画下了一串串这样的计数符号。
图基说,这其实是一个愚蠢的记数方法。想想看,它多么容易出错。你可能画了三条竖线就画一个横线,也可能画了五条竖线后才画横线,这种记数法即使错了也很难发现,除非你仔细检查所画垂直线的数量。用一种容易找到误差的记数符号似乎更有意义。图基提出了十笔记数法:首先画四个点作为方型的四个角,然后再把四个点连成四条线,形成一个方型,最后在方型内画两条对角线。画完之后是十笔。
上述这此例子,快速傅立叶变换、探索性数据分析,都只是图基巨大成就的一部分。就像毕加索从立体主义到古典主义,从雕塑再到建筑,图基在20世纪下半叶,畅游于统计学的各领域,从时间序列(time series)、线性模型(linear models),到费歇尔的一些被人遗忘的研究工作的推广,再进一步到稳健估计(robust estimation)及探索性数据分析。他从研究深奥的数学理论起家,又因思考和解决实际问题脱颖而出,最后落脚在研究无结构的数据估计上。在他研究的所到之处,统计变得与以往大不相同。就在2000年夏天,也就是在他去世的当天,他还和朋友、同事们在一起,讨论问题,提出自己的新观点,并对以往的旧观点展开质疑。
第23章 处理有瑕疵的数据
证明统计方法用途的数学定理通常都假设:在科学实验或观察中的测量值都是同样有效的。如果分析者在进行分析时,只选择数据中他认为看起来是正确的数据来分析,那么统计分析结果可能就会产生非常严重的错误。当然,这正是以前科学家们通常的做法。早在20世纪80年代初期,S?施蒂格勒阅读了18世纪和19世纪许多伟大科学家们的笔记本,比如,因为确定了光速而获得1907年诺贝尔奖的艾伯特?迈克逊(Albert Michelson)。施蒂格勒发现,所有这些科学家在开始他们的计算前已经剔除了一些数据,17世纪初就发现行星绕太阳以椭圆轨道运行的科学家约翰尼斯?开普勒(Johannes Kepler),他在研究古希腊天文学家的记录时,发现有一些观测位置记录不符合他正在计算的椭圆轨道,于是他就忽略了这些缺损数据(faulty value)
但是现在,值得尊敬的科学家们不再抛弃那些看起来是错误的数据,统计革命在科学界的广泛影响,教会了现在的实验科学家们不要剔除任何数据。统计学的数学定理要求同等对待所有的数据。但如果有些数据的确错了,我们该怎么办?1972年的一天,一位药理学家带着这样一个问题来到了我的办公室。他在小白鼠身上研究溃疡的预防,正在比较两种不同的处理方法,他确信这会产生截然不同的结果,而且他的数据看起来也显示同样的结论,但是当他依据奈曼-皮尔逊的理论进行正式的假设检验时,比较结果并不显著。他确信问题出在两只小白鼠的观测数据上,这两只小白鼠使用了不足量药剂,尔后都没有发生溃疡,使得它们的结果看起来要远远好于另外一种处理方法的实验结果——而那本应该是最好的。我们在第16章已经看到了非参数方法是如何发展起来去解决这一类问题的。这两个离散数据刚好处于错误的一边,而且数量上还是两项,所以即使用非参数检验结果也不显著。
如果这种事情发生在一百年前,这个药理学家就可以剔除这两个错误的数据,继续进行他的计算,不会有人提出异议。但是,他已经学习了现代统计方法,他知道他不能够这样做。很幸运,当时我手头正好有一本刚读过的新书,书名是《位置的稳健估计:调查与与改进》(Robust Estimates of Location: Survey and Advances),它记述了一项重大的主要应用计算机进行的研究成果,即约翰?图基进行的我们称之为“普林斯顿稳健性研究”(Princeton Robustness Study),在这本书中我们可以找到这位药理学家问题的答案。
“稳健(robust)一词对很多美国人来说,听起来很奇怪。许多统计学术语都来自于英国的统计学家,并且都反映了他们的语言习惯。例如,在英国,把数字微小的随机波动称为“误差”(error)是很普遍的 ,有时候,数据不仅是明显错误的,而且由这引动错误造成的结果的原因也是可能看出来的,例如一块田里的农作物绝产。这样的数据被费歇尔称为“谬误”(blunders)。
是乔治?博克斯(George Box)——费歇尔的女婿,在他的英国语言应用习惯的基础上发明了“稳健”(robust)这个词。博克斯有很得的口音,这主要是因为他最初成长在泰晤士河附近。他的祖父当时是一个五金器具批发商,生意很不错,供博克斯的伯父们读完了大学,其中有一位还成了神学教授。当博克斯的父亲成年时,祖父的生意已经失败,他父亲没有受过高等教育,只好去作一个商店主的助理,靠薪水维持全家人的生活。博克斯上了中学,知道他没有钱上大学,所以他开始在一个技校里学习化学。这时,第二次世界大战爆发,博克斯应征入伍。
因为有学习化学的背景,他被分配去化学防御实验部门工作。在那里,许多顶尖的英国药理学家和生物学家正致力于不同毒气解毒方法的研究。约翰?加德姆爵士(Sir John Gaddum)也在这些科学家中,他在20世纪20年代末将统计革命引入药理学,并且为药理学的基本概念赋予了一个牢固的数学基础。
博克斯成为一个统计学家
博克斯的上司是一个陆军上校,他对收集来的大量数据感到束手无策,这些数据记录的是不同剂量的不同毒气在老鼠和小白鼠身上的不同反应。他搞不清楚这些数据说明了什么,就像博克斯在1986年叙述的那样:
有一天,我对长官说:“你知道,我们真的需要有个统计学家来帮我们看看这些数据,因为它们变化太多了。”他说:“是呀,我知道。但是我们找不到一个统计学家,因为它们都很忙。你对统计知道些什么?”我说:“噢,我对此一无所知,但是我曾经读过一本书叫《研究工作者的统计方法》,是一个叫费歇尔的人写的,我没看懂,但是我想我明白了他正在做什么。”于是长官说:“那好,如果你读了这本书,最好由你来做这件事吧。”
于是,博克斯与军队的教育机构联络,要求去进修统计方法的课程。但是当时没有这样的课程,统计分析方法还同有成为大学的正规课程,但是他们送给博克斯一份阅读书目,书目无外乎最新的图书出版信息,其中列有费歇尔写的两本书,一本关于教育研究的统计方法,另外一本关于医学统计学,此外,还有一本书是谈林业和牧场管理的。
博克斯对费歇尔的实验设计非常感兴趣。他在那本关于林业管理的书中发现了几个特别的设计,并将这些设计改造,使之适合于进行动物实验(当时科克伦和考克斯合著的《实验设计》一书尚未出版,书中有许多细心描述的实验设计)。通常由于书中所列的实验设计不是很适用,所以博克斯就参照费歇尔的一般性的描述,结合他的发现,考虑了自己的实验设计。其中有一个最让人感到奇怪的实验是:让志愿者两臂各露一小块皮肤,暴露在不同的毒气下,然后采用不同的治疗方法。每个人的两臂是相关的,因此在分析时必须考虑这个因素,必须做一些处理,但是在这本关于林业的书中没有这方面的论述,在费歇尔的书中也没有类似的论述。所以,博克斯这个只在技校里不完整地进修过一些化学课程的,只好从基本的数学原理开始,创造出适用的实验设计。
博克斯实验设计的实力在一个否定结论的实验中表现出来。一个美国眼科专家带着他认为对刘易士毒气(lewisite)治疗效果极好的解毒剂来到了博克斯的实验室。刘易士毒气毒性极强,一小滴就可导致失明。他在美国已经在兔子身上做了很多次试验,他的厚厚的论文也证明了他的药剂效果极好。当然,他根本不知道费歇尔的实验设计,事实上,在他的实验中漏洞百出,实验设计中有许多与结果无关的因素没有分离出来,这样的设计是不可能得到真实的结构的。兔子有两只眼睛,于是博克斯利用他的新设计针对这个事实提出了一个非常简单的实验,这个实验很快显示这种解毒剂根本是无效的。
他们准备写一份描述这些结论的报告,作者是一个英国军官,博克斯负责写统计附录,即解释这个结论是怎样得出的。一个负责审核报告的军官坚持删除博克斯写的那部分,他认为这部分太复杂了,没有人能看懂(事实上是这位负责审查的人看不懂)。但是约翰?加德姆爵士已经阅读了初稿,他跑去恭贺博克斯在附录部分所做的工作,得知这部分将在最终报告中删除,于是他拉着博克斯怒气冲冲地闯进了组合行军棚屋,当时审查报告委员们正在开会,用博克斯的话说:“我感到很尴尬,这个非常有名的大人物为在场的所有国家公职人员读了一段我写的附录,然后说:‘把这些东西给我放回去’。”他们很快就照办了。
战争结束后,博克斯认为去学习统计学是非常有价值的,他已经读了费歇尔的书,知道费歇尔在伦敦大学的大学学院任教,于是他来到了这所大学,但是他不知道费歇尔已经在1943年离开了伦敦大学到剑桥大学任遗传系主任了。会见博克斯的是E?皮尔逊,费歇尔曾对他跟奈曼合作进行的假设检验进行过刻薄的批评。会谈时,博克斯热情洋溢地描述他对费歇尔理论的认识,介绍他在实验设计中的心得,皮尔逊静静地听着,最后说:“好吧,总之你可以来我校就读,但是我想你将来会知道,在统计界里除了费歇尔外,还有其他一个或两个人的存在。”
博克斯留在大学学院里学习,取得了学士学位,接着又继续攻读硕士学位。他发表了许多关于实验设计的文章,被认为可以当作博士论文,于是,他直接得到了博士学位。当时,帝国化学工业公司(Imperial Chemicals Industry(ICI))是英国最主要的发明新化学药品的公司,博克斯应邀参加了该公司的数学服务小组,他从1948年至1956年一直在ICI公司工作,其间他写了一系列的论文(通常是合著),这些论文扩展了实验设计方法,检验了一些在生产过程中为提高效益进一步调整产出的方法,同时,也是他后来对柯尔莫哥洛夫随机理论进行应用研究的起点。
博克斯在美国
博克斯到了普林斯顿大学任统计方法研究小组的负责人,接着到威斯康星大学开设了统计学系。他已经是所有重要统计组织的成员,因为他卓越的成就得到了好几项声望很高的奖励。即使在退休后,他仍然致力于学术研究和学术组织的管理工作。他的研究成果覆盖了很多统计研究领域,不但有理论研究还有应用研究。
博克斯在帝国化学工业公司工作时认识了费歇尔,但是私交并不深。当他在普林斯顿大学负责统计方法研究小组的工作时,费歇尔的一个女儿琼(Joan)得到了一个去美国的机会,她的朋友为她在普林斯顿大学找到了一个秘书的工作,博克斯与她相遇,后来两人结了婚。琼在1978年时出版了一本权威性传记,记录了她父亲和她丈夫的工作。
博克斯还有一个对统计的贡献就是“稳健”(robust)一词。他考虑到很多统计方法都是依赖于数学定理的,而这些数学定理对数据分布特性的假设可能不正确,如果数学定理的条件不成立,能找到可用的统计方法吗?博克斯提议称这些方法为“稳健方法”。他做了一些初步的数学研究,发现“稳健性”(robustness)的含义太不明确,但他反对对此概念赋予更加明确的含义,因为他认为一个概括性的模糊思想会对方法的选择更加有利。然而,这种思想本身还是得到了发展,用一个术语定义假设检验的稳健性就是:误差概率(the probability of error)。斯坦福大学的统计学教授布拉德利?埃弗龙(Bradley Efron)把费歇尔的一个几何学概念作了延伸,他在1968年证明了“学生”t-检验具有稳健性,他还用E?J?G?皮特曼(E. J. G. Pitman)的方法证明了大多数的非参数检验也是同样稳健的。
20世纪60年代末,普林斯顿大学的图基和他的研究小组成员以及他的学生们,研究如何处理那些显而易见是错误的测量值。他们的成果就是1972年发表的“普林斯顿稳健性研究”。这项研究的基本观点是有瑕疵的分布(contaminated distribution)(有的辞典上将之翻译为污染分布——译者注)。通常情况下,我们假设取得的测量值绝大部分是来自于一个概率分布,而且这个概率分布的参数是我们要估计的,但是,测量值当中总会有极少的一些测量从上到下为自于另外一个分布,所以我们说这些测量值是有瑕疵的。
在第二次世界大战期间,有一个典型的关于瑕疵分布的例子。美国海军改进了一种新型的光学测距仪,要求使用者用一个三维立体镜去看目标的影像,用一个大三角“罩”在目标上,为了确定这个仪器的统计误差,让几百名水手来试用,测量一个已知距离的目标。在试用前,根据随机数表重新确定了目标的位置,这样后来的水手就不会受先前已知位置的影响。
设计这个研究的工程师不知道,有20%的人看东西不是立体的。因为他们是我们所说的弱视(lazy eye),这样有五分之一的数据是完全错误的。单从手头研究得到的数据看,不可能知道哪些数据是来自于弱视者的,因此分不出哪些数据来自于有瑕疵的分布。
普林斯顿的研究是在计算机上实施蒙特卡罗法(Monte Carlo )模拟计算大量来自有瑕疵分布的数据,寻找估计这个分布的中心趋势的方法。当数据有瑕疵时,一般人通常喜欢用的平均数是不可靠的,关于这一点也有一个经典的例子,讲的是20世纪50年代耶鲁大学所做的一次试验,估计该校的毕业生10年后的收入情况。如果他们用平均值,那么收入是非常高的,因为有几个当时是千万富翁,但是,事实上,80%以上的毕业生平均收入均低于这个平均数。
“普林斯顿稳健性研究”发现,平均数在一个有瑕疵的分布中受个别值的影响往往很大,这正是那位药理学家告诉我的小白鼠溃疡研究实验中出现的数据问题,而这位药理学家所学的统计方法都是用平均值来做分析。读者可能会问:如果这些极端的、而且看起来是测量值实际上是对的,假设他们是属于我们正在检验的面盆,并不是来自另外的分布,会怎么样?如果将这些数据剔除,结论就会产生偏差。
普林斯顿的稳健性研究找到了一个解决方案,有以下两种方法:
1. 如果测量值有瑕疵,就降低瑕疵测量值的影响力;
2. 如果测量值没有瑕疵,就找出正确的答案。
我建议这个药理学家使用其中的一种方法,这样他就可以根据数据得出正确的结论。后来他的下一步实验得到了一致的结果,说明稳健分析是对的。
博克斯与考克斯
博克斯还在帝国化学工业公司工作的时候,他经常去拜访大学学院里的统计小组,在那里他遇到了大卫?考克斯。考克斯已经成为统计的主要创新者,是《生物统计》(K?皮尔逊的期刊)的主编。这两个人都觉得他们的姓氏相像,很有意思,而且博克斯和考克斯连起来刚好是英国戏剧里的一个术语,意思是一个赏扮演两个小角色,还是一个英国经典音乐讽刺喜剧中的两个人物的名称,剧中,博克斯和考克斯租住一间房里的同一张床,一个白天睡,一个晚上睡。
博克斯与考克斯决定共同写一篇论文。但是,他们在统计领域中的兴趣不同,随着时间的推移,他们一再地努力,但是他们的兴趣实在是太不相同了,这样,如果要共同写这篇论文,他们就不得不对各自持有的关于统计分析性质的不同角度进行调和。1964年,他们的论文终于在《皇家统计学会期刊》上发表,就如这篇论文广为人知一样,“博克斯?考克斯”成为统计方法中的一个重要部分。在这篇论文中,他们阐述了如何用一种方法转换测量值,使得大部分的统计程序更具有稳健性。用他们的名字命名的“博克斯-考克斯变换”(Box-Cox transformations)方法用于研究化学物质使活细胞突变的效应,也用于经济计量分析,甚至用于农业研究——费歇尔方法最初产生的领域。
第24章 重塑产业的人
1980年,美国国家广播公司(NBC)播出了一部电视记录片,片名为《日本人能,我们为什么不能?》。美国汽车公司被来自日本的挑战震惊了:从70年代起,日本生产的汽车在品质上已远远超过了美国生产的汽车,但价格却比美国低得多。不仅是汽车,其它工业品,从钢铁到电子产品,日本和美国相比,在质量和价格上都占优势。NBC的记录片就是要探讨这是怎么发生的。这部纪录片实际上推出一个人——时年80岁的美国统计学家W?爱德华兹?戴明(W. Edwards Deming),是他影响了整个日本的产业界。
一时间,戴明成为美国产业界的热门人物。其实,戴明自奉人1939年离开美国农业部以来,一直在产业界从事咨询顾问的工作。在从事这一职业的岁月里,他曾多次受美国的一些汽车公司的邀请,协助他们进行质量管理工作。正是在这一长期过程中,戴明对如何改进产业形成一套有效的方法。但是,美国这些公司的高层管理者却普遍地认为,质量管理不过是些“技术性”的细节,对此他们没有兴趣。他们认为,进行质量管理,只需雇请一些专门人员就足矣。到了1947年,G?麦克阿瑟(G. Mac Arthur)将军被任命为日本占领区的联军最高怀念,他强迫日本政府采纳西方国家的民主宪政制度,并且召集了一批一流的专家来日本,以“美国方式”(American way)来教育这个国家。于是,他的手下将戴明以统计抽样专家的名义邀请到日本,教授日本人“美国人是怎么做的”。
戴明的课程深深打动了一个叫石川一郎(Ichiro Ishikawa)的日本人,所以,后来他作为日本科技与工程联合会(JUSE)的主席,再次邀请戴明来日本,在产业界的一系列研讨会上讲授统计方法。石川一郎在日本产业界很有感召力,在他的邀请下,许多高级管理人员也经常来听取戴明的讲课。在那个年代,“日本制造”这几个字,就是“廉价、粗制滥造的仿制品”的意思。在戴明的研讨会上,他大胆地告诉他的听众们,不出5年,这种善就可以改变。只要适当运用统计方法的质量控制,他们就能够生产出物美价廉的产品来,从而,他们将迅速占领世界各地的市场。戴明后来承认他所说的5年是低估了,日本人差不多只用了两年的时间就改变了他们的状况。
戴明的作为在日本的产业界产生了极其深远影响,为此,日本科技与工程联合会(JUSE)专门设立了一项以戴明的名字命名的年度奖,用以奖励产业界那些在质量管理方面做出杰出贡献的人。日本政府也看到了运用统计方法改进各项活动的前景。日本教育部还专门选择一天作为“统计日”(Statistics Day),在这天,学生们要开展统计知识创新展示的竞赛活动。总之,统计方法风行于全日本,这几乎全都来源于戴明的讲座。
戴明带给高级管理层的信息
1980年NBC的电视记录片播出后,戴明的名字开始在美国产业界受到欢迎。他开办了一系列的讨论,传授自己的美国管理理念。不幸的是,大多数美国公司的高级管理者并不明白戴明所做的事。他们只是派出一些已经知道质量管理的技术专家来听戴明讲课,很少有来自公司高级管理层的主管人员出席。而戴明的讲座内容主要是针对企业的高级管理层的,其中充满批判精神,听起来让人感到有些刺耳、不愉快。管理层,尤其是高级管理层,没有做好自己的工作。为了能以实例阐述自己的观点,戴明特意邀请了一批学员参与他在制造业的一项实验活动。
参与实验的学员被分成工人、巡视员和管理者三组。工人们将被训练从事一种简单的生产程序。先发给他们每人一个大圆桶,桶里装满珠子,珠子以白色的为主,其中搀有少量红色的。首先,工人们要竭尽全力摇晃这个圆桶,以使里面的珠子分布均匀,他们被告知此举是至关重要的一个环节。然后,发给他们每人一个木铲,木铲上面排列着50个小坑,每个坑的大小正好能放一颗珠子。要求工人们利用这个木铲从桶中取珠子,每次正好50颗。训练者告诉工人们,50颗珠子中红色的至多不能超过3颗,否则在市场上顾客不会买账,他们必须想方设法达到这个目标。在整个实验过程中,每当一个工人取出珠子,巡视员就记录下其中红色珠子的数量,管理人员会检查记录,表扬那些做得好的——每次红色珠子少于3颗和正好等于3颗的工作:批评那些做得差的——每次红色珠子多于3颗 的工人。实验上,那些做得差的工人很可怜,时常被管理者要求停下手中的工作,去看那些做得好的工人是怎么做的,以学习他们正确的操作方法。
在这个实验中,所给的每个桶里的珠子中红色的数量约占1/5。而在这样的条件下,要使每50颗珠子中红色珠子等于或少于3颗的机会还不到1%;而获得6颗或6颗以下了机会是10%。所以,工人们为了这个难以达到的目标——每50颗珠子中红色珠子正好等于或少于3颗而拼命努力。但实际上,平均来看,每次工人所取出的珠子中,约10颗是红色的,这是管理者所不能接受的;而按概率来看,有的工人甚至会取出13至15颗红珠子。显然是工作极差的结果。
戴明的观点是,通常情况下,管理者往往设立一些不可能实现的标准,他们不在意标准是否可以达到,也不尝试着如何通过发送设备等必要手段,来使这些标准得以实现。相反,美国企业中的高层管理者们,往往只是领先质量管理专家来制定的标准要求工人,而根本不管工人们会遭受的挫折。这种现象在当时成了美国产业界的一种通病。戴明对此提出尖锐批评。在70年代,风行于美国产业界的所谓“零缺陷”(zero defect)理论,其核心就是要求企业生产的产品没有任何缺陷,戴明认为这是根本不可能做到的。到了80年代,产业界又兴起所谓的“全面质量管理”(TQM)之风(此时正是戴明刚刚在美国产业界出名的时候),戴明指出,这全是些没用的空话。他劝告企业管理者们还是做点实事。
戴明在他所著《走出危机》(Out of the Crisis)一书中,引用了他写给某公司管理者的一份报告。报告指出:
本报告是应贵公司之邀在对贵公司目前的问题:产量下降,成本上升,产品质量不稳定……研究之后写成的。我们的看法是,除非公司高层负起责任,否则无法在改进质量上建立起永久的机制。在我看来,你们的麻烦的主要原因是,你们的管理层没有对质量负起应有的责任……,你们公司所具有的不是质量控制而是打阻击战的游击队,没有组织好的系统,没有预防措施,也没有把质量控制看作一个系统,你们经营的是一个消防队,只指望出事时及时到达以附上火热蔓延。
在你们公司里,到处都能看到一个鼓动性口号,号召每个人都要把工作完成的尽善尽美。但我想知道,你们究竟怎样做才能使每人实现这一目标。如果工人对自己的工作并不了解,不知道如何才能把工作做好,又怎么能做好呢?如果原材料的质量不合格,或供应不及时;机器设备出现了故障,又怎么能把工作做的完美?除此之外,另一个管理层认识的误区是:只要生产线上的工人按规定的要求去做,生产中就不会出现问题。所以一旦出现问题,就是生产工人的责任,而与管理者无关。
就我本人的经验来看,生产中出现的绝大多数问题都有其共同的原因,而只有管理层可以减少其影响,或将之根除。
戴明关于产品质量管理的主要观点是:产品的生产过程是可变的,之所以这么说,原因在于那是所有人类活动的特性。什么是消费者最希望的产品?对此问题,戴明强调:消费者最希望的产品并不是完美无缺的,而是质量稳定可靠的(reliable)。他们(她们)希望所购买的商品质量稳定,这样就可以从中得到消费预期。依据费歇尔的变异分析理论,生产过程中的变异有两方面的来源:一个原因戴明称之为特殊原因(special causes),另一个他称之为一般原因(common),也可称为环境原因(environmental)。戴明主张,美国产业界应该制订相应产品生产的标准程序,允许产品生产过程在一定范围内变化。一旦生产过程中出现的问题超出这一界限,即停下来寻找问题出在何处。戴明指出,由于特殊原因导致的问题不多且很容易被发现。而环境原因的问题总是存在,这是管理不善的后果,它们通常以机器设备缺乏维修保养、原材料供应质量没有保障,工作条件失控等形式表现出来。
戴明指出:生产线就如同一条活动的河流,从原材料供应开始,到产成品产出,每一个环节都可以被测量。由于环境原因,每个环节都有其自身的变化。管理者不能坐等最终产品超出前定的变化范围,而应该密切注视每个环节的变化,变化最大的环节要作为控制的重点,一个环节的变化被减弱后,另一环节就会突显而成为新的重点。因此,质量管理是一个连续性的过程,生产线上最突出的问题始终要加以解决。
日本人在采用了戴明的方法后,其生产的汽车可以行驶100 000公里以上无大修;船只只需极少的维修;所生产的钢铁质量稳定,几乎每批都一样;其它工业产品的质量也都得到有效的控制。
质量管理的特性
从1920-1930年,贝尔实验室的沃尔特?休哈特(Walter Shewhart)和国家标准局的弗兰克?尤金(Frank Youden),组织了第一个统计质量管理计划,将统计革命引入美国产业界。戴明也积极鼓动将这场统计革命引入上层的管理部门。在其专门为管理者所著的《走出危机》一书中,戴明力图以最有限的数学知识,讲解有关的管理理念。他指出了制造业中普遍存在着的糊涂观念。一个汽车活塞应该是圆的。然而,除非你有办法测量出这个活塞的具体圆度,否则这句话没有任何意义。因此,要改善一个产品的质量,产品的质量就得是可测的。而要测定某产口的性质。就要做这个具体产品的性质做出很好的定义(如上述汽车活塞的例子)。由于所有这些测量就其本质而言都是可变的,因此在生产过程中需要定出这些测量的参数分布。正如K?皮尔逊通过对数的变化去寻求事物演进的证据,戴明坚持:管理层有责任监控这些测量分布的参数,改变生产过程的基本方面,以改进这些参数。
我第一次见到戴明是在1970年的一次统计会议上。他身材高大,表达重要事情时神情严肃,他的外表看上去令人生畏,这在统计学家中非常有名。在讲学后的评论阶段,他很少发表批评意见。只是在会后他才把发言者拉到一边,批评讲学者的缺失。然而,对他的朋友们来说,这种严肃的面孔并不属于戴明,因为我看到的只是他在公开场合的形象。在私下里,他为人亲切,替同事着想,处事稳健,机智、幽默。他热爱音乐,除了参加唱诗班,他还当鼓手,吹奏长笛;甚至还曾发表过几个宗教音乐作品。在他发有的音乐作品中,有一首是为《星条旗》(Star-Spangled Banner)重新谱曲的,据说他说比通常的那个更容易唱。
戴明1900年出生于美国爱荷华州(Iowa)的苏城(Sioux),在怀俄明大学(University of Wyoming)读数学专业时,他对工程学有极大的兴趣。后来,他又从科罗拉多大学(University of Colorado)获得数学和物理学硕士学位。在大学期间,他认识了阿格尼丝?贝尔(Agnes Belle),并和她结为夫妻。1927年,他们迁往康涅狄格州,戴明开始在耶鲁大学攻读物理学博士学位。
戴明第一次为工业企业工作是在位于依利诺斯州(Illinois)西塞罗市(Cicero)的西方电器公司下属的霍桑(Hawthorne)制造厂 ,他是一边在耶鲁读书,一边趁时期来打工。当时在新泽西州贝尔实验室的沃尔特?休哈特已经为统计质量控制方法奠定了基础。西方电器公司作为同一公司(AT&T)下属的一部分,申请在霍桑制造厂实施休哈特的方法。然而,戴明认为,他们并不真正了解休哈特的方法。统计质量管理方法成了基于事先设计好的不允许变动范围的机械程序。而所设的变动范围,往往会使一个不合格品有可能以5%及以下的机会通过质量控制。之后,戴明以这种质量控制方法会使5%的消费者不满意为由而将其否定。
1927年,戴明从耶鲁拿到学位后到美国农业部工作,在12年中,主要从事抽样技术和实验设计工作。之后,他离开农业部自己开了家咨询公司,并开始就制造业的质量管理开展培训工作。二战时期培训规模扩大了,当时他培训了近2000名设计人员和工程师。这些人回到自己公司后也开办类似的研讨班,到二战结束时,戴明的信徒已达到30000人之多。
1993年12月10日,最后一次戴明学术研讨会在加利福尼亚(California)举行,戴明以93岁的高龄参加了会议,当然研讨会的主要工作都是由他的年轻助手来做的。12月20日,戴明在他华盛顿的家中去世。也就在同一年的11月,他的家人和朋友成立了W?爱德华兹?戴明学会(The W. Edwards Deming Institute),其宗旨就是要促进对戴明的管理思想体系的深刻理解,以推进商业的进步、繁荣和安宁。
戴明与假设检验
在第11章,我们提到的J?奈曼和E?皮尔逊在统计假设检验方法上所做出的贡献,以及统计假设检验方法是如何在现代统计分析中取得其重要地位的。然而,戴明却对统计的假设检验提出强烈的质疑。他嘲笑假设检验的广泛应用。因为他认为。统计假设检验的研究方向完全聚焦在一个错误的问题上。他直率地指出:“现实当中的问题绝不是两种处理(A和B)的差异是否显著。给一个差异,不管它(差异)有多小……我们都会发现……这种(可产生显著性的)实验一直都重复出现。”因此,在戴明看来,仅仅发现显著性差异,没有任何意义,重要的是差异大小程度的确定。此外,戴明还指出,建立在某一实验条件下的差异程度会因条件的变化而不同。因此他认为,标准的统计方法已无法解决其自身的问题。统计学方法上的这些局限性是重要的。戴明指出:“统计学家必须更加关注实际问题,认识和教授统计推论时要看到它的局限性。从一系列结果中越深入地认识到一个推论的局限性,这个推论就变得越有用。”
在本书的最后一章里,我们将会关注戴明在本章中所警告过的统计推断的局限性。
第25章 来自黑衣女士的忠告
虽然在20世纪初期,统计学方法的发展一直是由男性统计学家占据着主导地位,但是,到了60年代,当我步入这一领域时,许多女性占据了重要地位,产业界和政府部门更是如此。例如美国氰胺公司(American Cyanamid Company)的朱迪思?戈德堡(Judith Goldberg)和强生医药公司(Johnson Pharmaceuticals)的保拉?诺伍德(Paula Norwood)都已成为公司统计部门的领导人物。梅维斯?卡罗尔(Mavis Carroll)则是通用食品公司(General Foods)数学和统计服务部的负责人。在华盛顿,女性统计学家担负着人口普查局(Census Bureau)、劳工统计局(the Bureau of Labor Statistics)和国家健康统计中心(the National Center for Health Statistics)等许多部门的工作。在英联邦、在欧洲大陆的其他国家也是如此。在前面的第19章里,我们已经看到了她们当中的一些人在推动统计学方法论研究的发展上所起到的作用。
对于在统计史上留名的女性来说,没有谁的经历是典型的,她们都很优秀,她们的个人发展和成就都是独特的,在此,我无法说她们当中的哪一位是女性统计学家的代表,这就如同无法说哪位是男性统计学家的代表一样。但不管怎样,在这里,浏览一位女性统计学家的职业生涯还是很有趣的,这位女士在产业界和政府部门都做出了杰出贡献,刀子就是英国皇家统计学会第一任女会长斯特拉?坎利夫(Stella Cunliffe)。本章中的许多叙述,都是摘自1976年11月12日她在一年一度的统计年会上所做的专题演讲。
凡是认识坎利夫或与她共过事的人都能够体会到她那不同寻常的幽默感,她的机智、敏锐,以及在处理复杂问题时的非凡能力——能够以简单的数学术语解释复杂的数学模型,使她的合作者很快就明白。大量这样的内容出现在她的演讲中——呼吁皇家统计学会的会员们,不要总是停留在抽象的理论研究上,应该多和其他领域的科学家合作。她举例说:“我们经常嘲笑社会学家的分析方法过于粗略,然而作为统计学家,除非我们能为他们提供一些更加科学、更易接受的思想,否则又有什么资格嘲笑他们呢?要实现这一点,我们之间应该是互动的。”她经常举例说明,在实验过程中往往会发生一些事先无法预料的事情。“即使在一个组织完善的实验站进行的大麦试验,也有可能因为拖拉机手的一时鲁莽而前功尽弃——他为抄近路赶回家喝茶而压了实验地块。”
30年代末期,坎利夫在伦敦经济学院(London School of Economics)学习统计学。在那儿的那段时间是令人激动的。当时,许多学生和一些教授志愿到西班牙去参加反法西斯的西班牙内战,而一些著名的经济学家、数学家及其他学科的科学家,为逃避纳米德国的迫害来到英国,很多人就在坎利夫所就读的学校得到一个暂时的教席。当她完成学业,走入社会时,全世界依然处在大萧条之中。唯一能找到的工作是丹麦的培根公司(the Danish Bacon Company)。她写到:“在那里,用得上数理统计的地方极少,尤其我又是一个女性统计学家,所以在人们的眼里就更加古怪了。”随着二战的来临,她开始参与食品的配给工作,而刀子的数学才能也因此变得有用起来。
在战争结束两年后,她作为志愿者在被战火毁坏的欧洲做救济工作。她是第一批进入荷兰鹿特丹(Roterdam)的人。当时德军正在投降,当地的居民都在忍饥挨饿。在贝尔根-贝尔森(Bergen-Belsen)集中营的受害者被解救出来不久,她就前去给予帮助。她在英国占领区的难民营努力完成了工作。当坎利夫离开志愿者工作时,她已变得身无分文。她找到两份工作,一份是政府食品部下属的油脂部,另一个是英国的吉尼斯本酿造公司(the Guinness Brewing Company),她选择了后一个工作。回想一下前面第3章提到过的以“学生”作为笔名发表论文的威廉?S?戈塞特,在坎利夫到吉尼斯之前,他已经在吉尼斯酿造公司建立了统计部。坎利夫是在他死后10年才到吉尼斯公司的,但在吉尼斯,他的影响力仍然很大。人们都很尊敬他,一直都还依据他所创立的实验原则进行科学工作。
统计学在吉尼斯
吉尼斯公司的员工们一直依赖自己的产品。同时为改进自己的产品,一直坚持搞实验。他们
从不停止实验,以努力生产水平如一的产品。因为制造啤酒的原料总会受到气候、土壤、啤酒花、大麦不同的影响,还要尽可能地降低成本。人们也许知道也许不知道,由于对自己产品的自负,1929年之前他们没有做过任何广告。吉尼斯的人认为,吉尼斯的啤酒是能喝到的最好的啤酒,应该靠质量而不是广告去卖酒。至于那些没喝吉尼斯啤酒的人,只能为他们感到惋惜,而不是向他们打广告!直到我离开公司时,他们还是这个特性。
坎利夫描述了她第一天来到吉尼斯时的情景:
到都柏林来“实习”的生活,就如同在德国时一样自由而又充满刺激。一天早晨,当我出现在都柏林酿造公司专管女职工的女主管面前时,只见她一身黑衣,领口镶着一圈花边,用鲸骨撑着……,表情严肃,她告诉我,能被选来吉尼斯工作是一种殊荣,并提醒我应该穿长筒袜,戴帽子。如果在走廊里有幸碰到某一位“酿造师”——公司的重要人物,不管认识与否,都要低头为他让路。
这就是1946年,妇女在等级分明的吉尼斯公司的地位。
坎利夫很快就证实了自己对公司的价值,并深入到公司在爱尔兰的农业实验中。她不喜欢一天到晚坐在办公桌前分析野外科学家采集来的现成数据,而是到野外实验基地去,亲自了解实验的动态。(任何一个新任的统计工作者都应该以她为榜样。一个令人惊异的事实是,那些比实验室普通员工高出好几级的高级管理者们,他们所做出的实验结论,往往是与实际不符的。)
不知有多少个阴冷潮湿的清晨,刚刚7点钟,我便来到啤酒花实验园。虽然又冷又饿,但那是在参与“至关重要”的实验。我之所以要用“至关重要”这个词,就是因为如果统计学家本身都不重视这样的实验,那么又怎能调动起实验参与者的激情,使他们做出最佳贡献呢?但是,作为一个统计学家,我们必须学会灵活机动,要能适应转辗于各种不同类型的工作。或许我们得帮助一个生物学家进行新酵母菌的实验;去帮助一个农业专家完成另一项实验——了解以一种特殊饲料喂养的家畜的粪便变化情况;与病毒学家讨论为纽卡斯尔(Newcastle)病毒研制的新抗体;去协助一个医疗官员评估麦芽储藏中的灰尘对人体健康的影响;去给一个正在进行传送带实验的工程师提些建议;试着将统计的排除论(queuing theory)应用到职工餐厅的管理上;或者去协助一个社会学家验证他的群体行为理论。
以下是一份为产业界工作的统计学家的典型协作类型清单。根据我本人的工作经验,我们要与之打交道的人包括化学家、药理学家、毒理学家、经济学家、临床医生、经营管理者(我们为他们开发运筹模型用于决策)。可以说,数理统计方法的应用无处不在,作为数学模型专家,统计学家可以与任何领域的人合作,为他们提供服务。这也许就是统计学家的工作之所以迷人的原因之一。
非预期的变异
在坎利夫的演讲中,她指出,最大的变异还是来自现代人类本身。
在吉斯尼期间,我很高兴负责组织对啤酒的品尝实验,对于吉尼斯啤酒这一美好饮品的发展来说,这无疑是一项非常有意义的工作。通过这些实验,我开始认识到,人在不可能没有偏好,没有偏见,没有最感兴趣的事,但这也正是让人着迷的地方。我们都有喜好的某些数字、字母、颜色,实际上,我们都是特别迷信的。我们都有非理性的行为。在我的记忆中,曾开展过一次大型的有关啤酒温度的实验。让一些人在不同室温的环境中品尝不同温度的啤酒,以判断人们对不同温度啤酒的喜好程度。当时,一些身着白色制服的人跑上跑下地送酒,啤酒则放在不同温度的水桶中,每个桶里都配有温度计。实验场所一片喧嚣,啤酒用不同颜色的瓶盖来辨认。最后实验惟一明确的结果是,受试都只在意瓶盖的颜色,他们不喜欢黄颜色瓶盖的啤酒,至于啤酒的温度,几乎没人注意!
坎利夫还讲述了一个检验小号啤酒桶容量的事。这些桶是手工制造的。需要检验它们的容量以确定其尺寸是否符合规格。进行检验的女工首先称一下空桶的重量,然后再将桶中灌满水,称一下装满水的桶的重量。如果桶的重量比标准的少3品脱以上,或多7品脱以上,则都作为不合格品退回去返工。作为进行质量管理程序中的一部分,统计人员负责检查合格品与不合格品的报表情况。在检查满桶重量的记录图时,坎利夫发现,刚刚在合格线以里的桶数目过高,而刚刚在合格线外的桶数目过低。为此她到现场了解工作条件,发现女工必须将挑出来的不合格品堆放到旁边的一大堆桶上,而合格品只需放在传送带上即可。于是她建议把女工的座位加高,工作时只需将挑出来的不合格品直接踢到脚下的箱子里即可。结果发现,报表上反映的合格率,很快趋于正常水平。
坎利夫后来成为吉斯尼统计部的主管。1970年,她被调到英国内务部(the British Home Office)调查局,这个单位负责警察、法院和监狱的监督工作。
在我刚来的时候,这个单位主要从事与犯罪有关的工作。说老实话,我在吉斯尼公司所从事的是十分精确、精心设计、透彻分析的统计工作,而这里要做的都是些社会学家,有时是心理学家的工作,在我看来是一个空泛的世界。我丝毫没有贬低内务部调查局研究人员能力的意思。但是无论如何,使我震惊的是不同的工作原则:设立一个零假设,制定细致详尽的实验设计方案,抽取足够的样本数量,进行小心谨慎的统计分析,做出详细的评估结果,所有这些都是我长期做过的,到了社会学这个领域,却都变得微不足道。
在刑事犯罪学这一领域的主要研究工作,就是积累长期的数据资料,进行分析,以发现公共政策对其可能的影响。如有一项分析是针对男性囚犯进行的,即研究不同刑期的男性囚犯出狱后两年内重新犯罪的概率有多大。分析结果清楚地表明,刑期越短,重新犯罪的概率越高。从而作为一个证明:长刑期可以把惯犯从街头清除。
坎利夫并不满足于重犯率与刑期间简单对比的数表。她要进一步分析数表背后所隐藏的东西。这种明显强关联关系主要是刑期在三个月之内的犯人重犯率高,经过仔细检查,这些人“几乎都是些年老的、处境悲惨的、精神不正常的人,他们被精神病医院拒之门外,所以才一次又一次地反复犯罪后再进监狱。”而统计表所反映的数字,实际都是这同一拨人,被当作不同人重复统计,才将短期犯罪的重犯率夸大了。统计表中的另一个极端表现是,刑期在10年以上的犯人出狱后只有15%的人又重新犯罪。坎利夫认为,“这里有一个很大的年龄因素,一个很大的环境因素和一个很大的犯罪程度因素。刑期长的都是些犯大案的人,他们出狱后重新犯同样大案的可能性也不大了。”因此,在她用两个极端的情况将数表调整这后,重犯率和刑期间明显的关系消失了。
坎利夫说道:
我认为,即使所谓单调的内务部统计仍然是很迷人的,……对于我来说,统计学家的工作就是阅读数据,并质疑它们为什么会是这样的?……我今天晚上来此的想法很简单,就是想告诉人们,数字是很有趣的,如果听众当中有人感到枯燥,那是我们没有表述好,或者因为数字本身的问题。不过,根据我在内务部的统计工作,我要说,数字一点也不枯燥。
坎利夫谴责政府官员中的一种不良倾向,他们在决策时没有仔细研究阅读手头的数据资料。
这不是社会学家、社会工作者和计划制定者们的过错,但却是统计工作者不可推卸的责任。我们还没有学会去为这些在我们看来不那么科学的学科服务,因此我们还没有作为能帮助他们增进知识的人而被接受,……根据我的经验,统计学家在应用领域的力量……在于他(或她)说服他人的能力:去形容所需回答问题;去考虑实验员可用的工具是否足以回答这些问题;去帮助他建立合适的零假设;去实施严格的实验设计原则。
据我本人的经验,将问题尽可能地以数学模型的方式表述出来,这会迫使科学家去充分了解将会产生什么样的问题。仔细地检查可利用资源,经常会得出这样的结论:用这些资源是不可能回答出该问题的。我想,作为统计学家,我的主要贡献之一,就是阻止别人去尝试因缺乏适当资源而注定要失败的实验。例如,一项临床实验,其中的医学问题需要有数十万名病人的配合。这就有必要考虑这个问题是否值得回答。
抽象的数学还是实用的统计学
坎利夫特别看中那些对统计分析有用的预期工作,她轻视为数学而数学的推敲,她诋毁下面的那种数学模型:
全是空想,缺乏实际,很多线索,有趣的片断,充满趣味性,精彩的概念,但同时也缺乏稳健性。这种高雅的乐事往往是以牺牲实践性为代价的,恕我直言,在我看来它似乎更合乎男性的口味。我们统计学家所受的教育就是进行计算,同时要考虑数学的精确度。我们并不善于说服那些毫无经验的人,让他们知道我们的发现值得注意。如果我们一本正经地对一个不懂统计的男人或女人说“P值小于0.001”意味着什么,我们就不会成功,所以,我们必须用他们的语言来解释我们的发现,以增强说服工作的效力。
不戴帽子,不肯向酿酒师这样的“大人物”低头,坎利夫进入了统计的世界,她尽情地满足了自己强烈的好奇心,她批评那些来听自己演讲的数理统计学教授。当我写这本书时,她可能仍在皇家统计学会用她那辛辣的机智,表现她的数学主张。
第26章 鞅的发展
充血性心脏衰竭是世界上致人死亡的重要原因之一。虽然这种病在壮年人当中也时有发生,但此病主要还是一种老年性疾病。以美国为例,在65岁以上的老年人当中,有半数是死于充血性心脏衰竭或它的并发症。从公共健康的角度来看,充血性心脏衰竭不仅是致人死亡人重要原因,也是引发生活中诸多其它疾病的一个重要因素。此外,患者为稳定病情而反复住院,以及治疗过程的复杂程序,是导致国家的公共医疗服务成本居高不下的一个重要因素。为此,许多人都殷切希望能找出更好的辩论治疗方法,以减少患者住院治疗的需求,同时改善这些病人的生活质量。
不幸的是,充血性心脏衰竭不是一种普通的疾病。其病因不是一种简单的传染源,也不能通过阻断某种生化酶的通路而缓解。人体中荷尔蒙精巧地控制着心脏,调节其跳动的速度和收缩能力,以适应身体变化着的需求,但充血性心脏衰竭患者的心脏对这种调节的反应能力越来越差,患者的主要症状表现为心肌逐渐衰弱,心脏的肌肉变得越来越肥大、松弛。患者会因此而出现肺部和脚踝的水肿,轻微的运动都会导致他们呼吸困难。患者还会因进餐时胃部供血而造成的脑部供血不足而感到困倦和意识混乱。
为保持体内平衡,病从的身体会自动调节以适应心脏能量输出的减少。对许多患者,调节心肌和其它肌肉变化的荷尔蒙会在某种稳定状态达到平衡。虽然就一般人来说,这样的荷尔蒙水平是不正常的。如果医生在治疗过程中使用了β肾上腺素收缩剂或钙离子隔断剂,结果可能使患者的情况变得更为复杂。肺部水肿是充血性心脏衰竭病人死亡人一个重要原因。现代医学依靠利尿剂这种药物可以使水肿得到缓解。然而,患者在使用了利尿剂后,为调节肾功能和心脏功能所导致的荷尔蒙的变化,又会因相互影响而造成新的难题。
长期以来,医学界一直致力于研究更加有效的治疗充血性心脏衰竭的方法,希望延长患者的生命,减少他们的住院次数,提高他们的生存质量。由于一些治疗可能会对某些病人产生不良影响,因此,治疗的任何可能会对某些病人产生不良影响,因此,治疗的任何临床研究都需要考虑到特殊病人的情况。在这种情况下,这种研究的最终数据分析可以指认对哪些病人有效,哪些病人有不良反应。所以,对充血性以及衰竭研究的统计分析将变得难度极大。
当设计一项研究时,首先遇到的问题是要测量什么。例如,测量某一种治疗患者的平均住院治疗时间,这是一种粗略的总体测量,没有考虑到重要的方面,如他们的年龄,他们最初的健康状况,他们发病的次数,以及住院治疗的时间。最好要考虑到每个患者发病的整个时间过程,估量可能的住院治疗情况,如住院时间长度,与上一次住院治疗的间隔,出院期间患者的生活质量,并根据患者的年龄以及其它可能发生的疾病,对所有这些结果进行调整。从医学的观点来看,这可能是一个理想的方案,但它提出了一个困难的统计学问题。这里没有一个数据与单个患者相联,相反,患者的记录是事件的时间过程,有些记录是重复的,有些通过多重测量得到。因为在这个试验中的测量是多层次的,因此,其分布函数——这些函数的参数必须是可估计的,其构成也必须是多维的。
早期的理论性工作
解答这个问题,是从法国的数学家保罗?利维开始的。保罗?利维出身于数学世家,他的父亲、祖父都是数学家。保罗?利维1886年出生,在他还很小的时候,就显示出与众不同的学习天赋。按当时漫无边际的惯例,他很快升入专门培养天才学生的学校,并且在学习期间获得过许多学术性奖励。还是十几岁少年的他,就获得了希腊文和数学的法国中学中学优等生会考奖;获得法国国立圣路易学校(Lycée Saint Louis)颁发的数学、物理学和化学的成绩优异奖;获得了高等师范学院及综合工科大学入学竞赛第一的成绩。1912年,26岁的保罗?利维获得科学博士学位,他后来写的一本有关抽象函数的重要著作,就是以他的博士论文为基础的。保罗?利维获得科学博士学位,他后来写的一本有关抽象函数的重要著作,就是以他的博士论文为基础的。保罗?利维在33岁时就成为综合工科大学的全职终身教授,法国科学院院士。他在抽象分析理论方面的工作使他闻名于世。1919年,他所在学校安排他就概率论问题开展一个系列讨论,为此,他首次着手就这一问题展开深入的研究。
利维不满于当时作为复杂计算方法之集合的概率理论(那里安德烈?柯尔莫哥洛夫的理论尚未出现)。利维寻找一些基础性的抽象数学概念,以便把这些方法统一起来。在这一过程中,棣莫弗正态分布的推导和数学家的“大众定理”(FOLK theorem)打动了他。(按大众定理,棣莫弗的结果在许多其它情况下也都成立,现在叫做“中心极限定理”)我们已经看到利维(与荷兰的林德伯格(Lindeberg))如何在20世纪30年代早期最终证明了中心极限定理,以及这个定理成立的必要条件。与此同时,利维着手对正态分布公式进行研究,通过逆向推导,寻求这一分布的独特性质,使得该分布能由这么多的情形产生出来。
然后,利维又另辟新路,从另一个角度探讨这个问题,探询这种正态分布成立的特定条件是什么。他确定只需两个简单的条件就能使一组数列趋向一个正态分布。但这两个条件并不是正态分布能产生的唯一途径,利维对中心极限定理的证明建立了一组更具有普遍意义的必要条件,这两个条件相当于有一组随机产生的一个接一个的数列:
1. 变异是有界的,因此个别值不可能是无穷大的,也不可能是无穷小的。
2.下一个数字的最佳估计值必是它的前一个数值。
利维称这样的数列为鞅(martingale)。
这里,利维借用赌博中的一个术语。在赌博中,martingale的意思是指赌博者在输了的情况下加倍下注,如果他输赢的机会各半,即50%:50%,那么损失的期望值就等于他原来的损失。Martingale这个英文词还有另外两个含义。一个意思是用来描述法国农夫套马的一种装置,让马低着头不向后甩。在此装置控制下,马的头可以随意活动,但马头下一个最有可能的位置是它现在所在的位置。Martingale的另一种解释是用在航海上的。指一片很重的木头,悬挂在船帆的下桁上,用以防止帆的下桁因剧烈摇晃而左右摆动。这里,帆的下桁最后的位置也就是它下一次位置的最佳估计。至于这个词本身,是来源于法国的一个叫马提克(Martique)的小镇,该小镇的居民以小气而著称。据说他们下周要花的一点小钱,估计起来最有可能等于他们今天花的钱。
利维正是从马提克小镇居民的小气习性中受到启发,创立了最小气可能性的抽象数学概念,而具有这种性质的数列通常是正态分布的。到1940年,鞅已经成为抽象数学理论的一个重要的工具。它的简单必要条件,意味着诸多类型的随机数列都具备鞅的性质。1970年,挪威奥斯陆大学(the University of Oslo)的奥德?奥伦(Odd Aalen)研究发现,在临床试验中,病人的反应方式就是一个鞅。
鞅与充血性心脏病研究
回想前面有关充血心脏病研究所引发的问题,因为患者的反应各不相同,我们的问题就是如何解释研究中患者住院治疗的时间早晚问题(当患者年龄已经很大的时候),如何处理患者住院治疗的次数和住院时间的长短。把长时间得到的数据看成鞅,所有这些问题的答案都可能回答。奥伦特别注意到,当一个患者住院治疗时他可以从分析中排除,到其出院后再列入研究范围。重复多次的住院治疗可以把每次住院作为一个新事件来处理。在每一个时间点,分析人员需要了解的就是仍在研究中(或回到研究中)的病人数和最初进入研究的病人数。
在20世纪80年代初,奥伦与丹麦奥尔胡斯大学(Aarhus University)的埃里克?安德森(Erik Anderson)及荷兰乌得勒支大学(University of Utrecht)的理查德?吉尔(Richard Gill)一起探索他的新发现。在本书的第1章我就曾指出,数学的发展总是和科学发展具有不可分割的联系。抽象的数理统计是如此错综复杂以至于很容易出错,只有通过同事间共同的讨论和批评,才能发现其中可能出现的错误。正是奥伦和安德森、吉尔这三个人的通力合作,造就了20世纪最后十年这个领域的一项最富成效的研究结果。
之后,理查德?奥尔森(Richard Olshen)与其在华盛顿大学的合作者,以及哈佛大学的魏立人(Lee-Jen Wei)教授又对奥伦、安德森和吉尔三个人的研究成果进行了补充。他们又提出了大量用于分析临床试验中序列事件的新方法。特别是魏立人对于两个鞅之差仍然是鞅这一概念的开拓性的应用,消除了对模型进行多个参数估计的必要性。如今鞅方法在慢性疾病的临床试验研究统计分析中占据着主导地位。
以马提克上镇居民以小气著称的传奇故事为起点,法国人利维创立了建立在最小气原理的数学概念之上的鞅方法的最初概念。之后,又经过更多头脑的共同研究开发,他们包括美国人、德国人、俄国人、英国人、意大利人和印度人。之后,又由挪威人、丹麦人和荷兰人将这种方法运用于临床试验研究。两个美国人,其中一个出生在中国的台湾,又进一步将这项研究推向深入。20世纪80年代以来,有关这方面问题研究的文章和书籍特别多,光是作者名录就可以写好多页,研究者还来自上面没有提到的很多国家。的确,数理统计学已成为一种国际合作性的研究。
第27章 意向治疗法
在20世纪80年代初,英国杰出的生物统计学家雷沙尔?皮托(Rechard Peto)遇到了一个难题,当时他正在分析比较不同癌症治疗方法的临床试验结果。根据费歇尔实验设计规定,典型临床实验研究要求确定需要治疗的病人群体,并且采用随机的方法分配给病人不同的治疗实验方法。
数据的分析应该是相当直接的,用费歇尔方法,只要在不同治疗方法的组别间,比较病人的5年存活率即可。另外还可以进行更加精确的比较,就是用奥伦(Aalen)的鞅方法(martingale approach),分析从开始研究到每个病人死亡的时间,以此作为衡量治疗效果的基本标准。不论是哪种方法,分析结果的准确性取决于最初分配给病人采用治疗方法的随机选择。根据费歇尔定律,指定病人采取何种治疗方法与研究的结果是完全不相关的,假设检验的P值是可以计算出来的。
皮托的难题是所有病人的治疗方法并不是随机指定的。这些病人也是人,正饱尝病痛的折磨,而且很多人得的是绝症,因此医生沉得有责任放弃实验性的治疗,或者如果觉得对于病人来讲是最好的选择的话,至少也要进行方案的调整。盲目地照搬某种治疗方法而不考虑病人的需要和反应是不首先的。与费歇尔的实验设计要求相矛盾,在这些实验中的病人经常变换治疗方法,而对治疗方法的选择主要取决于病人的治疗效果,如果效果好可能会继续采用这种方法,一旦觉得治疗效果不理想就会改变治疗方法。
这是癌症研究中的一个典型问题。从20世纪50年代人们刚刚开始研究癌症起,这就一直是一个令人困扰的问题,直到皮托涉入此领域研究之前,通常的做法只是去分析那些坚持采用随机分配治疗方法的病人,而其他的病人不在分析的范围之内。皮托认为这会导致严重的错误。例如,假设我们正在比较两种治疗方法,一种是有效的治疗,另一种只是给病人服用安慰剂,即一种没有生物作用的药物。如果病人对治疗无反应,就会转而使用常规的治疗。服用安慰剂、没有效果就转而使用别的治疗方法的病人不能做为研究对象,只有那些继续服用安慰剂、因为某些原因有反应的病人才是研究的对象。如果在研究分析中的研究对象只有那些继续服用安慰剂并且有反应的病人,那么研究的结果必然是:安慰剂治疗方法与有效的治疗具有同样的疗效,甚至可能疗效更好。
德克萨斯州安德森医院(M. C. Anderson Hospital)的埃德蒙?吉亨(Edmund Gehan)比皮托更早发现了这个问题。他当时的办法只是提出:因为这些研究不符合费歇尔实验的条件,所以不能够作为比较不同治疗方法的有效实验,只能算是研究中通过对采用不同治疗方法病人仔细观察而取得的记录,最多只是对实验结果的一种总体描述,为以后的治疗提供了一些思路。后来,吉亨也考虑了解决这个问题的不同方法,但是他的第一个结论让人非常气馁,竭力想在一个设计和执行都不好的实验中运用统计分析方法看来是不可能的。
皮托提出了一个直截了当的解决方法:当比较不同的治疗方法的疗效时,病人采用哪种治疗方法应该是随机的,否则不可能在假设检验中计算出P值。他建议在分析过程中假定每个接受治疗的病人采用治疗方法是随机分配的,否则不可能在假设检验中计算出P值。他建议在分析过程中假定每个接受治疗的病人采用治疗方法是随机分配的,忽略研究中治疗方法的调整。如果一个病人随机采用方法A,但在研究结束前改变了方法,这个病人视为采用A方法的病人进行研究;如果病人随机采用方法A只治疗了一个星期,病人当作采用方法A来分析;如果病人随机采用A方法治疗,却根本没有吃一粒A方法的药,就采用了另外一种治疗方法,这个病人仍被视为采用方法A的病人。
乍一看这种方法是愚蠢的。人们可以假设一种情形:对一个实验治疗方法和一个标准治疗方法进行比较,病人采用的实验治疗方法一旦失败就会转而使用标准方法。如果实验治疗方法是无用的,那么,所有的或者大多数被随机指定使用实验治疗方法的病人就会转而使用标准方法,分析将会发现这两种治疗方法效果是一样的。正如皮托在他的假设中指出的,这种分析研究结果的方法不能用于比较疗效相同的治疗方法,只有当疗效“不同”时才可使用。
皮托的方法后来被称为“意向治疗”(intert to treat)分析方法。这样命名的理由及其用途是:如果我们对医疗政策的总体结果感兴趣的话(该政策通常会推荐使用某个治疗方案),就得授权引而伸之医生,让他可以按照他的判断去调整治疗方法。用皮托的方法,临床实验的分析可以判断:建议使用一个给定的方法作为治疗的起点,是不是一个好的公共政策。“意向治疗”分析方法最被认为是一种很好的方法,适合用于那些政府资助的、为制定好的公共政策而进行的大型研究。
很不幸的是,有些科学家往往在并不了解和理解其背后数学含义的情况下,随意地把一些统计方法拿过来就用,这在临床研究中是司空见惯的。皮托早就指出了他的方法的局限性,但是意向治疗方法不但已经成为许多大学里的医科教条,并且被认为是临床实验唯一正确的统计分析方法。在许多临床实验中,尤其是对癌症的研究实验,实验设计是为了证明新的治疗方法至少与标准治疗方法效果相同,同时副作用较小。很多的实验目的是为了显示新疗法的等效性。正如皮托指出的,他的方法只能用来找出差别,但是,如果没有找出差异也并不代表两种方法的疗效相同。
某种程度上,这个问题的产生主要是因为奈曼-皮尔逊理论的刚性。在基础统计学的教科书里都可找到奈曼-皮尔逊理论的标准版本,假设检验往往被介绍为一种固定的程序,方法中许多完全随意的方面也被描述成不变的。
尽管许多这些随意的元素并不适用于临床研究 ,但是一些医学家在研究中不得不用“正确”的方法,这种需求使得他们视奈曼-皮尔逊理论为最严格的信条,除非通过统计程序事先确定了P值,并且使之保持不变,否则没有任何事是可接受的。这是费歇尔反对奈曼-皮尔逊理论的原因之一,他认为P值和显著性检验的应用程序不应该受如此严格条件的限制,他特别反对奈曼事先竟然确定了错误概率的存在,并且只有在P值小于这个事先确定的值时才有效。费歇尔在《统计方法和科学推论》(Statistical Methods and Scientific Inference)一书中建议,对于P值多大才有意义,最后结果应视情况而定。在这里我用了“建议”的字眼,是因为费歇尔从没有很明确地说明他怎么使用P值,他只是提供一些例子。
考克斯的理论
1977年,大卫?R?考克斯(即第23章里提到的博克斯和考克斯中的一位)开始研究费歇尔的论点,并对它们加以发展。为了区分费歇尔所用的P值和奈曼-皮尔逊理论,他称费歇尔的方法为“显著性检验”(significance testing),而称奈曼-皮尔逊的理论为“假设检验”(hypothesis testing)。在考克斯撰写他的论文的时候,统计显著性(通过计算P值)的计算已经是应用最广泛的科学研究方法,因此,考克斯断言,这种方法已经证明了其在科学研究中的作用,尽管存在费歇尔与奈曼之间的尖锐争执,尽管存在W?爱德华兹?戴明这样的统计学家坚持认为假设检验毫无用途,尽管出现了根本不需要计算P值、不需要考虑显著性的贝叶斯统计学……总之,尽管在数理统计学家之间存在着上述这些争论,显著性检验和P值一直被使用着。考克斯就问了:科学家真的在使用这些检验吗?他们怎么会知道这些检验的结果是真的还是有用的呢?他发现,在实践中,科学家用假设检验主要是通过消除不必要的参数,来提高其对现实的了解程度,或是用来在两个不同的现实模型间进行选择。
博克斯的研究方法
博克斯(博克斯和考克斯中的另一位)从稍微不同的角度来研究这个问题。他认为,科学研究不只是做一个简单的实验,科学家在进行实验前,已经掌握了大量的知识,或者至少对实验的结果已经有了一个期望值,研究是为了提升知识、实验设计取决于你要提升的知识类型。在这一点上,博克斯和考克斯具有很多共同之处。对于博克斯来说,一次实验是一系列实验的一部分,将这次的实验数据与其它实验的数据进行比较,那么早先的知识就会在新的实验中和对以往实验的重新分析中得到重新审视。科学家从未停止过对以往研究的回顾,并从较新的研究视角去提升过去的认识。
举一个关于博克斯方法的例子。假设一个造纸厂引进了博克斯的一个主要创新方法——调优运算(evolutionary variation in operations,EVOP),按照博克斯的方法,这个工厂在生产过程中引入了一系列的实验,用不同的方法在温度控制、速度、硫磺处理过程以及温度控制等环节进行了微调,结果发现纸张的强度变化不大。如果要生产的产品仍然可销售的话,这种变化是不能大的。然而,根据费歇尔的方差分析(analysis of variance),用这些微弱的差别可以进行另外一个实验,在这个新的实验中,纸的平均强度稍微增大,这样,这个新的实验就可以用来确定可以提高纸张强度的工作方向。在过程操作改进中每个步骤的结果都与先前步骤的结果进行比较,当得到的结果看起来比较反常时,实验要重新做,这个过程周而复始——永远没有所谓最终“正确”的结论。在博克斯的模型里,这个不断进行着数据检验和再检验的科学实验是没有尽头的——没有最后的科学真相。
戴明的观点
戴明和其他许多统计学家坚决否定假设检验的作用。他们坚持认为费歇尔的估计方法才是统计分析的基础,认为真正应该估计的是统计分布的参数,而通过P值和武断的假设间接地处理这些参数而进行的分析是毫无意义。这些统计学家继续使用奈曼的置信区间去衡量他们研究结论的不确定性,但是他们却认为奈曼-皮尔逊的假设检验就象K?皮尔逊的矩法(method of moments)一样已经过时了。有趣的是,奈曼自己也很少在他的应用性论文里用到P值与假设检验。
对假设检验的拒绝以及博克斯与考克斯对费歇尔显著性检验定义的重新诠释,使得人们可能对于皮托在癌症临床研究中解决问题的方法提出质疑。但是他面对的这个根本问题始终没有解决。当接受治疗的病人改变治疗方法,实验因此被动地做了调整时你能怎么做?亚伯拉罕?沃尔德(Abraham Wald)已经指出在实验中怎样的调整是可以接受的,那就是序贯分析(sequential analysis)。但是在皮托的问题中,肿瘤学家不会采用沃尔德的序贯分析法,一旦他们察觉到必要时,他们就会采用不同的治疗方法。
科克伦的观测研究
从某种方面来说,皮托的问题也是约翰?霍普金斯大学的威廉?科克伦在20世纪60年代研究的问题。巴尔地摩(Baltimore)市政府想知道,公共住宅是否影响低收入人群的社会态度和生活水平的提高。他们联系了约翰?霍普金斯大学的统计小组,请求他们帮助设计一个实验。按照费歇尔的方法,约翰?霍普金斯大学的统计学家建议寻找一群人,不论他们是否申请了公共住宅,随机分配公共住宅给其中一部分人,而对其中的另外一些人不提供公共住宅。这个建议吓坏了市政官员,以往,在公布安置公共住宅时,他们通常的做法是先到先受理,这是惟一公平的做法,他们不能拒绝那些先提出申请而却是因为计算机的随机抽取而没有选中的人。但是约翰?霍普金斯大学的统计学家指出,不管使用何种方法,那些最先申请的人通常都是最积极并且有野心的人,如果这种说法是对的,那么住在公共住宅里的人本来就比另外一些人干得好,这与提供住宅本身无关。
科克伦的结论是,如果他们不能够采用已经设计好的科学实验,那么通过追踪那些住进公共住宅以及那些没有住进的家庭,他们可以采用观察研究的方法来替代。这些家庭有很多因素不同,如年龄、受教育程度、宗教信仰以及家庭的稳定状况。他对这类观察研究的统计分析提出了许多方法,在各种方法中,他会考虑不同家庭的上述因素对测量结果进行调整,建立一个数学模型,其中包括年龄、是否是单亲家庭、宗教信仰等因素的影响力。一旦代表这些因素的影响力参数估计出来了,剩下的影响就应该是由公共住宅造成的。
如果临床研究声称,治疗效果的差异已经根据病人年龄和性别的差异进行了调整,那就是说研究人员在估计治疗方法的主要效果时,已经应用了科克伦的方法,并且考虑了在治疗中为病人指定方法不平衡性的影响。几乎所有社会学研究都采用了科克伦的方法,但有些研究的作者可能没有认识到他们用的方法来自科克伦,而且认为其中很多特殊技术通常比科克伦的研究还要早。然而,科克伦为这些方法建立了稳定的理论基础,他写的关于观察研究的论文已经影响了医学、社会学、政治科学和天文不,在这些领域里“治疗方法”的随机指派,既不可能,也不道德。
鲁宾模型
在20世纪80年代和90年代,哈佛大学的唐纳德?鲁宾(Donald Rubin)提出了不同的方法,来解决皮托的问题。在鲁宾的模型中,假设每个病人对每个治疗方法都有一个可能的反应,也就是说,如果有两个治疗方法A和B,我们可以只观察采用其中一种治疗方法的病人,这些病人采用的方法是已经确定的。我们可以建立一个数学模型,在这个模型的公式中用一个符号来表示每种病人可能会有的反应。鲁宾界定了这个数学模型的使用条件,而在估计病人转而使用其它治疗方法会有什么样的反应时,这些条件是必需的。
鲁宾模型和科克伦的方法可以应用于现代统计分析中,因为应用计算机可以处理大量的数据。这些方法即使在费歇尔时代有人想到了,也是不可能实现的,因为这个数学模型涉及的数据太多,计算非常复杂,必须要借助于计算机。这个方法经常要求进行迭代计算,计算机要进行上万甚至百万次的计算,最后才会收敛于一个最终的答案。
科克伦和鲁宾的方法是高度依赖特定模型的,也就是说,除非所用的这个复杂的数学模型能非常准确地描述现实,否则就不会得出正确的答案。如果使用他们的方法,就要求分析人员要建立一个能够全面或近似全面描述事实各个方面的数学模型,如果事实与模型不符,那么分析的结论就不成立。像科克伦和鲁宾这些方法的一个伴生部分,已经成为去确定事实与模型怎样的拟合度下,结论是稳健的一种尝试。目前,数学界正在致力于研究:在结论不再成立之前,事实与模型之间可以有多大偏差。科克伦在直到1980年去世以前的日子里,一直在研究这些问题。
统计分析方法可以看作是一个连续过程,一端是高度依赖模型的方法,如科克伦和鲁宾的方法;另外一端则是一些非参数方法,采用最普通的方式检查数据。正如计算机的出现使模型模拟的方法得以实现一样,在使用非参数方法时,也发起了一场计算机革命,这种方法极少或根本不用设计数学结构,数据不必放在一个预想的模型中就可以展现它们的含义。这些方法在使用中都有一些奇怪的名字,像“解靴带”(“boot-strap”,我们称为“自助法”——译者注)。这是下一章要叙述的内容。
第28章 电脑随心所欲
圭多?卡斯泰尔诺沃(Guido Castelnuovo)出生于显赫的意大利犹太家庭,他的家庭背景可以追溯到古罗马最早的凯撒时代。1915年,卡斯泰尔诺沃当时是罗马大学(University of Rome)的数学教授,他正在进行一场孤独的战争,他想在研究生项目中引入一些有关概率和精算数学的课程。当时,安德烈?柯尔莫哥洛夫还没有建立起概率论的基础,数学家认为概率只是一个使用了复杂计算技术的众多方法的集合,是数学中的一个有趣的花絮,经常作为代数课里的一个部分来教授,在纯数学美丽的微光尚待关注的时候,没有人认为值得在研究生项目中开设这种课程。就精算数学而言,这段时间是应用数学最低迷的时期,人的寿命及意外事故发生频率的计算都只是采用简单算术,所以,系里其他的数学教授都认为没有开设这个课程的必要。
卡斯泰尔诺沃不仅在代数几何学这个抽象领域做了许多开创性工作,他对数学应用也有着浓厚的兴趣,他还劝说系里的其他人允许他开设这个课程。作为教学的成果,他在1919年出版了第一本关于概率与统计应用的教科书《概率运算与应用》(Calcolo della probabilità e applicazioni),这本书被意大利其它一些大学用于类似课程的教学中。到了1927年,卡斯泰尔诺沃已经在罗马大学成立了统计与精算科学学院(The School of Statistics and Actuarial Sciences),而且在整个20年代和30年代,意大利学校里致力于精算研究的统计学家越来越多,他们与瑞典该领域的专家进行极其活跃的交流。
1922年,贝尼托?墨索里尼(Benito Mussolini)在意大利实行法西斯主久,利用强权控制人民的言论自由,对大学里的学生和教职工都进行调查,以驱逐所谓的“国家的敌人”。在这次驱逐行动中,因为没有提及种族问题,所以卡斯泰尔诺沃是犹太人这件事没有被考虑进去 。所以最初的7年里他能够继续在法西斯政府的统计下工作。到了1935年,意大利法西斯与德国纳粹的联合导致在意大利实行反犹太的法律,70岁的卡斯泰尔诺沃失去了工作。
但是,这些并没有使这位不知疲倦的人停止工作,直到1952年去世。随着纳粹种族政策的实施,许多有前途的犹太研究生也被逐出大学。卡斯泰尔诺沃就在他和其他犹太教授的家里设立了特殊的课堂,坚持授课,以帮助这些犹太研究生继续他们的学业。卡斯泰尔诺沃除了写一些关于数学历史的书外,还在他87岁时的最后日子里,研究决定论和机遇之间的哲学关系,并试图去说明因果的概念——这些我们已经在前面的章节中接触过了,在本书的最后一个章节我将作进一步的探讨。
由于卡斯泰尔诺沃的努力而建立起来的意大利统计学派,拥有稳定的数学基础,但大多数研究都是以在实际应用中遇到的困难作为出发点。而与卡斯泰尔诺沃同时代的年轻人科拉多?基尼(Corrado Gini)则带领罗马中央统计研究所(Istituto Centrale Statistica in Rome)进行了在精算方面的深入研究。罗马中央统计研究所是一家由保险公司设立的私人研究机构。基尼对所有应用课题的极大兴趣促使他在20世纪30年代期间与活跃在数理统计领域大部分年轻的意大利数学家保持着密切的联系。
格利文科-坎泰利引理
在这些意大利数学家中有一位叫弗朗切斯科?保罗?坎泰利(Francesco Paolo Cantelli,1875-1966),他差不多先于柯尔莫哥洛夫就建立了概率论的基础。坎泰利对基础理论研究(如研究概率的意义是什么?)不感兴趣,没有像柯尔莫哥洛夫那样更深入地研究概率论,他只是满足于用概率运算的各种方法去推导出一些基本的数学定理,而这些概率运算的方法都是自18世纪数学家亚伯拉罕?棣莫弗将微积分引入概率计算后就存在的。1916年,坎泰利发现了我们所称的数理统计的基本原理。尽管它非常重要,却起了一个不起眼的名字“格利文科-坎泰利引理”(the Glivenko-Cantelli Lemma )。坎泰利是第一个证明了这个定理的人,并且,他非常理解它的重要性。至于柯尔莫哥洛夫的学生——约瑟夫?格利文科(Joseph Glivenko)对此定理也做出了贡献,他采用一种新的数学符号,即斯蒂尔切斯积分(Stieltjes integral)概括了这一结果,他的论文在1933年发表于一本意大利的数学期刊。格利文科所采用的数学符号是现代教科书中使用最多的一个符号。
格利文科-坎泰利引理是那种直观上显而易见的,但是,只有当别人发现后,你才会意识到,否则看不出来。如果有一些数,我们对它们的概率分布一无所知,那么数据本身可以用来构造一个非参数分布,这是一个不那么好看的数学函数,其间有许多断点,怎么看都不优美,尽管它的结构不雅观,坎泰利还是可以通过增大观测值的数量,来使不那么美的经验分布函数(empirical distribution function)越来越接近真实的分布函数。
格利文科-坎泰利引理的重要性立刻得到了承认,在这之后的20年里,这个引理被用来还原并证明了许多重要的定理,它是一种经常用于证明中的数学研究工具之一。为了用这个引理,数学家在20世纪初,不得不想出一些计算方法的简便算法,如果没有小窍门,在大量的数据样本中用经验分布函数来进行参数估计,就需要有一部在一秒钟内可以进行数百万次计算的超强计算机。在20世纪50年代、60年代乃至70年代都还没有这样的机器,到了80年代,才有这样的计算机用于这样的计算。格利文科-坎泰利引理成为新统计方法的基础,而这种新统计方法只能生存在高速计算机的世界里。
埃弗龙的“解靴带”法
在1982年,斯坦福大学的布拉德利?埃弗龙(Bradley Efron)发明了所谓“解靴带”(Bootstrap)(我们称为“自助法”)的方法,它基于格利文科-坎泰利引理的两种简单应用。这两种应用方法的原理很简单,但是它们要求用电脑进行大量的计算、再计算,……如果对一组数量适中的数据进行典型的“解靴带”分析,即使是利用最好的计算机也需要花好几分钟的时间。
埃弗龙把这种方法称为“解靴带”,是因为整个计算过程是一个数据自身模拟提升的过程,就像是解靴带一样,一个接一个地被解开。计算机不会介意重复单调的工作,它一遍又一遍地做着同样的工作,从不抱怨。由于使用了现代的晶体管芯片,计算机可以在不到万分之一秒内完成这些工作。在埃弗龙的“解靴带”背后还有一些复杂的数学理论,他最初的论文中证明了,如果对真实的数据分布做出了恰当的假设,这个方法与标准方法是等同的。这个方法的应用非常广泛,从1982年开始,几乎在每个数理统计期刊上都刊载一篇或更多的与“解靴带”相关的文章。
重复抽样和其它运算密集方法
还有其它一些与“解靴带”类似的方法,总称为重复抽样(resampling)。事实上埃弗龙已经阐述了费歇尔的许多标准统计方法都可以看作是重复抽样,而且,重复抽样方法属于范围更广的统计方法的一种,我们称之为“运算密集”(computer-intensive)。运算密集法充分利用现代计算机,对相同的数据不断地重复进行大量的运算。
20世纪60年代,美国国家标准局(the National Bureau of Standards)的琼?罗森布拉特(Joan Rosenblatt)和德州农工大学(Texas A&M University)的伊曼纽尔?帕仁(Emmanuel Parzen)发展了这种运算密集的程序,他们的方法被称为“核密度估计”(kernel density estimation),而且,由此产生了“核密度回归估计”(kernel density-based regression estimation)。这两种方法涉及到两个任意参数,一个是“核”(kernel),另一个是“带宽”(bandwidth)。这些方法出现不久,1967年(远在计算机可以解决这些问题之前)哥伦比亚大学的约翰?范里津(John van Ryzin)利用格利文科-坎泰利引理确定了参数的最优配置。
当数理统计学家们还在研究理论,并在他们自己的期刊发表文章时,罗森布拉特和帕仁的核密度回归已经被工程界独立地发现了,在计算机工程师中,它被称为“模糊近似值”(fuzzy approximation)。它用了范里津所称的“非最优核”(nonoptimal kernel),并且,只是非常随意地选用了一个“带宽”。工程实践不是为了寻找理论上最佳的可能方法,而是在于追求可行性。当理论家们还在为抽象的最优标准而大费周折时,工程师们已经走出去,到了真实的世界,用模糊近似值的概念建立了以计算机为基础的模糊系统。模糊工程系统应用于傻瓜相机,可以自动对焦和调整光圈。这一系统还应用于新建筑物中,根据不同房间的不同需要调整和保持舒适的恒定室温。
巴特?科什科(Bart Kosko)是工程界一个私人咨询师,是模糊系统推广者中最成功的一位。当我读他书中列出的参考书目时,可以找到关于19世纪一些主流数学家,像戈特弗里德?威廉?冯?莱布尼茨(Gottfried Wilhelm von Leibniz)等的参考资料,还有对随机过程理论及其在工程领域的应用方面做出贡献的数理统计学诺伯特?维纳(Norbert Wiener)的一些资料。但我找不到罗森布拉特、帕仁、范里津或核回归理论(the theory of kernel-based regression)任何后来贡献者的资料。这表明,尽管模糊系统和核密度回归的计算机运算法则基本一致,但它们各自完全独立地得到了发展。
统计模型的胜利
运算密集法在标准工程实践中的扩展,是20世纪末统计革命已经渗透到科学界各个角落的一个实例。数理统计学家们已经不再是统计方法发展唯一的、甚至已经算不上是最重要的参与者了。在过去的70年中,科学家和工程师们并不知道那些刊载于他们期刊中最重要的理论经常一次次地被重新发现 。
有时,应用者应用基础定理时没有进行重新论证,仅仅凭直觉上以为是对的就假定它是正确的。还有的情况是,使用者使用了已经被证明是错误的定理,仅仅是因为这些定理直观上看起来是正确的。存在这种问题的原因,是因为在现代科学教育中概率分布的概念已经根深蒂固,以至于统计学家和工程师们思考问题的方式也是基于概率分布的角度。一百多年前,K?皮尔逊认为,所有的观测都来自于概率分布,而科学的目的就在于估计这些分布的参数。在这之前,科学界相信宇宙遵守着某些规律,如牛顿运动定律,而观测到的任何差异都是因为误差的存在。逐渐地,皮尔逊的观点占据了优势,其结果,每个在20世纪接受科学方法训练的人都理所当然地接受了皮尔逊的观点。这种观点深深地植根于现代数据分析的科学方法之中,几乎没有人去考虑其所以然。很多科学家和工程师使用这些方法,但从不考虑K?皮尔逊观点的哲学含义。
然而,当科学研究的真正“主体”是概率分布这一观念被广为接受时,哲学家和数学家发现了许多严重的基本问题,我已经在以上的章节中概略地列举了一些,在下一章节将详细论述。
第29章 “泥菩萨”
1962年,芝加哥大学的托马斯?库恩(Thomas Kuhn)出版了《科学革命的结构》(The Structure of Scientific Revolutions)一书。这本书深刻地影响了哲学家们和实践者们如何去看待科学。库恩指出,现实是复杂的,是绝对不可能由一个有组织的科学模型来完全描述出来的。他认为科学就是试图模拟建立一个描述现实的模型,符合可用的数据,并且可以用来预测新实验的结果。因为没有任何一个模型是完全真实的,所以,数据越来越多,要求不断地配合新的发现去修正模型以修正对现实的认知。这样,模型因为带有特例的直觉上难以置信的延伸,变得越来越来复杂,最终,这个模型不再适用了。这时,有创新精神的人将会考虑建立一个全新的模型,一场新的革命在科学领域即将展开。
统计革命就是模型变换的例子。用19世纪决定论的科学观,牛顿物理学已经成功地描述了行星、月球、小行星和彗星等天体的运动,运动都是遵守几个明确的运动和引力定律;在寻找化学规律方面也取得了一些成功;并且达尔文的自然选择学说为理解进化提供了有利的依据;甚至有些人试图将这种寻找科学规律的模型研究引入社会学、政治科学以及心理学等领域。那时,人们相信寻找规律的难点在于测量不准确。
19世纪初,一些数字家如皮埃尔?西蒙?拉普拉斯认为,天文测量存在微小误差,可能是因为大气状况和测量的人为因素。他提出,这些误差也应该存在一个概率分布,从而开启了统计革命的大门。按照库恩的观点,这就是在获得新的数据后对机械式宇宙观进行的修正。19世纪,比利时学者兰伯特?阿道夫?雅克?凯特莱(Lambert Adolphe Jacques Quételet)最早开创了统计革命,他认为人类行为的规律也具有概率论的性质。他没有用皮尔逊的多参数方法,并且也不知道最佳估计方法(optimum estimation),他的模型是极其朴素的。
最终,人们发现,更加精确的测量反倒使模型预测值和实际观测值之间的差异变得更大,关于科学的决定论观点彻底崩溃,测量的越加精确,不但没有按照拉普拉斯的想法去消除误差,反而降低了人们观测行星真实运动的能力,而且表现出的差异越来越大。基于这一点,科学界已经做好了接受皮尔逊及其参数分布的准备。
本书前面的章节已经介绍了皮尔逊的统计革命是怎么逐渐改变整个现代科学的,尽管分子生物学遵循这种决定论(基因会决定细胞产生特殊的蛋白质),但是,在该科学中产生的实际数据充满了随机性,而且基因事实上就是这些随机数据分布的参数。现代药物对人体功能的影响是绝对的,1毫克或2毫克药物就可能对血压或精神有很大的影响,这一点是确定无疑的。但是证明了这一影响力的药理研究过程,却是按照概率分布来设计和分析的,影响力就是这些分布的参数。
同样,经济计量学的统计方法被用来模拟一个国家或者一个企业的经济活动。我们确信的电子的质子这些次原子粒子在量子力学中都是作为概率分布描述的。社会学家用总体的加权算术平均数来描述个体的交互作用,但这只能按照概率分布的方式进行。在许多类似的科学领域里,统计模型的应用在它们的方法论中非常广泛。当谈及分布的参数时,好像它们是真的并且是可测量的一样。多变且不确定的数据集合,就是这些科学的起点,计算结果则是隐藏在大量计算中,以参数形式来表示,这些参数是永远不能通过直接观测得到的。
统计学家失去控制权
现代科学中的统计革命如此彻底,以致于统计学家已经失去了对过程的控制。在数理统计文献的基础上,分子遗传学家已经独立发展了自己的概率计算方法。计算机对大量数据的处理能力,和人们对整理并搞清楚这些巨大信息库含义的需求,促使信息科学这一新学科的诞生。在信息科学新期刊的文章中已经很少提到数理统计学家的工作,而且,在《生物统计》或《数理统计年报》中刊登过的许多分析方法,都正在被重新发现。统计模型在公共政策问题研究中的应用,已经演变成了一个被称为“风险分析”(risk analysis)的新学科,并且风险分析的新期刊也忽视数理统计学家的工作。
现在几乎所有新学科的期刊,要求在结论中有一个结果表,列出对统计结论产生影响的不确定因素的测量值。统计分析的标准方法已经成为大学中这些学科的研究生课程,通常,课程的讲授还不必同一个学校的统计系参与。
自K?皮尔逊发现偏斜分布的一百多年里,统计革命不仅扩展到大多数的科学领域中,而且其许多思想已经传播到了一般的文化当中。当电视新闻主持人宣布,某项医学研究已经表明被动吸烟的人的死亡风险比不吸烟的人高一倍时,几乎每个听众都认为他或她明白主持人的意思;当一个公众民意调查说65%的公众对总统表示满意,上下误差3%时,我们大多数人都认为我们都明白这个65%和3%的含义;当我们听到气象播报员预测明天下雨的概率为95%时,大多数人出门都会带上一把雨伞。
除了这些我们自以为理解的可能性和比例问题外,统计革命对流行思潮和文化,有更深刻的影响力。即使实际测量的数据不够精确地与这些结论吻合,我们还是接受基于估计参数的科学研究结果。我们愿意根据众多数据算出的数来制定公共政策和安排我们的个人计划。我们认为搜集人口出生和死亡的数据,不仅是一个正当的程序,更有必要的工作,我们不必担心数人数会惹怒了上帝。从语言描述方面,我们用“相关”(correlation)或“相关的”(correlated)这两个词,好像它们意味着什么,也好像我们知道其含义。
写这本书的初衷是为了向那些没有数学专业背景的人士解释这场统计革命,我已经尽力描述了在这场革命背后的基本思想,它将如何应用于其他科学领域?它将如何最终主导几乎所有科学领域?我也尽力用语言和实例解释了一些数学模型,使大家不用再去研究抽象的数学符号就能够理解。
统计革命走到尽头了吗?
深邃未及的这个世界是一个集情感、事件与骚动的复杂混合体。我同意库恩的观点,我不相信人类的头脑能够构造一个理想的结构去解释、甚至不能挖地描述这个世界的真实情况。任何这种努力都存在根本的缺陷,最终,这些缺陷会变得非常明显,以至于科学模型必须不断地被修正,最终将走到它的终点,取而代之的是其它的什么东西。
随着统计方法应用的扩展,越来越多地应用到了人类生活的很多领域,哲学问题就显现出来。因此,我认为以讨论哲学问题作为本书的结尾是个好主意。接下来的将是在哲学领域中的一次冒险经历。读者可能想知道哲学究竟对科学信现实生活起到了什么作用。我的答案是,哲学并不是一些被称为哲学家的怪人们所做的神秘学术练习,哲学关注的是我们日常文化思想和活动的基本假设(underlying assumption)。我们的世界观来自于我们的文化,是受许多微妙的假设影响的,甚至很少有人会意识到它们。学习哲学会让我们揭开这些假设,并去检查它们的有效性。
我曾经在康涅狄格大学的数学系教过一门课程,这门课程有一个正式的名称,但是系里的人却更愿称之为“给诗人开的数学”。这门课只开一个学期,是为艺术专业的学生设计的,目的是向他们介绍基本的数学观念。在学期的开始,我向学生们介绍了16世纪意大利数学家吉罗拉莫?卡尔达诺(Girolamo Cardano)的一本书《高等艺术》(Ars Magna),在这本书中,第一次描述了代数的方法。与他的大部头著作相呼应,卡尔达诺在该书的介绍中写道:代数不是新东西。他暗示他不是无知的傻子,他认为自人类产生以来,人类对知识的掌握一直在减少,亚里士多德所拥有的知识远远要多于卡尔达诺那个时代的任何一个人。他断言不可能有新的知识。然而,由于他的无知,他没能在亚里士多德的著作中找到关于代数思想的参考书目,所以他就把代数——这个看起来像是新东西的概念介绍给读者,他确信一些更加有知识的读者会从古人的著作中找到出处,这看起来是新东西的观念一定会被找出来的。
坐在我教室里的这些学生,生活在一个不同的文化环境中,他们不但相信后人会发现新事物,而且事实上,还鼓励创新。他们被卡尔达诺震惊了。写这些是多么愚蠢的呀!我告诉他们,在16世纪的时候,因为当时的一些基本哲学假设,欧洲人的世界观具有局限性,他们的世界观中,一个重要的部分就是人类的堕落以及随之而产生的道德、知识、工业等所有事物的持续退化,这些在当时是如此的真实,以至于很少有人去探寻究竟。
我问学生们,他们的世界观的基本假设中,哪些可能在500年后看起来是很荒谬的?他们一个都想不出来。
因为统计革命的表面观念已经传播到现代文化中,越来越多的人相信所谓的真实性,而不考虑它的基本假设,所以,让我们用统计的宇宙观来考虑下面三个哲学问题:
1. 可以用统计模型来做决策吗?
2. 当概率应用于现实生活中时其含义是什么?
3. 人们真的懂得什么是概率吗?
可以用统计模型来做决策吗?
牛津大学的L?乔纳森?科恩(L. Jonathan Cohen)是被他称之为“帕斯卡式”(“Pascalian”)观点的尖锐批评家,所谓“帕斯卡式”观点就是认为可以用统计分布去描述现实。1989年他写了《归纳和概率的哲学导论》(An Introduction to the Philosophy of Induction and Probability)一书,书中他提出了一个关于彩票的悖论,他认为那是康涅狄格州卫斯理大学(Wesleyan University in Middletown Connecticut)的西摩?屈贝里(Seymour Kyberg)教授发明的。
假定我们接受假设或者显著性检验的观点,我们赞同如果现实中该假设的相应概率非常小,就可以拒绝这个假设。为了更进一步说明,假设0.0001就是一个非常小的概率,让我们组织一次公正的10000张彩票的抽彩活动。按这个假设,1号彩票中奖的概率,我们也可以拒绝这种假设,依次类推,我们可以拒绝类似的任何针对某号彩票的假设。按照这一逻辑规则,如果A不为真,B和C都不为真,那么A、B、C的集合也不为真。也就是说,按照这一逻辑规则,如果每一张彩票都中不了奖,那么就没有彩票可中奖(而事实却是总会有中奖的彩票)。
在科恩较早写的《可能与可证》(the Probable and the Probable)一书中,基于普遍的法律实践,他提出了这种悖论的一个变形。在习惯法(common law)中,一个涉及民事诉讼的原告提供了“有利”证据,其陈述看起来是真的,那么他就会胜诉,法庭接受原先诉求的概率高于50%。科恩还提出了一个关于“无票入场者”(gate crashers)的悖论:假设在一个有1000个席位的音乐厅里举办一场摇滚音乐会,主办单位只售出499张票,但是当音乐会开始的时候,1000个席位都坐满了,根据英国的习惯法,主办单位有权在音乐会上向每个现场的人收票钱,因为他们每个人无票入场的概率都是50.1%,这样,虽然音乐厅只有1000个席位,但是主办单位却将会有1499张门票的收入。
这两个悖论都说明了,以概率为依据所得到的决策是不合逻辑的,逻辑和概率是矛盾的。费歇尔在设计良好的实验基础上,利用显著性检验来证明科学研究中的归纳推理是可取的,但是科恩的悖论则表明,这样的归纳推理是不合逻辑的。杰里?科恩菲尔德根据积累的大量证据来判断吸烟会导致肺癌这个说法,但连续的研究表明,除非你假设吸烟是致癌的原因,否则这个结论是极不可能的。相信吸烟致癌是不合逻辑的吗?
以逻辑推理和统计为基础所得出决策上的不一致,是不能靠在科恩提出的悖论中找到错误的假设来解决的。这种不一致的深层次原因存在于逻辑的含义中(科恩认为概率模型可以由一种我们称为“模型逻辑”(model logic)的复杂数学逻辑结构来代替,但是我认为这个方法会产生更多的问题,比它所解决的问题还要多)。在逻辑上,一个命题是对还是错,我们是完全不同的。但是概率引入的观念却是说一些命题“可能”或者“多数”是对的。就是结果的这一点点不确定性,就使我们在分析原因和结果时,难以应用事物实质蕴涵的冷酷的精确性。在临床实验中,处理这类问题的方法,是把每个临床研究看作是对某个治疗方案的效果提供资料。这些资料的价值取决于这个研究的统计分析,但则无也取决于研究的质量。研究质量这一额外的测量决定了哪些研究对结论起决定作用。但是,质量的概念含糊不清而且难以计算,悖论依然存在,而且吞噬着统计方法的核心。这种不一致的毛病是否需要在21世纪发起一场新的革命?
当概率应用于现实生活中时,其含义是什么?
柯尔莫哥洛夫建立了概率的数学定义:概率是一个抽象空间里对一事件集合的一种测量。所有概率的数学特征都可由这个定义导出。当我们希望在现实中使用概率时,我们需要确定眼前特定问题事件的抽象空间。当气象播音员说明天降雨的概率为95%时,什么是所测量的抽象事件的集合?是指明天要外出的所有的人吗?其中有95%的人会淋雨?还是指可能逗留在外面的时间?其中有95%的时间我会淋雨?或是说在一个1平方英寸大的地方,有95%的面积会下雨?当然这些解释都不对,那么到底是什么意思呢?
柯尔莫哥洛夫之前的K?皮尔逊认为概率分布是可以通过收集到的数据观察得出的,我们已经看到了使用这个方法存在的问题。
威廉?S?戈塞特试图为一个设计好的试验描述其事件空间。他说事件空间就是试验得出所有可能结果的集合。这听起来可能是对的,但是在实践中却是无用的。在实验中,我们必须相当精确地描述出结果的概率分布,才能计算出统计分析中需要用到的概率值。“所有可能实验结果的集合”的概念非常含糊,我们怎样才能得到一个精确的概率分布呢?
起初费歇尔同意戈塞特的想法,继而他发展了一个更好的定义。在他的实验设计中,治疗方案是随机分配给各个实验单位的。如果我们想在肥老鼠身上做实验,比较两个治疗动脉硬化的方案,我们就随机地在一些老鼠身上使用A方法,而在其余的老鼠身上使用B方法。实验开始进行,我们开始观察结果。假设两种治疗方案具有同样的效果,因为动物是随机使用治疗方法的,所以另外一些分配治疗的效果应该是同样的。随机治疗方法的标签是不相关的,只要治疗效果是一样的,我们就可以在动物间随意调换。因此,对于费歇尔,事件的空间是所有可能随机分配的治疗方案的集合。这是一个事件的有限集合,所有的事件都是等概率发生的。在所有治疗方法的效果是相等的零假设(null hypothesis)条件下,实验结果的概率分布是可以计算出来的,这就是我们所说的排列检验(permutation test)或随机检验。当费歇尔提出这一检验方法时,还不能计算出所有可能的随机实验分配方式,费歇尔证明了,他的方差分析公式可以求得一个非常理想的排列检验的近似值。
那时还没有高速计算功能的计算机,而现在进行排列检验是可能的,因为电脑可以不知疲倦地进行计算,这样费歇尔的方差分析公式就不再需要了,而且很多数理统计学家经过多年求证得出的非常聪明的定理也不再需要了。只要数据结果是来自于一个随机控制的实验,就可以在计算机上用排列检验来进行所有的显著性检验。
如果对观测数据用一个显著性检验,那就不可能了。这是费歇尔反对吸烟与健康问题研究的主要原因。一些论文的作者使用统计检验方法证明他们的例子。费歇尔认为,除非他们研究的是随机化的实验,否则统计显著性检验就是不合适的。在美国法院中的歧视性案件就常常是根据统计的显著性检验来裁决的。美国最高法院(The U. S. Supreme Court)规定,统计显著性检验是一种可以在裁决中使用的方法,可以用来判定是否因为性别或种族歧视的原因而造成了影响。费歇尔如果知道,他一定会强烈反对。在20世纪80年代后期,美国国家科学院(The U. S. National Academy of Science)赞助了一项研究,研究在法院中使用统计方法作为裁决依据是否合理。这项研究的主持者是卡内基梅隆大学(Carnegie Mellon University)的斯蒂芬?菲恩伯格(Stephen Fienberg)和明尼苏达大学(the University of Minnesota)的塞缪尔?克里斯洛夫(Samuel Krislov)。这个研究小组在1988年发表了他们的研究报告。研究报告中的许多论文批判了将显著检验用于歧视性案件的作法,所持的论点类似于费歇尔在反对吸烟导致癌症的证据时所使用的理由。如果最高法院想在诉讼中使用显著性检验,它必须确定产生概率的事件空间。
如何找出柯尔莫哥洛夫事件空间?第二种方法来自于样本调查理论。当我们希望通过一个随机样本去判断整个群体的某些事时,我们要精确地确定要研究的人群总体,确立一个选取样本的方法,并且根据该方法进行随机抽样。在实验的结论中存在不确定性,我们可以使用统计方法来量化这一不确定因素。不确定性产生的原因,是因为我们处理的是样本而不是所有人群。我们研究的宇宙现象的真实数值是固定不变的,例如,支持总统施政政策的美国选民的百分数是确定的,只是他们不知道。能够使用统计方法的事件空间,是所有可能的随机样本的集合,同样,这是一个有限集合,它的概率分布是可以计算出来的。概率在现实生活中的含义清楚地建立在抽样调查之上。
当统计方法应用于天文学、社会学、流行病学、法律或者天气预报等观测研究中时,事件空间就不好确定。在这些领域之中的很多争论,通常都是因为不同的数学模型会产生不同的结论。如果我们不能确定可进行概率计算的事件空间,那么就不能说某种模型比另外一种更适用。就像在很多法律案件中所显示的那样,两个统计专家分析同一组数据却得不到统一的结论。当统计方法越来越多地被政府和社会团体应用到观察研究和解决社会问题时,这个基本问题的存在,即不可能算出确切概率的事实,将使人们对这些统计方法的有效性产生怀疑。
人们真的懂得什么是概率吗?
概率在现实生活中还有一个含义是“个人概率”。美国的L?J?萨维奇和意大利的布鲁诺?德费奈蒂是倡导这种观点的先驱。其先驱地位的确定是因为萨维奇1954年出版的《统计学基础》(The Foundations of Statistics)一书。在这种观点下,概率是一个广泛的概念,人们很自然地使用概率来支配生活。在进行冒险前,人们总会本能地根据可能产生结果的概率根据可能产生结果的概率进行决策,如果预想危险的概率很高,人们就会采取回避的态度。对萨维奇和德费奈蒂来说,概率是一个普通的概念。人们不必去联系柯尔莫哥洛夫的数学概率,我们所要做的就是建立一些一般性的规则,将个人概率与生活联系起来,因此,我们只要假设人们在判断事件的概率时所遵照的规则是一致的就可以了。萨维奇在这一假设下提出了一些关于内部一致性的规则。
按照萨维奇和德费奈蒂的方法,个人概率对每个人来讲是独特的。对同样的数据进行同样的观察,有的人会判断降水概率是95%,有的人则会判断是72%,这样的事情是极有可能发生的。利用贝叶斯定理,萨维奇和德费奈蒂向人们展示了具有相同个人概率的两个人如果分析的是同一序列数据,最终他们会得到相同的概率估计。这是一个令人满意的结论:人看起来都是不同的,但却都是理性的。如果提供了足够的数据,理性的人们会最终求得共识,哪怕最初他们是存在意见分歧的。
约翰?梅纳德?凯恩斯在1921年发表的题为《关于概率的讨论》(A Treatise on Probability)的博士论文中,对个人概率提出了不同的看法。凯恩斯认为,概率是在某一文化教育背景下的人们,对其既定情况的不确定性的测量,概率的判断不仅是个人内心的直觉,还与个人的文化背景有关系。如果我们想在72%和68%之中作出哪一个更准确的选择,用凯恩斯的方法就会很困难,因为人们的总体文化水平很难达到精确的同一程度。凯恩斯指出,如果只是为了做决定,我们很少或根本不必去知道这些事件确切的概率数值,只要将事件进行排序就足够了。根据凯恩斯的理论,我们只要知道哪一事件更可能发生就可以了。明天下雨比下冰雹的可能性要大,或者说明天下雨的可能性是下冰雹可能性的两倍。凯恩斯指出,概率可以是部分排序(partial ordering)。不必要把每件事与其它事情进行比较。我们可以忽视某些概率关系,如根本不必要把扬基队得总冠军的概率与明天下雨的概率联系起来。
照这样,关于概率含义的两个结论取决于人类对不确定性量化的愿望,或者至少是大致的量化的要求。在凯恩斯的《关于概率的讨论》中,他为他的个人概率的部分序列设计出了一个正式的数学结构。他的做法比柯尔莫哥洛夫为数学概率建立基础理论还要早。他所做的工作没有借鉴柯尔莫哥洛夫的理论。凯恩斯声称,他的概率的定义有别于1921年提出的概率数学的一系列数学计算公式。为了使凯恩斯的概率定义得到应用,使用者还必须符合萨维奇的一致性原则。
凯恩斯的定义提供了关于概率的一种观点,它是用统计方法进行决策的基础。这种观点认为概率不再以事件空间为基础,而是产生于所涉及人员的个人感觉的数值。接着希伯来大学(Hebrew University)的两个心理学家——丹尼尔?卡内曼(Daniel Kahneman)和阿莫斯?特韦尔斯基(Amos Tversky)开始了他们关于个人概率的心理学研究。
在20世纪70年代和80年代间,卡内曼和特韦尔斯基研究了个体理解概率的方式。他们的研究成果编入了由P?斯洛维奇(P. Slovic)编辑的《不确定情况下的判断——启发与偏见》(Judgment under Uncertainty: Heuristics and Biases)一书中。他们为大学生、大学教员和一般的市民提出了许多概率场景,他们发现没有人符合萨维奇的一致性原则,相反,大多数人对不同概率数值的含义甚至没有一个一致的观点。他们所发现最好的一点就是人们对50:50和“几乎肯定”的含义有着一致的认识。通过卡内曼和特韦尔斯基的研究,我们可以得出结论:天气预报员尽力想区分降雨概率90%和75%间的不同,但实际上他们根本不可能说清楚,而那些预报的收听者也不可能真的说清楚这两者间的区别。
1974年,特韦尔斯基在皇家统计学会的一次会议上宣布了他的研究结果。在随后的讨论中,斯坦福大学的帕特里克?苏佩斯(Patrick Suppes)提出了一个简单的概率模型,符合柯尔莫哥洛夫的公理,并且也模拟卡内曼和特韦尔斯基的发现。这意味着用这个模型的人在他们的个人概率方面应该是一致的,在苏佩斯的模型中只有五个概率值:
必然为真
为真的可能性大
为真的概率为一半
为真的可能性小
必然为假
这导出了一个很无趣的数学理论。大概只有六个理论可由此模型导出,并且它们的论证几乎是不言而喻的。如果卡内曼和特韦尔斯基是对的,那么惟一有用的个人概率将对奇妙的抽象数学理论十分不利,并且由此产生的统计模型极基有限。事实上,如果苏佩斯的模型是惟一适合个人概率的模型,许多标准统计分析方法就毫无用处了,因为它们算出的差异水平低于人类感觉的水平。
概率真的必要吗?
统计革命背后的基本观点是:科学真实的主体是数字的分布,这个分布可以通过参数来描述。将概念溶入概率理论并处理概率分布,这是数学的方便之处。将数字的分布看作是概率数学理论的元素,这样就可以建立参数估计量的最优化标准,然后,去解决用数据描述分布时遇到的数学问题。因为概率看起来与分布的概念的关系是与生俱来的,许多人做了很多工作,试图让人们理解概率的含义,努力将概率的含义与现实生活联系起来,并且使用条件概率这一工具去解释学实验和观测的结果。
分布的思想可以存在于概率理论之外。事实上,许多“非正常分布”(improper distributions)(因为这些分布不符合概率分布的所有要求)已经应用于量子力学和一些贝叶斯方法中。排队论(queuing theory)(指两次排队间的平均间隔时间等于在队伍中等候的平均时间)的发展,推导出一个非正常的分布——描述一个人加入队伍必须要等候的时间。这正是一个将概率论的数学理论应用于实际生活,同时却将我们带离概率分布集合的一个例子。
21世纪将会发生什么事?
柯尔莫哥洛夫表现出来的最后的聪明才智,是他用一组有限符号序列的特性来描述概率。在这个描述中,信息理论不是概率计算的结果,而是概率本身的起源。也许在将来,某个人会继续他的工作,并且发展一个新的分布理论,而在新的分布理论中数字计算机的特性会被带入哲学理论的范畴。
谁知道呢?也许在什么地方有另外一个费歇尔,正工作于科学的最前沿,并在不久的将来,会以其前所未有的见识和观念打破目前的书面?也许在中国的内地,另一个吕西安?勒卡姆已经在一个没有文化的农家出生了;或者在北美,另一个乔治?博克斯只上了初中就休学了,现在正在做机修工,正在努力自学;也许另一个格特鲁德?考克斯将要放弃当传教士的愿望,被科学和数学的谜团深深吸引;或者另一位威廉?S?戈塞特正在努力寻找方法去解决啤酒发酵问题;或者另一个奈曼或皮特曼正在印度某个偏远的地方学院里教书,并且思考着深奥的问题。谁知道下一个伟大的发现将发生在什么地方?
当我们进入21世纪的时候,统计革命在科学领域取得了胜利,除了极少数的角落,它已经征服了科学界几乎所有领域的决定论观点。统计观点的应用如此广泛,以至于其基本假设已经成为西方世界通俗文化的一部分,就如同一尊泥菩萨一样立在那里,洋洋得意,而在未来的某个隐蔽的角落,另一场科学革命正在孕育,而那些即将发起这场革命的男男女女,可能正生活在我们中间。
作者后记
在写这本书之前,我已经将那些对统计发展有贡献的女士和先生们分成了两组,一组是我在书中提及到的,一组是我没有提及的。第一组人可能对我在书中只提及他们一小部分的工作而感到不满意,第二组人可能会因为我根本就没有提及他们的工作而表示抗议。。为了表达我对他们的敬意,我有必须解释一下我取舍的原则。
对第一组取舍的原因在于:现代科学的范畴太大了,任何人都不可能知道它所有的支派。因此,在有些研究领域,统计方法的应用可能非常广泛,但是我却不知道。在20世纪70年代,我曾查找过关于计算机在医学诊断中应用的资料。在查找过程中,我发现有三个互相独立的支派,在任何一个支派内人们互相引述论文,并且都发表在同一份期刊内,但是,不同派别的科学家却很少了解其他派别的人在做什么。这还只是在医学界这样一个小小的相关领域中的情形,在更广阔的科学界,可能有很多人群在应用统计方法,并且可能有一些成果在我从来没听过的期刊中发表。我对统计革命结果的认识,来自于对一些数理统计主流期刊的阅读。不阅读这些主流期刊或者不在这些期刊中发表文章的统计学家,就像发展模糊集合论(fuzzy set theory)的工程师,他们可能做了很多值得记载的工作,但是因为他们不在我知道的科学或数学期刊上发表文章,那么他们的工作就不会被包括进来。
有些东西我是知道的,但还是被省略了。我不想写一本关于统计方法论发展的全面的历史书,因为这本书的读者定位是一些不懂或者略懂数学的人,所以我不得不选择一些能用文字而不是用数学符号来解释的例子,这就更进一步限定了我的选择。另外,我还想让这本书读起来比较流畅,如果我用了数学符号,我可能就可以说明了众多主题间的关系了。但是没有数学符号,这本书很容易退化为一种观念的介绍,这些观念间没有什么关系。这本书需要一条主线将各个主题组织起来,我所选择的贯穿20世纪统计学复杂理论的主线是与别人不一样的,一旦这条主线确定了,我就不得不忽视了统计学的很多方面,而实际上,我对它们同样非常感兴趣。
在我的书中,很多人我都没有提及到,这并不代表他们的工作不重要,更不代表我认为他们的工作不重要。仅仅是因为本书的结构限制,我没有办法将他们的研究写进来,只好放弃。
我希望读者读了本书后能有所启发,去进一步了解统计革命的内涵。我希望有人在读后甚至能钻研这个题目,加入统计研究的行列。在参考书目中,我选择了一些供没有数学学习背景的人阅读的图书和文章。在这些书中,其他许多统计学家尝试向我们解释了统计所学带给他们的乐趣,那些想进一步了解统计革命的读者将会喜欢其中的一些书。
我要感谢W. H. Freeman出版的公司相关人员在本书出版过程中所做的工作。感谢Don Gecewicz细致的校对与编辑;感谢Eleanor Wedge和Vivien Weiss最后文字定稿和进一步的校对;感谢Patrick Farace对本书潜在价值的肯定;感谢Victoria Tomaselli、Bill Page、Karen Barr、Meg Kuhta和Julia Derosa对本书的美术制作工作。
首页 上一页 共3页
返回书籍页