必读网 - 人生必读的书

TXT下载此书 | 书籍信息


(双击鼠标开启屏幕滚动,鼠标上下控制速度) 返回首页
选择背景色:
浏览字体:[ ]  
字体颜色: 双击鼠标滚屏: (1最慢,10最快)

女士品茶

萨尔斯伯格 (美)
女士品茶
作者序
进入19世纪时,科学界奉行着一种固化的哲学观,即机械式宇宙观(clockwork universe)。这种哲学观认为,为数不多的几个数学公式,像牛顿的运动定律(Newton’s laws of motion)和玻意耳的气体定律(Boyle’s laws of gases),可以用来描述现实世界的一切,并能预测未来即将发生的事件。而对这种预测,所需要的不过是一套完整的公式,以及一组具有足够精确度的相关数据。然而,对于一般大众来说,整整花了40年时间,他们的思想才跟上这种科学观念。
这种思想上的落差,典型地体现在19世纪早年拿破仑皇帝(Emperor Napoléon)与皮埃尔?西蒙?拉普拉斯(Pierre Simon Laplace)的一次对话中。拉普拉斯写了一本历史性的权威著作,论述如何根据地球上少数观察数据来计算行星和彗星的未来位置。据说拿破仑问道:“拉普拉斯先生,我发现你的论述中没有提到上帝啊!”拉普拉斯的回答则是:“我不需要这个假设条件。”
机械式宇宙观认为,宇宙如同一个庞大的时钟机器,所有的物体都按照一定的规律运动,宇宙永续运转而不需要神的介入;所有将来发生的事件都决定于过去的事件。许多人对这种无神论的思想感到恐慌,从某种意义上说,19世纪浪漫主义运动的兴起,正是对这种精确应用推理的冷冰冰的哲学观的回应。然而,19世纪40年代出现了对新科学的证明,这叫一般人难以想象:牛顿的数学定律被用来预测另一颗行星的存在,而海王星(the planet Neptune)正是在这些定律所预测的位置被发现的。于是,几乎所有对机械宇宙观的反抗都被粉碎了,这一哲学立场很快成为大众文化的基本部分。
不过,就算拉普拉斯在他的公式中不需要上帝,他还是需要一种被他称为误差函数(error function)的东西。从地球上对行星和彗星的观察,与用公式所预测的位置并不绝对吻合,拉普拉斯和他的科学家同伴将这归结于观察中的误差,有时是由于地球大气层中的扰动,有时则是人为的。拉普拉斯把所有这些误差都放在一个附加项(误差函数)里,从而将之纳入他的数据描述。这个误差函数吸收了所有的误差,剩下的只是用来预测宇宙星体实际位置的绝对运动定律。当时科学家相信,随着越来越精确的测试,对误差函数的需求将逐渐消失。由于有误差函数来表示预测值与观察值之间的微小差异,19世纪早期的科学可以说是受到了哲学上决定论(determinism)的掌控,即相信所发生的任何事情都预先地决定于两点:(1)宇宙的初始条件;(2)描绘其运动的数学公式。
到了19世纪末,误差并没有消失,反倒是增加了。当测试越来越精确,误差也越来越多。机械宇宙观处于动摇之中,试图发现生物学定律和社会学定律的努力也失败了。在物理和化学等传统科学中,牛顿和拉普拉斯所用的那些定律,逐渐地被证明只是粗略的逼近。这样,科学便渐渐开始在新的范式(paradigm)下运作,这新范式就是现实世界的统计模型。到20世纪末期,几乎所有科学都转而运用统计模型了。
大众文化还是没有跟上这种科学革命,尽管一些含混的观念和表述,像相关(correlation)、胜率(odds)和风险(risk)等等,已经渗入了大众的词汇,并且多数人意识到了不确定性问题,这是与诸如医学和经济学等学科领域相联系的。但就已经发生的哲学观的深层转变而言,学界之外没有人能够对此有什么理解。这些统计模型是什么?它们是怎么来的?在现实生活中它们意味着什么?它们是现实的真实描述吗?本书正是试图来回答这些问题,其中我们也想介绍一些先生和女士的生平故事,这些人曾涉身于这场革命之中。
在处理这些问题时,必须把三个数学概念区分开:随机(randomness)、概率(probability)和统计(statistics)。对大多数人而言,随机只是不可预测性(unpredictability)的另一个说法。犹太教法典(Talmud)中的一则格言,传达了这种通常的看法:“不应该去探寻宝藏,因为宝藏的发现是随机的;按照定义,没有人能够寻找只会被随机发现的东西。”但是,对现代科学家来说,随机性有许多不同的类型。概率分布(probability distribution,这将在第2章中讨论)的概念允许我们对随机性加以限制,并赋予我们有限的能力去预测未来的随机事件。因此,对现代科学家而言,随机事件并不是杂乱的、不可预期的和不可预测的,它们有一个可以用数学来描述的结构。
概率是一个非常古老概念的现代用语,它曾出现在亚里士多德(Aristotle)的著作中。这位先哲声称:“不可能事件将会发生,这正是概率的特性。”起初,概率只是涉及到个人对什么事件即将发生的预测,在17和18世纪,一批数学家,其中包括贝努里(Bernoullis)父子、费尔马(Fermat)、棣莫弗(de Moivre)、帕斯卡(Pascal)都在以机会博弈(games of chance)为起点去研究概率的数学理论。他们发明一些非常高级的方法,用来计算等可能事件,棣莫弗设法在这些技术中加进微积分的方法,贝努里则可以领悟出非常基础的定理,叫大数定律(Laws of large numbers)。到了19世纪末期,数理概率主要由一些非常高级的技巧构成,但还缺少坚实的理论基础。
尽管不够完善,还是可以证明概率理论对发展统计分布(statistics distribution)观念的作用。当我们考虑一个特殊的科学问题时,就会产生一个统计分布。例如,在1971年,哈佛公共卫生学院所做的一项研究发表在英国的医学期刊《柳叶刀》(Lancet)上,这项研究旨在检验喝咖啡是否与下泌尿道癌有关。研究的报告以一级病人为对象。其中一些人患有下泌尿道癌,另一些人则患有其它疾病。报告的作者还搜集了这组病人的其它资料,如年龄、性别和家族的癌症病史等。结果证明,并不是每个喝咖啡的人都会得泌尿道癌,也不是每个得泌尿道癌的人都圆角咖啡,所以存在着与他们的假设相矛盾的事件。然而,25%的此类癌症患者习惯每天喝4杯以上咖啡,只有10%的非癌症患者是这种咖啡嗜好者,因而,似乎有一些证据支持这种假设。
这种资料的搜集给研究者提供了一个统计的分布。运用数理概率的工具,他们为这个分布建造了一个理论公式,称之为概率分布函数(probability distribution function),或简称分布函数(distribution function),以此来检验所研究的问题。它与拉普拉斯的误差函数相似,但却复杂许多。运用概率论来建造理论分布函数,而这个函数用来描述从未来数据中所能得到的预期结果,这些数据是以随机方式从同一总体的人群中提取的。
我不想使本书成为一本关于概率和概率论的书,那是抽象的数据概念。本书涉及的一些概率定理在科学问题上的应用,涉及统计分布和分布函数的世界。概率论本身不足以说明统计方法,有时甚至会出现这样的情形:科学中所用的统计方法违背了概率的定理。读者会发现本书中概率时隐时现,需要时被用到,不需要时则被忽略。
由于现实世界的统计模型都是数学化的,充分理解它们只能用数学公式或符号的方式。本书是一种野心不那么大的尝试,我打算描述发生在20世纪科学界的统计革命,而手法是通过介绍一些参加过这场革命的人物(其中不少人至今还健在)。我只是涉猎他们创造性的工作,试图让读者从中体会他们的个别发现是如何适应整个统计革命的。
仅就本书而言,读者并不会学到对科学数据进行统计分析所需要的足够知识,那需要几年的循序渐进的学习。但我希望读者看过本书后,能够对科学的统计观所代表的基本哲学的重大变革有所理解。那么,不懂数学的人要理解这场科学革命,应该从哪里开始呢?我以为,一个不错的选择是与女士一道品茶。
目录
第1章 女士品茶
第2章 偏斜分布
第3章 可爱的戈塞特先生
第4章 在“垃圾堆”中寻觅
第5章 收成变动研究
第6章 “百年不遇的洪水”
第7章 费歇尔获胜
第8章 致命的剂量
第9章 钟形曲线
第10章 拟合优度检验
第11章 假设检验
第12章 置信诡计
第13章 贝叶斯异论
第14章 数学界的莫扎特
第15章 “小人物”之见解
第16章 非参数方法
第17章 当部分优于总体时
第18章 吸烟会致癌吗?
第19章 如果您需要最佳人选
第20章 朴实的德克萨斯农家小伙
第21章 家庭中的天才
第22章 统计界的毕加索
第23章 处理有瑕疵的数据
第24章 重塑产业的人
第25章 来自黑衣女士的忠告
第26章 鞅的发展
第27章 意向治疗法
第28章 电脑随心所欲
第29章 “泥菩萨”
附:作者后记
大事年表
参考书目
Chapter 01 The Lady Tasting Tea
Chapter 02 The Skew Distribution
Chapter 03 That Dear Mr. Gosset
Chapter 04 Raking Over the Muck Heap
Chapter 05 “Studies in Crop Variation”
Chapter 06 “The Hundred-Year Flood”
Chapter 07 Fisher Triumphant
Chapter 08 The Dose That Kills
Chapter 09 The Bell-Shaped Curve
Chapter 10 Testing the Goodness of Fit
Chapter 11 Hypothesis Testing
Chapter 12 The Confidence Trick
Chapter 13 The Bayesian Heresy
Chapter 14 The Mozart of Mathematics
Chapter 15 The Worm’s-Eye View
Chapter 16 Doing Away With Parameters
Chapter 17 When Part is Better than the Whole
Chapter 18 Does Smoking Cause Cancer
Chapter 19 If You Want the Best Person
Chapter 20 Just A Plain Texas Farm Boy
Chapter 21 A Genius in the Family
Chapter 22 The Pieasso of Statistics
Chapter 23 Dealing with Contamination
Chapter 24 The Man Who Remade Industry
Chapter 25 Advice From the Lady in Black
Chapter 26 The March of the Martingales
Chapter 27 The Intent to Treat
Chapter 28 The Computer Turns Upon Itself
Chapter 29 The Idol With Feet of Clay
第1章 女士品茶
那是20世纪20年代后期,在英国剑桥一个夏日的午后,一群大学的绅士和他们的夫人们,还有来访者,正围坐在户外的桌旁,享用着下午茶。在品茶过程中,一位女士坚称:把茶加进奶里,或把奶加进茶里,不同的做法,会使茶的味道品起来不同。在场的一帮科学精英们,对这位女士的“胡言乱语”嗤之以鼻。这怎么可能呢?他们不能想象,仅仅因为加茶加奶的先后顺序不同,茶就会发生不同的化学反应。然而,在座的一个身材矮小、戴着厚眼镜、下巴上蓄着的短尖髯开始变灰的先生,却不这么看,他对这个问题很感兴趣。
他兴奋地说道:“让我们来检验这个命题吧!”并开始策划一个实验。在实验中,坚持茶有不同味道的那位女士被奉上一连串的已经调制好的茶,其中,有的是先加茶后加奶制成的,有的则是先加奶后加茶制成的。
写到这里,我可以想象,部分读者会对这种实验不以为意,认为它不过是一帮精英们于夏日午后的一个小消遣。他们会说:“这位夫人能不能区分两种不同的注茶方式,又有什么大不了的呢?这个问题并没有什么科学价值,这些大人物更应该把他们的天才用在对人类有所裨益的事情上去。”
不幸的是,不管外行对科学及其重要性怎么想象,从我个人的经验来看,大多数科学家之所以从事科研活动,只是因为他们对结果感兴趣,或者能够在工作中得到理性的刺激。好的科学家很少会想到工作的最终重要性,剑桥那个晴朗夏日的午后也是这种情景。那位夫人也许能、也许不能正确地品出不同的茶来,但这无关紧要,因为,实验的真正乐趣,在于找到一种判断该女士是对还是错的方案来。于是,在蓄着胡须先生的指导下,大家开始讨论应该如何进行实验判断。
接下来,在场的许多人都热心地加入到实验中来。几分钟内,他们在那位女士看不见的地方调制出不同类型的茶来。最后,在决战来临的气氛中,蓄短胡须的先生为那位先生为那位女士奉上第一杯茶,女士品了一小会儿,然后断言这一杯是先倒的茶后加的奶。 这位先生不加评论地记下了女士的说法,然后,又奉上了第二杯……
科学的合作性质
这个故事是我在20世纪60年代后期,从一个当时在场的先生那里听到的。这位先生就是休?史密斯(Hugh Smith),但他都是以H?费尔菲尔德?史密斯(H. Fairfield Smith)的名义发表科研论文。我认识他的时候,他在位于斯托尔斯(Storrs)的康涅狄格大学(the University of Connecticut)任统计学教授,而我则是两年以前在这个大学拿到了统计学博士学位。在宾州大学(the University of Pennsylvania)教了一阵子书后,我加入到了辉瑞公司(Pfizer Inc.)的临床研究部门。这是一家大型制药公司,它的研究园区坐落在格罗顿(Groton),离斯托尔斯大约一个小时的车程。当时,我是那里唯一的统计学家。在辉瑞期间,我要处理许多疑难的数学问题,还要负责给他们讲解这些问题,并告诉他们,对这些问题,我个人的结论是什么。
在辉瑞工作期间,我发现,科研工作几乎不能独立完成,通常需要不同智慧的结合。因为,这些研究太容易犯错误了。当我提出一个数学公式作为解决问题的工具时,这个模型有时可能并不适合;或者我就所处理情况而引入的假设并不真实;或者我发现的“解”是公式中的失误部分推导出来的;甚至我可能在演算中出了错。
无论何时,我去斯托尔斯的大学拜访,与史密斯教授探讨问题,或者,与辉瑞的化学专家、药理专家坐在一起讨论,我提出的问题都会受到欢迎,他们对这种讨论充满兴趣和热情。对大多数科学家来说,工作中令他们最感兴趣的,就是解决问题时那种兴奋感。因此,在检验并试图理解问题时,他们期盼着与他人交流。
实验的设计
剑桥那个夏日午后的情形正是如此,那个留着短胡须的先生就是罗纳德?艾尔默?费歇尔(Ronald Aylmer Fisher),当时他只有三四十岁。后来,他被授予爵士头衔。1935年,他写了一本叫《实验设计》(The Design of Experiments)的书,书的第2章就描述了他的“女士品茶”实验。在书中,他把女士的断言视为假设问题,他考虑了各种可能的实验方法,以确定那位女士是否能做出区分。设计实验时的问题是,如果只给那位女士一杯茶,那么即使她没有区分能力,她也有50%的机会猜对。如果给两杯茶,她仍可能猜对。事实上,如果她知道两杯茶分别以不同的方式调制,她可能一下子全部猜对(或全部猜错)。
同样,即便这位女士能做出区分,她仍然有猜错的可能。或者是其中的一杯与奶没有充分地混合,或者是泡制时茶水不够热。即便这位女士能做出区分,也很有可能是奉上了10杯茶,她却只是猜对了其中的9杯。
在这本书中,费歇尔讨论了这个实验的各种可能结果,他叙述了如何确定这样一些问题:应该为那位女士奉上多少杯茶?这些茶应该按什么样的顺序奉上?对所奉各杯茶的顺序应该告诉那位女士多少信息?依据那位女士判断的对错与否,费歇尔搞出了各种不同结果的概率。但在讨论中,他并没有指明这种实验是否真的发生过,也没有叙述这次实验的结果。
费歇尔书中有关实验设计的著述是科学革命的要素之一,这场革命在20世纪前半叶席卷了科学的所有领域。早在费歇尔出道以前,科学实验已经进行了几百年。在16世纪后期,英国的威廉?哈维(William Harvey)用动物做实验,他将不同动物静脉和动脉里的血液堵住,试图追踪血液从心脏到肺,回流到心脏,流向全身,再回到心脏的循环路线。
费歇尔没有发现实验是增长知识的方法。费歇尔之前,实验对每个科学家而言都是有其特性的。优秀的科学家可以做出产生新知识的实验,而二流的科学家常常从事的是积累数据的实验,但对知识增长没有什么用处。为说明这点,可以举发生在19世纪后期的一个例子。那时的科学家就测量光速做了许多无关要旨的努力,而直接到美国物理学家艾伯特?米切尔森(Albert Michelson)用光线和镜子建造了一个特别精巧的系列实验,才第一次得到好的估计。
在19世纪,科学家很少发表实验结果。他们所做的是论述自己的结论,并发表能证明结论真实性的数据。格雷戈尔?门德尔(Gregor Mendel)没有展示出他全部豌豆培育实验的结果,他叙述了他的系列实验,然后写道:“两组系列实验的前10个数据可以用来说明……”在20世纪40年代,费歇尔检验了门德尔用来说明结论的数据,发现这些数据过分完美,以至于失真,它们并没有表现出应该具有的随机程度。
尽管科学从审慎思考、观察和实验发展而来,但从来不清楚应该怎样从事实验,实验的全部结果通常也没有展现给读者。
19世纪末和20世纪初的农业研究中,上述情况尤为明显。20世纪早期费歇尔在农业实验站工作,在费歇尔去那儿工作之前,这个实验站已经进行了约90年的肥料构成(称之为人工肥料)实验。在一个典型的实验中,工人将磷肥和氮肥的混合物撒在整块田中,然后种植作物,测度收成和整个夏季的雨量。这里有精巧的公式用来“调整”某年或某块地的产量,以便与另一块地、或同一块地的另一年产量相比,这被称为“肥力指数”。每一个农业实验站都有自己的肥力指数,而且都认为自己的指数是最精确的。
90年的实验结果不过是一堆未经发表、了无用处的混乱数据。看来某些品种的小麦对某种肥料反应优于其它品种,但只是在降雨过量的年份如此。其它实验似乎显示:第一年用钾硫化物,第二年用碳酸硫化物,会使某些品种的马铃薯增产,而对其它品种并非如此。因此,就这些人工肥料,充其量可以说,其中有些在有的时候,可能或大概有效。
作为一个卓越的数学家,费歇尔审视了农业科学家用来修正实验结果的肥力指数,这些指数是用来解释不同年份气象变化所造成的差异的,他还检查了其它农业实验站所用的同类指数。当简化为基本的代数式时,这些指数不过是同一公式的不同表现形式,换句话说,看似激烈争斗的两个指数,其实起着同样的修正作用。1921年,费歇尔在农业科学领域的领军期刊《应用生物学年报》(the Annals of Applied Biology)上发表了一篇论文,文中他指出了采用哪种指数并没有什么差异,并且,所有修正都不足以调整不同地块上的肥力差异。这篇非凡的论文终止了一场持续20多年的科学论战。
费歇尔接着检查了过去90年来的雨量和收成数据,指出年度间不同气候的影响远远大于不同肥力的影响。用费歇尔后来在他的实验设计理论里发明的一个词来说,“混合”(confounded)的,这意味着用已有的实验数据是不能将二者分开的。90年的实验和20年的科学论战几乎是无谓的浪费。
这使得费歇尔专注于实验和实验设计的思考。他的结论是:科学家需要从潜在实验结果的数据模型开始工作,这是一系列数据公式,其中一些符号代表实验中将被搜集的数据,其它则代表实验的全部结果。科学家从实验数据开始,并计算与所考虑科学问题相应的结果。
让我们考虑一个关于一个老师和某个学生的简单例子。这个老师非常想找出一些关于这个孩子学习情况的测试数据,为了达到这个目的,老师对孩子进行了一组考试,每一个考试都在0到100之间评分,任何一个单一的考试都不可能对孩子知识的掌握提供可靠的评估;这个孩子可能是没有学习多少考试所涉及的内容,但是知道不少考试以外的事情;可能是这个孩子在参加考试那天头疼;还可能是参加考试那天早上孩子与父母发生了争执。由于种种原因,单一考试不能对知识量提供好的估计,所以老师进行了一组考试,然后计算出所有考试的平均分来评价孩子的知识量。这样的估计结果会更好,多少分是孩子知识量的实验结果,而每一个单独考试的分数则是数据。
那么老师应该如何组织考试?是搞那种只包括几天前所教授内容的系列考试,还是每次考试都从考试前所教授的全部内容中提取一部分?考试是一个星期搞一次,还是每天搞一次?或者在每个教学单元结束时搞?所有这些都是实验设计涉及到的问题。
如果农业科学家想知道某种人工肥料对小麦生长的效用,就要构建一个实验以取得效用估计时所需要的数据。费歇尔表明,实验设计的第一步是建立一组数学公式,用以描述待搜集数据与欲估计结果之间的关系,因此,任何有用的实验必须是能够提供估计结果的。实验必须是有效的,能够让科学家测定出气候的差异和不同肥料的使用对产量差别的影响。特别是,有必要包括同一实验中打算加以比较的实验处理(treatments),即那些后来被称为“控制组件”(controls)的东西。
在他那本关于实验设计的书中,费歇尔提供了几个实验设计的范例,并导出优秀设计的一般原则。然而,费氏方法中所涉及到的数学非常复杂,多数科学家设计不了自己的实验,除非他们遵循费歇尔书中提出的实验设计中的某个模式。
农业科学家认识到费歇尔工作的伟大价值,在大多数说英语的国家中,费氏方法很快便成为农业科研的主流学派。从费歇尔的原创性工作出发,用来论述不同实验设计的完整科学文献发展起来。这些设计被应用到农业以外的领域,包括医学、化学和工业质量管理。在许多案例中,所涉及的数学高深且复杂,但此时此刻,我们不妨停下来想想,科学家不可能不假思索地动手实验,这通常需要长时间的审慎思考,而且,其中通常会有大量的、高难的数学。
至于前面所说的女士品茶——那个在剑桥晴朗的夏日午后所做的实验中,那位女士怎样了呢?费歇尔没有描述这项实验的结果,但史密斯教授告诉我,那位女士竟然正确地分辨出了每一杯茶!
第2章 偏斜分布
像人类思想史上的许多革命一样,要想找到统计模型成为科学组成部分的确切时刻,也是很难的。人们可以在19世纪初德国和法国数学家的工作中找到可能存在的特例,甚至在17世纪伟大的天文学家约翰尼斯?开普勒(Johannes Kepler)的论文中,也能找到某种启示。正像本书前言中所提到的那样,拉普拉斯(Laplace)发明了误差函数来说明天文学中的统计问题,但我仍然倾向于把统计革命的发生定位于19世纪90年代K?皮尔逊(Karl Pearson)的工作。查尔斯?达尔文(Charles Darwin)把生物变异认作生命的基本面,并将之作为适者生存理论的基础。然而,是他的英国伙伴K?皮尔逊首先认识到统计模型的根本性质,以及这种模型对19世纪科学中的决定论观点提供了哪些不同的东西。
当我在20世纪60年代开始学习数理统计时,K?皮尔逊的名字在课上很少被提到。当我与这一领域的大人物共同探讨一些问题时,也听不到对K?皮尔逊及其著作的参考。他或者是被忽略了,或是被视为行为早已出局的次要人物。例如,美国国家标准局(the U.S. National Burean of Standards)的邱吉尔?艾森哈特(Churchill Eisenhart)当时正在伦敦大学学院(University College,London)学习,那是K?皮尔逊人生的最后几年,艾森哈特记忆中的K?皮尔逊不过是一个精神头不足的老头儿。统计研究的步伐已经将他推出局外,他和他的工作被埋进故纸堆中,青年学生神采飞扬,集聚在新的大人物周围学步,其中之一,便是K?皮尔逊自己的儿子,但是没有人去拜见老皮尔逊,他的办公室孤零零地坐落在那里,远离着活跃的、振奋人心的新研究。
当然并不总是如此,在19世纪70年代,年轻的K?皮尔逊离开英国,到德去从事政治科学的研究生学习。在那里,他倾心于卡尔?马克思(Karl Marx)的著作,为了表达崇拜之情,他把自己名字的拼法从Carl改成Karl。带着政治学博士的学位,他回到了伦敦,并在这个领域写过两本值得重视的著作。在维多利亚时代的英国,伦敦的拘谨之风最甚,K?皮尔逊却大胆地效仿德国和法国上流社会的沙龙,组织了一个青年男女谈话俱乐部(Young Mens and Womens Discussion Club)。俱乐部的青年男女平等地聚焦在一起(未婚少女并没有人陪伴),讨论世界上重大的政治和哲学问题。K?皮尔逊正是在那种环境下与夫人相遇而结缘的,这个事实使人感到发起这类俱乐部可能另有动机。这个小小的社会冒险对我们进入K?皮尔逊的内心世界提供了帮助,可以见证他对已经建立起来的传统是那样地不以为意。
尽管拿的是政治学博士学位,K?皮尔逊的主要兴趣还是在科学哲学和数学模型的性质上。19世纪80年代,他发表了《科学的法则》(The Grammar of Science),这本书后来再版了多次。在第一次世界大战之前的一段时间里,它被视为关于科学和数学性质最伟大的著作之一,其中充满了闪光的、原创性的、最具洞察力的见解,这使该书成为科学哲学的一本重要著作。同时,它又是以流畅、简单的风格写成,任何人都可以接受,你不必懂得数学就可以理解《科学的法则》。尽管从写作之日算起,这本书已经有100多年的历史了,但其中充满洞察力的见解和思想,对21世纪的数学研究,仍然是适用的。而它所提供的对科学性质的理解,至今也是真实的。
高尔顿的生物统计实验室
在人生的这个时段,K?皮尔逊感受到了英国科学家弗朗西斯?高尔顿(Francis Galton)爵士的影响。大多数人知道高尔顿这个名字,缘于他是指纹现象的“发现者”。高尔顿的贡献是认识到指纹对每一个人都是独特的,此外,还有通常用于识别和分类指纹的方法。指纹的唯一性存在于手指类型中出现的不规则标识和切面,这被称为“高尔顿标识”(Galton Marks)。高尔顿做的远比这多,作为一个只是将生物学算作其业余爱好的科学家,通过数字模型的研究,他寻求将数学的严密引入生物学,这同样是富有价值的。他所初创的各种调查当中的一项,是对天才遗传的研究。在这项研究中,他搜集了有关父子的信息,这些人因智商高而闻名。但由于当时对智力的测量没有什么好的办法,他发现研究这个问题特别困难,于是他决定转向诸如身高之类的遗传特性的研究,因为这更容易测量些。
高尔顿在伦敦成立了生物统计实验室(biometrical laboratory),并打广告动员不同的家庭来做测量。在这个实验室,他搜集身高、体重数据,测量特殊的骨骼和家庭成员的其它特性。他和他的助手将这些数据列成表格,并一再检验,他是在寻找利用父母测度数据来推断子女的某些办法。比如说,很明显,高个子父母很容易有高个子的小孩,但是不是存在某些数学公式,只用父母的身高就可以预测孩子将有多高呢?
相关与回归
高尔顿用这种方法,发现了他称之为“向平均回归”(regression to the mean)的现象,这表现为:非常高的父亲,其儿子往往要比父亲矮一些;而非常矮的父亲,其儿子往往要比父亲高一些。似乎是某种神秘的力量,使得人类的身高从高矮两极移向所有人的平均值。不只是人类身高存在着向平均数回归的现象,几乎所有的科学观察都着了魔似的向平均值回归。在第5章到第7章,我们将看到,费歇尔如何能够将高尔顿向平均值回归的思想纳入统计模型,而这种模型现在支配着经济学、医学研究和工程学的很多内容。高尔顿仔细思考了他的惊人发现,而后认识到这必定是真实的,在进行所有观察之前这就是可以预言的。他说,假设不发生这种向平均值的回归,那么从平均意义上看,高身材父亲的儿子将与他们的父亲一样高,在这种情况下,一些儿子的身材必须高于他们的父亲,以抵消身材比父亲矮小者的影响,使平均值不变。高身材者这一代人的儿子也将如此,那么会有一些儿子身材更高。这个过程将一代一代延续下去。同样地,将会有一部分儿子身材比他们的父亲矮小,而且有一部分孙子将更加矮小,如此下去,不用多少代,人类种族就将由特别高和特别矮的两极构成。
上述的情形并没有发生,人类的身高在平均意义上趋向于保持稳定。只有当非常高的父亲其儿子平均身材变矮,而非常矮的父亲其儿子的平均身材变高,才能出现这种稳定。向平均值回归是一种保持稳定性的现象,它使得某给定物种代际之间大致相同。
高尔顿发现了这种关系的一种数学测度,他称之为“相关系数”(coefficient of correlation)。高尔顿给出了明确的公式,以计算这个系数,所用的资料则是在生物测量实验室搜集的。这是一个非常详细而明确的公式,它只计算了向平均值回归的一个方面,但没有告诉我们任何有关这种现象原因的信息。正是在这个意义上,高尔顿最先使用了“相关”这个字眼,这之后它演变进入了大众词汇。与高尔顿特定的相关系数相比,“相关”经常被用来表示更为模糊的东西,尽管“相关”本身有严格的科学含义。科学圈外的人经常说到这个词,似乎它描述了两种事物如何相联系,但除非你涉及到高尔顿的数学测量,否则,当你使用高尔顿用于特别目的的“相关”这个词时,它不必那么精确。
分布与参数
有了这个计算相关的公式,高尔顿实际上已经非常接近新的革命性观念了,这个观念革命在20世纪几乎修正了所有的学科。但却是他的弟子K?皮尔逊,在非常完整的意义上第一个规范地阐明了这个观念。
为了理解这个革命性的观念,你必须将已有的关于科学的成见抛开。通常我们被教导,科学就是测量,我们进行精心的测量,并用它来寻找描述自然的数学公式。在高中的物理课中我们学过,当时间给定时,一个自由落体的运行将遵循一个含有符号“g”的公式,这里的“g”是关于重力加速度的常量。我们学过可以用来确定“g”的值的实验。然而,当高中生们进行一系列确定值的实验时,顺着斜板滚动小球,并测量小球需要多长时间到达不同的位置时,发生了什么呢?这就是很少得出确切的结果。学生进行实验的时间越长,困惑就越多,因为不同的实验得出了不同的“g”值。老师仅凭自己优越的知识来审视学生的实验,并认定学生之所以得不到正确的结果,要么是因为工作草率,要么是因为不够细致,要么是抄错了数据。
老师没有告诉学生的是:所有的实验都是草率的,并且,即使是最精心的科学家,也很少得到确切的数值。不可预见和不可观察的小扰动在每一个实验中都有:室内的空气可能太潮湿,或者落体在滚动前卡住了一个微秒,旁边飞过的蝴蝶可能会有其影响:造成气流的轻微扰动。人们从一个实验中真正得到的是散乱的数据,其中没有一个单个数据是确切的,但所有这些数据可以用来对确切值进行近似的估计。
武装了K?皮尔逊的革命性观念,我们就不再将实验结果看作精心测量得出的数据,它们也不是本来就确切的,用更容易接受的术语来代替:它们是一组散布数据,或一个数据分布中的样本。数据的分布可以写成数学公式,它告诉我的数值是不可预测的,我们只能谈论概率值而不是确定值,单个实验的结果是随机的,在这个意义上看它们是不可预测的,然而,分布的统计模型却使我们能够描述这种随机的数学性质。
科学家花了一些时间才认识到观测值所固有的随机性质。在18和19世纪,天文学家和物理学家创造出描述他们观察值的数学公式,达到了可接受的精确程度,在为测量工具不够精确,所以观察值与预测值之间的是预料之中的,可以忽略不计。星体和其它天体的运动被假定遵循运动基本公式所确定的精确路径,其不确定性是由于简陋的测量工具造成的,并不是其固有的性质。
随着物理学中更为精确的测量工具的发展,随着将这种测量科学扩展到生物学和社会学的尝试,大自然所固有的随机性越来越明显了。怎么处理它?一种办法是坚持数学公式的精确性,将观测值与预测值之间的离差视为小的、无关紧要的误差。事实上,早在1820年,拉普拉斯的数学论文描述了第一个概率分布,即误差分布,那是一个与这些小的、无关紧要的误差相联系的概率的数学公式。这个误差分布以钟形曲线(bell-shaped curve)或正态分布(the normal distribution )的说法进入了大众的词汇。
这使K?皮尔逊比正态分布或误差分布更进了一步,审视生物学中积累的数据。K?皮尔逊认为,测量值本身,而不是测量的误差,就具有一种正态分布。我们所测量的,实际上是随机散布的一部分,它们的概率通过数学函数——分布函数被描述出来。K?皮尔逊发现了被他称为“偏斜分布”(skew distribution)的一组分布函数,他宣称,这组函数可以描述科学家在数据中可能遇到的任何散布类型,这组函数中的每一个分布由四个数字所确定。
用来确定分布函数的这些数字与测量中的数字不属于同一类型,这些数字决不会被观察到的,但可以从观测值散布的方式中推导出来。这些数字后来被称为参数(parameters——源自希腊语,意思是“几乎测量”(almost measurements))。能够完整地描述K?皮尔逊体系中数字的四个参数分别被称为:
1. 平均数(the mean)——测量值散布状态的中间值;
2. 标准差(the standard deviation)——测量值的散布与平均值偏离有多远;
3. 对称性(symmetry)——测量值在平均值一侧规程的程度;
4. 峰度(kurtosis)——个别的观测值偏离平均值有多远。
用K?皮尔逊偏斜分布体系去考虑问题,思路会有一种微妙的转移。在K?皮尔逊之前,科学所处理的事情都是真实的。开普勒试图发现行星如何在空间运行的数学规律;威廉?哈维的实验打算确定血液如何在某一特定动物的静脉和动脉中游动;化学则处理元素和由元素组成的化合物。然而,开普勒所试图追踪的“行星”实际上是一组数据,用来给地球上的观测者所看到的天空中微弱的光点定位。单匹马身上血液通过静脉流动的实际情形,也许与在另一匹马或者一个人身上所可能看到的不同。没有人能够生产出纯铁的样本,尽管谁都知道铁是一种元素。
K?皮尔逊提出,这些观测到的现象只是一种随机的映像,不是真实的,所谓的真实是概率分布。科学中真实的东西并不是我们所能观测到或能把握到的,它们只是通过用来描述我们所观测事物随机性的数学函数来反应。科学调查中我们真正想确定的,是分布的四个参数。从某种意义上说,我们永远不能确定这四个参数的真实数值,而只可能从资料中估计它们。
K?皮尔逊并没有意识到这关键的一点,他以为,如果我们能够搜集到足够的数据去估计参数,就会得到参数的真实数值。而他的年轻对手费歇尔指出,K?皮尔逊的许多估计方法并不是最优的,在20世纪30年代末期,当K?皮尔逊临近他漫长生命的终点之际,一位杰出的波兰年轻数学家耶日?奈曼(Jerzy Neyman)表明,K?皮尔逊的偏斜分布体系并没有包含所有可能存在的分布,许多重要问题不能用K?皮尔逊的体系解决。
还是让我们离开1934年那个被离弃的老皮尔逊吧。回到他三四十岁、精力充沛的时期,那时的他对自己所发现的偏斜分布充满了热情。1897年,他接管了高尔顿在伦敦的生物统计实验室,带领一支年轻的娘子军(被称为“计算员”),计算高尔顿所积累的人种测量数据的分布参数。在20世纪之交,高尔顿、K?皮尔逊和R?韦尔登(Rerhael Weldon)共同努力,创办了一个新的科学期刊,这将使K?皮尔逊的观点应用到生物数据上。高尔顿用他的个人财富建立了一个信托基金支持这个期刊。在第一期,编辑们提出了一个雄心勃勃的计划。
生物统计计划
当时,英国科学家中有一位杰出的人物,他就是达尔文,同期的科学家们致力于探索达尔文富有洞察力的见解,高尔顿、K?皮尔逊和韦尔登便是其中相当热心的骨干。达尔文的进化理论认为,生命形式随着环境压力而变化,他提出,变化的环境会给更适应新环境的随机变化提供些许的优势,渐渐地,伴随着环境改变和生命形式继续发生随机转变,新物种将会出现并且更适于在新的环境中生存和繁殖。这一思想被简称为“适者生存”(survival of the fittest)。当恣意妄行的政治学家将其用于社会生活,宣称那些在经济竞争中取得胜利的富人比身陷贫困的穷人更为适于生存时,这一理论对社会就有不好的影响——适者生存理论成了猖狂的资本主义的辩护者,在那里,富人被授予了道义上的特权去鄙视穷人。
在生物科学中,达尔文的思想似乎很有道理。达尔文可以指出相关物种的相似性,作为现代物种从先前物种演化而来的佐证。达尔文表明,物种上些许不同的小型鸟类,即使是生活在孤岛上,也有许多解剖学上的共性。他指出,不同物种胚胎之间的相似性,这包括人类的胚胎,在开始是有尾巴的。
有一件事是达尔文做不到的,那就是他不能给出人类历史的时间框架中,新物种实际出现的例子。达尔文设定新物种由于适者生存而出现,但没有证据,他不得不做的只是展示现代物种很好地适应了它们所处的环境。达尔文的说法似乎只是表明了已知的事情,而且理论本身有一个很吸引人的逻辑结构,但是如果套用犹太人的一句老话就是“举例并不是证明”(For instance is no proof)。
K?皮尔逊、高尔顿和韦尔登打算在他们的新期刊中将这事搞清楚。在K?皮尔逊看来,只有概率分布是真实的,达尔文的雀鸟(他在书中用到的一个重要例子)并不是科学调查的对象,而某一种雀鸟的总体随机分布才是这个对象。对某一给定雀鸟种类而言,如果能够测量其全体的喙长,这些喙长的分布函数将有四个参数,这四个参数将是这一种雀鸟的喙长。
K?皮尔逊说,假如存在着某种环境力量,通过提供优越的生存能力,使得某一物种产生某种特定的随机变化,我们也许不能生存得那么久,以看到新物种的出现,但我们能够看到分布的上个参数的变化。在他们期刊的创刊号上,三位编辑宣布:他们的新期刊将从全世界搜集数据,以确定这些分布的参数。最终期望表明,样本参数的变化与环境变化相关。
他们将新期刊定名为《生物统计》(Biometrika),高尔顿创建的生物统计基金会给予它慷慨资助。由于资金是这样地充裕,以至于该期刊成为世界上第一本印有全彩照片的期刊,甚至还带着画有复杂图画的下班纸折页。期刊以高品质的优质纸印刷,连最复杂的数学公式也展示了出来,尽管那意味着极端复杂和昂贵的排版工艺。
接下来的25年里,《生物统计》发表了通讯员们从各地发来的数据:有的深入非洲的丛林,测量原住民的胫骨和腓骨;有的从中美洲的雨林抓到奇特的热带鸟类,测量其喙长;还有的甚至偷盗古墓,揭开死人头盖骨灌铅,以测量其脑的容量。在1910年,该期刊发表了几幅全彩照片,画面是俾格米男人裸躺在地上,的生殖器旁还摆着量尺。
在1921年,一个年轻的女通讯员朱莉亚?贝尔(Julia Bell)描述了她在试图对阿尔巴尼亚新兵进行人类形体测量时所遇到的困难。她离开维也纳去阿尔巴尼亚一个边远的基地,本以为可以得到讲德语军官的帮忙,当她抵达时才发出,那里只有一个士官能说三句德语。她无所畏惧地拿出了测量所用的铜标尺,通过形体动作让那些年轻人理解她要干什么,直到他们按要求抬起手臂和脚。
对每一组这样的数据,K?皮尔逊和他的计算员们都计算出分布的四个参数,论文将展示最佳分布的图示,并评论该分布与其它相关数据的分布有何不同。回顾过去,很难看出所有这些行动怎样帮助证明了达尔文的理论。浏览《生物统计》的这些作品,我得到这样一种印象:这些工作不久就变成为自身原因而进行努力,除了给特定数据组估计参数外,没有实际目的。
在期刊中还夹杂着其它类型的论文,其中一些涉及理论数学,以处理发展概率分布时遇到的问题。比如在1908年,一个不知姓名的作者,以“学生”(“student”)为笔名发表了论文,提出了后来几乎在所有现代科学工作中都有作用的研究成果——“学生”的“t检验”。接下来的几章我们还会遇到这位匿名的作者,并将讨论他在K?皮尔逊与费歇尔之间作调解时的不幸角色。
高尔顿死于1911年,而韦尔登则于这之前死于阿尔卑斯山的一次滑雪事故。只剩下了K?皮尔逊这唯一的编辑和信托基金的支配者。在接下来的20年中,期刊成了K?皮尔逊个人的了,期刊发表什么完全以K?皮尔逊的判断为准,由他确定重要与否。K?皮尔逊为期刊写了很多社论,他让自己丰富的想象驰骋在各个领域。比如,在对一个古老的爱尔兰教堂翻修时,墙壁中发现了一副骨骼,K?皮尔逊通过对这些骨骼的测量和所涉及的数学推理,来确定它们事实上是不是某个中世纪圣徒的遗骨。再比如,一个据称是奥利弗?克伦威尔(Oliver Cromwell)的头骨被发现了,K?皮尔逊以一篇精彩的文章对其进行了研究。该文描述了所知的克伦威尔尸体的下落,并且还将对克伦威尔画像所做的测量结果和该头骨 所做的测量进行了比较。在另外一些论文中,K?皮尔逊检验了古罗马各君主的统治期和贵族阶级的没落,还涉猎了社会学、政治学和植物学。所有这些,都带有复杂的数学解释。
就在去世之前,K?皮尔逊还发表了一篇题为“论犹太人与非犹太人关系”(On Jewish – Genlile Relationships)的短文。文中他分析了从世界各地收集到的犹太人与非犹太人的人体测量数据,最后得出的结论是:德国国家社会主义(the National Socialists)(正式的名称是纳粹(Nazis))的种族理论纯粹是胡说八道,根本就没有犹太种族(Jewish race)或亚利安种族(Aryan race)那回事。这最后一篇论文与他以前的工作一样,组织清晰,有逻辑性,推理谨慎。
K?皮尔逊运用数学研究了人类思想的许多领域,而很少有人将这些领域视为科学的正宗地盘。浏览生物统计上他所写的社论,你仿佛看到了一个兴趣十分广泛的人,他具有直切问题核心的惊人能力,并能用数学模型去加以处理。还有浏览这些社论,你就像遇上一个意志坚定、主见鲜明的人。说实话,如果不需要与他争辩的话,我想我是很乐意与K?皮尔逊共处一天的。
K?皮尔逊他们是否证明了达尔文适者生存的进化论理论呢?也许是吧。通过将古墓中头骨的容量分布与现代男女的比较,他们设法证明:经历了几千年深化的人类种群保持了相当的稳定。他们表明:对澳洲原住民的人类学测量与对欧洲人的测量结果有着相同的分布,据此,他们推翻了某些澳洲人关于原住民不是人类的断言。K?皮尔逊从这些工作中发展了一种被称为“拟合优度检验“(goodness of fit test)的基本统计工具,这是现代科学所不可缺少的。它使科学家能够确定一组给定的观测值是否适合于某一特定的数学分布函数。在第10章我们会看到,K?皮尔逊的儿子E?皮尔逊(Eqon Pearson),是如何用这种拟合度检验是否定他父亲所完成的许多项工作的。
随着20世纪的来临,《生物统计》中讨论数理统计理论问题的文章越来越多,少量的文章仍停留在处理特定数据的分布。当K?皮尔逊的儿子E?皮尔逊接班成为编辑时,期刊的性质就完全转型为理论数学了。时至今天,《生物统计》仍是这个领域中卓越的刊物。
但他们到底有没有证明适者生存这个说法呢?20世纪初曾经有一个最接近的研究。韦尔登构想了一项宏大的实验:18世纪英格兰南部瓷器工厂的发展,导致了一些河道被粘土淤塞,普利茅斯(Plymouth)港和达特茅斯(Dartmouth)港也都受到了影响,近陆地区比近海地区淤得更为严重。韦尔登从这些港口抓了几百只螃蟹,分别放入广口瓶中,其中一半用内港的淤泥水,另一半用外港的较干净的水。一段时间后仍有螃蟹存活,韦尔登测量它们的壳,以确定两组螃蟹的分布参数。
正像达尔文所预言的那样,淤泥水中戚的螃蟹在分布参数上有了变化!这是不是证明了进化论呢?不幸的是,韦尔登在写出实验结果前就死了,K?皮尔逊对数据进行了粗略的分析,他描述了这个实验及其结果,但最后的分析却始终没有搞出来。为这项实验提供资助的英国政府要求提供最终报告,但报告了无踪影,韦尔登死了,实验也夭折了。
就生命周期很短的生物,如细菌和果蝇而言,达尔文的理论最终被证明是真实的。用这些物种,科学家可以在较短的一个时间段里完成几千代的实验。现代的DNA研究,作为遗传的基石,已经为物种之间的关系提供了更为有力的证据。如果我们假定突变率在过去千万年或更长的时间里保持不变,那么DNA的研究可以用来估计灵长类和其它哺乳动物出现的时间框架,至少它经了几百万年。大多数科学家现在都把达尔文的进化论作为正确的东西接受下来。没有其它理论与所知数据吻合的如此之好,于是科学界满足了,原来人们认为需要通过确定分布参数转变来表明较短时间里的进化过程,一日三餐这种观念已经被放弃。
K?皮尔逊的革命所留下来的是这样一个观念:科学的对象并不是不可观测事物本身,而是数学分布函数,以描述与所观测事物相联系的概率。今天,医学研究运用精巧的分布数学模型来确定治疗方法对长期存活的可能效果;社会学家和经济学家用数学分布来描述人类社会的行为;物理学家用数学分布来描述次原子粒子。科学里没有哪一个方面从这场革命中逃脱。有的科学家宣称,概率分布的使用只是一时的权宜之中,最终我们会找到一种途径回到19世纪科学的决定论。爱因斯坦有句名言,他不相信上帝在和宇宙玩骰子,就是这种观点的例子。其他人则相信,大自然基本上是随机的,真实性只存在于分布函数之中。不管一个人的基本哲学是什么,事实仍然是,K?皮尔逊关于分布函数和参数的思想统治了20世纪的科学,并在21世纪初仍保持着优势。
第3章 可爱的戈塞特先生
爱尔兰都柏林的吉尼斯酿造公司(Guinness Brewing Company)是一个声誉卓著的老牌酿造公司,该公司于20世纪初开始投资于科学。年轻的吉尼斯刚刚继承这家企业,他就决定雇用牛津和合格大学在化学上顶尖的毕业生,以便将现代科学技术引进到公司的业务中来。在1899年,他招募威廉?西利?戈塞特(William Sealy Gosset)进入公司,那是个23岁的牛津大学新秀,拥有化学和数学两个学位。戈塞特的数学背景在当时是传统的,包括微积分、天文学和机械式宇宙观下的其它科学分支,K?皮尔逊的创新和后来成为量子力学的萌芽观念,还没有进入大学的课程。戈塞特是由于他的化学专长而被吉尼斯雇用的。对一个酿酒企业来说,要一个数学家又有什么用呢?
戈塞特成为吉尼斯一项很好的投资,他表明自己是一个很能干的管理者,最后他在公司里升任负责大伦敦区业务的主管。事实上,他对本行工艺做出了第一项主要贡献是以数学家的身份来完成的。几年前,丹麦电话公司(the Danish telephone company)是第一个雇用数学家的实业公司,但他们有一个明确的数学问题:制造多大的电话交换板?可制造啤酒又有什么数学问题需要解决呢?
戈塞特在1904年发表了第一篇文章,处理的是这样一个问题:麦芽浆准备发酵的时候,需要仔细地测量所用酵母的量,酵母是活的有机体,酵母培育需要保持鲜活,加入麦芽浆前它在瓶中的液体里系列。工人们得到测量清楚某个给定的瓶中有多少酵母,以便决定用多少液体,它们提取一定量的液体,在显微镜下检验,计量他们所看到的酵母细胞数。这种测量有多精确?了解这一点是很重要的,因为麦芽浆中所用的酵母数应该精确地控制。酵母太少,发酵不充分;太多了,啤酒又会发苦。
注意这个问题与K?皮尔逊对科学的观念是多么的吻合。测量的是样本中酵母细胞的量,但所寻求的真实“东西”是整个瓶中酵母细胞的浓度。由于酵母是活的,而细胞不断地分裂和繁殖,那个“东西”实际上并不存在,在某种意义上,真正存在的是单位液体中酵母细胞的概率分布。戈塞特检验了数据,确定酵母细胞的数量可以用所知的泊松分布(Poisson distribution )来描述,这并不是K?皮尔逊偏斜分布家族中的一种概率分布。事实上,它是一种只有1个(而不是4个)参数的特殊分布。
确定了样本中的活酵母细胞数服从泊松分布,戈塞特就能够设计规则和测量方法,从而得到对酵母细胞浓度更为精确的测量。用戈塞特的方法,吉尼斯能够生产质量更稳定的啤酒。
“学生”的诞生
戈塞特想找一份适合的期刊发表这个结果,泊松分布(或相应的公式)已经被发现100多年了,过去一直试图在现实生活中寻找实例,其中之一,便是计量普鲁士军队中被马踏死的士兵人数。在酵母细胞计量中,戈塞特有一个清楚的实例,还有对统计分布新观念的重要应用。然而,这违背了公司不准许雇员发表文章的政策。几年前,吉尼斯一位优秀的酿造师写了一篇文章,其中泄露了他们某个酿造过程的秘密成份。为了避免进一步损失,吉尼斯禁止它的雇员发表文章。
戈塞特成了当时《生物统计》编辑之一的K?皮尔逊的好朋友,而K?皮尔逊对戈塞特的数学能力印象很深。1906年,戈塞特说服了他的老板,数学的新思想对啤酒公司是很有用的,并到高尔顿生物统计室在K?皮尔逊门下脱产学习一年。这之前两年,当戈塞特描述他处理酵母的结果时,K?皮尔逊急于将之付印于他的期刊。他们决定用匿名的方式发表文章,于是,戈塞特的首次发现是仅是以“学生”的名义发表的。
在其后30年中,“学生”写了一系列极为重要的论文,几乎所有的都发表在《生物统计》上。从某些方面看,吉尼斯家族已经发现了他们“亲爱的戈塞特先生”违反了公司的规定,一直私下里撰写并发表科学论文。“学生”的数学活动大多是在家里进行,并且是在正常的工作时间之外。戈塞特在公司升迁到了负更多责任的位置,这表明他的副业并没有使吉尼斯公司受损。有这样一种不足为凭的说法:吉尼斯家族第一次知道这件事是在1937年,戈塞特突然死于心脏病,他数学界的朋友与吉尼斯公司探讨,想帮助支付其论文集的印刷成本。不管这事真实与否,美国统计学家哈罗德?霍特林(Harold Hotelling)的回忆录里清楚地记载,霍特林在20世纪30年代后期要与“学生”会谈,安排是秘密的,带有间谍小说的各种情节。这表明“学生”身份的真正确认,对吉尼斯公司仍是个秘密。“学生”在《生物统计》发表的论文涉及理论和实践的尖端问题,戈塞特将非常实际的问题带入有难度的公式,又把结论带回现实实践,后来者便照此办理。
尽管有很高的成就,戈塞特仍是个谦逊的人。在他的信中,人们经常可以发现这样的字眼:“我的研究只是提供了粗浅的想法”;或者,当他的某些发现被给予过多的荣誉,他会说:“费歇尔实际上已经能完成了整个数学结构。”在人们的记忆中,戈塞特是一个和善的、体贴的同事,很在意别人的情感。他去世的时候61岁,离开了他的妻子马乔里(Majory)(一个精力充沛的运动员,曾经担任英国女子曲棍球队的队长)、一个儿子、两个女儿和一个孙子,当时他的父母还健在。
“学生”的t检验
如果不算别的,所有的科学家都受惠于戈塞特的一篇短文,该文的题目是“平均数的可能误差”(The Probable Error of the Meam),1908年发表在《生物统计》上。是费歇尔点出这篇杰出论文的一般性意义。对戈塞特来说,有一个特定的问题需要解决,一到晚上,他就习惯性地带着耐心和小心投入于这个问题。发现了结论,他就用其它资料来检查,重新验证他的结果,努力去确认是否遗漏了什么细微的差别,考虑他必须设定哪些假设,并一再重复计算自己的发现。他提前采用了现代计算机基础上才出现的蒙特卡罗技术(Monte Carlo techniques),这是一种一再模拟的数学模型,以确定相关数据的概率分布。然而,当时他没有计算机,只能不辞辛苦地加总数据,从上百个样本中计算平均数,并绘制所得出频率的图表,所有这些都靠手工完成。
戈塞特所专注的特定问题是小样本(small sample)问题。K?皮尔逊计算了某一分布的4个参数,这是在单一样本就积累了上千个测量数据的基础上完成的,因为使用了大样本,他设定所得到的参数估计是正确的。费歇尔要证明他的错误。根据戈塞特的经验,科学家很少能三八线以有如此大的样本,更为典型的实验通常能够看到10到20个观测数据,他还理解到,这种现象在所有的学科中都很普遍。在一封给K?皮尔逊的信中,他写道:如果我是你遇到的用小样本工作的唯一一人,那你太特异了,在这个题目上我与斯特拉顿(Stratton)(剑桥大学的一位研究员)相伴,他曾经用4个样本来做说明。
K?皮尔逊所有的工作都假定:样本足够大,以至于确定参数可以没有误差。戈塞特设问:如果是小样本会怎么样?我们将如何处理自己的计算中肯定会出现的随机误差?
晚间,戈塞特坐在自己的餐桌旁,取出一小组数据,算出平均值和标准差估计值,再将二者相除,并将结果绘在图纸上。他发现这个比率与K?皮尔逊的四个参数相关,并与K?皮尔逊的偏斜分布系列中的某一分布相配。他的伟大发现在于:你不必知道原始分布的4个参数的确切值。前两个参数估计值的比率有一个可以制表的概率分布,不管数据从哪里来,或者标准差的真实值是多少,计算这两个样本估计值的比率,你就可以得到一个已知的分布。
正如弗雷德里克?莫斯特勒(Frederick Mosteller)和约翰?图基(John Tukey)所指出的那样,没有这一发现,统计分析注定要使用无限次的回归,没有“学生”的t检验 (这是该发现后来的称谓),分析者将不得不估计观测数据的4个参数,再估计这4个参数估计值的4个参数,接着估计4个新估计值的4个参数……这样继续下去,没有机会得到最终的结果。戈塞特表明,分析者可以在第一步就停止这种估计。
戈塞特的工作有一个基本的假设,即原始测量值服从正态分布。多年以来,科学家使用着“学生”的t检验,许多人渐渐相信,并不需要这项假设。他们经常发现:不管原始测量是否服从正态分布,“学生”的t检验都有相同的分布。在1967年,斯坦福大学(Stanford University)的布拉德利?埃弗龙(Bradley Efron)证明了这一点,更确切地说,他发现了不需要戈塞特假设的一般条件。
随着“学生”t检验的发展,我们不知不觉地习惯于统计分布理论的应用,这一理论在科学界广为流传,相伴而来的是更深层次的哲学问题,这就是我们所说的“假设检验”(hypothesis tests)或“显著性检验”(significance tests)的使用。后面我们会剖析这个问题,现在我们只想强调:“学生”提供了几乎每个人都使用的科学工具,尽管没有多少人真正理解它。
与此同时,“可爱的戈塞特先生”成了两个长期不和的超级天才——K?皮尔逊和费歇尔之间的中间人。尽管他经常对K?皮尔逊抱怨他看不懂费歇尔写给他的东西,他还是保持了与两个人的友谊。他与费歇尔的友谊开始于费氏在剑桥大学读本科的时候,那是在1912年,费歇尔刚刚成为剑桥大学数学学位甲等及格者(最高的数学荣誉),他的天文学导师 介绍两个人认识。当时费歇尔正在研究一个天文学问题,他写了一篇论文,在其中他重新发现“学生”在1908年得到的结果。年轻的费歇尔显然不大知晓以前戈塞特所做的工作。
在费歇尔给戈塞特看的这篇论文中,有一个小错误被戈塞特指了出来。当戈塞特回家的时候,他发现费歇尔写的两大页数学论证正等着他。这个年轻人把自己原先的工作又做了一遍,并加以扩充,还批评了戈塞特所犯的一个错误。戈塞特在给K?皮尔逊的信中写道:“附上一封信,它证明了我关于“学生”t检验的频率分布公式,您是否介意替我看一下。即使我可以理解,超过三维空间我还是觉着不自在。”费歇尔用多维几何证明了戈塞特的成果。
在这封信中,戈塞特说明了自己的如何到剑桥去与朋友会面,而这个朋友恰巧在冈维尔与凯厄斯学院(Gonville and Caius College),是费歇尔的导师,他如何被介绍给这位22岁的学生。他接着写道:“费歇尔这小子写了一篇论文,提出概率的新标准或诸如此类的东西,看起来不错,但就我所能理解的,是一种不切实际且不大管用的认识事物方式。”
在描述了他在剑桥与费歇尔的讨论后,戈塞特写道:
对我们之间的讨论,他的回复是两大页书写纸,上面用最深的墨水写满了他所证明的数学(跟着是一组数学公式)……我看不大懂这些内容,回复他说等我闲下来时准备研究它,实际上我去湖区时随身带着它,可弄丢了。
现在他将这封信寄给我,我觉得如果它还可以的话,您也许愿意发表这个证明,它是这样的完美和数学化,对某些人也许有吸引力。
K?皮尔逊在《生物统计》上发表了费歇尔的短文,就这样,20世纪最伟大的天才之一面世了。3年以后,经过了一连串俯就的信件往来,K?皮尔逊发表了费歇尔的第二篇论文,但事先约定论文须以这种形式出现:它不过是对K?皮尔逊合作者之一所做工作的细微补充。K?皮尔逊再也没有允许他的期刊发表费歇尔的论文。费歇尔继续在K?皮尔逊许多最感自豪的成就中挑毛病,而K?皮尔逊则在稍后几期的《生物统计》中,以社论的方式点出“费歇尔先生”或“费歇尔先生的学生”在其它期刊所发表论文中的错误。这些都将是下一章介绍的内容,戈塞特会在以后几章中的某些地方再度出现,作为一个和蔼可亲的良师益友,他帮助年轻男女进入统计分布的新世界。他的许多学生和合作者都对新数学做出了重要贡献。尽管他本人谦逊地表示异议,但戈塞特的确做出了许多影响深远的贡献。
第4章 在“垃圾堆”中寻觅
1919年春天,费歇尔29岁,他带着妻子、三个孩子和小姨子,搬到了伦敦北部的一间旧农舍里,那儿靠近罗森斯特农业实验站(the Rothamsted Agricultural Experimental Station)。从许多方面来看,费歇尔的人生在别人眼里是失败的。他在孤单和多病的童年中长大,并有严重的视力损伤。为了保护他的近视眼,医生禁止他在人工灯光下阅读。但他很小就接触了数学和天文学,在6岁时他迷上了天文学,七八岁时,他就跑去听由著名天文学家罗伯特?鲍尔(Robert Ball)爵士主讲的通俗讲座。
费歇尔被著名的哈罗公学(Harrow Public School )录取,在那里他的数学是出众的。由于不允许他使用电灯,他的数学导师在晚上教他时,不用铅笔、纸和任何其它视觉辅助品。久而久之,费歇尔发展了一种很强的几何直觉能力。在后来的岁月中,他那非凡的几何洞察力,使他得以解决许多数理统计中的难题。这种洞察力对他而言是那么明显,从而导致他经常不能被别人所理解。在他看来是显而易见的事情,别的数学家往往要花几个月甚至几年的时间去证明。
他于1909年进入了剑桥,在1912年获得了数学学位甲等及格者的头衔,对剑桥学生来说,这是一个很高的荣誉,要得到它必须通过一系列极为困难的口头和笔头数学考试,一般一年只会有一两个学生成功,有的年份甚至没有人能得到这种头衔。当费歇尔还是本科生时,他就发表了他的第一篇科学论文,其中复杂的迭代公式(iterative formulas)被转换成多维的几何空间形式。在这篇论文中,那些在人们眼里一直特别复杂的数学计算公式被转换成简单的几何形式。毕业后他花了一年时间,研究统计力学(statistical mechanics)和量子理论(quantum theory),到1913年,统计革命已经进入了物理学,而新观念已经较为系统地进入这两个领域,并成为正式的大学课程。
费歇尔的第一份工作是在投资公司的统计室,其后他突然离开那里,到加拿大去从事农场工作。后来又在第一次世界大战开始时突然离开农场,回到了英格兰。虽然他被批准入伍,但他那很差的视力使他免于军事服务。战争年代,他在许多公共学校教授过数学,但每一次的经历都比上一次更糟,他对学生们没耐心,因为他们都是不能理解在他看来很明显的事情。
费歇尔与K?皮尔逊
前一章提到,当费歇尔还是本科生时,就在《生物统计》发表了一篇短文。这使得费歇尔有机会见到K?皮尔逊,K?皮尔逊将一个困难的问题介绍给费歇尔:确定高尔顿相关系数的统计分布。费歇尔对此作了思考,用几何公式来处理它,不到一个星期就得出了完整的答案。他把结果交给K?皮尔逊,想在《生物统计》上发表。但K?皮尔逊不能理解其中的数学,把它转给了戈塞特,而戈塞特在理解上也有困难。K?皮尔逊知道如何就特定的案例得到问题的部分结论,他的方法涉及到大量的计算工作,于是便对生物统计实验室的工人做出安排,让他们去计算出这些明确的答案。在每一个案例中,所得到的答案都更加支持费歇尔的一般性结论。但K?皮尔逊仍然不发表费歇尔的论文,他要费歇尔做出修改,并降低费歇尔工作的一般性。K?皮尔逊将费歇尔的东西扣了一年多,同时让他的助手(计算员)计算一个庞大的扩展的表,以表明参数值的分布。最后,他发表了费歇尔的成果,但相对于K?皮尔逊及其助手展示分布表的大块文章来说,费氏的论文只是作为一个脚注。对不经意的读者来说,这样一个结果意味着:K?皮尔逊和他的合作者所做的工作更为重要,那里有大量的数据计算,而费歇尔的数学处理只是一个附属物。
费歇尔再也没有在《生物统计》上发表过文章,尽管它是这一领域的顶尖级期刊。在接下来的年份里,费歇尔的论文出现在《农业科学期刊》(the Journal of Agricultural Science)、《皇家气象学会季刊》(the Quarterly Journal of the Royal Meteorological)、《爱丁堡皇家学会会刊》(the Proceedings of the Royal Society of Edinburgh)、《心理研究学会会刊》(the Proceedings of the Society of Psychical Research)上,而所有这些期刊与数学研究通常都不怎么搭界。据知情者说,费歇尔作出这样的选择是因为K?皮尔逊和他的朋友们成功地将费歇尔逐出数学和统计研究的主流。根据其它人的说法,K?皮尔逊吹毛求疵的态度让费歇尔感到自身受到漠视,同时,他也没能够让类似的论文在《皇家统计学会期刊》(the Journal of the Royal Statistical Society,该领域另一份顶尖的期刊)上发表,于是他转而利用其它期刊,有时甚至付钱请他们发表自己的论文。
费歇尔这个“法西斯”!
费歇尔早期论文有一些是高度数学化的。他论述相关系数的文章,也就是K?皮尔逊最后同意发表的那篇,就充满了数学符号,一个标准页里有一半甚至更多篇幅都是数学公式。但也有一些论文里面压根就没有数学。其中的一篇,他讨论了用达尔文的随机适应理论(Darwin’s theory of random adaptation)来说明最复杂的解剖学结构的方法。在另一篇论文中,他探讨了性别选择进化的问题。费歇尔在1917年加入了优生学运动(the eugenics movement),在《优生学评论》(the Eugenics Review)上发表了一篇社论,呼吁转变国民政策“以增加职业界人士和高技能工匠的生育率”,并抵制下层社会的生育率。他在这篇文章中质疑政府为贫民提供福利的政策,认为这会鼓励他们多生育,并将基因传给下一代,而中产阶级对经济安全的关注会导致他们推迟结婚,并节制生育。费歇尔担心,对整个国家来说最终的结果是:为后代选择了“最差的”而不是选择“较好的”基因。优生学问题是通过有选择的系列来改进人类基因库,这成为费歇尔的主要政治观念。在第二次世界大战期间,他被错误地指责为法西斯主义者,并被逐出了与战事有关的工作。
费歇尔的政治见解与K?皮尔逊不同,后者钟情于社会主义和马克思主义,他同情被压迫者,并喜欢挑战保守的优等阶层。但K?皮尔逊的政治观念对他的科学研究没有什么影响。费歇尔关注优生学,这导致他将相当大的精力投入到遗传学的数学研究中。当时有一种新观念,认为某种植物或动物的特性可能来自一个单个基因,这以两种形式中的一个就可表现出来。从这种观念出发,费歇尔将格雷戈尔?门德尔 的工作大大地推进了,他指出如何估计两个相信基因的彼此影响。
存在着控制生命性质的基因,这一观念是科学中广义统计革命的一个部分。我们观察植物和动物的我,专业上称之为“表型”(phenotypes)。但我们假设这些表形是基因之间交互作用的结果,而这些基因的交互作用又具有不同的概率。我们寻求以这些主要的和不可见的基因方式,来描述“表型”的分布。在20世纪后期,生物学家识别出这些基因,以确定它们让细胞制造什么样的蛋白质,我们说起这类事就像真的一样,但我们所观察到的还只是概率的分布,我们所说的基因,即DNA链,正是来自于这些分布。
我们这本书说的是总的统计革命,费歇尔在这场革命中起了很重要的作用。他对自己作为遗传学家所取得的成就感到自豪,他的一半以上的成果是与遗传学有关的。现在,我们不再把费歇尔当作一个遗传学家,而主要看他在一般统计技术和观念方面取得的进展。这些观念的萌芽在他的早期作品中就可以发现,但这些观念的全面发展,却是他在工作期间的事,那发生在20世纪20年代到30年代。
《研究工作者的统计方法》
虽然费歇尔在这段时间被数学界忽视了,但他所发表的论文和著作极大地影响了农学和生物学界科学家的工作。在1925年,《研究工作者的统计方法》(Statistical Methods for Research Workers)第一版面世。之后,这本书仅英文版就出了14个,此外,还有法文、德文、意大利文、西班牙文和俄文的译本。
《研究工作者的统计方法》与这之前的数学著作不同,通常数学著作都有许多定理及其证明,并展开抽象的概念将之一般化,与其它抽象概念联系。如果说这类书中有什么应用的话,也只是放在完整的数学描述和证明之后。《研究工作者的统计方法》从如何利用数据制图及如何读图开始,第3页就出现了第一个实例,展示一个婴儿生命头13周每一周的重量,这个婴儿就是费歇尔自己的头生子——乔治(George)。接下来的各章描述如何分析数据:费歇尔给出一些公式,列举一些实例,解读这些例子的结果,然后再转到其它公式。书中没有对公式的数学推导和证明,却带有详细的技术说明,并交待如何在机械计算器上应用它们。
尽管,或者说正是因为缺少理论数学,这本书迅速地被科学界采用。它顺应了现实需求,可以把这本书直接交给只受过有限的数学教育的实验室的技工,让他们自己应用。使用这本书的科学家认为费歇尔的主张是正确的,而评论这本书的数学家则对书中未加证明的大胆论述持怀疑态度,许多人弄不明白他是怎么得出这些结论的。
第二次世界大战期间,瑞典的数学家哈拉尔德?克拉美(Harald Cramér)被战争隔绝于国际科学界外,他花了相当多的时间来费歇尔的这本书和所发表的论文,补充了原来缺失的证明步骤,并推导出原来没有的证明。1945年,克拉美出版了一本书,书名叫作《统计的数学方法》(Mathematical Methods of Statistics),对费歇尔的许多著述给出了正式的证明。不过,克拉美只能对这位多产天才的论述进行选择性的证明,费歇尔的很多著述在克拉美的书中都没有包括进去。克拉美的书被用来教授新一代数学家和统计学家,他把费歇尔著述的“修注”编写成一个标准范式。在20世纪70年代,耶鲁大学(Yale University)的L?J?萨维奇(Savage)阅读了费歇尔最初的论文,发现里面有很多东西都被克拉美遗漏了。他还惊讶地看到,费歇尔对后人的工作早有预见,并且已经解决了在20世纪70年代被认为还没有解决的问题。
但所有这些对1919年的费歇尔来说都是未来的事情,当时他正打算放弃不成功的学校老师职业。实际上他刚刚完成一项里程碑意义的工作:将高尔顿的相关系数与门德尔遗传学的基因理论结合在一起。但皇家统计学会和K?皮尔逊的《生物统计》都拒绝刊登这篇论文。费歇尔听说爱丁堡皇家学会正在寻找适于他们的《交流》(Transaction)上发表的论文,但期望由作者本人支付印刷成本,就这样,费歇尔自费将自己第二项伟大的成果交给这样一个当时并不起眼的期刊发表。
在当时,K?皮尔逊仍对年轻的费歇尔印象很深,他想聘请费歇尔到高尔顿生物统计实验室担任首席统计师,两个人之间的通讯来往是诚恳的,但对费歇尔来说,K?皮尔逊显然是一个主观意志很强并有支配欲的人,所谓首席统计师,充其量不过是在K?皮尔逊的指令下,从事细节的计算工作。
罗森斯特实验站与农业实验
当时,罗森斯特农业实验站(Rothamsted Agricultural Experimental Station)的所长约翰?罗素(John Russell)爵士也与费歇尔取得了联系。这个实验站是由一个英国的肥料制造商在一个旧农场里建立的。这个旧农场曾属于该肥料公司原来的主人。农场的粘土并不特别适于种植什么作物,但主人发现了如何将石头磨碎与酸混合,生产一种被称作“过磷酸石灰”(Super-Phosphate)的肥料的方法。从过磷酸石灰生产得到的利润用来建立一个实验站,以开发新的人工肥料。90年下来,这个站进行了许多实验,测试无机盐肥料与不同品第的小麦、黑麦、大麦和马铃薯的不同组合。这积累了一大仓库的数据,有雨量和温度准确的日记录、施肥追肥和土壤测量的周记录、收成的年度记录。所有这些都保存在皮面笔记本中。大多数这样的实验没有产生一致的结果,但这些笔记本被小心地存放在实验站的档案室中。
罗素先生看着积累下来这么多资料,想到也许应该雇个人来看看里边有什么东西,对这些资料进行一次统计整理。他四处询问,有的人推荐了费歇尔。罗素跟费歇尔签了一年的合同,给出了1000英磅的酬劳,他只能出这么多了,而且不能保证第二年续聘。
费歇尔接受了罗素的聘任,带着妻子、小姨子和三个孩子来到了伦敦北部的农区。他们租下了实验站旁边的一间农舍,妻子和小姨子打算在那里种种菜园,操持家务,而费歇尔则空上靴子,穿行在农业实验站的田间和90年的数据中,做起他后来称之为“在垃圾堆中寻觅”的工作。
第5章 收成变动研究
在我担任生物统计学家不久,一次去康涅狄格大学与休?史密斯教授讨论我所遇到的问题,他给了我一份礼物,那是一篇论文的复印件。论文有53页长,题目是《作物收成变动研究Ⅲ:降雨量对罗森斯特小麦收成的影响》(Studies in Crop Variation. Ⅲ. The Influence of Rainfall on the Yield of Wheat at Rothamted)。这是一组杰出的数学论文的第三篇,其第一篇1921年发表在《农业科学期刊》第11郑上。产量变化是实验科学家的大忌,但却是统计方法研究的基本素材。在现代科学文献中,“变动”(variation)这个词已经很少被用到了,它已经被其它术语代替,比方说“方差”(variance),这个术语与特定的参数分布有关。“变动”对一般的科学用途来说过于含混,但对费歇尔而言,却是合适的,作物产量在年份之间、地块之间的这种变动,正是作者研究的起点,借此,他可以推导出新的分析。
大多数科学论文在结尾都有参考文献目录,一个长长的单子,以确认对所讨论问题曾经有过建树的论文。费歇尔系列论文的第一篇却只有三篇参考文献:其一,指明了1907年一次不成功的尝试,打算探讨降雨量与小麦生长的相关性;其二,1909年以德文写成的,描述了一种计算复杂数学公式最小值的方法;其三,是由K?皮尔逊发表的一组数表。先前没有什么论文涉足过这一杰出研究系列所涵盖的题目。《作物收成变动研究》是自成一格的,署名的地方写着:罗纳德?A?费歇尔,文学硕士,罗森斯特农业实验站统计实验室,哈盆登(Harpenden)。
1950年,出版商约翰?威利(John Wiley)征求费歇尔的意见,看他是否愿意从所发表的论文中挑选一些最重要的,好单独形成一本文集。后来这本文集的名称叫做《对数理统计的贡献》(Contributions to Mathematical Statistics)。一打开书,就是费歇尔当时的照片,他一头白发,双唇紧闭,领带稍微有点斜,白胡子梳理得不大好,书中标明费歇尔当时在剑桥大学遗传学系工作。《作物收成变动研究Ⅰ》是该文集中的第一篇文章,作者在文章前面加了一个序言,以明确该文的重要性及其在他全部成果中的地位:
早期在罗森斯特的工作中,作者对研究站多年积累下来的大量观察数据,如天气、收成、收成分析等,给予了极大的关注。气象记录在多大程度上能够提供来年收成的预测?对于这类问题,上述数据是有独特价值的。现在这篇文章是用于此目的的系列研究的首篇。
这个系列研究最多有6篇论文,《作物收成变动研究Ⅱ》发表在1923年,而史密斯先生给我的那篇标号为“Ⅲ”,在1924年问世。《作物收成变动研究Ⅳ》则在1929年发表。标号为“Ⅴ”的论文没有出现在费歇尔的文集中。在科学史上还很少有这种事件:标题那么不起眼,而其内容却如此重要。在这些论文中,费歇尔开发了用于数据分析的原创性工具,建立了这些工具的数学基础,并描述了如何将它们应用到其它领域中去,包括如何应用到他在罗森斯特所遇到的“垃圾堆”上。这些论文表现了令人眩目的原创性,充满了奇妙的内涵,这足够理论家们在20世纪余下来的日子里忙乎的,也许那之后还会继续激发更多的研究。
《作物收成变动研究Ⅰ》
费歇尔系列研究的后两篇文章是有共同作者的,但《作物收成变动研究Ⅰ》却是他独立完成的,那需要大量的计算工作。他的唯一后援是一台名字叫“百万富翁”的计算器,那是一台原始的带有手摇曲柄的机械计算器。如果要算乘法,比方说算3342乘27,先要将转盘放在个位上,设定3342这个数字,摇动曲柄7次;再将转盘放在十位数上,设定3342这个数,摇动曲柄2次,计算方告结束。这架机械叫“百万富翁”,因为它的转盘大得足够容纳以百万计的数字。
为了体会到这篇论文所耗费的气力,我们来考虑一下《作物收成变动研究Ⅰ》中第123页的表7.如果完成一个多位数乘法需要1分钟,我估计费歇尔需要大概185个小时来完成这张表。这篇论文中有15张复杂程度相当的数表,还有4张更为复杂的图。只考虑体力劳动本身,准备这些图表至少需要耗去费歇尔8个月的时间,而且每天得工作12个小时!这还不包括其它工作所花费的时间。比方说:思考理论数学问题、整理数据、设计分析框架、修正不可避免的错误等等。
高尔顿回归思想的一般化
回顾一下高尔顿所发现的“向平均数回归”,他试图找到一个数学公式,将随机事件彼此联系在一起。费歇尔接过高尔顿“回归”(regression)这个词,建立了某个给定地块小麦收成与年份之间的一般数学关系,这个相当复杂分布的参数描述了小麦产量产业化的不同方面。要深入理解费歇尔的数学式,你得有坚实的微积分基础,得对概率分布理论有好的辨别力,还要对多维几何学有感觉,但理解他的结论并不那么难。
他将小麦产量的时间趋势分成几个部分,一个是由于土地退化导致产量稳定地整体性地下降;另一个是长期的缓慢的变化,每个阶段都要花几年时间;第三个是一组更快的移动变化,考虑的是气候在不同年份的差异。自从费歇尔开创性的尝试,时间序列的统计分析在他的思想和方法的基础上,建立了起来,现在我们有了计算机,可以用更巧妙的演算法进行大规模的计算,但基本的思想和方法仍然未变。给定一组随时间波动的数据,我们可以将之分解为不同来源导致的结果。时间序列分析用来检验:美国太平洋海岸拍激的海浪是不是印度洋风暴的起因。这些方法使研究人员能够区分地下核爆破与地震,能够精确地为病理学上的心中节律定位,能够确定环境管制对空气质量的影响,其应用范围还在继续扩大。
农场有一个名称叫“宽田硬”(Broadbalk)的地块,在分析其粮食收成时,费歇尔感到有些困惑,这块地只用了动物粪肥,所以不同年份收成的变动与人工肥料无关。当土壤得自动物粪肥的养分逐渐耗尽,地力退化的长期因素就可以得到解释,同时费歇尔还可以确定不同年份降雨类型不同所带来的影响。那么,什么是缓慢变化的原因呢?从缓慢变化的形态可以看出,在1876年产量开始下降,比从另两个因素所能预计的程度还要大,这种下降在1880年速度更快了;这种情形在1894年开始改善,持续到1901年,而后又是下降。
费歇尔发现了带有同样缓慢变化的另一种记录,不过形态是相反的,那是关于麦田里野草的。1876年后,野草蔓延得越发严重,而到了1894年突然开始消失,只是在1901年又开始茂盛起来。
后来发现,雇用小男孩到地里去拔草,在1876年以前是通告的做法。在英格兰的大地上,下午经常可以看到瘦弱的小男孩穿行于田间,不停地拔草。到了1876年,教育法(the Education Act)使得上学带有强制性,田间小男孩的大部队开始不见了。而1880年第二部教育法通过,对致使孩子辍学的家长施以罚款,田间剩下的男孩也离开了。没有了拔草的小手,那些野草就又茂盛起来了。
那么,在1894年又是什么事情发生,使得趋势逆转了呢?在罗森斯特附近有一所女子寄宿学校,新校长约翰?劳斯(John Lawes)相信,充满活力的户外活动有助于他那些年轻的被托管人的健康。他和实验站的头儿一起安排,让这些年轻姑娘在周六和傍晚出门,到地里去拔草。1901年劳斯去世后,这些小姑娘恢复久坐的习惯,多是在户内活动,野草也就又回到了“宽田埂”。
随机化控制实验
第二篇研究收成变动的论文也是发表在《农业科学期刊》上,时间是1923年。这篇论文并不处理罗森斯特过去实验所积累下来的数据,取而代之的是新实验:一组不同的人工肥料组合对不同品种马铃薯的影响。费歇尔到了罗森斯特后,实验有了明显的改善。不再将某种实验的人工肥料用于整个农场,现在他们把土地划成小的地块,每个地块进一步区分作物的行,地块中的每一行都给予不同的处理。
基本的想法是简单的,之所以简单,那是因为一经费歇尔提出后,它就简单了,但这之前却没有人想到它。任何人观察土地上的作物时,都会很明显地感到有的地块土质好于其它地块。在某些角落,作物长得又高又密,而其它角落,作物则又细又稀。这可能是由于排水方式、土壤类型的改变、未知养分的出现、多年生野草的抵制,或者一些其它未能预见的原因。如果农业科学家要测试两种人工肥料间的区别,他可以将一种施于地块的其它角。但这会将肥料的效应与土壤或者排水等的效应混淆在一起。如果试验在相同的地块不同的年份进行,又会把肥料的效应与气候变化的效应相混淆。
如果同一年里,在相同作物上进行肥料的比较,土壤的差别就会减到最低程度,但他们仍然存在,因为所处理的作物不会有绝对相同的土壤条件。如果我们使用足够多的成对比较,在某种意义上,土壤差异所造成的区别就会被平均掉。假定我们要比较两种肥料,其中一种磷肥的含量是另一种的两倍,我们将地分成小块,每一块有两行作物。我们总是将磷肥多的施于北边这行,南边的那行则施磷肥少的。做到这里,反对的声音就会出来了。如果土壤的肥力梯度(fertility gradient)由北向南,那么北边这行的土质就会比南边那行稍好一点,土壤差异的影响就不会被平均掉。
别急!我们正要做调整,在第一个地块,我们把磷肥多的施在北边,到了第二地块,它将被施在南边,就这样来回调整。我的读者中可能有的已经画出地块的草图,将施磷肥较多的行标上了记号。它会指出,如果肥力梯度从西北向东南,施以额外的磷肥的行将总是比别的行土质好。也会有人指出,如果肥力梯度从东北向西南,结论正好相反。好啦,另一个读者发问了,到底谁对了呢?肥力梯度究竟如何分布?我们的答案只能是:天晓得!肥力梯度这个概念是抽象的,当我们选择从北到南或从东到西时,肥力的真正形态可能以非常复杂的方式上下变动。
我可以想象得出来,当费歇尔提出小地块定型处理将得到更为细心的实验时,罗森斯特的科学家们之间也会有这样的讨论。我也可以想象,当讨论集中到如何确定土地的肥力梯度时,费歇尔笑咪咪地坐在一边,听任他们卷入复杂的争论。他已经考虑过这些问题,并有了简明的答案。了解他的人这样描绘费歇尔:即使是争论触及到他,他仍是静静地坐在那里,吞云吐雾,等等容他给出答案的时机。终于,他拿开嘴上的烟斗,说道:“用随机的方法吧!”
费歇尔的变异数分析
的确简单,科学家以随机的方式设计同一地块里不同行家作物的处理,由于随机处理没有固定模式,任何可能的肥力梯度结构都在平均意义上被抵消掉了。费歇尔猛地起身,兴奋地在黑板上写了起来,一行又一行数学符号,手臂在数学公式间挥来挥去,抵消公式两端相同的因子,最后出现的可能是生物科学中最为重要的工具了,在精心设计的科学实验中,如何分解各种不同处理的效应?费歇尔将这个方法称作“方差分析”(ananlysis of variance)。在《作物收成变动研究Ⅱ》中,方差分析第一次面世。
《研究工作者的统计方法》列出了方差分析某些例子的计算公式,但在这篇论文中,他给出了公式的数学推导,不过推导过程还没有详尽到学院派数学家满意的程度。所展示的代数式是为了这样一种特殊情形:比较三种类型的人工肥料、十种不同品种的马铃薯和四个地块。如果比较两种人工肥料、五种马铃薯,或者六种人工肥料、一种马铃薯,则需要几个小时的艰苦工作,以调整出新的代数式。至于搞出适合所有情形的一般公式,就需要更多的数学工作了,恐怕得出几头汗水吧!当然,费歇尔知道一般公式,对他来说,那是如此的明显,以至于没有必要展示它们。
难怪与费歇尔同时代的人对这个年轻人的成果感到困惑!
《作物收成变动研究Ⅳ》介绍了费歇尔年说的“协方差分析”(analysis of covariance),这是一种因素分解的方法,存在着并非由实验设计而来的条件,它们的效应是可以测量的。当时某医学期刊上发表了一篇论文,描写了针对性别和体重所做调整的治疗效应,用的实际上就是费歇尔在Ⅳ号论文中开创的方法。Ⅳ号论文提出了实验设计的精华,Ⅲ号论文,即史密斯教授推荐给我的那篇,将在本章后边一点儿再讨论。
自由度
1922年,费歇尔终于第一次在《皇家统计学会期刊》上发表了他的论文。那是一篇短文,适度地指出了K?皮尔逊公式中的一个错误,许多年后谈到这篇论文,费歇尔写道:
这个短文,尽管带着稚气,不那么完整,但却是破冰之举。它是带试验性质的,并且零零碎碎的,有的读者会因此而气恼,可他们不要忘了,它不得不在批判者中找到发表的渠道。对这些批判者来说,摆在第一位的就是绝不相信K?皮尔逊的成果需要改正,即使是承认了这一点,他们也觉得这事轮不到别的人。
1924年,费歇尔得以在《皇家统计学会期刊》发表别一篇论文,更长一些,更为一般化。后来在一份经济学期刊上,他对这篇论文及相关的另一篇做了如下的评论:“(这两篇论文)要借助于‘自由度’(degrees of freedom)这个新概念,来调和由不同作者观测到的有差异和表现异常的结果……”
自由度这个新概念是费歇尔的发明,这直接得益于他的几何洞察力和将数学问题置于多维几何空间的能力。所谓“异常的结果”出现在一本不大引人注目的书里,那是一个名叫T?L?凯利(T. L. Kelley)的人在纽约出版的。凯利发现有一些数据用K?皮尔逊的公式似乎不能得出正确的答案。看来只有费歇尔注意到了凯利的这本书,凯利的异常结果只是作为一个跳板,借此费歇尔彻底推翻了K?皮尔逊另一个最引以为自豪的成就。
《作物收成变动研究Ⅲ》
《作物收成变动研究》第三篇发表在1924年的《伦敦皇家学会哲学学报》(the Philosophical Transactions of the Royal Society of London)上,它是这样开头的:
现在就气候对农作物影响而言我们知之甚少,尽管它对一个大的民族产业如此重要。课题的难解,部分地可以归于问题本身固有的复杂性,还有……缺少在实验或者自然产业条件下所取得的数据……
按下来就是长达53页的精彩论述,其中包含着现代统计方法的基础,任何学术领域,包括经济学、医学、化学、计算机科学、社会学、天文学、药学,只要是需要建立大量相互关联原因的相关效应,就需要应用这些方法。论文中包含了特别精巧的计算方法(回想一下费歇尔只有那台手动的“百万富翁”用来工作),及如何为统计分析组织数据的良策。我将永远感激史密斯教授,他把这篇文章推荐给我,每次我读起它都会有新的收获。
《费歇尔文集》有五卷本,第1卷以1924年的论文作为结尾,靠近卷尾的地方,有一张费歇尔34岁时的照片,他双手交叉在胸前,胡子修理得挺整齐的,眼镜也没有以前照片中的那么厚,神情安详而自信。在这之前的5年里,它在罗森斯特建立了出众的统计部门,雇用了像弗兰克?耶茨(Frank Yates)那样的合作者。在费歇尔的鼓励下,耶茨将继续对统计分析的理论和实践做出贡献。除了少数例外,K?皮尔逊的学生大多默默无闻,当他们在生物统计实验室工作的时候,只能协助K?皮尔逊而不能超越他;反观费歇尔,他的多数学生响应了所得到的鼓励,独辟蹊径,赢得了辉煌。
1947年,英国广播公司(BBC)广播网邀请费歇尔做一个系列讨论,阐述科学的本质与科学研究,在其中一讲的开头,费歇尔这样说道:
科学生涯从某些方面看是奇异的,科学存在的理由,是要增加对自然知识的认知。有时候,虽然会有这种认知的增加,但是这个过程不是顺利的,并且是令人感到痛苦的。理由是:人们不可避免地会发现以前所得出的观点,至少在一定程度上,明显是过时的或者错误的。我想大多数人可以认识到这一点,如果已经教授了10年左右的东西需要修正,他们会以下面的态度加以接受。但有一些人绝对不能接受,就好像打击了他们的自尊心,甚至是对他们一直把持的私有领地的侵犯。他们必然做得像知更鸟和苍头燕雀寻亲残忍,在春天里我们可以看到,当自己的小巢被冒犯里,它们所表现出的愤怒反应。我并不认为能对此做什么补救。这是科学过程中所固有的特性。但年轻的科学家应该得到提醒和指导,当他们奉献出珍宝去丰富人类的宝库时,必然有人会拒绝他或排挤他。
第6章 “百年不遇的洪水”
有什么能比百年不遇的灌水更让人无法预料的呢?洪水奔腾肆虐,泛滥成灾,惨烈至极,确实是百年难得一遇。谁能为这样的突发事件制定防范计划呢?像这样罕见的洪水,我们又怎么能估计其洪峰会高达多少呢?如果说现代科学有统计模型能用来处理观测数据的分布,那么,对这种未曾发生过,或者即便发生,也是百年才发生一次的大洪灾,又该如何用统计模型来分析呢?伦纳德?亨利?凯莱布?蒂皮特(Leonard Henry Caleb Tippett)找到了答案。
L?H?C?蒂皮特1902年出生在伦敦,并在伦敦的帝国学院(Imperial College)读物理学,1923年他从帝国学院毕业。蒂皮特曾说过,他之所以被物理学所吸引,是因为物理学对“精确测量的坚持,……和当时科学辩论的那种学院式方法。回顾自己年轻时的激情,他继续说:“我们通常是把一个假设视为对或错,并把至关重要的实验当作加深认识的主要手段。”当他有机会做实验时,他发现实验的结果与理论预测的结果从未有过精确的一致。依据他自己的亲身体验,他说:“我发现最好是去改进抽样技术(这里他指的是统计分布),而不是丢弃理论。”蒂皮特认识到,他如此钟爱的理论所提供的信息仅仅是有关参数的,而不是具体的观测值。
这样,L?H?C?蒂皮特(当他因发表的文章而著称的时候)通过他自身对实验的理解,开始融入统计变革中来。从帝国学院毕业后,他在英国棉花工业研究协会任统计师。人们通常称这个研究协会为雪莉研究会(Shirley Institute)。该研究会的研究目标主要是利用现代科学方法改进棉线与棉布的生产工艺,其中,他们所遇到的最棘手的问题之一是新纺棉线的强度。因为,即使是在相同条件下纺出来的棉线。其强度也存在很大的差异。蒂皮特非常仔细地做了一些试验,在显微镜下观察那些经过不同拉力抻拉后的棉线,结果他发现,棉线的断裂取决于棉线中最脆弱的纤维的强度。
居然是那些最脆弱的纤维!那么,怎样建立一个描述最脆弱的纤维强度的数学模型呢?由于无法解决这个难题,蒂皮特提出申请,并于1924年获准,到伦敦的大学学院高尔顿生物统计实验室(the Galton Biometrical Laboratory),在K?皮尔逊手下进修一年。关于这段经历,蒂皮特这样写道:
在大学学院度过的那段时光让我刻骨铭心。K?皮尔逊是位非常了不起的人物,并且我们也能深切地感受到他有多了不起。他工作勤奋、充满热情,而且关于激励他的下属和学生。我在那里进修的时候,K?皮尔逊依旧在做研究,并且经济热情洋溢、充满激情地出现在课堂上,讲解他刚刚研究出来的最新成果。那些年,虽然他的研究方式有点过时了,但他讲的课仍旧激动人心。……有一门他讲授的课程“17和18世纪的统计学史”,就是他研究兴趣广泛的一个典型代表。……他还是个精力充沛的辩手,……他出版了一套丛书,就叫做《一个好问者与他的问题》(Questions of the Day and of the Fray)……昔日充满活力与辩论的影响随处可见。系里的墙上装饰着格言与漫画,……有一幅关于“油嘴山姆”(Soapy Sam)的讽刺漫画,画的是那位大名鼎鼎的威尔伯福斯大主教(Bishop Wiberforce),漫画作者名为“间谍”。1860年在英国科学促进协会的会议上,这位大主教曾就达尔文的进化论与T?H?赫胥黎(T. H. Huxley)进行过一场短兵相接的舌战。此外,还陈列了一些在过去数十年内发表过的出版物,看这些出版物的题目会给人留下一个深刻的印象,那就是该系的研究兴趣十分广泛。如“人类遗传宝典(人的身体、精神与病理牲的谱系)”以及“达尔文进化论、医学发展与优生学”。在一次全系 的年度聚餐会上,K?皮尔逊用一种曾为高尔顿提供年度工作报告的方式来总结这一年的工作,就好像高尔顿依然健在,这让我们大家想起他与高尔顿之间非常密切的合作。于是我们共同举杯,“为已故去的生物统计学前辈干杯。”
这是K?皮尔逊一生中还活跃的最后几年,此后,他的科学成就大部分都被费歇尔和自己的儿子扫进了垃圾桶,成了被遗忘的思想。
尽管在K?皮尔逊在实验室里有那么多激励,尽管蒂皮特在进修期间学到很多数学知识,然而有关最不牢固的纤维强度的分布问题依然没有解决。回到雪莉研究所之后,蒂皮特发现了学期在最伟大的数学发现背后的一个简单的合乎逻辑的原理,他找到了一个看似简单的方程式,它能把样本数据的分布与极值(extreme values)的分布连在一起。
能写出方程式是一码事,解出这个方程则是另外一码事。为此,他去请教K?皮尔逊,但没有获得丝毫的帮助。在过去的75年里,工程学专业已经积累了大量的方程及其解,这些都能在那些大部头的概览中查到。然而,在这些概览中蒂皮特却找不到他的方程式。
于是,他采用了一个做法,就像一个可怜的高中生做代数题一样,先猜了一个答案,并把答案代进方程式,居然解出了这个方程。但是,对这个方程式而言,这是唯一解吗?对他的问题而言,这恰好是“正确”答案吗?为此,他请教了费歇尔,费歇尔不仅能导出蒂皮特所猜的解,而且还给出了另外两个解,并指出,这些就是仅有的解。这就是所谓的“蒂皮特的三条极值渐近线”(Tippett’s three asymptotes of the extreme)。
极值分布
知道极值分布有什么用处?如果我们知道极值分布与正常值的分布之间的关系,就可以记录每年洪峰的高度,并预测百年不遇的洪灾发生时最有可能的洪峰高度。能够这样做的原因是,每年的灌水测量值给我们提供了足够的信息,用它就可以蒂皮特分布的参数。因此,美军工兵署(USACE)就能计算出在河上究竟该筑起多高的堤防,环保署就能规定气体排放标准来控制工业烟囱废气突然排放的极值,棉纺工业就能确定在棉线生产中究竟有哪些因素会对最脆弱的纤维强度的分布参数产生影响。
1958年,当时在哥伦比亚大学(Columbia University)任工程学教授的埃米尔?J?冈贝尔(Emil J. Gumbel),出版了那本关于极值的权威教材,书名是《极值统计学》(Statistics of Extremes)。自那时起,由于他的思想已经扩展到许多相关的地方去,极值理论方面的建树就很少了。然而,冈贝尔的这本教材里包含了一个统计学家在处理这类问题时必备的一切知识,书中不仅包括蒂皮特的原创研究成果,而且还包括后来对该理论的精心的改进,其中有很多都是冈贝尔自己的研究成果。
政治谋杀
冈贝尔的一生富有传奇性。在20世纪20年代末至30年代初,他是德国一年大学里资历尚浅的一名教师。从他早期发表的论文中看得出来,他是个极具潜能的人,只是当时还没有机会得到一个令人尊敬的地位罢了。同样,他当时的职位也远算不上稳固,是否有能力养家糊口,还取决于政府那些权威的随心所欲。当时,纳粹在德国境内已经渐趋猖獗,国家社会主义工人党 虽然是正式的正常组织,实质上却是由一群歹徒纠集而成的。俗称“褐衫队”(Brown Shirts)的纳粹冲锋队是一个专门从事恐吓与胁迫、恣意暴力和谋杀来执行纳粹党意志的暴徒组织。任何批评纳粹党的人都会遭到暴力攻击,而且通常就发生在城市的大街上,以杀一儆百。冈贝尔有个朋友就是这样在光天化日之下曹到攻击并被公然杀害的。照理说,会有许多目击证人可以指认凶手,但法院往往宣称罪证不足而使纳粹突击队逍遥法外。
冈贝尔曾参加过一场审判,他亲眼目睹了法官全然无视任何证据,恣意裁决,纳粹党徒则在法庭上肆无忌惮地狂呼。对此,冈贝尔惊骇万分。于是,他开始着手调查那些凶手公然行凶的其他案例,结果没有一例被判有罪。最终他得出结论:司法部门已经被纳粹党人所控制,很多法官要么是纳粹的支持者,要么干脆就是纳粹所雇佣的。
冈贝尔搜集了许多案例,走访证人,证明判决那些凶手无罪是错误的。1922年,他出版了《四年的政治谋杀》(Four Years of Political Murder)一书,把他搜集调查的结果公之于众。由于发现很多书商根本不敢销售他的书,他不得不亲自去为自己的书安排发行分销。与此同时,他还在继续搜集案例,并于1928年又出版了《政治谋杀的原因》(Causes of Political Murder)一书。此外,他还设法成立一个反纳粹的政治团体,但是他的多数学术界同事太害怕了,甚至那些犹太籍的朋友们都吓得不敢参加。
1933年纳粹党取得了政权,当时冈贝尔正在瑞士参加一个数学会议。他本打算立即赶回德国去与这个新政权做斗争,但朋友们极力劝阻了他,因为只要他一越过边境,就会立刻遭到逮捕,并被处决。在纳粹掌权的最初阶段,在这个新政府还没来得及控制所有的出入境事务之时,少数犹太籍教授,如德国的顶尖的概率论大师里夏德?冯?米泽斯(Richard Vin Mises),他们已经预料到即将发生的灭顶之灾,提前逃离了德国。冈贝尔的朋友也趁这段有利的混乱时机,带着他的家人离开了德国。他们跑到法国暂避一时,但是,1940年纳粹又入侵了法国。
冈贝尔与家人继续逃往尚未沦陷的法国南部。当时统计法国的是纳粹扶植的傀儡政府,对德国惟命是从。像冈贝尔这样的德国民主党人已经是危在旦夕,因为他们都被列入了叛国者的黑名单,纳粹要求法国政府将这些人移交过去。除了冈贝尔,滞留在法国马赛的德国逃亡者还有德国作家托马斯?曼(Thomas Mann)的哥哥海因里希?曼(Heinrich Mann)、犹太裔小说家利翁?福伊希特万格(Lion Feuchtwanger)。当时驻马塞的美国领事海勒姆?宾厄姆四世(Hiram Bingham IV)违反美国国务院的规定,擅自给这批德国流亡者发了签证。宾厄姆为此受到华盛顿的谴责,最终由于此举而丢掉了他在马赛的职位,但宾厄姆毕竟尽他所能拯救了很多人,这些人如果留在纳粹统计下,将必死无疑。冈贝尔与家人到了美国之后 ,在哥伦比亚大学谋到一个职位。
数学著述有很多种不同的写法。有此所谓“权威”教科书,内容贫乏、苍白、毫无生气,提出一系列的定理及证明,却几乎引不起读者的任何兴致;有此书通篇是从假设到结论的证明,玄虚而艰涩;而有此权威的教科书,则由始至终充满了精彩的证明,其中的数学推导过程被浓缩成看上去很简单的步骤,按照这些步骤可以毫不费力地得出最终结论;还有极少量的权威性的教科书,作者试图在书中把问题的背景和思想都交代清楚,不仅记述了学科的历史渊源,而且所举的例子也取自生动的现实生活。
最后一类所说的权威性教书的这些牲恰是对冈贝尔的《极值统计学》一书的真实描述。这本书提供了大量有关该学科发展的参考,是对一个高难学科的最为明晰的解释。该书的第1章“目录与手段”介绍了该书的主题以及在其他章节中必须理解的数学的发展。这一章本身就是对统计分布理论的数学知识的最卓越的介绍。它的设计思想是让那些只读过大学一年级微积分的学生能看得懂。我第一次读这本书的时候,尽管已经拿到了数理统计博士学位,还是从第一章中获准颇多。作者在前言中谦虚地说:“我期望,而决不是预料,本书的写作能使人类从中获益,哪怕是因为对科学进步的微不足道的贡献。”
这本书的贡献决不能称之为“微不足道”,它是由20世纪一位大师级的教师矗立的一座丰碑。集非凡的胆识与杰出的表达能力于一身,把最难理解的思想以条理清晰、简洁精炼的方式表达出来,埃米尔?J?冈贝尔正是这些极为罕见的杰出人才当中的一位。
第7章 费歇尔获胜
英国皇家统计学会(The Royal Statistical Society)拥有三种可以发表论文的学术期刊,每年学会还主办学术会议,会上邀请演讲者介绍他们最新的研究工作。论文要在这些期刊上发表是相当困难的,必须经过至少两位评阅人的审查,看内容是否正确,而且编辑与主编都必须认为该篇论文代表了当时在自然科学领域的显著进展。但是,与应邀在大会上演讲相比,在学会期刊上发表论文就显得容易多了。大会演讲,这只是留给那些在统计学领域里最杰出的研究人员的一种荣誉。
每一次应邀演讲结束之后,按照学会的惯例,都会组织一场与会者参加的讨论会。由于特邀的会议来宾已经预先拿到了将在大会上演讲的论文副本,因此他们的讨论常常不但详尽,而且一针见血。之后,这篇论文连同讨论会上对论文的评论意见都会发表在《皇家统计学会期刊》上。
这种讨论会,正如在期刊上所展现的,有一种非常程序化的英国风格。大会主席(或某个被指定的人)首先站起来提议向演讲人表示感谢,紧接着陈述他的评论。随后,一位事先指定的皇家统计学会的资深会员直立再次提议表示感谢,并随之发表他的评论。接下来,学会中一些最负声望的会员一个接一个地相继站起来发表他们的评论。除了学会的会员之外,大会还经常邀请一些来自美国、英联邦和其他国家的来宾,也请他们发表评论。演讲人再对所有的评论做出回应。最终,学会期刊允许评论人及主讲者对属于他们自己的那部分文字进行编辑之后才正式发表。
1934年12月18日,在学会会议上宣读这样一篇论文的无上荣誉赋予了理学博士、英国皇家学会会员费歇尔教授。经过了20世纪20年代事实上的孤立之后,费歇尔的天赋终于得到了公认。我们在前几章里读到他的时候,费歇尔的最高学位还只是个理学硕士(M.S.),他的“大学”也不过是伦敦郊外一个偏僻的农业试验站。到1934年,他又获得了一个理学博士学位,并且当选为威望很高的英国皇家学会的会员(缩写为F.R.S.)。直至此时,皇家统计学会才终于承认了他作为这个领域中的领军人物,应该占有一席之地。因为这项荣誉,费歇尔在大会上宣读了一篇论文,题为《归纳推理的逻辑》(The Logic of Inductive Inference)。大会主席是皇家统计学会当时的会长。皇家学会会员M?格林伍德(M. Greenwood)教授。费歇尔的论文印出来共计16页,另外还呈上一份结构严谨、条理清晰的论文摘要,概括了他最新的研究工作。第一位发言的评论人是A?L?鲍利(A. L. Bowley)教授,他站起身来提议表达谢意,接着发表了他的感言:
我很高兴有这样一个机会向费歇尔教授表示感谢。不仅是因为他刚才为我们宣读的论文,更重要的是因为他对统计学的全面贡献。今天借此良机,我谨代表所有我熟悉的统计学家,对他带给统计学研究的无与伦比的热忱,对他提出的数学工具的威力,对他在这里、在美洲和在世界各地的广泛的影响力,以及对他深信做为数学的正确应用所发挥的激励作用表示钦佩之意。
K?皮尔逊当时不在讨论者之列。此前3年,他已从他任职的伦敦大学退休。在他的领导下,高尔顿生物统计实验室已经成长为大学里一个正式的生物统计学系。他退休后,该系一分为二,费歇尔受命担任其中之一的优生学系的系主任,另一个则是规模缩小了的生物统计学系,系主任由K?皮尔逊的儿子E?皮尔逊担任,同时他还负责高尔顿实验室的工作,并兼任《生物统计》杂志的编辑。
费歇尔与小皮尔逊的私交不大好,这完全是费歇尔的过错。他对E?皮尔逊的态度带着显而易见的敌意。小皮尔逊这位温文尔雅的先生,一则是代父受过,因为费歇尔不喜欢他的父亲老皮尔逊;二则是代合作伙伴耶日?奈曼受过,费歇尔特别讨厌奈曼(奈曼与E?皮尔逊的合作将在第10章介绍)。尽管如此,小皮尔逊倒是极其尊重并高度评价费歇尔的工作。多年后他曾写道,他早就习惯了费歇尔从不在著述中提到他的名字。但是,尽管两人之间关系紧张,尽管两系之间存在着争夺权限的纠纷,费歇尔和E?皮尔逊都清寒是派学生去听对方的课,竭力避免公开的冲突。
至于K?皮尔逊,此时的他已被学生们称之为“老家伙”了。他拥有一个研究生助手,并保留着一间办公室,但他的办公室无论离两个系的办公地点还是离生物统计实验室,都有一段距离。从美国来的邱吉尔?艾森哈特跟随费歇尔和E?皮尔逊进修一年,这期间他曾想去拜访K?皮尔逊,但他的同学和系里的同事都极力劝阻他。问他,为什么不去请教才华横溢的费歇尔,竟然想去看K?皮尔逊?去看那个老家伙能有什么新的收获?令艾森哈特万分遗憾的是,他在英国期间未曾去拜访K?皮尔逊,而就在那一年老皮尔逊去世了。
费歇尔学派与皮尔逊学派:两种统计观
哲学上的分歧使费歇尔与K?皮尔逊在研究统计分布的方法上分道扬镳。K?皮尔逊把统计分布视为对他所分析数据的集合的真实描述。而按照费歇尔的观点,真实分布只是一个抽象的数学公式,搜集的数据只能用来估计这个真实分布的参数。既然所有的估计都有误差,那么费歇尔提出来的一些分析的手段,可以把这种误差的程度降到最低,或者可以更经常地得出比其他任何手段都更接近真实分布的答案。
在20世纪30年代,看上去是费歇尔在这场辩论中获胜了,但到了70年代,皮尔逊学派的观点东山再起。直到写这本书时,统计学界在这个问题上已经分裂成两派,尽管K?皮尔逊本人几乎不接受他的天才继承者们的观点。费歇尔用他条理清晰的数学头脑廓清了残存在K?皮尔逊观点中大量的混淆,正是这些混淆使得K?皮尔逊没有意识到自己观点的深层本质,因此,后来东山再起的皮尔逊方法已经无法回避费歇尔的理论成果。当把统计模型应用于现实时,存在着一些很严重的问题。因此,本书打算在多处探讨这些哲学问题,这里就是其中的一处。
K?皮尔逊把测量值的分布视为一个真实的存在。在他的方法里,对于一个给定的情况,有一个庞大的然而却是有限的(finite)测量值的集合。在理想情况下,科学家会搜集所有的这些测量值,并确定其分布参数。如果无法搜集到全部测量值,那么就搜集一个很大的并且具有代表性的数据子集(subset)。由这些大量的、且具代表性的子集计算出来的参数会与完备集合的参数相同;此外,那些用来计算完备集合参数值的数学方法也适用于有代表性的子集的参数估计,而不会有严重的误差。
但依照费歇尔的观点,测量值是从所有可能出现的测量值中随机选取的,依据随机选取的数据计算得出的一个参数的任何估计值,其结果本身也具有随机性,因此,也会服从一种概率分布。为了能清楚地区分参数的估计值与参数本身这两个不同的概念,费歇尔把这个估计值称为“统计量”(statistic);不过现代术语往往称其为“估计量”(estimator)。假设我们有两种不同的方法可以得到一个统计量,以估计某个特定的参数。例如老师想了解一个学生对知识掌握到什么程度(参数),就在全班进行了几次测验(测量),并且计算出测验的平均分数(统计量)。那么,究竟是用中位数(median)作统计量“更好”呢,或是取这几次测验中的最高分与最低分的平均值“更好”呢,还是去年最高分与最低分然后把其余的测验成绩加以平均“更好”?
既然统计量是随机的,那么讨论这个统计量的某个值的准确性到底有多大是毫无意义的。我们需要的是一个判别的准则,这个准则以统计量的概率分布为依据,就像K?皮尔逊所指出的那样,对一组测量进行估计,必须根据它们的概率分布,而不是根据个别观测值。评判哪一个是好的统计量,费歇尔提出了如下三个准则:
一致性(consistency):得到的数据越多,计算出来的统计量接近参数真值的概率就越大;
无偏性(unbiasedness):如果用很多组不同数据集多次测量某一特定的统计量,那么该统计量的这些测量值的平均数应该近似于这个参数的真值;
有效性(efficiency):统计量的值不会完全等于该参数的真值,但是用来估计一个参数的大多数统计量应该与真值相去不远。这些阐述似乎有点含混不清,这是因为我在竭尽全力地把一些本来精确的数学公式,用一些一般性的文字表述出来。实际上,费歇尔的这些准则都可以用恰当的数学式来表达。
费歇尔之后的统计学家又提出了其他的准则,费歇尔自己也在后来的论文中提出了一些次要准则。剔除所有这些准则中的混乱不清的东西之后,剩下的最重要的元素就是,应该把统计量本身视为随机的,而好的统计量一定有好的概率特性。对于某一特定数据集,我们永远不知道一个统计量的值是否正确,只能说我们用一种方法得出来一个符合这些准则的统计量。
在费歇尔提出的三项基本准则中,“无偏性”准则最引人关注,这或许是由于“偏误”(bias)这个词带有某种贬义。一个有偏的(biased)统计量似乎是谁都不想要的某个东西。美国食品和药物管理局的正式指导准则就提出警告,要大家使用“避免有偏”的方法。有一种非常奇怪的分析方法(将在第27章里详细讨论),叫做“意向治疗”(intent to treat),已经成为占优势的医学试验法,因为,这种方法仍能保证结果是无偏的,尽管它忽略了有效性的准则。
事实上,一些有偏的统计量的应用常常极为有效。据费歇尔的研究,用来确定净化城市供水系统中氯浓度的标准方法,依据的就是一个有偏(但满足一致性与有效性)的统计量。所有这一切也是科学社会学(the sociology of science)中的一类研究课题——为准确定义一个概念而创造出来的一个词,怎样将情感好恶的包袱也带到了科学中来,并对人们的行为产生了影响。
费歇尔的极大似然法
当费歇尔研究了这些数学问题之后,他认识到,用K?皮尔逊的方法来计算分布参数所生成的统计量未必是一致的,而且经常是有偏的,他也认识到还存在着更加有效的统计量可以利用。为了得到一致且有效(但未必无偏)的统计量,费歇尔提出了被他称之为“极大似然估计量”(maximum likelihood estimator, MLE)的一个概念。
随后,费歇尔证明了MLE总是一致的,而且证明了如果人们认可几个被认为是“正则性条件”(regularity conditions)的假定,那么MLE是所有统计量中最有效的。此外,费歇尔还证明了,即便MLE是有偏的,也可以计算出其偏差的大小,然后将其从MLE的估计值中减掉,从而得到一个一致、有效且无偏的修正统计量 。
费歇尔的似然函数(likelihood function)席卷了整个数理统计学界,迅速成为估计参数的主要方法。极大似然估计只存在一个问题,就是在试图求解MLE时所涉及的数学问题,其难以对付的程度确实令人望而生畏。费歇尔的论文里写满了一行又一行的复杂代数式,用来说明不同分布的MLE数学公式的推导过程。他的方差分析和协方差分析的运算法则显示出他极高的数学造诣,去处过程中他设法在多维空间里利用巧妙的代入与变换,导出最终为使用者所需要的MLE的计算公式。
尽管费歇尔具有非凡的独创性,但在多数情况下,对于MLE的潜在使用者来说,仍然难以驾驭所必需的高深数学知识。20世纪后半叶的统计学文献中有许多非常睿智的文章,它们运用简化的数学方法,在某些实例中得到了相当理想的MLE的近似值。在我自己的博士学位论文里(大约写于1966年),我只能将就着不得不接受这样一个事实,即只有在能够得到非常多的数据时,我的问题的解才是好的。假定我有大量的数据,就能把似然函数简化到可以计算出挖MLE值的程度。
后来出现了电脑。电脑并非人脑的竞争对手,电脑只是一个巨大而有耐力的数字处理设备。它从不会厌烦,从不会困倦,也不会犯错误。它一而再、再而三地重复着做那些同样繁琐的计算,数百万次地一再重复。用所谓的“迭代算法”(iterative algorithms),它能算出MLE值。
迭代算法
最早的一种迭代数学方法好像出现在文艺复兴时期(虽然数学史学家大卫?史密斯(David Smith)在他1923年出版的《数学史》(History of Mathematics)中声称,早在古埃及和中国的文字记载中就已经发现了这种方法的实例)。当资本主义曙光初露之时,在意大利北部刚刚建立起来的商业银行或商号中就碰到一个基本问题:每个小小的城邦或国家都有自己的倾向,所以商号必须能算出如何在各倾向之间兑换;比如说,如果汇率是雅典钱币14德拉克马(Athenian drachma)换一个威尼斯币达克特(Venetian ducat),那么用威尼斯的127达克特买来的一堆木材,价值多少雅典的德拉克马呢?如今,我们有能力用代数符号来解答这个问题。还记得高中的代数吗?若X等于雅典德拉克马的值,则……
尽管当时的数学家已经开始发展代数学,这种简单的计算方法仍不能为大多数人所用。银行家用的是一种叫做“试位法”(rule of false position)的计算方法。由于每家商号都确信自己的换算规则是“最好的”,所以每家商号都有自己的店员。罗伯特?雷科德(Robert Recorde,1510-1558),这位16世纪的英国数学家,在普及代数符号上功绩卓著。为了把代数的威力与试位法则相对照,他在1542年写了一本书“The Grovnd of Artes”,书中说明了试位法:
Gesse at this woorke as happe doth leade.
By chaunce to truthe you man procede.
And firste woorde by the question,
Although no truthe therein be don.
Suche falsehode is so good a grounde.
That truthe by it will soone be founde.
From many bate to many more,
From to fewe take to fewe also.
With to much ioyne to fewe againe,
To to fewe adde to manye plaine.
In crosswaied multiplye contrary kinde,
All truthe by falsehode for to fynde.
雷科德的这篇16世纪的英文说的是:你先猜一个答案,并把它代入问题中,由此你会得到一个结果,而它和你想要的结果之间会有些差异。有了这个差异,接着你可以用它再产生一个更好的猜测,再用这个新的猜测得到一个新的差异,这个差异又会产生出另一个新的猜测值。如果在计算这个差异的过程中,你做得足够聪明,这一连串的猜测值会最终接近正确的答案。对试位法来说,只要迭代计算一次,第二次猜测通常总能得到正确答案;而费歇尔的极大似然估计法,可能要迭代数千次甚至数百万次才能得到一个理想的答案。
然而,对一台任劳任怨的电脑,区区几百万次的迭代又算得了什么呢?在当今世界,不过是一眨眼的工夫。但在不久前,电脑的功能还不够强大,速度也很慢。在60年代末,我有个可以编写程序的台式计算机,是一种可以做加、减、乘、除的原始的电子工具。不过它还有个容易很小的内存,可以放进去一个程序,让它完成一系列的自述去处。这些运行的功能之一还能改写程序,因此,可以在这台可编程的计算机上运行迭代计算,只是要花很长的时间罢了。一天下午,我编好了计算机程序,检查了前几个步骤,确信我写的程序准确无误,然后,关掉办公室的灯就回家了。与此同时,这个编好了程序的计算机就开始了加减乘除的去处,静静地从它的电子结构内部发出喃喃的低语语,而且每隔一会儿就会按程序打印出一个计算结果。连接在计算机上的打印机是一个噪音很大的压缩设备,打印的时候会发出很响的“卡嗒、卡嗒”的声音。
那天晚上,保洁员到办公楼里清扫,其中一个人带着扫帚与废纸篓走进我的办公室。黑暗中,他听到了一种“嗡嗡嗡”的声音,他能看见在一遍又一遍进行加减的计算机上有只眼睛发出忽明忽暗的蓝光。突然,机器醒了过来,“卡”地响了一声,接着又“卡、卡、卡……卡嗒、卡嗒、卡嗒、”地响起来。后来他告诉我,那可真是一次让他毛骨悚然的经历。因此他要求我,如果下次计算机正在运行时,让我一定在办公室门口留一个提示纸条通知他们。
今天的电脑运行快得多了,甚至可以分析更加复杂的似然函数。哈佛大学的纳恩?莱尔德(Nan Laird)和詹姆斯?韦尔(James Ware)教授发明了一种异常灵活、功能异常强大、叫做“EM演算法”的迭代过程演算法。在我订阅的统计学期刊里,每一期新杂志都会介绍某人如何采用他或她的EM演算法解决了一度被认为无法解决的难题。另有一些算法,名字颇富想象力,像“模拟退火法”(simulated annealing)、“克利金法”(kriging)等等,也不时地出现在文献中;还有“大都会”(Metropolis)算法或“侯爵”(Marquardt)算法,以及其他一些以发明者自己命名的算法。有一些很复杂的软件包,用成千上万行的程序编码,使这些迭代运算以“用户界面友好”的特点变得易于操作。
费歇尔的统计估计方法大获全胜,极大似然法统计了世界,而K?皮尔逊的方法则被尘封在被遗忘的历史角落里。然而,就在这个时候,20世纪30年代,当时费歇尔对数理统计理论的贡献终于得到了承认,他40多岁并且正值其事业鼎盛时期,就在那一刻,出现了一位名叫奈曼的年轻的波兰数学家,他对费歇尔一味遮掩却并没有真正解决的某些问题提出了质疑。
第8章 致死的剂量
每年的3月,生物统计学会都要在美国的南部城市召开一次春季会议,我们这些在北部生活和工作的人就借此机会南下,到路易斯维尔(Louisville)、孟斐斯(Memmphis)、亚特兰大(Atlanta)或新奥尔良(New Orleans),在会议结束后回家前的几周,去呼吸春天的清新空气,观赏原野中盛开的鲜花和果园里花繁叶茂的果树。同其他的科学会议一样,会议期间会有三到五位论文作者在会上口头宣读他们的论文,然后与会者与演讲人就论文的内容展开热烈的讨论,询问某些思想的出版,或提出其他可以替代的方法。通常,上午的会议分成两个分会场同时进行。最后的会议一般在下午5点前后结束,与会者回到宾馆各自的房间。一个小时或一个半小时之后他们又会分头聚在一起,相约着出去找一家喜欢的餐馆共进晚餐。
开会的当天,一般人总能在会场上遇到一些朋友,并绝好了会后一同去吃晚饭。但是有一天我却错过了约人就餐的时机。我和那天下午的一位论文演讲者进行了一场长时间的且饶有兴趣的讨论,他是当地人,散会后可以直接回家,因此我没有邀他一起吃饭。我们的谈话结束的时候,大厅里已经空荡荡的,人都走光了。我联系不上任何人,就回到房间给太太打电话,与孩子们在电话上聊了几句,随后就下楼到宾馆的前大厅,心想说不定会碰上一伙我认识的人,可以和他们一道活动。
但是,大厅里几乎空无一人,只有一个身材高大的白头发男人,他独自坐在一张罩着椅套的椅子上。我认出他是切斯特?布利斯(Chester Bliss),我知道他发明了一些基本的统计模型。那天上午在我参加的那个分会场,他还宣读了一篇论文。我朝他走过去,做了自我介绍,并称赞他上午的发言。他邀请我坐下,我们就坐在那里聊了一阵子统计与数学。不错,我们的确是在聊着这样的话题,我们甚至可以用这个话题来开玩笑。显而易见,我们俩谁也没有晚餐的约会,于是我们决定一起去吃晚饭。他可真是个令人愉悦的就餐伙伴。那天的晚餐,我听他讲述了自己丰富的阅历。以后的几年,我们常在开会的时候碰面,有时还会相约一同用餐。他在耶鲁大学的统计系任教,所以,每当我参加由耶鲁大学统计系主办的研讨会时,就经常能见到他。
布利斯出身于美国中西部一个殷实而融洽的中产阶级家庭,父亲是医生,母亲掌管家务,有几个兄弟姐妹。他起初对生物学感兴趣,念大学时学的是昆虫学。20世纪20年代末,他大学毕业后,以一个昆虫学家的身份供职于美国农业部,并且不久就参与 了研制杀虫剂的工作。很快,他认识到,在田间试验杀虫剂会受到许多无法控制变量的干扰,使结果难以解释,于是,他把昆虫带到实验室里,做了一系列的实验。这时,有人把费歇尔所写的《研究工作者的统计方法》一书介绍给他,以此为起点,他一边努力去领悟费歇尔在这本书中介绍的许多统计方法的深层次内涵,一边又阅读了费歇尔更多数学论文。
概率单位分析
在费歇尔统计方法的引导下,不久,布利斯说开始了他在实验室内的实验。他把昆虫分成几组,养在广口玻璃瓶里,然后用不同成分和不同剂量的杀虫剂来实验。在他做这些实验的过程中,发现了一个值得关注的现象:无论他配制的杀虫剂尝试有多高,在用药之后总会有一两只昆虫还活着;此外,无论他怎么稀释杀虫剂,即便只是用了装过杀虫剂的容器,试验结果也总会有几只昆虫死掉。
有了这些显著的变异,如果能依据皮尔逊的统计分布建立一个数学模型来分析杀虫剂的作用,这将是非常有用的。但是如何建立这个模型呢?你很可能会回想起高中代数课上,当书本翻到解文字题时那令人头疼的时刻:A先生和B先生共同在静止的水中划船;或者在平稳流动的水中逆流而上;或者他们会把油与水混在一起;或者让他们来来回回地运球。无论哪一种问题,这种文字应用题总是给出一些数字,然后问一个问题,可怜的学生就必须把这些文字转换为数学公式,并解出未知数x。你或许能回想起当初是如何哗哗地翻查着教科书,拼命地寻找一个类似的并且已经解出答案的例题,然后把文字应用题的新数字塞进这道例题所用的公式中去。对高中的代数课而言,总有人已经把相关问题的数学公式列了出来,要么老师知道这些数学公式,要么能在与教科书配套的教师手册里找到这些公式。然而,试想有这样一个文字应用题,没有人知道如何将它转化为数学公式,没有人知道问题当中哪些数据是多余的,哪些应该是没用的,而一些至关重要的信息又常常缺失,况且教科书中也没有事先已经解出来的类似例题。这就是当你设法把统计模型应用到现实生活中去的时候所面临的情景,这也正是当布利斯打算采用概率分布这种新的数学思想来分析他的杀虫剂实验时所遭遇的困境。
为此,布利斯发明了一种他称之为“概率单位分析”(probit analysis)的方法,这项发明需要一种非凡跨越的原创性思想。这种方法中的任何思想,甚至哪怕是应该如何去做的启示,都未曾出现在费歇尔的“学生”的、亦或其他什么人的著作中。他之所以使用“概率单位”(probit)这个词,是因为他的模型建立了“杀虫剂的剂量”与“使用该剂量时一只虫子会死掉的概率”这两者间的关系。他的模型中生成的最重要的参数谓之“半数致死剂量”(50 percent lethal does),通常用“LD-50”来表示,是指杀虫剂能以50%的概率杀死虫子的剂量。或者说,如果施用这种杀虫剂来对付大量的虫子,那么用“LD-50”的剂量,将有50%的虫子被杀死。布利斯模型的另一个推论则是:对一只特定的用做实验标本的虫子,要确定杀死它所需要的剂量是不可能的。
布利斯的概率单位分析已被成功地应用于毒物学(toxicology)。从某种意义上说,源于概率单位分析的认识已经形成了毒物学这门科学的主要基础。16世纪的医师P?A?帕拉赛瑟斯(P. A. Paracelsus,1493-1541)有一句名言:使用过量,什么都是毒药。概率单位分析为帕拉赛瑟斯首创的这个信条奠定了数学基础。按照帕拉赛瑟斯的这个信条,只要剂量足够大,任何东西都可能成为毒药;而只要剂量足够小,任何东西都是无害的。而布利斯则为了这个信条增加了与那些个案结果联系在一起的不确定性。
之所以会有那么多愚蠢的吸毒者,在古柯硷、海洛因或安非他命的作用下,或已毙命于街头,或变得极度虚弱,原因之一就在于,他们看到其他人同样服用这些毒品却没有死于中毒。他们就如同布利斯实验用的那些虫子,环顾四周,看到有些同伴依然活着。然而,即使知道某些个体还活着,也无法确定一个给定个体能否幸免于一死。我们根本没有任何办法能够预见某一独特个体对药物剂量的反应。就像皮尔逊统计模型里的那些个别观测值一样,它们都不是科学研究所关注的“事件”。惟有那些抽象的概率分布及其参数(如LD-50,半数致死剂量)才是能够估计的。
布利斯的概率单位分析一经提出 ,其他研究人员也跟着提出了各种不同的数学分布。现代用来计算“LD-50”半数致死剂量的计算机程序,通常都会提供几种不同的模型让用户选择,这些模型都是在布利斯的原创基础上经过改进之后提出来的。用实际数据所做的研究表明,尽管在估计非常低的概率时,如“LD-10”,由这些不同模型得出的估计值是有差别的,但在“LD-50”上的估计值都非常接近。
我们完全可以运用概率单位分析或选择其他模型来分别估计一个不同的致死剂量,如“LD-25”或“LD-80”(25%的死亡剂量,或80%的死亡剂量)。不过,离50%点越远,就越需要更大规模的实验才能得到理想的估计值。我自己就曾参与过一项研究,要确定某种能在老鼠身上致癌的化合物的LD-01(1%的致死剂量)是多少。我们的实验用了65000只老鼠,最终的分析结果表明,我们还是没能得到使1%老鼠致癌的化合物剂量的理想估计值。依据那项研究的数据推算,要想得到一个可接受的LD-01的估计值,我们得需要几亿只老鼠!
布利斯在列宁格勒
C?布利斯在概率单位分析上的开创性研究,到1933年却被迫中断了。那年,弗兰克林?D?罗斯福(Franklin D. Roosevelt)当选为美国总统。在竞选总统期间,罗斯福明确声称是联邦政府的赤字导致了经济萧条,并且保证他当选后会消减政府赤字,缩小政府部门的规模。虽然这并不是“新政”(the New Deal)最终的行为,却是竞选的诺言,因此这位新总统就职之后,他的一些内阁成员就遵照总统的竞选诺言,开始解雇一些非必要的政府工作人员。
那位协助农业部副部长负责研制新式杀虫剂工作的助理,当他在视察这个部门所做的工作时,发现有人居然不到有虫子的田间去做实验,反而无聊地躲在实验室里不厌其烦地用杀虫剂来做实验。于是,布利斯的实验室被关闭了,布利斯也被解雇了。当时正值严重的大萧条时期,他发现自己根本找不到工作。尽管布利斯曾发明了概率单位分析,但对于一个失业的昆虫学家,特别是一个与实验室的昆虫,而不是野外的昆虫打交道的昆虫学家来说,找不到工作实在是不足为奇。
布利斯与费歇尔取得了联系。费歇尔刚刚在伦敦得到一个新职位,他答案举荐布利斯,并给他一些实验设备,不过他不能给他一个工作岗位,因此也没有办法付给这位美国昆虫学家工作报酬。尽管如此,布利斯还是不得不去了英国。他与费歇尔及其家人一起住了几个月,并与费歇尔一起协作进一步完善了概率单位分析的方法论。费歇尔在布利斯的数学去处中发现了几处错误,并提出修改建议,得到的最终统计结果更为有效。布利斯按照费歇尔的修改建议,发表了一篇新论文。而费歇尔也把那个必不可少的统计表,补充编到他自己与弗兰克?耶茨(Frank Yates)联名写的有关统计表的那本书的新版中去。
布利斯在英国住了不到一年,费歇尔就为他找到了一份新工作,是在苏联的列宁格勒植物研究所(Leningrad Plant Institute)。试想一下,这个来自美国中西部地区中产阶级家庭、对政治漠不关心、而且永远不会学第二种语言的又高又瘦的家伙,随身带着只装了几件换洗衣服的一个小行李箱,乘火车只身穿越欧洲大陆,终于到达列宁格勒火车站时的情景。而那时的俄国恰逢斯大林领导下的大清洗运动。
布利斯到达列宁格勒之后不久,聘请他来苏联的那个人的老板就被召到莫斯科去了,而且从此销声匿迹。一个月之后,那个聘请布利斯来苏联的人也被召到莫斯科去了,而且在返回途中“畏罪自杀”。负责布利斯旁边那个实验室的主管,也在某一天仓惶弃职,穿过拉脱维亚边境逃出了苏联。
就在这个时候,布利斯认真着手展开他的实验工作。他选了几组俄罗斯本地的害虫,用各种不同化合成分的杀虫剂来对这几组害虫进行试验,算出其概率单位极其“LD-50”半数致死剂量。他在研究所附近的房子里租了一个房间,他的俄罗斯女房东只会说俄语,而布利斯只会说英语。不过他告诉我,用各种手势加上亲切的微笑,他们相处得相当融洽。后来,布利斯遇见了一个来自美国的年轻女人,她为了投身于俄国伟大的共产主义实践,中断大学学业,满怀着年轻人的理想主义和马克思列宁主义的盲目崇拜来到苏联。她把可怜的只会说英语的布利斯当成好朋友,帮他购物、熟悉环境。此外,她还是当地的一个共产党员。党组织对布利斯的一切了如指掌,他们知道他何时受聘,何时抵达俄国,住在什么地方,以及在实验室里都做了些什么。
有一天,那女孩告诉他,党员里有些人已经认定他是美国间谍。她竭力为布利斯辩护,向他们解释布利斯是个单纯而又天真的科学家,只热衷于自己的实验。但是这些猜疑已经通报给了莫斯科当局,他们已经派出了一个委员会到列宁格勒来进行调查。
调查委员会就在列宁格勒植物研究所召开审查会,把布利斯叫来面对他们接受审问。当他走进审问室的时候,已经知道调查委员会里每个人的身份了,当然是他的女朋友透露的。他们几乎还没来得及调查完最初的几个问题,就在这时,布利斯对他们说:“我看到某某教授也坐在你们中间(告诉我这段往事的时候,布利斯已经不记得这位教授的姓名了),我一直在读他的论文。请告诉我,他提出的这种农业试验方法,是遵照圣人马克思和圣人列宁的绝对真理吗?“翻译踌躇着吞吞吐吐地把它这句话译了出来,刚一译完,审查委员会的委员们便一阵忙乱,他们要求布利斯对此做进一步的阐述。
“某某教授的方法”,布利斯接着又问:“就是正规的党的方式吗?就是按照党所要求的做法进行的农业试验吗?”
最终委员会给他的答案是,没错,这确实是做事情的正确方法。
于是布利斯说:“如果是那样的话,我就是违背了你们的信仰。”接着他进一步解释,如果按照这个教授提出来的做法,农业试验研究必须用很大面积的土地,而且所有这些农田都得用同样的实验方式来处理。布利斯说,他认为这样的试验是无益的,并且阐明他一直在倡导的方法,就是把农田分成很多小块地,以不同的方式处理相邻的地块。
审查工作没有再深入进行下去就结束了。那天傍晚,他的朋友告诉他,委员会已断定他不是间谍。他们认为他太率真了,透明得一眼就可以看穿,或许真是如她所说,他是一个头脑单纯、只关心他的实验的科学家。
其后,布利斯在列宁格勒植物研究所工作了几个月。他再也没有任何顶头上司了,他自己认为怎么做最好就怎么做。但是,他必须加入由实验室工作人员组成的工会组织,当时,每个在俄国工作的人都必须加入某个由政府控制的工会组织。除了这一点规定之外,他们就不管他了。在20世纪50年代,美国国务院还曾因为他一度属于一个共产党的组织,而拒绝给他签发美国护照。
突然有一天下午,他的女朋友冲进实验室,告诉他:“你必须马上离开。”他坚持说他的实验还没有做完,实验结果还没有详细记录下来,坚持要做完这些才肯离开。女友把布利斯从实验报告堆中拽出来,逼他赶紧穿上外套,告诉他刻不容缓,必须丢弃所有的一切,必须马上离开。刀子守候着催促着他,看着他装好那个小小的提箱,告别了女房东。女友把他送到火车站,临行前坚持要他在安全抵达里加(Riga,现拉脱维亚共和国的首都)时给她打个电话。
到了20世纪60年代,苏联的政治局势有了些微的松动,苏联的科学家重新回到国际科学团体中来。国际统计学会(International Statistical Institute, C?布利斯曾是该学会的会员)在列宁格勒召开了一次国际会议,会议期间,布利斯抽空去探访那些30年代的老朋友,但他们都已故去。他们当中,有的是在大清洗时期被杀,有的死于第二次世界大战,只有他当年的女房东还活着。见面时,他们不停地用各种手势,不断地点头,互致问候,并亲切拥抱,布利斯用英语低声地表达着对她的美好祝福,她则以俄语回应。
第9章 钟形曲线
读完这本书的前八章,你也许会以为统计革命只是发生在英国。从某种意义上说,这倒也是事实,因为最先将统计模型应用于生物研究和农业研究的,的确是在英国,还有丹麦。在费歇尔的影响下,统计学方法很快就传到了美国、印度、澳大利亚和加拿大。正当统计模型的实际应用在说英语的国家和地区推广之际,由于欧洲大陆长期形成的一种数学传统,使得欧洲的数学家正在研究与统计建模有关的理论问题。
这些理论问题中,最为重要的是中心极限定理(central limit theorem)。直到20世纪30年代初,这还是个未经证明的定理,或者说只是一个猜想(conjecture),因为许多人都信其为真,却没有一个人能证明它成立。费歇尔早在研究似然函数值的理论时,就曾假设这个定理是成立的;而回溯到19世纪初,法国数学家皮埃尔?西蒙?拉普拉斯也用这个推论证明了他的最小平方法(method of least squares)。此外,心理学这门新兴科学也是根据中心极限定理开创了智力测验技术与精神疾病量表。
下一页 尾页 共3页
返回书籍页