必读网 - 人生必读的书

TXT下载此书 | 书籍信息


(双击鼠标开启屏幕滚动,鼠标上下控制速度) 返回首页
选择背景色:
浏览字体:[ ]  
字体颜色: 双击鼠标滚屏: (1最慢,10最快)

[英]卡尔

_3 科学松鼠会(当代)
除增加给定点数的方法以外,还有其他方法也可以减少维数。例如,给定长短轴比的椭圆集是四维的(和抛物线集一样),已知偏心率数值的椭圆集也是这样。从椭圆过渡到圆,当然等于指定一个偏心率(0)或者一个特定的长短轴比(1)。
因为我们对评价理论的可证伪度感兴趣,现在我们要问:这些减少维数的种种方法对于我们的目的来说是否是等价的,或者我们是否应该更仔细地考察它们的相对价值。一条曲线必须通过一定的单一点(或小区域),这样的规定常常是联接于或相应于某一单称陈述即一个初始条件的接受。另一方面,比方说从一个椭圆假说过渡到一个圆假说,显然相应于理论本身的维的减少。但是,如何区别清楚这两种减少维的方法?一种减少维的方法并不根据有关曲线的“形式”或“形状”的规定来进行;即例如通过指定一个或更多的点,或者通过某种等价的规定来减少维,我们可以给这种方法一个名称:“内容的减少”。在另一个方法里,曲线的形式或形状规定得更窄,例如,我们从椭圆到圆或从圆到直线等等,我称之为维数的“形式的减少”的方法。
然而,要使得这个区别截然分明是不很容易的。这一点可以这样来看:减少理论的维用代数术语来说意味着以常数代替参数。现在,我们如何能区别不同的以常数代替参数的方法,是不大清楚的。从椭圆的一般方程过渡到圆的方程这种形式的减少,可以被描述为使一个参数等于0,使第二个参数等于1。但是,如果另一个参数(绝对项)等于0,那么这就意味着内容的减少,就是规定椭圆的一个点。但是,我想,如果我们看到它和普遍名称问题的联系,就有可能使得区别清楚起来。因为内容的减少引进一个个别名称到有关曲线集的定义中,而形式的减少则引进一个普遍的名称。
让我们设想,也许根据“直指定义”,给予我们某一个别的平面。在这个平面上的所有椭圆集可以用椭圆的一般方程来定义;圆集可以用圆的一般方程来定义。这些定义不依赖于我们在这平面的什么地方画与它们有关的(Descartes)坐标;因此,它们不依赖于坐标的原点和方向的选择。特定的坐标系统只能由个别名称来决定;比方说由直接指定它的原点和方向来决定。由于椭圆(或圆)集的定义对于所有Descartes坐标是相同的,它不依赖于这些个别名称的规定:它对Euclid群的所有坐标变换(位移和相似变换)是不变的。
另一方面,假如人们想定义共同的在平面上有着一个特殊个别点的椭圆(或圆)集,那么我们就必须运用一个方程,它对于Euclid群的变换不是不变的,而是和一个单称的,即个别地或直指地规定的坐标系统相联系的。因此,它是和个别名称相联系的。
可以把这种变换安排在一个等级系统里。对于比较一般的变换群是不变的一个定义,对于比较特殊的变换群也是不变的。对于一个曲线集的每一个定义,有一个它特有的(最一般的)变换群。现在我们可以说:一个曲线集的定义D1与一个曲线集的定义D2“同样一般”(或比它更一般),假如D1和D2(或一个更一般的定义)对于同一个变换群都是不变的话。一个曲线集的维的减少现在可以被称为形式的,假如这个减少并不减弱定义的一般性;否则它可以被称为内容的。
如果我们通过考虑它们的维来比较两个理论的可证伪度,显然我们必须在考虑它们的维的同时考虑它们的一般性,就是它们对于坐标变换的不变性。
按照理论(如Kepler理论)事实上是否作出了关于世界的几何陈述,或理论是否只是在它可以用图形来表示的意义上是“几何的”——例如,表示压力依赖温度的图形,上述程序当然必定是不同的。对后一种理论,或相应的曲线集提出这样的要求:它的定义必须对于比方说坐标系统的旋转是不变的,这是不适当的;因为在这些情况下,不同的坐标可以表示完全不同的东西(一个是压力,另一个是温度)。
这就是我对用以比较可证伪度的方法的阐述的结论。我相信这些方法能帮助我们阐明认识论问题,例如简单性问题,我们接着就要讨论这个问题。但是,我们将要看到,还有其他问题通过我们对可证伪度的考察而得到新的说明;特别是所谓“假说的概率”或验证的问题。
追记(1972)
这本书的比较重要的思想之一是关于理论的(经验的或信息的)内容的思想(我们称自然律为“律”不是没有道理的:“它们禁止越多,它们说得越多”。比较:上面第41页和第112页以后)。
在前一章里我强调两点:(1)理论的内容或可检验性(或简单性:参看第七章)可以有度,因此可以说这度使得可证伪性概念相对化了(它的逻辑基础仍然是否定后件假言推理)。(2)科学的目的——知识的增长——可以是和我们的理论的内容的增长完全一致的。(参看我的论文:‘The Aim of Science’,载Ratio Ⅰ,1957 PP.24-35,〔经过修改〕重载Contempo-rary Philosophy.ed R.Klibansky 1969,PP.129-142;现又为我的书Objectiue Knowledge:An Euolutionary Approach的第5章,这书即将由Clarendon Press出版。)
最近我进一步发展了这些思想;特别参看我的Conjec-tures,and Refutatinns第10章,1963年版和以后的版本。两个新观点是:(3)内容或可检验性概念联系到正在讨论的问题或问题集而进一步相对化(在1934年我已经把这些概念联系到应用场而相对化了)。(4)引进理论的真性内容和它对真理的近似或接近(“逼真性”)的概念。
目录页 CTJ121E书?2005
上一页 下一页
目录页 [英]卡尔.波普尔《科学发现的逻辑》
上一页 下一页
第七章 简单性
关于所谓“简单性问题”的重要性几乎没有一致意见。Weyl在不久前说:“简单性问题对于自然科学的认识论是最重要的”。然而,近来对于这个问题的兴趣低落了;也许是因为似乎很少有机会来解释这问题,特别是在Weyl进行透彻的分析之后。
直到最近,简单性观念一直在无批判地使用,仿佛简单性是什么,为什么它应该是有价值的,是很明显的。不少科学哲学家在他们的理论里给予简单性概念一个关键性的重要地位,甚至没有注意到它引起的困难,例如,Mach,Kirchhoff,Avenarius的追随者试图用“最简单的描述”这一观念来代替因果解释的观念。没有形容词“最简单的”或者类似的词,这个学说就什么也没有说。当应该解释为什么我们认为用理论对世界进行的描述,优于用单称陈述对世界进行的描述时,就似乎预先假定,理论比单称陈述更简单。然而很少有人曾经尝试解释过,为什么理论应该是更简单的,或者更确切地说,简单性是什么意思。
而且,如果我们假定,使用理论是由于简单性,那么显然,我们应该使用最简单的理论。Poincare(他认为理论的选择是一个约定的问题)就是这样来表述他的理论选择原理的:他选择可能的约定中最简单的。但是,哪一个是最简单的?
41.排除美学的和实用的简单性概念
“简单性”这个词用于很多不同的意义。例如Schr odinger理论在方法论意义上具有很大的简单性,但是在另外一种意义上,完全可以说它是“复杂的”。我们可以说,一个问题的解决不是简单的而是困难的,或者说,一个描述或一个说明不是简单的而是难以理解的。
首先,我要从我们的讨论中排除简单性这一术语应用于任何像描述或说明这类东西。有时,我们说到同一个数学证明的两种说明,其中一个比另一个更简单或更优美。从知识理论的观点看来,这种区别意义很小;它不在逻辑的范围之内,只是表示一种美学性质或实用性质的选择。当人们说,一项工作比另一项工作可以“用更简单的办法完成”时,意思是,它可更容易地完成,或者,为了完成它,需要较少的训练或较少的知识,这情况是类似的。在所有这些情况下,很容易排除“简单”这个词;这一词的使用是逻辑外的。
42.简单性的方法论问题
在我们排除了美学的和实用的简单性观念以后,如果有什么东西余留下,那是什么呢?是否有对于逻辑学家是重要的简单性概念?是否可能按照它们的简单度来区别在逻辑上不等同的理论?
对这个问题的回答似乎是很可疑的,因为大部分想定义这个概念的尝试得到很小的成功。例如,Schlick给了一个否定的回答。他说:“简单性是……一个概念,它表示的选择性质上,部分地是实用的,部分地是美学的”。值得注意的是,他给出了这个回答,是在他写到这里使我们感兴趣的概念,我称之为简单性的认识论概念的时候;因为他继续说道:“即使我们不能解释简单性在这里的真正意思是什么,我们仍然必须认识到这样的事实:任何科学家成功地用一个非常简单的公式(例如:一个线性的,二次的,或指数的函数)来描述一系列观察,他就立即确信,他已发现了一条定律。”
Schlick讨论了用简单性概念来定义似定律的规律性概念,特别是“定律”和“机遇”区别的可能性。他最后排除了这个可能性,说道:“简单性显然是一个完全相对和模糊的概念;用它不能得到因果性的严格定义,定律和机遇也不能精确地区别开”。从这一段话中真正期待简单性概念完成什么就很清楚了:它要提供一种事件的似律性或规律性程度的量度,Feigl说出了同样的看法,他说到“用简单性概念来定义规律性或似律性的程度”。
简单性的认识论观念在归纳逻辑理论里起着特殊的作用,比如联系到“最简单曲线”问题。归纳逻辑的信仰者假定,我们通过概括特殊的观察到达自然律。如果我们设想在一系列观察中的各种结果,作为在一个坐标系统中标绘的点。那么定律的图形表示就将是一条通过所有这些点的曲线。但是,通过有限数目的点,我们总能画出形式极为多样的数目无限的曲线。因此,由于定律不是单单由观察决定的,归纳逻辑面临在所有这些可能的曲线中决定选择哪一条曲线的问题。
通常的回答是:“选择最简单的曲线”。例如,Wittgenstein说:“归纳过程在于发现可以使之和我们的经验相协调的最简单的定律”。在选择最简单的定律时,通常不言而喻地假定,比方说,线性函数比二次函数简单,圆比椭圆简单,等等。但是,没有给出任何理由,或说明选择这个特殊的简单性等级,而不是任何其他的等级,或说明相信“简单的”定律优于比较不简单的定律——除了美学的实用的理由以外Schlick和Feigl提到Natkin的一篇未出版的论文,按照Schlick的叙述,Natkin建议称一条曲线比另一条更简单,如果它的平均曲率更小的话,或者按照Feigl的叙述,如果它偏离一条直线更小的话(这两种叙述是不等价的)。这个定义似乎和我们的直觉符合得相当好;但是,它没有抓住关键之处,例如,它使得双曲线的一部分(渐近线部分)比圆简单得多,等等。实在说,我不认为,问题能为这样的“技巧”(Schlick这样称呼它们)所解决。而且,为什么我们应该给予简单性(如果用这个特殊方法来定义它)以优先权,这仍然是个谜。
Weyl讨论了并否定了一个非常有趣的把简单性置于概率基础之上的尝试。“例如,假定同一函数y=f(x)的20对坐标值(x,y),当标绘在方格图解纸上时,落在一条直线上(在预期的精确度内)。因此我们推测,我们在这里面对一条严格的自然律,y线性地依赖于x。我们所以这样推测是由于直线的简单性,或者因为,如果该定律是一条不同的定律,这20对任意选择的观察正好非常接近地落在一条直线上,是极端不可几的。假如,现在我们用这条直线来进行内插和外推,我们会得到超出观察告诉我们的东西之外的预见,然而,这个分析是可以批判的。总有可能来定义……会被这20项观察所满足的各种数学函数;而这些函数中的某些会相当大地偏离直线。对这些函数中的每一个,我们都可以说,除非它代表真的定律。这20项观察正好落在这条曲线上,是极端不可几的。因此,函数,更确切地说,函数类,由于它的数学简单性,必定是先验地由数学提供给我们的,这毕竟是必不可少的。应该注意,这个函数项不必依赖与应满足的观察数一样多的参数”。Weyl关于“函数类,由于它的数学简单性,必定是先验地由数学提供给我们的”这段话以及他提到的参数的数目,和我的观点(在第43节中展开)是一致的。但是,Weyl没有说“数学的简单性”是什么,而且,最重要的,他没有说较简单的定律,与较复杂的定律相比较,应该具有什么逻辑的或认识论的优点。
以上引证的几段话是很重要的,因为它们和我们现在的目的有关,这目的是分析简单性的认识论概念。因为这个概念尚未精确地加以确定。所以有可能摈弃任何想通过下述办法使这个概念精确化的尝试(比如我的尝试)而说:认识论家感兴趣的这个简单性概念,实际上是一个完全不同的概念。对于这种反对意见,我可以这样回答:我不赋予“简单性”这个词丝毫重要性。这个术语不是我引进的,我也知道它的缺点。我所要说的只是,如我的引证所表明的,我要澄清的这个简单性概念帮助我们回答的问题,正好就是科学哲学家常常提出的与他们的“简单性问题”相联系的问题。
43.简单性和可证伪度
与简单性概念相联系而产生的认识论问题都可得到解答,只要我们把这个概念等同于可证伪度。这个断言可能遭到反对;所以我首先试图使它在直觉上更易于为人所接受。
我已经说明,具有低维的理论比高维理论更易于证伪。例如,具有一次函数形式的定律比用二次函数表示的定律更易于证伪。但是后者在具有代数函数的数学形式定律中间,仍然属于最可证伪的定律之列的。这一点和Schlick对简单性的评论完全一致:“我们当然应该倾向于认为一次函数比二次函数简单,虽然后者无疑地也描述一条很好的定律……”。
我们已经看到,理论的普遍度和精确度和它的可证伪度一起增加。因此我们也许可以把理论的严格度——可以说理论把定律的严格性加于自然的程度——等同于它的可证伪度;这一点表明,可证伪度正是做的Schlick和Feigl期望简单性概念做的事情。我还可以说,Schlick希望在定律和机遇之间作出的区别,也能借可证伪度概念之助弄清楚。关于具有似机遇特征的序列的概率陈述,证明具有无限的维(参看第65节);不是简单的而是复杂的(参看第58节和第59节的后半部分);而且只是在特殊的保证条件下才是可证伪的(第68节)。
可检验度的比较已经在第31到40节里详细地讨论过。那里提供的某些例子和其他细节可以容易地转用到简单性问题上来。这一点特别适用于理论的普遍度,一个比较普遍的陈述能代替许多较不普遍的陈述,并由于这个理由时常被称作为“比较简单”。理论的维的概念可以说是使得Weyl的用参量的数目来确定简单性概念的思想精确化了。通过我们在理论的维的形式的减少和内容的减少之间所作出的区别(参看第40节),可以对付对Weyl理论的某些可能的反对意见。这些反对意见之一是,轴比和偏心率数值给定的椭圆集虽然它显然不是那么“简单的”,具有和圆集正好一样多的参数。
最重要的是,我们的理论解释了为什么简单性是如此高度的合乎需要。为了理解这一点,我们不需要假定“思维经济原理”或者任何这类原理。假如知识是我们的目的,简单的陈述就比不那么简单的陈述得到更高的评价,因为它们告诉我们更多东西;因为它们的经验内容更多,因为它们更可检验。
44.几何形状和函数形式
我们关于简单性概念的观点使我们能够解决了一些矛盾,直到现在这些矛盾曾使得这个概念是否有任何用处成为疑问。
很少人会认为,比方说对数曲线的几何形状是特别简单的;但是一个由对数函数表示的定律常常被认为是简单的定律。同样地,一个正弦函数通常被说成是简单的,纵然正弦曲线的几何形状也许不是很简单的。
假如我们记住在参数数目和可证伪度之间的联系。假如我们又在维的形式减少和内容减少之间加以区别,像这样的困难可以得到解决。(找们也必须记住对于坐标系统的变换的不变性的作用。)如果我们说到一条曲线的几何形式或形状,那么我们所要求的是,对于所有归属位移群的变换的不变性,我们还可以要求对相似变换的不变性;因为我们并没有想把几何图形或形状和一定的位置联结起来。因此,如果我们把一条单参数对数曲线(y=logax)的形状看作置于一个平面的任何地方,那么它就有五个参数(假如我们允许相似变换)。因此它就完全不是一个特别简单的曲线。另一方面,如果用一条对数曲线来表示一个理论或定律。那么描述过的那种坐标变换是无关的。在这种情况下,进行旋转、平移或相似变换,都是没有意义的。因为一条对数曲线通常是一种坐标不能互变的图形表示(例如,x轴可以表示大气压力,y轴表示海拔高度)。由于这个理由,相似变换在这里同样没有任何意义。类似的考虑适用于沿着一根特殊的轴,例如时间轴的正弦振荡;还有许多其他情况都是如此。
45.Euclid几何学的简单性
在相对论的大部分讨论中起着主要作用的问题之一是,Euclid几何学的简单性。从未有人怀疑过,Euclid几何学本身是比任何有一定曲率的非Euclid几何学更简单些——更不要说具有随地方而变化的曲率的非Euclid几何学了。
乍一看来,这里涉及的这种简单性似乎和可证伪性很少关系。但是,如果讨论中的陈述被表述为经验的假说,那么我们发现,在这种情况下这两个概念,简单性和可证伪性,也是重合的。
让我们考虑什么实验可以帮助我们检验这样的假说:“在我们的世界里,我们必须运用具有某一曲率半径的一种度量几何学”。仅当我们把一定的几何学实体和一定的物理客体——例如直线和光线、点和几根线的交点——等同起来时,检验才是可能的。如果采取了这样的等同(一个相关定义,或者也许是一个直指定义;参看第17节),那么可以看出,Euclid光线几何学的正确性假说的可证伪度,比任何断言某种非Euclid几何学的正确性的与前者相匹敌的假说的可证伪度高。因为如果我们测量一个光线三角形的角度之和,那么对180度任何显著偏离都将证伪Euclid假说。另一方面,具有给定曲率的Bolyai-Lobatschewski几何学的假说是和任何不超过180度的特定测量相容的。而且,为了伪证这个假说,必须不仅测量角度之和,而且还要测量三角形的(绝对)大小;这意味着,在角度之外,必须再定义一个测量单位,例如面积单位。因此我们看到,证伪需要更多的测量;假说和测量结果的更大的变化相容;因此更难于证伪:它的可证伪度较小。换句话说,Eu-clid几何是惟一的具有确定曲率的,在其中可能进行相似变换的度量几何学。因此,Euclid几何图形能对比较多的变换保持不变;即它们可能是维数较少的:它们可能是较简单的。
46.约定主义和简单性概念
约定主义者所说的“简单性”并不对应于我所说的“简单性”。任何理论都不是为经验所毫不含糊地决定的,这是约定主义者的中心思想,也是他们的出发点;这一点我同意。他们相信,他们因此必须选择“最简单的”理论。但是,由于约定主义者并不把他们的理论当作可证伪的系统,而是当作约定的规定,显然他们认为“简单性”的意义是和可证伪度不同的。
约定主义者的简单性概念证明确实是部分地美学的和部分地实用的。因此,下列Schlick的评论(参看第42节)适用于约定主义者的简单性概念,而不适用于我的:“人们只能用约定来定义简单性概念,这约定必定总是任意的,这一点是确定无疑的”,奇怪的是,约定主义者自己没有看到他们自己的基本概念——简单性概念的约定性质。他们必须是忽略了这一点,这是明显的,因为否则他们本来会注意到,一旦他们已选择了任意约定的方法,他们求助于简单性决不可能使他们避免任意性。
从我的观点看来,假如有人按照约定主义者的实践,坚持某一系统是一个永远确立了的系统,每当它处于危险中时,他就决意引进辅助假说去挽救它,那么必须说这个系统是最高度复杂的。因为,这样保护起来的系统的可证伪度等于零。这样我们就被我们的简单性概念引回到第20节的方法论规则;特别是也引回到限制我们过度使用特设性假说和辅助假说的规则或原理:使用假说的节约原理。
追记(1972)
在这一章里,我试图表明简单度能够和可检验度等同到什么程度。没有什么东西依赖于“简单性”这个词:我从不就词进行争论,我也不设法揭示简单性的本质。我所试图说明的只是这样:
有些大科学家和大哲学家已经论述了简单性和它对科学的价值。我认为,假如我们假定,当说到简单性时,他们有时在心里想的是可检验性,就能够更好地理解其中一些论述。这一点甚至说明了Poincare的某些例子,虽然这些例子和他的观点是冲突的。
现在我应该进一步强调两点:(1)我们能在可检验性方面比较理论,仅当在这些理论应该解决的问题中,至少有一些是重合的。(2)不能用这种方法比较特设性假说。
目录页 CTJ121E书?2005
上一页 下一页
目录页 [英]卡尔.波普尔《科学发现的逻辑》
上一页 下一页
第八章 概率
在这一章,我将只讨论事件的概率以及它引起的问题。这些问题的产生同博奕论和物理学的概率定律有关。我将什么可称之为假说的概率问题——例如一个经常受到检验的假说是否比一个很少受到检验的假说更可几等问题——留到第79至85节在“验证”题目下进行讨论。
与概率论有关的观念在现代物理学中起着决定性的作用。然而我们仍然缺乏一个满意的、前后一致的概率定义;也就是说,我们仍然缺乏一个满意的概率计算的公理系统。概率和经验之间的关系也仍然需要澄清。在研究这个问题时,我们将发现对我的方法论观点几乎不能克服的反对意见最初是什么。因为虽然概率陈述在经验科学中起着如此重要的作用,可是结果它们却在原则上不受严格证伪的影响。然而,这块绊脚石将成为检验我的理论,以便查明它有什么价值的试金石。
因此我们面临两项任务。第一项任务是为概率计算提供新的基础。我将试图通过把概率论发展为频率理论做到这一点,沿着Richard von Mises所遵循的路线,但不用他称之为的“收敛公理”(或“极限公理”),而使用有点削弱了的“随机公理”。第二项任务是阐明概率和经验之间的关系。这是指解决我所说的概率陈述的可判定性问题。
我希望这些研究将有助于减轻目前的不满意的情况,物理学家在这种情况下大量使用概率,而未能前后一致地说明他们所说的“概率”是什么。
47.概率陈述的解释问题
我将从区别两类概率陈述开始:相数字表示某一概率的陈述——我称之为数值概率陈述——以及不用数字表示的概率陈述。
例如,“用两颗骰子掷11的概率为1/18”,这种陈述就是数值概率陈述一个例子。非数值概率陈述可以有各种各样。“把水和酒精混合获得均匀的混合物是十分可几的”,这类陈述如得到适当阐明,就能转变为数值概率陈述(例如,“获得……的概率很接近1”)。另一种很不同的数值概率陈述例如“发现一种与量子论相矛盾的物理效应是高度不可几的”;我认为这种陈述不可能转变为数值概率陈述,或者与某种数值概率陈述等价,而不歪曲它的意义。我将首先讨论数值概率陈述;非数值概率陈述,我认为不那么重要,容后再考虑。
与每一个数值概率陈述有联系的是这样一个问题:“我们应如何解释这类陈述,特别是这类陈述所作出的数值方面的断言?”
48.主观解释和客观解释
古典的(Laplace的)概率理论把某一概率的数值定义为用同样可能的情况数除有利的情况数所得的商。我们可以不理会已经提出来的反对这个定义的逻辑上的异议,如“同样可能的”不过是“同样可几的”另一种说法。但是甚至在那时我们也很难承认这个定义提供了一个可毫不含糊地应用的解释。因为其中隐含着若干种不同的解释,我要把这些解释分为主观的和客观的两类。
概率论的主观解释常常使用的带有心理学味道的说法,如“数学期望”,或者比方说,“误差的正态定律”等等,使人想起概率论的主观解释;其最初的形式是心理学主义的。它把概率的大小看作为确定或不确定、相信或怀疑的感觉的量度,这些感觉可由某些断言或推测在我们心中引起。关于某些非数值陈述,“可几的”一词可用这种方法颇为满意地加以转译;但是我认为沿着这些路线对数值概率陈述所作的阐释是十分不能令人满意的。
然而,主观解释的较新变种应该在这里给予更认真的考虑。还不是在心理学上,而是在逻辑上把概率陈述解释为关于可称之为陈述“逻辑近似”的断言。正如我们全都知道的那样,陈述能互相处于各种逻辑关系中,如可推演性、不相容性或相互依赖性;而逻辑-主观理论(Keynes是它的主要阐述者)把概率关系看作是两个陈述之间的特种逻辑关系。这种概率关系的两个极端情况是可推演性和矛盾:有人说,如陈述p从陈述q推导出,则q把概率1“给予”p。如p和q相互矛盾,则q给p的概率为0。在这两个极端之间有其他概率关系,大概可以下列方法解释:陈述声(给定q)的数值概率越大,则它的内容超出陈述q已包含的内容越少,p的概率依赖q(并且q把某种概率“给予”p)。
从Keynes把概念定义为“理性信仰程度”这一事实可看出这个理论与心理学主义理论之间的密切关系。他的“理性信仰程度”是指信赖量,可以根据我们从”给予”陈述p概率的那个陈述q中得到的信息或知识赋予p以信任量。
第三种解释,客观解释,把每一个数值概率陈述看作为一种相对频率的陈述,某一种类事件在一偶发事件序列内以这种频率发生。
根据这种解释,“用这颗骰子下一次掷五的概率等于1/6”这陈述实际上不是一个关于下一次掷骰子的断言;宁可说,它是一个关于整个一类掷骰子的断言,下一次掷骰子不过是其中一个元素。这个陈述所说的不过是在这类掷骰子中得5的相对频率等于1/6。
按照这个观点,如果我们能够对数值概率陈述作出濒率阐述,这些陈述才是可接受的。不能作出频率解释的那些概率陈述,尤其是非数值概率陈述,常常被频率理论家回避。
下面我将尝试重新把概率理论作为一种(经过修改的)频率理论建立起来。因此我宣布我信仰客观解释;主要是因为我相信只有客观理论才能解释概率计算在经验科学中的应用。大家承认,主观理论能够给如何判定概率陈述的问题提供一个前后一致的解决办法;并且一般地说,它面临的逻辑困难比客观理论少。但是它的解决办法是:概率陈述是非常经验的;它们是重言的。当我们想起物理学利用概率论时,这种解决办法就证明是完全不能接受的了。(我摈弃主观理论的这种变种:认为客观频率理论应从主观假定中推导出来——也许利用Bernoulli定理作为“桥梁”;由于逻辑上的理由我认为这种纲领是不能实现的。)
49.机遇理论的基本问题
概率理论的最重要应用是用于我们可称之为“似相遇的”(chance-like)或“随机的”事件,或偶发事件。它们的特征是一种特殊的不可计算性,这使得人们经过许多次不成功的尝试后倾向于相信,一切已知的理性预测方法用于这些事件必定失败。可以说,我们感觉到除了先知以外没有一个科学家能够预测它们。然而正是这种不可计算性使我们得出这样的结论:概率的计算能够应用于这些事件。
如果我们接受主观理论,那么从不可计算性达到可计算性(即达到某种计算的可应用性)这个有点悖论性质的结论,确实不再具有悖论性质了。但是这种避免悖论的方法是极不令人满意的。因为它包含着这样的观点:概率计算与经验科学的所有其他方法相反,不是一种计算预测的方法。按照主观理论,它不过是一种使我们已知的东西或者更确切地说,使我们未知的东西实行逻辑变换的方法;因为正是在我们缺乏知识时我们实行这些变换。这种观念确实使悖论消解,但它不能解释被解释为频率陈述的无知陈述如何能够在经验上受到检验和得到验证。然而这正好是我们的问题。我们如何能够解释这个事实:我们可从不可计算性——即从无知——中作出能够解释为经验频率陈述的结论,并且尔后我们发现它们在实践中得到光辉的验证呢?
甚至频率理论直到现在还不能对这个问题——我将称之为机遇理论的基本问题——提供一个令人满意的解答。在第67节将表明这个问题与“收敛公理”有联系,后者是目前形式的这个理论的一个组成部分。但是在这个公理消除后,在频率理论框架内找到一个令人满意的解决办法是可能的。通过分析这样一些假定就会找到这种解答,这些假定使我们能够从单个偶发事件不规则序列推论到它们频率的规则性或稳定性。
50.von Mises 的频率理论
为概率计算的所有主要定理提供基础的频率理论首先由Richard von Mises提出的。他的基本思想如下。
概率计算是似机遇的或随机的事件或偶发事件序列,即例如连续掷骰子那种重复性事件序列的理论。借助两个公理条件把这些序列定义为“似机遇的”或“随机的”:收敛公理(或极限公理),和随机公理。如果一个事件序列满足这两个条件,von Mises就称它为一个“集合”(collective)。
大体上说,一个集会就是一个事件或偶发事件的序列,它在原则上可以无限地延续下去;例如掷骰子序列。假设骰子是破坏不了的。在这些事件中,每一个都有一定的特性和性质;例如可以掷个5,因而具有性质5。如果我们选取直到序列某一元素以前已出现的所有具有性质5的掷骰子次数,除以直到那个元素以前掷骰子的总数(即序列中它的基数),那么我们就获得直到那个元素以前的5的相对频率。如果我们确定了直到这个序列每个元素以前5的相对频率,我们就用这种方法获得一个新的序列——5的相对频率序列。这种频率序列不同于它与之相应的原先的事件序列,后者可称为“事件序列”或“性质序列”。
我选取我们称之为“二择一”(alternative)作为一个集合的简单例子。我们用这个词指假定只有两种性质的事件序列——例如掷一个钱币猜正反面的序列。一种性质(正面)用“1”表示,另一种性质(反面)用“0”来表示。于是事件序列(或性质序列)可用下式表示:
(A) 0 1 1 0 0 0 1 1 1 0 1 0 1 0……
与这种“二择一”相应——或更精确地说,与这种二择一的性质“1”相关——的是下列“相对频率序列”,或“频率序列”:
(A’)0 ……
收敛公理(或“极限公理”)假定,随着事件序列越来越长。频率序列将趋向一个确定的极限值。von Mises使用这个公理是因为我们必须弄清楚我们能够借以工作的某个固定的频率值(即使实际的频率值有一些波动)。在任何集合中至少有两种性质;如果我们得到与某个集合所有性质相应的频率极限值,那么我们就得到集合的“分布”。
随机公理或有时称之为“排除赌博系统原理” (the principle of the excluded gambling system),是打算用来为序列的似机遇性质提供数学表现。显然,如果掷硬币的序列有规律性,比方说在每三次掷正面后就出现反面相当有规律,那么一个赌徒就会用某种赌博系统来改善他的运气。随机公理就一切集合假定,不存在能够成功地应用于这种集合的赌博系统。它假定,不管我们可以选取何种赌博系统以选择认为有利的掷猜(tosses),我们将发现,如果赌博有足够长的时间继续下去,认为有利的掷猜序列中的相对频率接近的极限值与所有掷猜序列的极限值是一样的。因此存在着一种赌徒能借以改善他运气的赌博系统的序列不是von Mises意义上的集合。
对于von Mises来说,概率是“集合中相对频率极限度”的另一个术语。所以概率概念仅应用于事件序列;从Keynes等人的观点看来,这样的限定大概是完全不能接受的。对于批评他的解释太窄的人,von Mises的回答是强调科学的使用概率(例如在物理学中)与一般的使用概率之间的不同。他指出要求定义恰当的科学术语非要在一切方面去适应不确切的、前科学的用法是个错误。
按照von Mises的意见,概率计算的任务只不过在于此:从具有某些给定“初始分布”(initial distributions)的某些给定“初始集合”(initial collectives)推论出具有“导出分布”(derived distributions)的“导出集合”(derived collectives);简言之,根据给定的概率计算出那些没有给定的概率。
von Mises把他的理论的独特特点概括为四点:集合概念先于概率概念;定义概率概念为相对频率的极限值;提出随机公理;以及规定概率计算的任务。
51.新的概率理论计划
von Mises提出的两条公理或公设以定义集合概念曾遇到强烈的批评——我认为这个批评不是没有道理的。特别是反对把收政公理和随机公理结合起来,理由是不允许把极限或收敛的数学概念应用于按照定义(即由于随机公理)必定不服从任何数学规则或定律的序列。因为数学极限值不过是决定序列的数学规则或定律的特有性质。数学极限值不过是这种数学规则或定律的一种性质,如果任意选定一个接近于零的分数,序列中都有一个元素,使得在它之后的所有元素与某个一定的值的差小于这个分数——于是这个值称为它们的极限值。
为了对付这些反对意见,有人建议不要把收敛公理和随机公理结合起来,仅假定收敛,即被限值的存在。至于随机公理,建议或者全然放弃它(Kamke),或者用较弱的要求代替它(Reichenbach)。这些意见的前提是认为引起麻烦的是随机公理。
与这些观点相对照,我倾向于责怪收敛公理不亚于责怪随机公理。因此我认为有两项任务要做:改进随机公理——主要是一个数学问题;以及完全消除收敛公理——认识论家特别关心的一个问题(参阅第66节)。
下面我首先讨论数学问题,然后讨论认识论问题。
这两项任务中的第一项,即数学理论的重建,其主要目的是从一个修改了的随机公理推导出Bernoulli定理——第一个“大数定律”;修改为实现这个目的所需,不要求更多。更确切地说,我的目的是推导出二项式公式(Binomial Formula,有时称为“Newton公式”),我称为“第三式”。因为能用通常的方法从这个公式中获得Bernoulli定理和概率论的其他极限定理。
我的计划是首先制定一个有穷类(finite class)的频率理论,并且尽量在这个框架内发展这个理论——即直至推导出(“第一”)二项式。这个有穷类频率理论原来是类理论(thetheory of classes)一个十分基本的部分。它之得到发展只是为了获得讨论随机公理的基础。
接着我将通过引入收敛公理的老方法进而到无穷序列,即能够无限延续的事件序列,因为我们需要它来讨论随机公理。在推导出和考察Bernoulli定理之后,我将考虑如何能消除收敛公理,以及哪一类公理系统我们应该作为结果保留下来。
在数学推导的过程中,我将使用三个不同的频率符号:F”示有穷类的相对频率;F’示无穷频率-序列相对频率的极限值;最后F示客观额率,即在“不规则”或“随机”或“似机遇”序列中的相对频率。
52.有穷类内的相对频率
让我们考虑一类α的有穷数目的偶发事件,例如昨天用这粒特定的骰子掷猜这类偶发事件。设这类α为非空类(non-empty),可以说它起着参考系的作用,将称之为(有穷的)参考类(reference-class)。属于α的元素数目,即它的基数,用“N(α)”表示,读作“α数”。另一类β,可以是有穷的,也可以不是有穷的。我们称β为性质类(property-class)。例如它可以是所有掷5的类,或(如我们将要说的)所有具有性质5的掷猜类。
属于α又属于β的那些元素类,例如昨天用这粒特定的骰子掷并有性质5的掷类被称为α和β的乘积类(product- class),用“α·β”表示,读作“α和β”。由于α·β是α的子类,它至多能含有有穷的元素数(它可以是空类)。α·β中的元素数用“N(α·β)”表示。
当我们用N表示(有穷)的元素数时,用F”示相对频率。例如,“在有穷参考类α内性质β的相对频率”写作“αF”(β)”,可读作“β的α频率”。我们现在能定义
(定义1) αF”(β)=N(α·β)/N(α)
根据我们的例子这意味着:“昨天用这骰子掷时出现5的相对频率,按照定义等于昨天用这骰子掷5的数被昨天用这骰子掷的总数来除所得的商。”
从这个颇为平凡的定义中,能够十分容易地推导出有穷类中频率计算的定理(更具体地说,一般乘法定理;加法定理;以及除法定理,即Bayes规则)。在这种频率计算的定理中,以及在一般的概率计算中,其特征是基数(N数)从不在其中出现,出现的是相对频率,即比值,或F数。N数仅发生在一些基本定理的证明中,这些基本定理是直接从这个定义中演绎出来的;但N数并不发生在定理自身中。
在这里用一个十分简单的例子来说明对此应作如何理解。让我们用“ ”(读作“β的补数”或简单地读作:“非β”)来表示不属于β的一切元素类。于是我们可写出:
αF”(β)+αF”( )=1
虽然这个定理仅包含F数,它的证明要利用N数。因为这定理认定义(1)中得出,借助于来自断言N(α·β)十N(α·β)=N(α)的类的计算的一个简单定理。
53.选择、独立、无影响、无关
在能够用有穷类相对频率作的运算中,选择(selection)的运算对以下所述有特殊重要性。
设给定一个有穷参考类α,例如一只匣子中的钮扣类,以及两个性质类,β(比方说,红钮扣)和γ(比方说,大钮扣)。我们现在可把乘积类α·β看作一个新的参考类,并提出α·βF”(γ)值的问题,即在新的参考类内γ的频率的问题。新的参考类α·β可称为“从α中选择β元素的结果”或“按照性质β从α中选择”;因为我们可以想到它是通过从α中选择那些具有性质β(红)的一切元素(钮扣)。
γ发生在新的参考类α·β中的频率与发生在原先的参考类α中的频率相同,这恰恰是可能的;即
α·βF”(γ)=αF”(γ)是正确的。在这种情况下,我们(遵循Hausdorff)说性质β和γ“在参考类a内是相互独立的”。独立关系是三项关系,在性质β和γ上是对称的。如果两种性质α和β在参考类α内是(相互)独立的,我们也可说性质γ在α内不受β元素的选择的影响;也许可说参考类α,就性质γ而言,不受按照性质β所作的选择的影响。
β和γ在α内相互独立或不受影响也可——按照主观理论的观点——解释如下:如果我们被告知类α的某一特定元素具有性质β,那么这个信息是无关的,如果β和γ在α内是相互独立的话;也就是对于这个元素是否也有性质γ这个问题是无关的。如果另一方面我们知道,γ更经常(或不那么经常)发生在子类α·β(已根据β从α中选择出来)中,那么某个元素有性质β的信息对于这个元素是否也有性质γ的问题便是有关的了。
54.有穷序列、顺序选择和邻域选择
设有穷参考类α的元素是编了号的(例如盒子中的每一个钮扣都写上一个数目),并且把它们按照序数排列成序列。在这种序列中我们可以区分出两类具有特殊重要性的选择,即按照元素的序数进行选择,或简称顺序选择,以及按照它的邻域进行选择。
顺序选择是根据依赖于元素序数的性质β从序列α中进行选择,元素的选择必须根据序数决定。例如β可以是性质偶数(even),因此我们从a中选择的一切元素,其序数是偶数。因此选择出来的元素形成一个所选子序列(selected sub-sequence)。如果性质γ独立于根据β的顺序选择,那么我们也可说,顺序选择对γ而言是独立的;或者我们也可说序列α就γ而言,不受β元素的选择的影响。
邻域选择之有可能是由于这个事实:在把元素排列为编号序列时,某些邻域关系就形成了。这使我们例如有可能选择那些其直接先行者具有性质γ的所有成员;或者比方说,选择那些其第一和第一个先行者,或其第一个后续者具有性质Y的所有成员,如此等等。
因此如果我们有一个事件序列——比方说掷钱币猜正反面——,我们就必须区分两类性质:如“正面”或“反面”那样一些的主要性质,这些性质属于与其在序列中位置无关的每一个元素;以及如“偶数”或“反面的后续者”等那样一些次要性质,这些性质是一个元素由于它在序列中的地位而获得的。
具有两个主要性质的序列称为“二择一”。正如von Mises业已表明的(如果我们小心仔细),有可能把概率论的基本点发展为二择一理论,而不牺牲普遍性。用“1”和“0”表示二择一的两种主要性质,每一种二择一可表示为许多1和0的序列。
一种二择一的结构可以是有规律的,或者它也可能是多少不规则的。下面我将更周密地研究某些有穷二择一的这种规律性或不规则性。
55.有穷序列的n-自由度
让我们以有穷二择一α为例,它由一个个1和0组成,有规律地排列如下:
(α) 1 1 0 0 1 1 0 0 1 1 0 0 1 1 0 0……在这种二择一中,我们有均等的分布,即1和0的相对频率是均等的。如果我们用“F”(1)”示性质1的相对频率,用“F”(0)”示性质0的相对频率,我们可写:
(1)αF”(1)=αF”(0)=1/2
现在我们从α中选择(在α序列内)具有直接接在1后面的邻域性质的所有项。如果我们用“β”表示这种性质,我们可称为所选子序列“α·β“。它有这样的结构:
(α·β) 1 0 1 0 1 0 1 0 1 0……
这个序列又是具有均等分布的一种二择一。而且,1和0的相对频率都没有变化;即
(2)α·βF”(1)=αF”(1);α·βF”(0)=αF”(0)
用第53节采用的术语,我们可以说二择一α的主要性质不受根据性质β作的选择的影响;简言之,α不受根据β作的选择的影响。
由于α的每一个元素或具有性质β(即是1的后续者)或是0的后续者,我们可用“ ”表示后一性质。如果我们现在选择具有性质 的元素,我们得到这样的二择一:
(α· ) 0 1 0 1 0 1 0 1 0 1 0……
这个序列离均等分布稍有偏差,因为它的始末都是0(因为均等分布a本身以“0’0”结尾)。如果a有2000个元素,那么α· 将有500个0,只有499个1。这些离均等分布(或其他分布)的偏差只是因第一个元素或最后一个元素而引起的,可通过使序列足够长而使这些离差变得如我们喜欢的那么小。由于这个理由在下面我们将置这些偏差于不顾;尤其是我们研究的是无穷序列,在那里这些离差就消失了。因此,我们说,二择一α·β有均等的分布,并且二择一α不受有性质 的元素的选择的影响。结果,α,或更确切地说,α的主要性质的相对频率都不受根据β和根据 作的选择的影响;所以我们可以说,α都不受根据直接先行者的性质所作的每一种选择的影响。
显然,这种无影响是由于二择一α结构的某些方面所致;这些方面可把α与其他二择一区分开来。例如,二择一α.β和α. 并非不受根据先行者的性质所作的选择的影响。
现在我们可以研究二择一α,看看它是否也不受其他选择,尤其是根据一对先行者的性质所作的选择的影响。例如,我们可从α中选择那些是一对1,1的后续者的所有元素。并且我们马上看到α并非不受四种可能的对即1,1;1,0;01;0,0中任何一对后续者的选择的影响。在这些情况下,得到的子序列都没有均等分布;反之,它们全都由不间断的块(blocks,或“反复”iterations)组成,即只由1,或只由0组成。
α不受根据单个先行者作的选择的影响,但是并非不受根据成对先行者的选择的影响,这个事实可用主观理论的观点表述如下。关于α中任何元素一个先行者性质的信息,对于这个元素的性质问题是无关的。另一方面,关于元素的成对先行者的性质的信息则是高度有关的;因为给定α据以建立的定律,它使我们能够预测所讨论的元素的性质:关于元素成对先行者性质的信息,可以说给我们提供演绎出预测所需的初始条件。(a据以建立的定律要求一对性质作为初始条件;因此就这些性质而言,它是“二维的”。详细说明一种性质仅是在成为复合时作为初始条件不充分时才是“无关的”。参阅第38节。)
我没有忘记因果性——原因和结果——概念与预测的演绎的关系是多么密切,同时我要利用下列术语。以前作出的关于二择一α的断言:“α不受根据单个先行者作的选择的影响”,我现在用下列说法来表示:“α不受单个先行者任何后效的约束”,或简言之,“α的自由度为1(1-free)”。不像以前那么说α“不受(或受)根据成对先行者所作的选择的影响”,我现在说:“a不受(或受)成对先行者后效的约束”,或简言之,“α的自由度是(不是)2”。
用自由度为1的二择一作为我们的原型,我们现在能够容易地建立也具有均等分布的其他序列,这些序列不仅不受一个先行者的后效约束,即(像α一样)自由度为1,而且还不受一对先行者后效的约束,即自由度为2;此后,我们可以继续达到自由度为3等等的序列。这样把我们引导到对下述是基本的一般概念。这就是不受直至某个数n的一切先行者后效约束的自由度概念;或者如我们将要说的,n-自白度概念。更精确地说,我们称一个序列“自由度为n”,当且仅当它的主要性质的相对频率是“n重无影响”,即不受根据单个先行者和根据成对先行者和根据三个一组的先行者……和根据n个一组先行者作的选择的影响。
自由度为1的二择一α可以用重复任何倍数的生成周期(generating period)。
(A) 1 1 0 0……
来建立。同样我们获得具有均等分布的自由度为2的二择一,如果我们把
(B) 1 0 1 1 1 0 0 0……
作为它的生成周期,自由度为3的二择一从生成周期
(C) 1 0 1 1 0 0 0 0 1 1 1 1 0 1 0 0……
中获得,而自由度为4的二择一从生成周期
(D) 0 1 1 0 0 0 1 1 1 0 1 0 1 0 0 1 0 0 0 0 0 1 0 1 1 1 1 1 0 0 1 1……
中获得。将会看到:面临一个不规则序列的直觉印象随它n自由度的数n的增长而越强烈。
具有均等分布的一个具n自由度的二择一的生成周期必须包含至少2n+1个元素,作为例子给定的周期,当然可以开始于不同的位置;(C)例如可从它的第四个元素开始,于是我们获得的不是(C),而是
(C’) 1 0 0 0 0 1 1 1 1 0 1 0 0 1 0 1……
有使序列的n-自由度不变的其他变换。为每一个数目n建立n-自由度序列生成周期的方法则在别处描述。
如果我们把下一生成周期的最初的n个元素加在一个自由度为n的二择一上,于是我们得到一个长度为2[n+1]+n的序列。除了其他性质外,这个序列还有以下的性质:n+1个0和1的每一种排列,即每一个可能的n+1个组,至少在其中发生过一次。
56.节段序列 二项式的第一形式
给定一个有穷的序列α,我们称由n个连续元素组成的α的子系列为‘’α的n长度节段”;或更简单地说,“α的n-节段”。如果除了序列α以外,还给定某个定数n,那么我们能够把α的n-节段排列在一个序列中——α的n-节段序列。给定一个序列α,我们就可以从α的最初的n个元素的节段开始这种方式,建立一个新的序列,即α的n-节段序列。其次是α的2到n+1的元素的节段。一般地说,我们把α的从x到x+n-1的诸元素组成的节段看作新序列的第x个元素。如此获得的新序列可称为“α的交迭n-节段(overlapping n一segments)序列”。这个名称表示,新序列的任何两个连续元素(即节段)以这种方式交迭;使它们共有原先序列α的n-1元素。
现在我们通过选择可以从一个交迭节段的序列中,获得其他序列,尤其是毗邻n-节段(adjoining n-segments)的序列。
一个毗邻n-节段序列只含这样一些n-节段,它们在不交迭的α中,互相直接接续。例如开始也许是原先序列α的编号为1至n的元素的n-节段,续在后面的是n+1至2n,2n+1至3n如此等等的元素的n-节段。一般来说,一个毗邻节段的序列将以α的第k个元素开始,而它的节段将包含α的编号为直至n+k-1,n+k至2n+k-1,2n+k至3n+k-1如此等等的元素。
下面将用“α(n)”示α的交迭n-节段的序列,用“αn”示毗邻n-节段序列。
现在让我们更详细一点考虑交迭节段α(n)的诸序列。这样一种节段的每一个元素是α的一个n-节段。我们可以把例如组成节段的n个一组的有序的0和1看作是α(n)一个元素的主要性质。或者我们可以更为简单地把它的1的数目看作是这个元素(不管1和0的次序)的主要性质。如果我们用“m”表示1的数目,则显然m≤n。
现在我们又从每一个序列α(n)得到一个二择一。如果我们选择一个特定的m(m≤n),并将性质“m”赋予序列α(n)的正好有m个1(所以有n-m个0)的每一个元素,并且把性质“ ”(非m)赋予α(n)的所有其他元素的话。因此α(n)的每一个元素必定有这两个性质中的一个或另一个。
现在让我们再次设想,给定一个具有主要性质“1”和“0”的一个有穷二择一。设1的频率αF”(1)等于p,0的频率αF”(0)等于q。(我们设分布是不均等的,即p≠q。)
现在让这个二择一α至少有n-1个自由度(n是任意挑选的自然数)。于是我们可向下列的问题:性质m在序列α(n)中出现的频率是多少?换言之,α(n)F”(m)的值是多少?
除了α至少有n-1个自由度外,我们什么也不假定,我们就能用初等算术解决这个问题。答案包含在下列公式中:
(1)α(n)F”(m)=
“二项”式(1)的右边是由Newton在论述有关别的问题时提出的(有时称为Newton公式)。我将称它为“二项式的第一形式”。
由于推导出了这个公式我就不再在有穷参考类内考察频率理论。这个公式将提供给我们一个基础来讨论随机公理。
57 无穷序列 频率的假说性估计
把为n-自由度有穷序列获得的结果推广到用生成周期(参阅第55节)定义的n-自由度无穷序列是十分容易的。起着参考类(我们的相对频率与此有关)作用的一个无穷的元素序列可称为“参考序列”。它多少与von Mises意义上的“集合”相对应。
n-自由度的概念以相对频率的概念为前提;因为n-自由度的定义要求不受影响——不受根据一定的先行者所作的选择的影响——的是一种性质在其中发生的相对频率。在我们讨论有穷序列的定理中,我将暂时使用(直到第64节)相对频率极限值(用F’表示)概念代替有穷类的相对频率(F”)。只要我们把自己限于根据某个数学规则建立的参考序列,这个概念的使用就不会发生问题。对于这些序列我们总可以确定相应的相对频率序列是否是收敛的。相对频率极限值概念只是在没有数学规则只有经验规则(与例如钱卜序列有关的)的序列的情况下才会引起麻烦;因为在这些情况下,极限值概念是未定义的(参阅第51节)。
建立序列的数学规则的一个例子如下:“序列α的第n个元素应该是0,当且仅当n可被4除”。它定义的无穷二择一是
(α) 1 1 1 0 1 1 1 0……
其相对频率的极限值αF’(1)=3/4; αF’(0)=1/4。借助数学规则用这种方法定义的序列我简称为“数学序列”。
与之相对照,建立经验序列的规则是例如“序列α的第n个元素将是0,当且仅当硬币c的第n次掷猜出现反面时”。但是经验规则不一定总是定义随机性质的序列。例如,我应该把下列规则称为经验规则:“序列的第n个元素将是1,当且仅当第n秒(从某个零时算起)时,发现摆p摆到这标记的左方时”。
这个例子表明有时——例如根据与摆有关的一些假说和测量——可用数学规则代替经验规则。用这种方法我们会找到一个数学序列,它以按我们的目的也许使我们满意,也许不能使我们满意的精确度接近于我们的经验序列。有可能(我们的例子可用来建立这种可能)获得一个其各种频率接近于那些经验序列的频率,在我们目前的情况下具有特殊的意义。
我把序列分为数学序列和经验序列时,我利用的是“内包”上的差别,不是“外延”上的差别。因为如果用“外延”方法,即用一个接一个地列举其元素的方法使我们得一个序列--因此我们就只能知道它的一个有穷的片段,一个有穷的节段,不管它有多长——,那么就不可能根据这个节段的性质确定其一部分的序列是学序列还是经验序列。仅当给定一个建构规则——即“内包”规则—一时,我们就能判定一个序列是否是数学的还是经验数的。由于我们希望借极限值(相对频率)概念之助处理我们的无穷序列,我们必须把我们的研究限于数学序列,实际上就是限于相应的相对频率序列是收敛的那些数学序列。这种限制等于引入收敛公理。(与这公理有关的问题到第63-66节再讨论,因为与“大数定律”一起讨论它们比较方便。)
因此我们将只谈数学序列。然而我们将只谈那些数学序列:我们期望或推测它们就频率而言接近于具有似机遇或随机性质的经验序列,因为它们是我们的主要兴趣所在。但是期望或推测一个数学序列,就频率而言它接近于经验序列,不过是提出一个假说——一个关于经验序列频率的假说。
我们对经验随机序列的频率的估计是假说这一事实,对我们用以计算这些频率的方法没有任何影响。显然,在有穷类方面,它对我们如何获得我们的计算由此开始的频率,丝毫没有关系。这些频率可借实际计算获得,或根据一条数学规则,或根据某种假说获得。或者我们简直可以虚构一些频率。在计算频率时我们接受某些频率作为给定的,并从中推导出其他频率。
无穷序列中的概率估计同样如此。因此关于我们频率估计的来源问题不是一个频率计算问题;然而这并不是说把这个问题从我们关于概率论问题的讨论中排除出去。
在无穷经验序列的情况中,我们能区分出我们假说性频率估计的两种主要“来源”——就是说两种方法,我们用这两种方法就可估计出频率。一是基于“均等-机遇假说”(equal chance hypothesis),(或等概率假说equi-probability hypothesis)的估计,另一是基于统计结果的外推(extrapolation of statisticalfndings)。
我用“均筹-机遇假说”,是指这样一种假说,它断言各种主要性质的概率是均等的:它是断言均等分布的假说。均等-机遇假说常常基于对称性的考虑。最典型的例子是掷骰子时均等频率的推测,其根据是立方体六面的对称性和几何等值。
至于基于统计学外推的频率假说,死亡率的估计提供一个很好的例子。在这里关于死亡率的统计资料是用经验查明的,并且根据过去的趋势将继续足十分接近稳定的,或者它们不会有很大变化——至少在最近时期内——的假说从已知事例,即从已用经验加以分类和计算的偶发事件外推到未知事例。
具有归纳主义倾向的人容易忽视这些估计的假说性质,他们会把假说性估计,即基于统计外推的频率预测同它们的经验“来源”之——过去的偶发事件和偶发事件序列的分类与实际计算混为一谈。往往提出这样的主张;我们从已加以分类和计算的过去的偶发事件(如死亡统计)中“推导出”概率估计——即频率预测。但是从逻辑观点看,这个主张并没有得到证明。我们根本没有作什么逻辑推导。我们已经做的是提出一个不可证实的假说,这个假说在逻辑上是永远得不到证明的,这个假说就是推测频率仍将稳定不变,因此允许外推。甚至均等-机遇假说也被一些相信归纳逻辑的人认为是“经验上可推导的”,或“经验上可说明的”,他们认为这些假说基于统计经验,即基于经验上观察到的频率。然而就我来说,我相信,我们在作出这种假说性估计时,往往单独爱关于对称意义的想法以及类似的考虑的引导。我看不出有任何理由为什么这些推测应该只是由于积累大量归纳观察而产生的。然而,我并不赋于我们估计的起源或“来源”这些问题以很大意义(参阅第2节)。我认为,更重要的是对这个事实要十分清晰,即频率的一切预测性估计,包括我们从统计外推中得到的频率——当然还有所有与无穷经验序列有关的频率——总是纯粹的推测,因为它总是超出我们有权根据观察肯定的任何东西。
我对均等-机遇假说和统计外推的区分与“先验”和“后验”概率的经典区分是完全符合的。但是由于这些术语是用于如此多的不同意义。而且由于这些术语因哲学上的联想而被严重玷污,最好还是避免用它们。
我在下面考察随机公理时,将试图寻找逼近随机经验序列的数学序列;这就是说我将考察频率假说。
58 随机公理的考察
顺序选择(即按位置选择)的概念和邻域选择的概念均已在第55节中引入和说明。我现在将借助这些概念检查vonMises的随机公理——排除赌博系统原理——以希望找到一个能代替这个公理的较弱的要求。在von Mises的理论中,这个公理是他的集合概念的定义的一部分:他要求一个集合中频率的极限一定要对任何种类的系统选择(systematic Selection)不敏感(他指出,赌博系统总是可被认为是一种系统选择。)。
对这个公理提出的大多数批评集中于它的表述的相对不重要的和表面的方面。这与下列事实有关,即在各种可能的选择中,会有这样的选择:比方说选择那些接近5的掷;显然在这种选择内,5的频率会与在原先序列内5的频率迥然不同。这就是为什么von Mises在他的随机公理表述中谈到他所说的“选择”或“选取”是“独立于”掷的“结果”,因而不用所选元素的性质去定义。但是只要指出我们可以根本不用成问题的措词来表述von Mises的随机公理,就可以完全答复针对这种表述的许多非难。因为例如我们可以表述如下:在一个集合中频率的极限一定都不受顺序选择和邻域选择的影响,而且也不受可用作赌博系统的这两种选择方法的所有组合的影响。
上述困难随这个表述而消失。然而其他困难仍保留。因此也许不可能证明,借助如此强的随机公理定义的一个集合概念,不是自相矛盾的;换言之,不可能证明“集合”的类不是空的。(Kamke曾强调证明这一点的必要)至少,建构某个集合的例子,并用这种方式说明集合的存在,这似乎是不可能的。这是因为满足一定条件的某一无穷序列的例子只可能由数学规则来提供。但是对于von Mises意义上的集合,根据定义不可能有这种规则,因为能够把任何规则都用作一种赌博系统或选择系统。如果所有可能的赌博系统都被排除,这种批评确实是无法驳斥的。
然而也可提出另外的异议来反对排除所有赌博系统的概念:它的要求实在太多了。如果我们要使某个陈述系统公理化——在这个场合是概率计算定理,尤其是特殊的乘法定理或Bernoulli定理——,那么所选的公理不仅应该对系统定理的推导是充分的,而且也是(如果我们能这样推导出定理)必要的。然而可以表明排除所有选择系统对Bernoulli定理及其系统定理是不必要的。要求排除特殊类的邻域选择是十分充分的:它是以要求序列应该不受根据任意选取的n个一组的先行者所作的选择的影响;也就是说,它应该有n个自由度,不受每个n的后效的约束,或简言之,它应该是“绝对自由的。”
所以我建议用不那么严格的“绝对自由”的要求(对每一个n有n-自由度的意义上)来代替von Mises的排除赌博系统原理,并且相应地把似机遇的数学序列定义为满足这个要求的序列。其主要优点是不排除所有赌博系统,因此有可能提供建构在我们的意义上“绝对自由的”序列的数学规则,从而有可能建构实例。因此也就满足了上面讨论的Kamke的异议。因为我们现在能够证明似机遇数学序列的概念不是空的,所以是前后一致。
也许有点奇怪:我们应该试图借助必须符合最严格规则的数学序列来勾划机遇序列极不规则的特点。von Mises的随机公理起初似乎使我们的直觉更为满意。一个机遇序列必定是完全不规则的,因此只要我们继续努力试图通过把这个序列延伸得足够长来证伪这个推测的话,任何推测的规则性一定会在序列的后面部分遇到失败,知道这一点是颇为令人满意的。但是这个直觉的论证也有利于我的建议。因为如果机遇序列是不规则的,那么,不容置疑,它们就不会是某种特殊类型的规则序列。而我们的“绝对自由”要求不过是排除一种特殊类型的规则序列,尽管是一种重要的类型。
它是一种重要的类型这一点可以从这个事实中看出,即根据我们的要求不言而喻地排除下述三种典型的赌博系统(参阅下一节)。首先我们排除“正态的”或“纯粹的”邻域选择,在其中我们根据邻域的某种恒定的特征进行选择。其次,我们排除“正态的”顺序选择,这种选择选取的元素,它们的间距是恒定的,例如标号为是k,n+k,2n+k……等等的元素;最后,我们排除这两种类型选择的许多组合(例如一切第n个元素的选择,假如它的邻域具有某种具体的恒定特征)。所有这些选择的独特性质是,它们与序列的绝对的第一元素无关;如果原先的序列从另一个(相应的)元素开始标号,它们就可产生同样的所选的子序列。因此被我的要求排除的赌博系统是那些无需知道序列的第一元素而可使用的赌博系统。被排除的系统总涉及某些(线性)变换。它们是简单的赌博系统。(参阅第43节)。我的要求不予排除的只是涉及诸元素与绝对的(初始的)元素间有绝对距离的赌博系统。
对一切n有自由度n——“绝对自由”——的要求也与我们大多数自觉地或不自觉地认为对机遇序列也适用的东西完全一致;例如一粒骰子下一次掷的结果不依赖以前几次掷的结果(掷以前摇摇骰子的做法就是想要保证这种“独立性”)。
59.似机遇序列 客观概率
鉴于我已说过的那些东西,我现在提出下列定义。
我们说一个事件序列或性质序列,尤其是一个二择一,是“似机遇”或“随机的”,当且仅当它的主要性质的频率极限是“绝对自由的”,即不受根据任何n个一组的先行者的性质所作的一切选择的影响。与随机的序列相应的频率极限被称为在有关序列内该性质的客观概率;用F表示。这也可表述如下。设α为具有主要性质B的似机遇或似随机序列;这时下式成立:
αF(β)=αF’(β)
返回书籍页