必读网 - 人生必读的书

TXT下载此书 | 书籍信息


(双击鼠标开启屏幕滚动,鼠标上下控制速度) 返回首页
选择背景色:
浏览字体:[ ]  
字体颜色: 双击鼠标滚屏: (1最慢,10最快)

科学发现的逻辑

_3 波普尔(英)
现在我们设想:给我们一个理论,代表这理论禁止的基础陈述的扇形变得越来越宽,最后只留下一条窄的扇形代表着不为这理论所禁止的基础陈述(假如这理论是无矛盾的,就必定会有这样的扇形留下)。像这样的理论显然很容易证伪,因为它只允许经验世界有一个很小范围的可能性;因为它排除了几乎所有可设想的,即逻辑上可能的事件。它对经验世界断言如此之多。它的经验内容如此之大,以至可以说很少有逃脱被证伪的机会。
确切地说,理论科学的目的就在于获得在上述意义上易于证伪的理论。它的目的在于限制允许的事件到最小的范围,假如能够做到的话,小到这样的程度,任何进一步的限制就会导致这理论的实际的经验的证伪。假如我们能成功地获得这样一个理论,那么这个理论就能描述“我们的特殊世界’精确到理论描述所可能达到的程度;因为它会用理论科学所可能达到的最大的精确性,来从所有在逻辑上可能的经验世界类中挑选出“我们的经验”世界来。所有我们实际遭遇到和观察到的所有事件或偶发事件类,而且只有这些,才称作“被允许的”。
32.如何比较潜在证伪者类
潜在证伪者类是无限类。直觉的“较多”和“较少”,不要任何特殊保证条件就可应用于有限类,却不能同样地应用于无限类。
我们不容易躲开这个困难。即使我们为作比较而考虑被禁止的事件类,而不考虑被禁止的基础陈述或偶发事件,为了弄清其中哪一个含有“更多的”被禁止的事件,也不易躲开上述困难。因为某一经验理论所禁止的事件数也是无限的,这点可以从下列事实中看出:一个被禁止的事件和任何其他事件(不管它是否是被禁止的)的合取又是一个被禁止的事件。
我将考虑三种方法,即使在无限类的情况下,也给予这直觉的“较多”或“较少”一个精确的意义,以便找出其中哪一种可用来比较被禁止的事件类。
(1)类的基数(或幂)的概念。这个概念不能帮助我们解决我们的问题,因为很容易看出,潜在证伪者类对所有的理论有着同一的基数。
(2)维的概念。立方体以某种方式包含比直线更多的点,这个模糊的直观的观念,能够通过集合论的“维”概念以逻辑上无懈可击的术语清楚地表述。这种概念对点的类或集是按照在它们的元素之间的“邻域关系”的丰度加以区别的:更高维的集具有更丰富的领域关系。维的概念,使我们能比较“较高”和“较低”维的类,这里将被用来处理比较可检验度的问题。这是可能的,因为基础陈述通过和其他基础陈述的合取结合起来又产生基础陈述,这个新产生的基础陈述比它们的组成部分“具有更高的复合度”;而基础陈述的这个复合度可以和维的概念联系起来。不过,必须使用被允许的事件的复合而不是被禁止的事件的复合。理由是,一个理论禁止的事件可以有任何复合度;另一方面,某些被允许的陈述之所以被允许,只是因为它们的形式,或者更确切地说,因为它们的复合度太低,以致使它们不能和该理论相矛盾;可以利用这个事实来比较维。
(3)子类关系。设类α的所有元素也是类β的元素,因而α是β的子类(符号表示:α β)。那么,或者β的所有元素也是α的元素——在这种情况下,我们说这两类具有相同的外延或者说它们是等同的——或者β的有些元素不属于a。在后一种情况下,不属于α的β的元素形成“余类”或称为α对于β的补类,α是β的一个真子类。子类关系和直觉的“较多”和“较少”非常对应,但是,它的不利之处是,这种关系只能用来比较两个互相包含的类。所以,假如两个潜在证伪者类不是互相包含,而是互相交叉,或者它们没有共同的元素,那么,相应的理论的可证伪度就不能用子类关系来比较;它们对于这种关系来说,是不可比的。
33.用子类关系比较可证伪度
暂时引进下列定义,以后在讨论理论的维数时将加以改进。
(1)说陈述x比陈述y“更高度可证伪”或“更可检验”,或用符号表示:Fsb(x)>Fsb(y),当且仅当x的潜在证伪者类包含作为一个真子类的y的潜在证伪者类。
(2)如果两个陈述x和y的潜在证伪者类同一,则它们有相同的可证伪度,即:Fsb(x)=Fab(y)。
(3)如果这两个陈述的潜在证伪者类并不作为真子类相互包含,则这两个陈述没有可比的可证伪度(Fsb(x)‖Fsb(y))。
假如(1)适用,总是有一个非空的补类。在全称陈述的情况下,这个补类必定是无限的。因此,两个(严格全称)理论不可能有这样的区别:其中一个理论禁止为另一个理论所允许的有限数量的单个偶发事件。
所有重言的和形而上学的陈述的潜在证伪者类都是空的。所以,按照(2),它们是同一的。(因为,空类是所有类的子类,因而也是空类的子类,所以,所有空类是同一的;这一点可以表示为:只存在一个空类。)如果我们用‘e’表示经验陈述,用‘t’或‘m’分别表示重言的或形而上学的陈述(例如,纯粹存在陈述),那么我们可以给重言的或形而上学的陈述一个零可证伪度,我们写作:Fsb(t)=Fsb(m)=0Fsb(e)>0。
自相矛盾的陈述(可以用(c)来表示),可以说是具有所有在逻辑上可能的基础陈述作为它的潜在证伪者类。这个意思就是说,任何陈述,就其可证伪度而言,都是和自相矛盾陈述可比的。我们得出:Fsb(c)>Fsb(e)>0。如果我们任意地设Fsb(c)=1,即任意地把1赋予某一目相矛盾的陈述的可证伪度,那么我们甚至可以用条件1>Fsb(e)>0来定义经验陈述e。按照这个公式,Fsb(e)总是在0和1之间的间隔内,不包括两端,即在以这两个数字为界的“开放间隔”内。由于把矛盾陈述和重言陈述(形而上学陈述也一样)排除在外,这个公式同时表达了无矛盾性的要求和可证伪性的要求。
34.子类关系的结构 逻辑概率
我们已经用子类关系对两个陈述的可证伪度的比较下了定义。因此,可证伪度的比较就具有子类关系的所有结构性质。可比较性问题可以用一个图(图1)来说明。在这个图中,左边画的是某些子类关系,右边画的是相应的可检验性关系。右边的阿拉伯数字对应于左边的罗马数字,某一罗马数字表示相应的阿拉伯数字所表示的那个陈述的潜在证伪者类。在这个图里表示可检验度的箭头,从具有更可检验的或更可证伪的陈述走向不那么可检验的陈述(因此它们相当准确地与可推导性箭头相当:参看第35节)。
从图中可以看出,各种子类序列可加以区别和追溯,例如,序列Ⅰ-Ⅱ-Ⅳ或Ⅰ-Ⅲ-Ⅴ;并且可以看出,引进新的中间类,可以使得这些序列更加“密集”。所有这些序列在这个特殊情况下都始于1和终于空类,因为空类被包含在每一个类里(在左面的图里,不可能画出空类,只是因为它是每一个类的子类,因此可以说必须出现在每一个地方)。如果我们选择类Ⅰ作为所有可能的基础陈述类,那么Ⅰ就变成矛盾陈述(c),而0(相当于空类)就可以表示重言陈述(t)。从Ⅰ到空类,或者从(c)到(t),可能通过各种途径;从右边的图中可以看出,某些途径可以互相交叉。因此我们可以说,这种关系的结构是一种网络结构(由箭头或子类关系排列成的“序列的网络”)。在节结点(例如,陈述4和5)网络部分地联结起来。只有在普遍类和空类里,对应于矛盾陈述c和重言陈述t;关系才完全联结起来。
是否可能把各种陈述的可证伪度排列在一个标尺上,即把按照它们的可证伪度排列的数字同各种陈述相关起来?显然,我们不可能用这种方法把所有的陈述排列起来,因为,如果能够的话,我们就会随意地使得那些不可比的陈述成为可比的。但是,我们完全可以从网络中挑选出某个序列,用数字来表示该序列陈述的次序。这样做时,我们必须给离矛盾陈述c较近的陈述的数字,比给离重言陈述t较近的陈述高。由于我们已经分别以0和1赋予重言陈述和矛盾陈述,我们就必须以真分数赋予所挑选的序列中的经验陈述。
然而,我并不真正想挑选出某一个序列来。赋予这序列中的陈述以数字也是完全任意的。不过,可能给以分数这一事实有很大意义,特别是因为它说明了在可证伪度和概率观念之间的联系。每当我们能比较两个陈述的可证伪度时,我们就能说,可证伪度较小的陈述由于它的逻辑形式,也是概率较大的,这种概率我称为“逻辑概率”。不可把它和在博奕论和统计学中使用的数值概率相混淆。陈述的逻辑概率和它的可证伪度是互补的:它随可证伪度的减少而增加。逻辑概率1相当于可证伪度0,反过来也是如此。具有更可检验度的陈述,即具有更高可证伪度的陈述,是在逻辑上更少可几的陈述;而可检验性较差的陈述是在逻辑上更可几的陈述。
在第72节中将看到,数值概率能和逻辑概率联结起来,因而也能和可证伪度联结起来。有可能把数值概率解释为适用于(从逻辑概率关系中挑选出来的)子系列的东西,可以在频率估计的基础上为这子系列规定一种测量系统。
这些对可证伪度比较的考察不仅适用于全称陈述或理论系统;它们也可推广应用于单称陈述。例如,它们适用于和初始条件合取的理论。在这种情况下,潜在证伪者类不可被误认为事件类——同型的基础陈述类——,因为它是偶发事件类(这点和将在第72节中分析的逻辑概率和数值概率之间的联系有某种关系)。
35.经验内容、衍推和可证伪度
在第31节中说到,我称之为陈述的经验内容的东西随着它的可证伪度而增加:陈述禁止越多,它对经验世界所说越多(参看第6节)。我称为“经验内容”的东西和比如,Carnap定义的“内容”概念有密切的关系,但不是同一的。对于后者,我使用术语“逻辑内容”,以与经验内容相区别。
我定义陈述p的经验内容为它的潜在证伪者类(参看第31节)。逻辑内容,借可推导性概念之助,被定义为从该陈述中可推导出的所有非重言陈述类(可以称作它的“后承类”)。所以,p的逻辑内容至少等于(即大于或等于)陈述q的逻辑内容,如q可从p中推导出来(符号表示:如‘p→ q’)。如果可推导性是相互的(符号‘p←→q’),则说p和q有相同的内容如q可从p中推导出,而p不能从q中推导出,则q的后承类,一定是p的后承类的一个真子集;则p具有更大的后承类,并且从而具有更大的逻辑内容(或者逻辑力)。
我的经验内容的定义的一个推断是,两个陈述p和q的逻辑内容和经验内容的比较导致相同的结果,假如作比较的陈述不包含形而上学要素的话。因此我们要求:(a)有着相等的逻辑内容的两个陈述也必定具有相等的经验内容;(b)陈述p的逻辑内容大于陈述q的逻辑内容,也必定具有更大的经验内容,或者至少相等的经验内容;最后(c)假如陈述p的经验内容大于陈述q的经验内容,那么它的逻辑内容必定更大,否则就是不可比的。在(b)里必须加上“或者至少相等的经验内容”,这个限制因为p例如可能是q和某个纯粹存在陈述或其他某类形而上学陈述(我们必经赋以一定的逻辑内容)的合取;因为在这种情况下,p的经验内容将不大于q的经验内容。相应的考虑使得在(c)上加上“否则就是不可比的”这条限制成为必要。
因此,在比较可检验度或经验内容度时,我们通常——就是说,在纯粹经验陈述的情况下——达到和比较逻辑内容或可推导性关系时所达到的相同的结果。因此,可能把可证伪度的比较在很大程度上建立在可推导性关系的基础之上。两种关系都表明网络的形式,这网络在自相矛盾陈述和重言陈述里完全地联结起来(参看第34节)。这一点可以下列说法表示:自相矛盾陈述衍推每一个陈述,而重言陈述为每一个陈述所衍推。而且,我们已经看到,经验陈述可被描述成这样的陈述:它们的可证伪度落在以自相矛盾陈述的可证伪度为一端,以重言陈述的可证伪度为另一端的开放间隔中间。相同地,一般的综合陈述(包括非经验的陈述)也由于衍推关系,被放置在自相矛盾陈述和重言陈述之间的开放间隔中间。
因此,和所有非经验的(形而上学的)陈述都是“无意义的”实证主义命题相对应的就会是这样的命题:我在经验的陈述和综合的陈述之间,或在经验内容和逻辑内容之间所作的区别是多余的;因为所有综合陈述必须是经验的——即所有都是真正的而不只是伪陈述。但是,我认为,这种使用词的方式,虽然是可行的,并不能把问题澄清,反而把问题混淆了。
因此,我把对两个陈述的经验内容所作的比较,看作等同于对它们的可证伪度所作的比较。这就使得我们的方法论规则,即应该选择那些能经受最严格的检验的理论(参看第20节中反约定主义的规则),等同于这样的规则:选择具有最大可能的经验内容的理论。
36.普遍性水平和精确度
还有其他的方法论要求,可以还原为对最大可能的经验内容的要求。其中两个要求是突出的:对可能达到的最高水平(或程度)的普遍性的要求,和对可能达到的最高精确度的要求。
考虑到这些要求,我们来考察下列可设想的自然律:
p:所有在封闭轨道中运行的天体作圆形运动,或者更简洁地说,所有天体轨道是圆。
q:所有行星轨道是圆。
r:所有天体轨道是椭圆。
s:所有行星轨道是椭圆。
在这四个陈述中存在的可推导性关系在我的图中用箭头表示。从p可以得出所有其他的陈述,从q可以得出s,s也可从r得出;所以s可以从所有其他陈述得出。
从p移动到q,普遍性程度减少,q表达的比p少,因为行星轨道形成天体轨道的一个真子类。因此,p比q更易于被证伪:如q被证伪,p也被证伪,但是反之不然。从p移动到r,(谓语的)精确度减少:圆是椭圆的其子类;如r被证伪,p也被证伪,但是反之不然。相应的话可以应用到其他的移动上:从p移动到s,普遍性程度和精确度二者都减少;从q到s,精确度减少;而从r到s,普遍性程度减少。和较高程度的普遍性或精确度相对应的是较大的(逻辑的,或)经验的内容,因而有较高的可证伪度。
全称陈述和单称陈述二者都可以写成“全称条件陈述”的形式(或者经常称作“一般蕴涵”)。假如我们把我们的四个定律写成这个形式,那么我们也许能更容易和更准确地看到两个陈述的普遍性程度和精确度是如何进行比较的。
全称条件陈述(参看第14节注)可以写成下列形式:‘(x)(φx→fx)’,或者读为:“所有x的值,满足陈述函项φx的,也满足陈述函项fx”。我们的图中的陈述s产生下列例子:“(x)(x是一颗行星的轨道→x是一个椭圆)”的意思是:“不论x是什么,如果x是一颗行星的轨道,则x是一个椭圆”。设p和q是写成这种“标准”形式的两个陈述;那么我们可以说,p比q有着更大的普遍性,如果p的前件陈述函项(可以用‘φpx’来表示)是重言地蕴含于(或可合乎逻辑地推导于),但是不等同于q的相应的陈述函项(可以用‘φqx’来表示);或换言之,如果‘(x)φqx→φpx’是重言的(或逻辑上真的)。同样,我们说,p比q有着更大的精确性,如果‘(x)(fpx→fqx)’是重言的。即如果p的谓词(或者后件陈述函项)比q的谓词更窄,这就意味着:p的谓词衍推q的谓词。
这个定义可以推广到有着不止一个变量的陈述函项中。基本的逻辑变换从它导致我们已断言过的可推导性关系,这种关系可以用下列规则来表示:如果两个陈述的普遍性和精确性都是可比的,那么,较不普遍或较不精确的陈述可以从较普遍或较精确的陈述中推导出来;当然,除非一个更普遍而另一个更精确(如在我的图中q和r的情况)。
现在我们可以说,我们的方法论决定——有时被形而上学地解释成因果性原理——应不让任何事情得不到解释,即总是试图从其他具有更高普遍性的陈述中推导出陈述来。这个决定是从可达到的最高普遍性程度和精确度的要求中推导出来的,而这个要求可以还原成这样的要求或规则:应该选择能经受最严格检验的理论。
37.逻辑域 略论测量理论
如果陈述p,由于具有更高水平的普遍性或精确性,比陈述q更易于证伪,那么,为p所允许的基础陈述类是为q所允许的基础陈述类的一个真子类。适用于被允许的陈述类之间的子类关系,是适用于被禁止的陈述(潜在证伪者)类之间的子类关系的对立物:这两个关系可以说是相反的(也许可以说是互补的)。为一个陈述所允许的基础陈述类,可以称作它的“域”。一个陈述允许实在有的“域”,可以说是它允许实在“自由活动”的范围(或者自由度)。域和经验内容(参看第35节)是相反(或互补)的概念。因此,两个陈述的域的相互关系和它们的逻辑概率的相互关系一样(参看第34、72节)。
我引进域概念,因为它帮助我们处理和测量的精确度相联系的某些问题。假定两个理论的推断在所有的应用领域里区别是如此之小,以至在计算可观察事件之间的细微差别,由于在我们的测量中可达到的精确度不够高而不能检测到。因此,不首先改进我们的测量技术,就不可能用实验在这两个理论中作出判定。这表明,现行的测量技术决定了一定的域——一个范围,在这个范围内观察其间的差别为理论所允许。
因此,理论应该有可达到的最高可检验度(因此只允许最窄的域),这一规则衍推这样的要求:测量的精确度应尽可能提高。
人们经常说,所有测量都在于确定点的重合。但是任何这种确定只能在某些限度内才是正确的。在严格的意义上,不存在点的重合。两个物理“点”——比如,在量杆上的一个标记,在被测量物体上的另一个标记——它们至多能做到靠得很近;但不能重合,即不能合并成一点。不管在其他场合这个说法是如何的平凡,它对测量的精确性来说是重要的。因为它使我们想到,测量应该用下列术语来描述。我们发现,被测量的物体的点落在量杆的两个级别或标记之间,或者比方说,我们的测量仪器的指针落在刻度的两级之间。然后我们可以或者把这些级别或标记看作我们误差的两个最佳界限,或者去估计(比方说)指针在刻度间隔内的位置,因而得到一个比较准确的结果。人们可以这样描述这后一情况:我们使指针落在两个想象中的分级标记之间。因此,一个间隔、一个域总是存留着。物理学家的习惯是每一次测量都要估计这个间隔。(因此,例如他们效法Milliken用静电单位测量电子的基本电荷,得出e=4.774·10-10,加上:不精确范围是±O.005·10-10。)但是这里发生一个问题。人们用两个标记——即间隔的两个边界——来代替刻度上的一个标记的目的究竟是什么,对于这两个边界的每一个,又一定会提出同样的问题:对于这间隔的边界,什么是准确性的界限呢?
给出间隔的边界显然是无用的,除非这两个边界本身能以大大超过我们对原来的测量所希望达到的精确度确定下来;即在它们不精确的间隔内确定下来,这些间隔因此应该比它们为原来的测量值确定的间隔小几个数量级。换句话说,间隔的边界不是截然分明的,而实际上是很小的间隔,这个间隔的边界本身仍然是更小得多的间隔,等等。就这样我们达到了可以称为间隔的“不分明的边界”或“缩聚边界”的观念。
这些考虑并不以误差的数学理论和概率论为前提。这走的是另一条迂迴的路;通过分析测量间隔的观念,这些考虑提供了一个背景,如果没有这个背景,误差的统计理论就没有什么意义。如果我们测量一个量许多次,我们得到的数值以不同的密度分布在某一间隔——精确性的间隔依赖现行的测量技术。仅当我们知道我们追求什么——即这个间隙的缩聚边界——我们才能把误差理论应用到这些数值上,并确定间隔的边界。
现在我想所有这些多少说明了使用测量方法对于纯定性方法的优越性。即使在定性估计的情况下,例如对一个乐音的音高的估计,有时也可能为这种估计给出一个准确性的间隔,这是正确的;但是,没有测量,任何这样的间隔只能是很模糊的,因为在这种情况下,不能应用缩聚边界的概念。这个概念只能在我们可以谈到数量级的地方因而只能在规定了测量方法的地方才适用。我将在第68节中,联系到概率论,进一步运用精确性间隔的缩聚边界这一概念。
38.联系维来比较可检验度
直到现在为止,我们仅在理论可以借助子类关系来作比较的范围内来比较它们的可检验度。在某些情况下,这个方法在指导我们选择理论方面很成功。因此现在我们可以说,在第20节中举例说到的Pauli的不相容原理的确证明是一个令人满意的辅助假说。因为它极大地增加了旧的量子论的精确度,因而增加了可检验度(如新量子论的相应的陈述断言:电子具有反对称状态,而不带电粒子和某些带大量电荷的粒子具有对称状态)。
然而,对于很多目的来说,用于类关系的方法来进行比较是不够的。因此,例如Frank指出,具有高水平的普遍性的陈述——例如Planck公式里的能量守恒原理——易于变成重言的,失去它们的经验内容,除非初始条件可以“……用少数测量,……即依靠系统状态特有的很少几个量值”来确定。关于必须确定和代入公式的参量的数目的问题是不能借助子类关系的帮助来阐明的,尽管它是显然与可检验性和可证伪性以及它们的程度密切联系着的。确定初始条件需要的量值越少,足以使理论被证伪的基础陈述就越不是复合的;因为起证伪作用的基础陈述,是由初始条件和推导出的预见的否定二者的合取组成的(参看第28节)。因此,通过弄清一个基础陈述必须有的最小复合度(如果它能够与理论矛盾的话),就有可能比较理论的可检验度;只要我们能找到一种方法来比较基础陈述以弄清它们是否更(或不那么)复合的,即是否是大量(或小量)比较简单的一种基础陈述的复合物。所有复合度没有达到必要的最低限度的基础陈述,不管它们内容如何,只是由于它们的低复合度,就都是为理论所允许的。
但是,任何这样的纲领都面临着困难。因为一般地说,单靠检查,是不容易说出一个陈述是否是复合的,即是否等于更简单的陈述的合取。在所有的陈述里,都出现普遍名称,通过分析它们,人们往往能把陈述分解为合取的组分(例如,陈述:“在k地有一玻璃杯水”也许可以被分析和分解成两个陈述:“在k地有一玻璃杯盛着一种液体”和“在k地有水”)。用这种方法来分解陈述,没有希望找到任何自然的终点,特别是因为,我们为了使进一步分解成为可能,总能引进新的已定义的普遍名称。
为了使得所有基础陈述的复合度成为可比的,可以建议:我们必须选择一定的陈述类作为基本的或原子的陈述,然后通过合取和其他的逻辑运算就能够从这些基本或原子陈述中得到所有其他陈述。如果成功,我们就应用这种方法来定义复合的“绝对零度”,然后可以把任何陈述的复合表示为可以说是绝对复合——度。但是由于上面已经说过的理由,这样一种程序必须被认为是非常不适当的;因为它会给科学语言的自由使用施加苛刻的限制。
然而,比较基础陈述的复合度,因而也比较其他陈述的复合度,仍然是可能的。可以这样做:任意选择一个相对的原子陈述类,我们把它作为进行比较的基础。这样一种相对原子陈述类可以用生成的图式或母式来定义(例如,“在……地方为了……有一个量器,它的指针指在刻度……和……之间”)。然后,我们可以把通过代入确定值,从这种母式(或者陈述函项)中得到的所有陈述类定义为相对原子的,因而定义为等复合的。这些陈述类,与所有可从这些陈述形成的合取一起,可以称之为一个“场”。一个场的n个不同的相对原子陈述的合取,可以称之为“这场的n组复合”,并且我们可以说,它的复合度等于数n。
如果对一个理论t,存在这样一个单称(但是不一定是基础)陈述场:对某个数目d,理论t不能为这场的任何d组复合所证伪,虽然它能为某些d+1组复合所证伪,那么我们称d为理论对于那个场的特性数。因此,这场的复合度低于d或等于d的所有陈述是同这理论相容的,是为这理论所允许的,不管这些陈述的内容是什么。
现在就有可能把对理论的可检验度的比较建立在这个特性数d的基础之上。但是为了避免在使用不同的场时可能造成的不一贯,有必要使用一个比场这一概念更窄的概念,就是应用场的概念,如果已知理论t,我们说一个场是这理论t的一个应用场,假如对于这个场,存在理论t的一个特征性数字d,而且假如它满足其他一些条件。
一个理论t对于一个应用场的特性数d,我称之为t对于这个应用场的维。“维”这个词本身就说明了问题,因为我们可以把场的所有可能的n组复合看作有空间结构的(在无限维的构型空间中)。例如,若d=3,则那些可允许的陈述(因为它们的复合度太低)形成这个构型的一个三维的子空间。从d=3过渡到变为d=2,相应于从立体过渡到为平面。维数d越小,容许的陈述类(这些陈述由于它们的复合度低,不管内容如何,不能与这理论矛盾)受到的限制就越严格,这理论的可证伪度就越高。
应用场的概念不限于基础陈述,但各种单称陈述都被容许作为属于一个应用场的陈述。但是通过借助场比较它们的维,我们能估计基础陈述的复合度(我们假定,与高度复合的单称陈述相应的是高度复合的基础陈述)。因此可以假定,与较高维的理论相应的是一个较高维的基础陈述类,这个类的所有陈述为这理论所容许,不管它们断言的是什么。
这回答了两种比较可检验度的方法如何联系的问题——一种方法通过理论的维,另一种方法通过子类关系。有这样一些情况:这两种方法都不适用,或者只有其中一种方法适用。在这种情况下,在这两种方法之间当然没有发生冲突的余地。但是如果在一种特殊情况下,这两种方法都适用,那么可以想象会发生这种的事:两个理论有相同的维,但是,假如用建基于子类关系的方法来评价,可能有不同的可证伪度。在这种情况下,从后一种方法得出的判断应该被接受,因为这一种方法证明是比较灵敏的方法。在这两种方法都适用的所有其他情况下,它们一定会导致相同的结果;因为,借助维理论的一条简单定理可以表明:一个类的维一定大于或等于它的子类的维。
39.曲线集的维
有时我们可把我所说的一个理论的“应用场”很简单地等同于它的图形表示场,即图纸上的一块面积,我们在这张图纸上用图形表示理论:可认为这个图形表示场的每一点相应于一个相对原子陈述。因此理论相对于这个场的维,就等于相应于这理论的曲线集的维。我将用第36节中的两个陈述q和s来讨论这些关系(我们用维作比较适用于具有不同谓词的陈述)。假说q——所有行星轨道都是圆——是三维的:要证伪它,至少需要这场的四个单称陈述,相应于它的图形表示的四个点。假说s:所有行星轨道都是椭圆,是五维的,因为要证伪它,至少需要六个单称陈述,相应于图形上的六个点。我们在第36节里看到: q比s更易证伪:因为所有圆都是椭圆,所以有可能把比较建基于子类关系之上。但是使用维使我们能比较以前不能比较的理论。例如,我们现在可以比较一个圆假说和一个抛物线假说(它是四维的)。“圆”、“椭圆”,“抛物线”,每一个词表示一个曲线类或集;这些集中的每一个集有d个维,假如挑选出这集中的一条特定曲线,或者给以特征描述,d点是必要和充分的话。在代数表示式里,这曲线集的维依赖于参量的数目,这些参量的值我们可以自由选择。所以我们可以说,用以表示一个理论的一个曲线集的、可以自由测定的参量的数目,是那个理论的可证伪(或可检验)度的特性数。
与我的例子中的陈述q和s相联系,我愿意对Kepler发现他的定律作一些方法论的评论。
我并不想提出这样的看法:完美的信念——指导Kepler作出发现的助发现原理——是有意或无意地由对可证伪度的方法论考虑所引起的。但是,我的确认为,Kepler取得成功部分地由于这一事实:作为他出发点的圆假说,相对地说是易于证伪的。假如Kepler从由于其逻辑形式不是如圆假说那样易于检验的假说出发,考虑到计算的困难,这种计算的基础是“在空中”——可以说,漂浮在天空中,以不知道的方式在运动,他很可能得不到任何结果。Kepler通过证伪他的圆假说达到的毫不含糊的否定结果,事实上是他的第一个真正的成功。他的方法也被证明完全正确,因而他可以继续进行下去;特别是因为,即使这第一步尝试也已经产生一些近似值。
无疑,Kepler定律可以用另外的方法找到。但是我想,这是引致成功的方法,这一点不仅是偶然的。这相当于消去法,仅当理论足够易于证伪——足够精确,能够和观察经验相冲突时,这种方法才是可应用的。
40.两种减少曲线集维数的方法
非常不同的曲线集可以有相同的维。例如,所有圆的集是三维的;但是所有通过一个给定点的圆的集是一个二维集(和直线集一样)。如果我们要求圆应该都通过两个给定点,则我们得一个一维集,如此等等。每一个添加的要求,即一个集的所有曲线必须通过多一个给定点,减少这个集的一个维。
零维类
一维类
二维类
三维类
四维类
直线

抛物线
通过一个给定点的直线
通过一个给定点的圆
通过一个给定点的抛物线
通过一个给定点的圆锥曲线
通过两个给定点的直线
通过两个给定点的圆
通过两个给定点的抛物线
通过两个给定点的圆锥曲线
通过三个给定点的圆
通过三个给定点的抛物线
通过三个给定点的圆锥曲线
除增加给定点数的方法以外,还有其他方法也可以减少维数。例如,给定长短轴比的椭圆集是四维的(和抛物线集一样),已知偏心率数值的椭圆集也是这样。从椭圆过渡到圆,当然等于指定一个偏心率(0)或者一个特定的长短轴比(1)。
因为我们对评价理论的可证伪度感兴趣,现在我们要问:这些减少维数的种种方法对于我们的目的来说是否是等价的,或者我们是否应该更仔细地考察它们的相对价值。一条曲线必须通过一定的单一点(或小区域),这样的规定常常是联接于或相应于某一单称陈述即一个初始条件的接受。另一方面,比方说从一个椭圆假说过渡到一个圆假说,显然相应于理论本身的维的减少。但是,如何区别清楚这两种减少维的方法?一种减少维的方法并不根据有关曲线的“形式”或“形状”的规定来进行;即例如通过指定一个或更多的点,或者通过某种等价的规定来减少维,我们可以给这种方法一个名称:“内容的减少”。在另一个方法里,曲线的形式或形状规定得更窄,例如,我们从椭圆到圆或从圆到直线等等,我称之为维数的“形式的减少”的方法。
然而,要使得这个区别截然分明是不很容易的。这一点可以这样来看:减少理论的维用代数术语来说意味着以常数代替参数。现在,我们如何能区别不同的以常数代替参数的方法,是不大清楚的。从椭圆的一般方程过渡到圆的方程这种形式的减少,可以被描述为使一个参数等于0,使第二个参数等于1。但是,如果另一个参数(绝对项)等于0,那么这就意味着内容的减少,就是规定椭圆的一个点。但是,我想,如果我们看到它和普遍名称问题的联系,就有可能使得区别清楚起来。因为内容的减少引进一个个别名称到有关曲线集的定义中,而形式的减少则引进一个普遍的名称。
让我们设想,也许根据“直指定义”,给予我们某一个别的平面。在这个平面上的所有椭圆集可以用椭圆的一般方程来定义;圆集可以用圆的一般方程来定义。这些定义不依赖于我们在这平面的什么地方画与它们有关的(Descartes)坐标;因此,它们不依赖于坐标的原点和方向的选择。特定的坐标系统只能由个别名称来决定;比方说由直接指定它的原点和方向来决定。由于椭圆(或圆)集的定义对于所有Descartes坐标是相同的,它不依赖于这些个别名称的规定:它对Euclid群的所有坐标变换(位移和相似变换)是不变的。
另一方面,假如人们想定义共同的在平面上有着一个特殊个别点的椭圆(或圆)集,那么我们就必须运用一个方程,它对于Euclid群的变换不是不变的,而是和一个单称的,即个别地或直指地规定的坐标系统相联系的。因此,它是和个别名称相联系的。
可以把这种变换安排在一个等级系统里。对于比较一般的变换群是不变的一个定义,对于比较特殊的变换群也是不变的。对于一个曲线集的每一个定义,有一个它特有的(最一般的)变换群。现在我们可以说:一个曲线集的定义D1与一个曲线集的定义D2“同样一般”(或比它更一般),假如D1和D2(或一个更一般的定义)对于同一个变换群都是不变的话。一个曲线集的维的减少现在可以被称为形式的,假如这个减少并不减弱定义的一般性;否则它可以被称为内容的。
如果我们通过考虑它们的维来比较两个理论的可证伪度,显然我们必须在考虑它们的维的同时考虑它们的一般性,就是它们对于坐标变换的不变性。
按照理论(如Kepler理论)事实上是否作出了关于世界的几何陈述,或理论是否只是在它可以用图形来表示的意义上是“几何的”——例如,表示压力依赖温度的图形,上述程序当然必定是不同的。对后一种理论,或相应的曲线集提出这样的要求:它的定义必须对于比方说坐标系统的旋转是不变的,这是不适当的;因为在这些情况下,不同的坐标可以表示完全不同的东西(一个是压力,另一个是温度)。
这就是我对用以比较可证伪度的方法的阐述的结论。我相信这些方法能帮助我们阐明认识论问题,例如简单性问题,我们接着就要讨论这个问题。但是,我们将要看到,还有其他问题通过我们对可证伪度的考察而得到新的说明;特别是所谓“假说的概率”或验证的问题。
追记(1972)
这本书的比较重要的思想之一是关于理论的(经验的或信息的)内容的思想(我们称自然律为“律”不是没有道理的:“它们禁止越多,它们说得越多”。比较:上面第41页和第112页以后)。
在前一章里我强调两点:(1)理论的内容或可检验性(或简单性:参看第七章)可以有度,因此可以说这度使得可证伪性概念相对化了(它的逻辑基础仍然是否定后件假言推理)。(2)科学的目的——知识的增长——可以是和我们的理论的内容的增长完全一致的。(参看我的论文:‘The Aim of Science’,载Ratio Ⅰ,1957 PP.24-35,〔经过修改〕重载Contempo-rary Philosophy.ed R.Klibansky 1969,PP.129-142;现又为我的书Objectiue Knowledge:An Euolutionary Approach的第5章,这书即将由Clarendon Press出版。)
最近我进一步发展了这些思想;特别参看我的Conjec-tures,and Refutatinns第10章,1963年版和以后的版本。两个新观点是:(3)内容或可检验性概念联系到正在讨论的问题或问题集而进一步相对化(在1934年我已经把这些概念联系到应用场而相对化了)。(4)引进理论的真性内容和它对真理的近似或接近(“逼真性”)的概念。
第七章 简单性
关于所谓“简单性问题”的重要性几乎没有一致意见。Weyl在不久前说:“简单性问题对于自然科学的认识论是最重要的”。然而,近来对于这个问题的兴趣低落了;也许是因为似乎很少有机会来解释这问题,特别是在Weyl进行透彻的分析之后。
直到最近,简单性观念一直在无批判地使用,仿佛简单性是什么,为什么它应该是有价值的,是很明显的。不少科学哲学家在他们的理论里给予简单性概念一个关键性的重要地位,甚至没有注意到它引起的困难,例如,Mach,Kirchhoff,Avenarius的追随者试图用“最简单的描述”这一观念来代替因果解释的观念。没有形容词“最简单的”或者类似的词,这个学说就什么也没有说。当应该解释为什么我们认为用理论对世界进行的描述,优于用单称陈述对世界进行的描述时,就似乎预先假定,理论比单称陈述更简单。然而很少有人曾经尝试解释过,为什么理论应该是更简单的,或者更确切地说,简单性是什么意思。
而且,如果我们假定,使用理论是由于简单性,那么显然,我们应该使用最简单的理论。Poincare(他认为理论的选择是一个约定的问题)就是这样来表述他的理论选择原理的:他选择可能的约定中最简单的。但是,哪一个是最简单的?
41.排除美学的和实用的简单性概念
“简单性”这个词用于很多不同的意义。例如Schr odinger理论在方法论意义上具有很大的简单性,但是在另外一种意义上,完全可以说它是“复杂的”。我们可以说,一个问题的解决不是简单的而是困难的,或者说,一个描述或一个说明不是简单的而是难以理解的。
首先,我要从我们的讨论中排除简单性这一术语应用于任何像描述或说明这类东西。有时,我们说到同一个数学证明的两种说明,其中一个比另一个更简单或更优美。从知识理论的观点看来,这种区别意义很小;它不在逻辑的范围之内,只是表示一种美学性质或实用性质的选择。当人们说,一项工作比另一项工作可以“用更简单的办法完成”时,意思是,它可更容易地完成,或者,为了完成它,需要较少的训练或较少的知识,这情况是类似的。在所有这些情况下,很容易排除“简单”这个词;这一词的使用是逻辑外的。
42.简单性的方法论问题
在我们排除了美学的和实用的简单性观念以后,如果有什么东西余留下,那是什么呢?是否有对于逻辑学家是重要的简单性概念?是否可能按照它们的简单度来区别在逻辑上不等同的理论?
对这个问题的回答似乎是很可疑的,因为大部分想定义这个概念的尝试得到很小的成功。例如,Schlick给了一个否定的回答。他说:“简单性是……一个概念,它表示的选择性质上,部分地是实用的,部分地是美学的”。值得注意的是,他给出了这个回答,是在他写到这里使我们感兴趣的概念,我称之为简单性的认识论概念的时候;因为他继续说道:“即使我们不能解释简单性在这里的真正意思是什么,我们仍然必须认识到这样的事实:任何科学家成功地用一个非常简单的公式(例如:一个线性的,二次的,或指数的函数)来描述一系列观察,他就立即确信,他已发现了一条定律。”
Schlick讨论了用简单性概念来定义似定律的规律性概念,特别是“定律”和“机遇”区别的可能性。他最后排除了这个可能性,说道:“简单性显然是一个完全相对和模糊的概念;用它不能得到因果性的严格定义,定律和机遇也不能精确地区别开”。从这一段话中真正期待简单性概念完成什么就很清楚了:它要提供一种事件的似律性或规律性程度的量度,Feigl说出了同样的看法,他说到“用简单性概念来定义规律性或似律性的程度”。
简单性的认识论观念在归纳逻辑理论里起着特殊的作用,比如联系到“最简单曲线”问题。归纳逻辑的信仰者假定,我们通过概括特殊的观察到达自然律。如果我们设想在一系列观察中的各种结果,作为在一个坐标系统中标绘的点。那么定律的图形表示就将是一条通过所有这些点的曲线。但是,通过有限数目的点,我们总能画出形式极为多样的数目无限的曲线。因此,由于定律不是单单由观察决定的,归纳逻辑面临在所有这些可能的曲线中决定选择哪一条曲线的问题。
通常的回答是:“选择最简单的曲线”。例如,Wittgenstein说:“归纳过程在于发现可以使之和我们的经验相协调的最简单的定律”。在选择最简单的定律时,通常不言而喻地假定,比方说,线性函数比二次函数简单,圆比椭圆简单,等等。但是,没有给出任何理由,或说明选择这个特殊的简单性等级,而不是任何其他的等级,或说明相信“简单的”定律优于比较不简单的定律——除了美学的实用的理由以外Schlick和Feigl提到Natkin的一篇未出版的论文,按照Schlick的叙述,Natkin建议称一条曲线比另一条更简单,如果它的平均曲率更小的话,或者按照Feigl的叙述,如果它偏离一条直线更小的话(这两种叙述是不等价的)。这个定义似乎和我们的直觉符合得相当好;但是,它没有抓住关键之处,例如,它使得双曲线的一部分(渐近线部分)比圆简单得多,等等。实在说,我不认为,问题能为这样的“技巧”(Schlick这样称呼它们)所解决。而且,为什么我们应该给予简单性(如果用这个特殊方法来定义它)以优先权,这仍然是个谜。
Weyl讨论了并否定了一个非常有趣的把简单性置于概率基础之上的尝试。“例如,假定同一函数y=f(x)的20对坐标值(x,y),当标绘在方格图解纸上时,落在一条直线上(在预期的精确度内)。因此我们推测,我们在这里面对一条严格的自然律,y线性地依赖于x。我们所以这样推测是由于直线的简单性,或者因为,如果该定律是一条不同的定律,这20对任意选择的观察正好非常接近地落在一条直线上,是极端不可几的。假如,现在我们用这条直线来进行内插和外推,我们会得到超出观察告诉我们的东西之外的预见,然而,这个分析是可以批判的。总有可能来定义……会被这20项观察所满足的各种数学函数;而这些函数中的某些会相当大地偏离直线。对这些函数中的每一个,我们都可以说,除非它代表真的定律。这20项观察正好落在这条曲线上,是极端不可几的。因此,函数,更确切地说,函数类,由于它的数学简单性,必定是先验地由数学提供给我们的,这毕竟是必不可少的。应该注意,这个函数项不必依赖与应满足的观察数一样多的参数”。Weyl关于“函数类,由于它的数学简单性,必定是先验地由数学提供给我们的”这段话以及他提到的参数的数目,和我的观点(在第43节中展开)是一致的。但是,Weyl没有说“数学的简单性”是什么,而且,最重要的,他没有说较简单的定律,与较复杂的定律相比较,应该具有什么逻辑的或认识论的优点。
以上引证的几段话是很重要的,因为它们和我们现在的目的有关,这目的是分析简单性的认识论概念。因为这个概念尚未精确地加以确定。所以有可能摈弃任何想通过下述办法使这个概念精确化的尝试(比如我的尝试)而说:认识论家感兴趣的这个简单性概念,实际上是一个完全不同的概念。对于这种反对意见,我可以这样回答:我不赋予“简单性”这个词丝毫重要性。这个术语不是我引进的,我也知道它的缺点。我所要说的只是,如我的引证所表明的,我要澄清的这个简单性概念帮助我们回答的问题,正好就是科学哲学家常常提出的与他们的“简单性问题”相联系的问题。
43.简单性和可证伪度
与简单性概念相联系而产生的认识论问题都可得到解答,只要我们把这个概念等同于可证伪度。这个断言可能遭到反对;所以我首先试图使它在直觉上更易于为人所接受。
我已经说明,具有低维的理论比高维理论更易于证伪。例如,具有一次函数形式的定律比用二次函数表示的定律更易于证伪。但是后者在具有代数函数的数学形式定律中间,仍然属于最可证伪的定律之列的。这一点和Schlick对简单性的评论完全一致:“我们当然应该倾向于认为一次函数比二次函数简单,虽然后者无疑地也描述一条很好的定律……”。
我们已经看到,理论的普遍度和精确度和它的可证伪度一起增加。因此我们也许可以把理论的严格度——可以说理论把定律的严格性加于自然的程度——等同于它的可证伪度;这一点表明,可证伪度正是做的Schlick和Feigl期望简单性概念做的事情。我还可以说,Schlick希望在定律和机遇之间作出的区别,也能借可证伪度概念之助弄清楚。关于具有似机遇特征的序列的概率陈述,证明具有无限的维(参看第65节);不是简单的而是复杂的(参看第58节和第59节的后半部分);而且只是在特殊的保证条件下才是可证伪的(第68节)。
可检验度的比较已经在第31到40节里详细地讨论过。那里提供的某些例子和其他细节可以容易地转用到简单性问题上来。这一点特别适用于理论的普遍度,一个比较普遍的陈述能代替许多较不普遍的陈述,并由于这个理由时常被称作为“比较简单”。理论的维的概念可以说是使得Weyl的用参量的数目来确定简单性概念的思想精确化了。通过我们在理论的维的形式的减少和内容的减少之间所作出的区别(参看第40节),可以对付对Weyl理论的某些可能的反对意见。这些反对意见之一是,轴比和偏心率数值给定的椭圆集虽然它显然不是那么“简单的”,具有和圆集正好一样多的参数。
最重要的是,我们的理论解释了为什么简单性是如此高度的合乎需要。为了理解这一点,我们不需要假定“思维经济原理”或者任何这类原理。假如知识是我们的目的,简单的陈述就比不那么简单的陈述得到更高的评价,因为它们告诉我们更多东西;因为它们的经验内容更多,因为它们更可检验。
44.几何形状和函数形式
我们关于简单性概念的观点使我们能够解决了一些矛盾,直到现在这些矛盾曾使得这个概念是否有任何用处成为疑问。
很少人会认为,比方说对数曲线的几何形状是特别简单的;但是一个由对数函数表示的定律常常被认为是简单的定律。同样地,一个正弦函数通常被说成是简单的,纵然正弦曲线的几何形状也许不是很简单的。
假如我们记住在参数数目和可证伪度之间的联系。假如我们又在维的形式减少和内容减少之间加以区别,像这样的困难可以得到解决。(找们也必须记住对于坐标系统的变换的不变性的作用。)如果我们说到一条曲线的几何形式或形状,那么我们所要求的是,对于所有归属位移群的变换的不变性,我们还可以要求对相似变换的不变性;因为我们并没有想把几何图形或形状和一定的位置联结起来。因此,如果我们把一条单参数对数曲线(y=logax)的形状看作置于一个平面的任何地方,那么它就有五个参数(假如我们允许相似变换)。因此它就完全不是一个特别简单的曲线。另一方面,如果用一条对数曲线来表示一个理论或定律。那么描述过的那种坐标变换是无关的。在这种情况下,进行旋转、平移或相似变换,都是没有意义的。因为一条对数曲线通常是一种坐标不能互变的图形表示(例如,x轴可以表示大气压力,y轴表示海拔高度)。由于这个理由,相似变换在这里同样没有任何意义。类似的考虑适用于沿着一根特殊的轴,例如时间轴的正弦振荡;还有许多其他情况都是如此。
45.Euclid几何学的简单性
在相对论的大部分讨论中起着主要作用的问题之一是,Euclid几何学的简单性。从未有人怀疑过,Euclid几何学本身是比任何有一定曲率的非Euclid几何学更简单些——更不要说具有随地方而变化的曲率的非Euclid几何学了。
乍一看来,这里涉及的这种简单性似乎和可证伪性很少关系。但是,如果讨论中的陈述被表述为经验的假说,那么我们发现,在这种情况下这两个概念,简单性和可证伪性,也是重合的。
让我们考虑什么实验可以帮助我们检验这样的假说:“在我们的世界里,我们必须运用具有某一曲率半径的一种度量几何学”。仅当我们把一定的几何学实体和一定的物理客体——例如直线和光线、点和几根线的交点——等同起来时,检验才是可能的。如果采取了这样的等同(一个相关定义,或者也许是一个直指定义;参看第17节),那么可以看出,Euclid光线几何学的正确性假说的可证伪度,比任何断言某种非Euclid几何学的正确性的与前者相匹敌的假说的可证伪度高。因为如果我们测量一个光线三角形的角度之和,那么对180度任何显著偏离都将证伪Euclid假说。另一方面,具有给定曲率的Bolyai-Lobatschewski几何学的假说是和任何不超过180度的特定测量相容的。而且,为了伪证这个假说,必须不仅测量角度之和,而且还要测量三角形的(绝对)大小;这意味着,在角度之外,必须再定义一个测量单位,例如面积单位。因此我们看到,证伪需要更多的测量;假说和测量结果的更大的变化相容;因此更难于证伪:它的可证伪度较小。换句话说,Eu-clid几何是惟一的具有确定曲率的,在其中可能进行相似变换的度量几何学。因此,Euclid几何图形能对比较多的变换保持不变;即它们可能是维数较少的:它们可能是较简单的。
46.约定主义和简单性概念
约定主义者所说的“简单性”并不对应于我所说的“简单性”。任何理论都不是为经验所毫不含糊地决定的,这是约定主义者的中心思想,也是他们的出发点;这一点我同意。他们相信,他们因此必须选择“最简单的”理论。但是,由于约定主义者并不把他们的理论当作可证伪的系统,而是当作约定的规定,显然他们认为“简单性”的意义是和可证伪度不同的。
约定主义者的简单性概念证明确实是部分地美学的和部分地实用的。因此,下列Schlick的评论(参看第42节)适用于约定主义者的简单性概念,而不适用于我的:“人们只能用约定来定义简单性概念,这约定必定总是任意的,这一点是确定无疑的”,奇怪的是,约定主义者自己没有看到他们自己的基本概念——简单性概念的约定性质。他们必须是忽略了这一点,这是明显的,因为否则他们本来会注意到,一旦他们已选择了任意约定的方法,他们求助于简单性决不可能使他们避免任意性。
从我的观点看来,假如有人按照约定主义者的实践,坚持某一系统是一个永远确立了的系统,每当它处于危险中时,他就决意引进辅助假说去挽救它,那么必须说这个系统是最高度复杂的。因为,这样保护起来的系统的可证伪度等于零。这样我们就被我们的简单性概念引回到第20节的方法论规则;特别是也引回到限制我们过度使用特设性假说和辅助假说的规则或原理:使用假说的节约原理。
追记(1972)
在这一章里,我试图表明简单度能够和可检验度等同到什么程度。没有什么东西依赖于“简单性”这个词:我从不就词进行争论,我也不设法揭示简单性的本质。我所试图说明的只是这样:
有些大科学家和大哲学家已经论述了简单性和它对科学的价值。我认为,假如我们假定,当说到简单性时,他们有时在心里想的是可检验性,就能够更好地理解其中一些论述。这一点甚至说明了Poincare的某些例子,虽然这些例子和他的观点是冲突的。
现在我应该进一步强调两点:(1)我们能在可检验性方面比较理论,仅当在这些理论应该解决的问题中,至少有一些是重合的。(2)不能用这种方法比较特设性假说。
第八章 概率
在这一章,我将只讨论事件的概率以及它引起的问题。这些问题的产生同博奕论和物理学的概率定律有关。我将什么可称之为假说的概率问题——例如一个经常受到检验的假说是否比一个很少受到检验的假说更可几等问题——留到第79至85节在“验证”题目下进行讨论。
与概率论有关的观念在现代物理学中起着决定性的作用。然而我们仍然缺乏一个满意的、前后一致的概率定义;也就是说,我们仍然缺乏一个满意的概率计算的公理系统。概率和经验之间的关系也仍然需要澄清。在研究这个问题时,我们将发现对我的方法论观点几乎不能克服的反对意见最初是什么。因为虽然概率陈述在经验科学中起着如此重要的作用,可是结果它们却在原则上不受严格证伪的影响。然而,这块绊脚石将成为检验我的理论,以便查明它有什么价值的试金石。
因此我们面临两项任务。第一项任务是为概率计算提供新的基础。我将试图通过把概率论发展为频率理论做到这一点,沿着Richard von Mises所遵循的路线,但不用他称之为的“收敛公理”(或“极限公理”),而使用有点削弱了的“随机公理”。第二项任务是阐明概率和经验之间的关系。这是指解决我所说的概率陈述的可判定性问题。
我希望这些研究将有助于减轻目前的不满意的情况,物理学家在这种情况下大量使用概率,而未能前后一致地说明他们所说的“概率”是什么。
47.概率陈述的解释问题
我将从区别两类概率陈述开始:相数字表示某一概率的陈述——我称之为数值概率陈述——以及不用数字表示的概率陈述。
例如,“用两颗骰子掷11的概率为1/18”,这种陈述就是数值概率陈述一个例子。非数值概率陈述可以有各种各样。“把水和酒精混合获得均匀的混合物是十分可几的”,这类陈述如得到适当阐明,就能转变为数值概率陈述(例如,“获得……的概率很接近1”)。另一种很不同的数值概率陈述例如“发现一种与量子论相矛盾的物理效应是高度不可几的”;我认为这种陈述不可能转变为数值概率陈述,或者与某种数值概率陈述等价,而不歪曲它的意义。我将首先讨论数值概率陈述;非数值概率陈述,我认为不那么重要,容后再考虑。
与每一个数值概率陈述有联系的是这样一个问题:“我们应如何解释这类陈述,特别是这类陈述所作出的数值方面的断言?”
48.主观解释和客观解释
古典的(Laplace的)概率理论把某一概率的数值定义为用同样可能的情况数除有利的情况数所得的商。我们可以不理会已经提出来的反对这个定义的逻辑上的异议,如“同样可能的”不过是“同样可几的”另一种说法。但是甚至在那时我们也很难承认这个定义提供了一个可毫不含糊地应用的解释。因为其中隐含着若干种不同的解释,我要把这些解释分为主观的和客观的两类。
概率论的主观解释常常使用的带有心理学味道的说法,如“数学期望”,或者比方说,“误差的正态定律”等等,使人想起概率论的主观解释;其最初的形式是心理学主义的。它把概率的大小看作为确定或不确定、相信或怀疑的感觉的量度,这些感觉可由某些断言或推测在我们心中引起。关于某些非数值陈述,“可几的”一词可用这种方法颇为满意地加以转译;但是我认为沿着这些路线对数值概率陈述所作的阐释是十分不能令人满意的。
然而,主观解释的较新变种应该在这里给予更认真的考虑。还不是在心理学上,而是在逻辑上把概率陈述解释为关于可称之为陈述“逻辑近似”的断言。正如我们全都知道的那样,陈述能互相处于各种逻辑关系中,如可推演性、不相容性或相互依赖性;而逻辑-主观理论(Keynes是它的主要阐述者)把概率关系看作是两个陈述之间的特种逻辑关系。这种概率关系的两个极端情况是可推演性和矛盾:有人说,如陈述p从陈述q推导出,则q把概率1“给予”p。如p和q相互矛盾,则q给p的概率为0。在这两个极端之间有其他概率关系,大概可以下列方法解释:陈述声(给定q)的数值概率越大,则它的内容超出陈述q已包含的内容越少,p的概率依赖q(并且q把某种概率“给予”p)。
从Keynes把概念定义为“理性信仰程度”这一事实可看出这个理论与心理学主义理论之间的密切关系。他的“理性信仰程度”是指信赖量,可以根据我们从”给予”陈述p概率的那个陈述q中得到的信息或知识赋予p以信任量。
第三种解释,客观解释,把每一个数值概率陈述看作为一种相对频率的陈述,某一种类事件在一偶发事件序列内以这种频率发生。
根据这种解释,“用这颗骰子下一次掷五的概率等于1/6”这陈述实际上不是一个关于下一次掷骰子的断言;宁可说,它是一个关于整个一类掷骰子的断言,下一次掷骰子不过是其中一个元素。这个陈述所说的不过是在这类掷骰子中得5的相对频率等于1/6。
按照这个观点,如果我们能够对数值概率陈述作出濒率阐述,这些陈述才是可接受的。不能作出频率解释的那些概率陈述,尤其是非数值概率陈述,常常被频率理论家回避。
下面我将尝试重新把概率理论作为一种(经过修改的)频率理论建立起来。因此我宣布我信仰客观解释;主要是因为我相信只有客观理论才能解释概率计算在经验科学中的应用。大家承认,主观理论能够给如何判定概率陈述的问题提供一个前后一致的解决办法;并且一般地说,它面临的逻辑困难比客观理论少。但是它的解决办法是:概率陈述是非常经验的;它们是重言的。当我们想起物理学利用概率论时,这种解决办法就证明是完全不能接受的了。(我摈弃主观理论的这种变种:认为客观频率理论应从主观假定中推导出来——也许利用Bernoulli定理作为“桥梁”;由于逻辑上的理由我认为这种纲领是不能实现的。)
49.机遇理论的基本问题
概率理论的最重要应用是用于我们可称之为“似相遇的”(chance-like)或“随机的”事件,或偶发事件。它们的特征是一种特殊的不可计算性,这使得人们经过许多次不成功的尝试后倾向于相信,一切已知的理性预测方法用于这些事件必定失败。可以说,我们感觉到除了先知以外没有一个科学家能够预测它们。然而正是这种不可计算性使我们得出这样的结论:概率的计算能够应用于这些事件。
如果我们接受主观理论,那么从不可计算性达到可计算性(即达到某种计算的可应用性)这个有点悖论性质的结论,确实不再具有悖论性质了。但是这种避免悖论的方法是极不令人满意的。因为它包含着这样的观点:概率计算与经验科学的所有其他方法相反,不是一种计算预测的方法。按照主观理论,它不过是一种使我们已知的东西或者更确切地说,使我们未知的东西实行逻辑变换的方法;因为正是在我们缺乏知识时我们实行这些变换。这种观念确实使悖论消解,但它不能解释被解释为频率陈述的无知陈述如何能够在经验上受到检验和得到验证。然而这正好是我们的问题。我们如何能够解释这个事实:我们可从不可计算性——即从无知——中作出能够解释为经验频率陈述的结论,并且尔后我们发现它们在实践中得到光辉的验证呢?
甚至频率理论直到现在还不能对这个问题——我将称之为机遇理论的基本问题——提供一个令人满意的解答。在第67节将表明这个问题与“收敛公理”有联系,后者是目前形式的这个理论的一个组成部分。但是在这个公理消除后,在频率理论框架内找到一个令人满意的解决办法是可能的。通过分析这样一些假定就会找到这种解答,这些假定使我们能够从单个偶发事件不规则序列推论到它们频率的规则性或稳定性。
50.von Mises 的频率理论
为概率计算的所有主要定理提供基础的频率理论首先由Richard von Mises提出的。他的基本思想如下。
概率计算是似机遇的或随机的事件或偶发事件序列,即例如连续掷骰子那种重复性事件序列的理论。借助两个公理条件把这些序列定义为“似机遇的”或“随机的”:收敛公理(或极限公理),和随机公理。如果一个事件序列满足这两个条件,von Mises就称它为一个“集合”(collective)。
大体上说,一个集会就是一个事件或偶发事件的序列,它在原则上可以无限地延续下去;例如掷骰子序列。假设骰子是破坏不了的。在这些事件中,每一个都有一定的特性和性质;例如可以掷个5,因而具有性质5。如果我们选取直到序列某一元素以前已出现的所有具有性质5的掷骰子次数,除以直到那个元素以前掷骰子的总数(即序列中它的基数),那么我们就获得直到那个元素以前的5的相对频率。如果我们确定了直到这个序列每个元素以前5的相对频率,我们就用这种方法获得一个新的序列——5的相对频率序列。这种频率序列不同于它与之相应的原先的事件序列,后者可称为“事件序列”或“性质序列”。
我选取我们称之为“二择一”(alternative)作为一个集合的简单例子。我们用这个词指假定只有两种性质的事件序列——例如掷一个钱币猜正反面的序列。一种性质(正面)用“1”表示,另一种性质(反面)用“0”来表示。于是事件序列(或性质序列)可用下式表示:
(A) 0 1 1 0 0 0 1 1 1 0 1 0 1 0……
与这种“二择一”相应——或更精确地说,与这种二择一的性质“1”相关——的是下列“相对频率序列”,或“频率序列”:
(A’)0 ……
收敛公理(或“极限公理”)假定,随着事件序列越来越长。频率序列将趋向一个确定的极限值。von Mises使用这个公理是因为我们必须弄清楚我们能够借以工作的某个固定的频率值(即使实际的频率值有一些波动)。在任何集合中至少有两种性质;如果我们得到与某个集合所有性质相应的频率极限值,那么我们就得到集合的“分布”。
随机公理或有时称之为“排除赌博系统原理” (the principle of the excluded gambling system),是打算用来为序列的似机遇性质提供数学表现。显然,如果掷硬币的序列有规律性,比方说在每三次掷正面后就出现反面相当有规律,那么一个赌徒就会用某种赌博系统来改善他的运气。随机公理就一切集合假定,不存在能够成功地应用于这种集合的赌博系统。它假定,不管我们可以选取何种赌博系统以选择认为有利的掷猜(tosses),我们将发现,如果赌博有足够长的时间继续下去,认为有利的掷猜序列中的相对频率接近的极限值与所有掷猜序列的极限值是一样的。因此存在着一种赌徒能借以改善他运气的赌博系统的序列不是von Mises意义上的集合。
对于von Mises来说,概率是“集合中相对频率极限度”的另一个术语。所以概率概念仅应用于事件序列;从Keynes等人的观点看来,这样的限定大概是完全不能接受的。对于批评他的解释太窄的人,von Mises的回答是强调科学的使用概率(例如在物理学中)与一般的使用概率之间的不同。他指出要求定义恰当的科学术语非要在一切方面去适应不确切的、前科学的用法是个错误。
按照von Mises的意见,概率计算的任务只不过在于此:从具有某些给定“初始分布”(initial distributions)的某些给定“初始集合”(initial collectives)推论出具有“导出分布”(derived distributions)的“导出集合”(derived collectives);简言之,根据给定的概率计算出那些没有给定的概率。
von Mises把他的理论的独特特点概括为四点:集合概念先于概率概念;定义概率概念为相对频率的极限值;提出随机公理;以及规定概率计算的任务。
51.新的概率理论计划
von Mises提出的两条公理或公设以定义集合概念曾遇到强烈的批评——我认为这个批评不是没有道理的。特别是反对把收政公理和随机公理结合起来,理由是不允许把极限或收敛的数学概念应用于按照定义(即由于随机公理)必定不服从任何数学规则或定律的序列。因为数学极限值不过是决定序列的数学规则或定律的特有性质。数学极限值不过是这种数学规则或定律的一种性质,如果任意选定一个接近于零的分数,序列中都有一个元素,使得在它之后的所有元素与某个一定的值的差小于这个分数——于是这个值称为它们的极限值。
为了对付这些反对意见,有人建议不要把收敛公理和随机公理结合起来,仅假定收敛,即被限值的存在。至于随机公理,建议或者全然放弃它(Kamke),或者用较弱的要求代替它(Reichenbach)。这些意见的前提是认为引起麻烦的是随机公理。
与这些观点相对照,我倾向于责怪收敛公理不亚于责怪随机公理。因此我认为有两项任务要做:改进随机公理——主要是一个数学问题;以及完全消除收敛公理——认识论家特别关心的一个问题(参阅第66节)。
下面我首先讨论数学问题,然后讨论认识论问题。
这两项任务中的第一项,即数学理论的重建,其主要目的是从一个修改了的随机公理推导出Bernoulli定理——第一个“大数定律”;修改为实现这个目的所需,不要求更多。更确切地说,我的目的是推导出二项式公式(Binomial Formula,有时称为“Newton公式”),我称为“第三式”。因为能用通常的方法从这个公式中获得Bernoulli定理和概率论的其他极限定理。
我的计划是首先制定一个有穷类(finite class)的频率理论,并且尽量在这个框架内发展这个理论——即直至推导出(“第一”)二项式。这个有穷类频率理论原来是类理论(thetheory of classes)一个十分基本的部分。它之得到发展只是为了获得讨论随机公理的基础。
接着我将通过引入收敛公理的老方法进而到无穷序列,即能够无限延续的事件序列,因为我们需要它来讨论随机公理。在推导出和考察Bernoulli定理之后,我将考虑如何能消除收敛公理,以及哪一类公理系统我们应该作为结果保留下来。
在数学推导的过程中,我将使用三个不同的频率符号:F”示有穷类的相对频率;F’示无穷频率-序列相对频率的极限值;最后F示客观额率,即在“不规则”或“随机”或“似机遇”序列中的相对频率。
52.有穷类内的相对频率
让我们考虑一类α的有穷数目的偶发事件,例如昨天用这粒特定的骰子掷猜这类偶发事件。设这类α为非空类(non-empty),可以说它起着参考系的作用,将称之为(有穷的)参考类(reference-class)。属于α的元素数目,即它的基数,用“N(α)”表示,读作“α数”。另一类β,可以是有穷的,也可以不是有穷的。我们称β为性质类(property-class)。例如它可以是所有掷5的类,或(如我们将要说的)所有具有性质5的掷猜类。
属于α又属于β的那些元素类,例如昨天用这粒特定的骰子掷并有性质5的掷类被称为α和β的乘积类(product- class),用“α·β”表示,读作“α和β”。由于α·β是α的子类,它至多能含有有穷的元素数(它可以是空类)。α·β中的元素数用“N(α·β)”表示。
当我们用N表示(有穷)的元素数时,用F”示相对频率。例如,“在有穷参考类α内性质β的相对频率”写作“αF”(β)”,可读作“β的α频率”。我们现在能定义
(定义1) αF”(β)=N(α·β)/N(α)
根据我们的例子这意味着:“昨天用这骰子掷时出现5的相对频率,按照定义等于昨天用这骰子掷5的数被昨天用这骰子掷的总数来除所得的商。”
从这个颇为平凡的定义中,能够十分容易地推导出有穷类中频率计算的定理(更具体地说,一般乘法定理;加法定理;以及除法定理,即Bayes规则)。在这种频率计算的定理中,以及在一般的概率计算中,其特征是基数(N数)从不在其中出现,出现的是相对频率,即比值,或F数。N数仅发生在一些基本定理的证明中,这些基本定理是直接从这个定义中演绎出来的;但N数并不发生在定理自身中。
在这里用一个十分简单的例子来说明对此应作如何理解。让我们用“ ”(读作“β的补数”或简单地读作:“非β”)来表示不属于β的一切元素类。于是我们可写出:
αF”(β)+αF”( )=1
虽然这个定理仅包含F数,它的证明要利用N数。因为这定理认定义(1)中得出,借助于来自断言N(α·β)十N(α·β)=N(α)的类的计算的一个简单定理。
53.选择、独立、无影响、无关
在能够用有穷类相对频率作的运算中,选择(selection)的运算对以下所述有特殊重要性。
设给定一个有穷参考类α,例如一只匣子中的钮扣类,以及两个性质类,β(比方说,红钮扣)和γ(比方说,大钮扣)。我们现在可把乘积类α·β看作一个新的参考类,并提出α·βF”(γ)值的问题,即在新的参考类内γ的频率的问题。新的参考类α·β可称为“从α中选择β元素的结果”或“按照性质β从α中选择”;因为我们可以想到它是通过从α中选择那些具有性质β(红)的一切元素(钮扣)。
γ发生在新的参考类α·β中的频率与发生在原先的参考类α中的频率相同,这恰恰是可能的;即
α·βF”(γ)=αF”(γ)是正确的。在这种情况下,我们(遵循Hausdorff)说性质β和γ“在参考类a内是相互独立的”。独立关系是三项关系,在性质β和γ上是对称的。如果两种性质α和β在参考类α内是(相互)独立的,我们也可说性质γ在α内不受β元素的选择的影响;也许可说参考类α,就性质γ而言,不受按照性质β所作的选择的影响。
β和γ在α内相互独立或不受影响也可——按照主观理论的观点——解释如下:如果我们被告知类α的某一特定元素具有性质β,那么这个信息是无关的,如果β和γ在α内是相互独立的话;也就是对于这个元素是否也有性质γ这个问题是无关的。如果另一方面我们知道,γ更经常(或不那么经常)发生在子类α·β(已根据β从α中选择出来)中,那么某个元素有性质β的信息对于这个元素是否也有性质γ的问题便是有关的了。
54.有穷序列、顺序选择和邻域选择
设有穷参考类α的元素是编了号的(例如盒子中的每一个钮扣都写上一个数目),并且把它们按照序数排列成序列。在这种序列中我们可以区分出两类具有特殊重要性的选择,即按照元素的序数进行选择,或简称顺序选择,以及按照它的邻域进行选择。
顺序选择是根据依赖于元素序数的性质β从序列α中进行选择,元素的选择必须根据序数决定。例如β可以是性质偶数(even),因此我们从a中选择的一切元素,其序数是偶数。因此选择出来的元素形成一个所选子序列(selected sub-sequence)。如果性质γ独立于根据β的顺序选择,那么我们也可说,顺序选择对γ而言是独立的;或者我们也可说序列α就γ而言,不受β元素的选择的影响。
返回书籍页