必读网 - 人生必读的书

TXT下载此书 | 书籍信息


(双击鼠标开启屏幕滚动,鼠标上下控制速度) 返回首页
选择背景色:
浏览字体:[ ]  
字体颜色: 双击鼠标滚屏: (1最慢,10最快)

信息简史-詹姆斯·格雷克

_4 詹姆斯·格雷克(美)
1910 年,一位研究电话史的历史学家写道:“电话一直以来是诸电气奇迹中的最高成就。没有别的什么东西可以用如此少的能量实现如此大的成就,也没有别的什么东西比它更严密地为未知所包裹。”[48]当时纽约市的电话簿上已有数十万电话用户。对此,《斯克里布纳杂志》特别强调了一个惊人的事实:“如此众多数目中的任意两个,在五秒钟之内,就可以实现互相交流,这一次工程科学如此好地跟上了公众的需求。”[49]为了建立连接,纽约市的电话交换机已经演变成了一个庞然大物,有着近两百万个焊接部件、六千多公里长线路,以及约一万五千盏信号灯。[50]到了1925年,新近由一些电话研究小组合并而成的贝尔电话实验室,投入应用了一种容量达 400门的改进型“寻线机”,用以取代旧式的、22接点的机电式旋转步进交换机。当时,美国电话电报公司正在日渐巩固其垄断地位,其工程师也在努力缩短寻呼时间。与此同时,虽然本地的电话交换已经自动化,但跨网的长途呼叫在一开始还是需要先打给另一个“长途”接线员,然后等待接线员回电告知连接已经准备完毕。不过,跨网的连接很快也将实现自动拨号。这么一来,复杂性无疑顿时倍增,而贝尔实验室也不得不更多地寻求数学家的帮助。
贝尔实验室中最早被称为数学咨询部门的地方,后来逐渐发展成了一个别具特色的应用数学中心。它不像那些备受尊敬的数学重镇,如哈佛大学和普林斯顿大学的数学系,也不入学术圈的法眼。数学中心的首任主任桑顿·卡尔·弗里,十分享受理论与应用之间的张力,这就像两种文化的碰撞。他在1941年写道:“对于数学家来说,一段论证要么是每个细节都完美无瑕,要么是整个都错了。他会把这称为具有‘严格思维’,典型的工程师则会说这是‘钻牛角尖’。”
数学家还倾向于把他们面对的任何情况都加以理想化。他的气体是“理想气体”,他的导体是“全导体”,他的表面是“光滑表面”。他会把这称为“直抵本质”,工程师则恐怕会说这是“无视事实”。[51]
换句话说,数学家和工程师谁也离不开谁。当时的电气工程师能够处理波形是正弦曲线的简单情况。但要想理解电话网络的种种行为,他们需要解决更复杂的新难题。为此,数学家提出了有关网络的各种定理,以数学的方式加以处理。数学家还应用排队论来处理通话拥挤问题,开发各种图和树来管理城市间的电话干线和支线,并使用组合分析来化解电话中复杂的概率论问题。
接着,噪声问题出现了。噪声在一开始(比如,对亚历山大·格雷厄姆·贝尔来说)看上去并不是一个理论问题。它就在那里,总是充斥在线路当中——这些爆裂声、嘶嘶声、噼啪声干扰和削弱了送入话筒的人声。无线电广播也深受其害。在最好的情况下,它隐藏幕后,不为人注意;而在最糟的情况下,密集的噪声甚至使得用户浮想联翩:
里面有噼啪声、汩汩声、急促声、刺耳声、口哨声、尖叫声,也有树叶窸窣、蛙鸣婉转、蒸汽嘶嘶、鸟翼扑腾。有的是电报线上的滴滴答答,有的是从别部电话传来的只言片语,还有的是小而尖的奇怪声响,不像任何已知的声音……夜间更比白天热闹,而在午夜幽寂时分,由于无人知道的原因,噪声最甚。[52]
但现在,工程师可以从他们的示波器中看到噪声,看到它们干扰和削弱了原本规则的波形。于是他们自然想要度量它,尽管度量这么神出鬼没的恼人之物看上去有点不切实际。但其实,还是有方法度量的,并且阿尔伯特·爱因斯坦已经阐明了这种方法。
1905年是爱因斯坦的神奇之年,他在这一年发表了一篇论文,讨论的是布朗运动——悬浮微粒在液体中的不规则运动。列文虎克很早就用他的早期显微镜观察到了这种现象,后来该现象因苏格兰植物学家罗伯特·布朗而得名。布朗在1827年对此进行了细致研究:先是水中的花粉,然后是水中的煤灰和岩石粉末。布朗确信这些微粒并非活物(它们不是微生物),但它们就是不会老老实实地待着。爱因斯坦通过巧妙地运用数学知识,解释了这种现象是分子热运动的结果,进而也证实了分子的存在。在显微镜下可见的微粒,如花粉*,它们持续被分子所撞击,又由于其质量足够小,它们就会表现出不规则运动。微粒的扰动,从个体上看是不可预测的,从整体上看则遵循统计力学的规律。因此,即便液体是平静的,系统处于热平衡状态,但只要液体温度高于绝对零度,这种不规则的运动就会出现。根据同样的思路,在任何电导体中,随机热骚动也会影响自由电子,从而导致噪声。
注释:*布朗当时观察到的是“花粉中所含微粒”的不规则运动,而非花粉本身。花粉体积太大,几乎不会受布朗运动影响。这是一个常见的误解。具体可见维基百科的相应条目。——译者注
但物理学家没有注意到爱因斯坦的这项研究在电学方面的意涵。直到 1927年,贝尔实验室的两位瑞典人才为电路中的热噪声奠定了严格的数学基础。约翰·伯特兰·约翰逊(John B. Johnson)最先度量了电路中固有的噪声,他指出这些噪声并非由电路设计的缺陷所致。接下来,哈里·奈奎斯特(Harry Nyquist)对此给出了解释,并推导出了计算理想网络中电流和电压波动的公式。奈奎斯特的父亲是个农民兼鞋匠,本来名叫拉尔斯·荣松,但由于他的邮件常被投递到附近另一个同名者那里,所以便更改了姓氏。哈里十多岁时随家移民美国,后来就读于北达科他大学,并在耶鲁大学取得物理学博士学位后加入了贝尔电话实验室。在那里,他似乎总是喜欢把视野放得更宽一些,而不仅仅只是关注电话本身。早在 1918 年,他就着手研究一种通过电话线传输照片的方法,即所谓“传真”(telephotography)。他的设想是把照片正片安放在旋转的圆鼓上,并把它扫描下来,产生成与图像的明暗呈比例的电流。到了1924年,美国电话电报公司制作了一个工作原型,它能够在七分钟内发送完毕一张宽五英寸、高七英寸的图片。不过与此同时,奈奎斯特也有将视线投到一些老问题上。这一年,在费城举办的一次电气工程师会议上,他做了一场题为《影响电报传输速率的若干因素》的讲演。
自从电报诞生初期以来,人们见到的讯息传播的基本单位是离散的:点和划。而到了电话时代,同样明显不过的是,有用的信息是连续的:声音和颜色,它们沿着频谱逐渐变化,融合得天衣无缝。那么到底哪一种才是真相?当时的物理学家,如奈奎斯特,他们是把电流当作波形来处理,即便这些电流传递的是离散的电报信号(这时,电报线中的大部分电流是被浪费掉了)。在奈奎斯特看来,如果连续信号可以表示像声音这般复杂的东西,那么像电报信号这样简单的东西只是它的一种特殊情况罢了。具体来讲,是对它进行调幅后的一种特殊情况,这时它仅有的两个有意义的幅度表示的就是通和断。通过把电报信号当作具有波形的脉冲来处理,工程师就可以加快它们的传输速率,也可以把它们整合进一个电路上传递,甚至可以把它们与声音信道整合起来。奈奎斯特进而想要知道一个电路上究竟能容纳多少电报数据,它们又能以多快的速率传输。为了回答这个问题,他采取了一个巧妙的办法,将连续波转换成离散的或说是“数字的”数据。奈奎斯特的办法就是按照一定间隔对连续波进行采样,从而把它转换成可数的一个个片断。
一个电路上承载的波有不同的频率,工程师称之为波的“频带”。频率的范围,也就是频带的宽度,简称“带宽”,可以作为这个电路容量的度量指标。如果一条电话线可以传送从400赫兹到3400赫兹的波,那么它的带宽就是3000赫兹。(这个频带可以覆盖管弦乐团的大多数声音,但短笛的高音部分会被截掉。)奈奎斯特提出了一个公式来计算“信息(intelligence)传输速率”。[53]他指出,若要想以特定速率传输信息,那么信道需要特定的、可度量的带宽。*如果带宽过小,就必须降低信息传输速率。(但后来人们发现,只要有充分的时间和精心的设计,即使信道只有很小的带宽,也可以发送复杂的讯息:比如,只能用手敲出高低两个音符的鼓。)
注释:*奈奎斯特提出的公式为:W=Klogm。在1924年的论文(“Certain Factors Affecting Telegraph Speed”)中,他讨论了,给定线路速度(K),信息传播速率(W )与编码的符号集大小(m)的关系。在 1928年的论文(“Certain Topics in Telegraph Transmission Theory”),他进一步指出,信道所需的带宽与线路速度呈正比,因而给定符号集大小,信息传播速率与带宽呈正比。——译者注
1927年夏,在意大利科莫湖畔举办的一次国际会议上,奈奎斯特的同事拉尔夫·哈特利在报告中对这些结果进行了进一步拓展,其中他使用的是 information一词。这是次交流思想的绝好机会。为了纪念亚历山德罗·伏特逝世一百周年,世界各地的科学家济济一堂。尼尔斯·玻尔在会上做了有关新兴的量子理论的演讲,并首次提出了他的互补原理。哈特利提供给听众的则不仅有一个基础定理,还有一套全新的概念。
这个定理是对奈奎斯特公式的一种推广,并且它可以用文字表述:在任意给定时间内能够传输的最大信息量,与可用的频率范围呈正比(他还没有使用带宽这一术语)。哈特利还提出了一套概念和假设,它们随后将逐渐融入电气工程文化,特别是贝尔实验室的文化当中。首要的是信息概念本身。他需要明确这个飘忽不定的概念。他指出:“在日常使用中,信息这个术语弹性太大。”[54]让我们首先考虑通信涉及的诸要素,而不论它是通过电线、面对面说话、文字或别的什么途径实现的。通信需要借助物理符号,如“字词”、“点和划”等。根据通信双方的事先约定,这些符号传达了“意义”。到目前为止,这不过是一个模糊的概念接着另一个模糊的概念。如果哈特利想要做到“排除心理因素的影响”,而用“纯粹的物理量”度量信息的话,他就需要一些明确的、可计数的东西。于是,他从计算物理符号的数目着手,而不管这些符号代表什么意思。每个传输过程都包含可数数目的符号。每个符号都意味着一次选择,它是从某个特定的可能符号集(例如,一个字母表)中选取的。可能符号的数目同样是可数的。尽管可能字词的数目并不那么容易计算,但即便是在日常语言中,每个字词仍旧意味着从一个可能性集中进行选择。
例如,在“苹果是红的”(Apples are red)这句话中,第一个词排除了其他种类的水果,以及所有其他物体。第二个词将我们的注意力引向了苹果的某些属性或状态,而第三个词则排除了其他可能的颜色……
显然,每次选择中可能符号的数目会随着所用的符号类型、具体的通信方以及双方事先预定的详细程度的不同而显著不同。[55]
哈特利承认,从心理的角度看,在一些特殊情况下,后续的符号可能会比先前的符号传递更多的信息。“比如,‘是’或‘否’,当它出现在一场漫长讨论的末尾时,它可能会具有极其重要的意义。”他的听众可以想出更多的例子,但这里的要点在于,要把心理因素从公式中排除出去,毕竟电报和电话说到底是毫无感情的机械。
同一符号集内的符号之间没有差别,讯息的信息量应该正比于符号数:多一倍符号数,就多一倍信息量。这一点在直觉上似乎不言而喻。但一个点或划携带的信息量比字母表中的一个字母要少,比从一本含有一千个单词的词典中选取的一个单词就更少了。也就是说,可能符号的数目越多,每次选择携带的信息量就越大。那么大多少呢?下面是哈特利的公式:
a
其中H表示讯息的信息量,n表示被传输的符号数,s表示符号集的大小。在点–划系统中,s只有2。一个汉字的权重比摩尔斯电码的一个点或划大得多,因而也更有价值。而在用不同符号分别表示词典中一千个单词的系统中, s就是1000。
博多码表
不过,单个字符的信息量与字符集的大小并不呈正比,而是呈对数关系:要想使单个字符的信息量翻一番,就需要使字符集增至原先大小的平方。哈特利以电传打字电报机为例阐明了这一点。这个设备把新旧技术结合到了一起,通过一个钢琴式的键盘来发送电报,键盘布局则采用了法国人埃米尔·博多( mile Baudot)设计的编码。操作员根据要发送的字符按下相应的键,设备会将这些键的按压译为电报触点的通断。博多码使用五个单位来表示一个字符,所以其可能字符的数目为25,也就是32。从单个字符的信息量来说,每个这种字符的价值是其基础的二元单位的五倍,而不是三十二倍。
电话以波浪起伏的模拟波在网络中传输人的声音,那么它当中包含的符号在哪里呢?这些符号又该如何计数?
对此,哈特利延续了奈奎斯特的观点,认为连续曲线应该被看作一连串离散的步骤逼近得到的极限,而这些步骤反过来可以通过对波形进行间隔采样而还原出来。采用这样的办法,电话就可以同电报一样适用相同的数学分析。哈特利进而通过一项粗略但令人信服的分析证明了,在这两种情况下,讯息的信息量都取决于两个因素:传输所能用的时间,以及信道的带宽。同样的分析也适用于留声机唱片和电影。
奈奎斯特和哈特利这几篇有点奇怪的论文在当时并未立即引起多少人的注意。它们也很难被那些富有声望的数学或物理学期刊所接受,所幸贝尔实验室自己有份《贝尔系统技术期刊》。克劳德·香农读到了这些论文,并吸收了其中的数学洞见。尽管它们还显粗略,但这仍是朝向一个隐隐约约的目标所蹒跚迈出的第一步。香农还注意到了他们两人在界定术语时所遭遇的困难。“这里的信息传输速率指的是,在给定时长内所能够传输的字符数,这些字符可以代表不同的字母、数字等。”[56]但字符、字母、数字,这些都很难进行计数。还有一些概念,尚未有相应的术语,如“一个系统传输特定符号序列的容量”。[57]
当时的通信工程师所谈论的不仅是电线,还有空气(“以太”),甚至打孔纸带。他们所关注的不仅是文字,还有声音和影像。他们正试图用符号来表示整个世界,将万物化身为电。而香农感觉到了一丝将这一切统一起来的希望。
注释
[1] James Clerk Maxwell, “The Telephone,” Rede Lecture, Cambridge 1878, “illustrated with the aid of Mr. Gower’s telephonic harp,” in W. D. Niven, ed.,The Scientific Papers of James Clerk Maxwell,vol. 2 (Cambridge: Cambridge University Press, 1890; repr. New York: Dover, 1965), 750.
[2]“小到你走不到几个街区就会发现自己已经身处乡间了。”Shannon interview with Anthony Liversidge, OmniAugust 1987), in Claude Elwood Shannon, Collected Papers,ed. N. J. A. Sloane and Aaron D. Wyner (New York: IEEE Press, 1993), xx.
[3] “In the World of Electricity,”The New York Times,14 July 1895, 28.
[4] David B. Sicilia, “How the West Was Wired,” Inc.,June 15 1997.
[5] 1843;Complete Stories and Poems of Edgar Allan Poe(New York: Doubleday, 1966), 71.
[6] Ibid., 90.
[7] The New York Times,21 October 1927.
[8] Vannevar Bush, “As We May Think,”The Atlantic(July 1945).
[9] Shannon to Rudolf E. Kalman, 12 June 1987, Manuscript Division, Library of Congress.
[10] Claude Shannon, “A Symbolic Analysis of Relay and Switching Circuits,” Transactions of the American Institute of Electrical Engineers57(1938): 38–50.
[11] Vannevar Bush to Barbara Burks, 5 January 1938, Manuscript Division, Library of Congress.
[12] Claude Shannon,Collected Papers,892.
[13] Claude Shannon to Vannevar Bush, 16 February 1939, in Claude Shannon,Collected Papers,455.
[14] Claude Shannon,Collected Papers,921.
[15] Leibniz to Jean Galloys, December 1678, in Martin Davis, The Universal Computer: The Road from Leibniz to Turing(New York: Norton, 2000), 16.
[16] Alfred North Whitehead and Bertrand Russell, Principia Mathematica,vol. 1 (Cambridge: Cambridge University Press, 1910), 2.
[17] Bertrand Russell, “Mathematical Logic Based on the Theory of Types,” American Journal of Mathematics30, no. 3 (July 1908): 222.
[18] Douglas R. Hofstadter, I Am a Strange Loop(New York: Basic Books, 2007), 109.
[19] Alfred North Whitehead and Bertrand Russell,Principia Mathematica,vol. 1, 61.
[20] “The Philosophy of Logical Atomism” (1910), in Bertrand Russell,Logic and Knowledge: Essays, 1901–1950(London: Routledge, 1956), 261.
[21] Kurt Gdel, “On Formally Undecidable Propositions of PrincipiaMathematica and Related Systems I” (1931), in Kurt Gdel: Collected Works,vol. 1, ed. Solomon Feferman (New York: Oxford University Press, 1986), 146.
[22] Kurt Gdel, “Russell’s Mathematical Logic” (1944), in Kurt Gdel: Collected Works,vol. 2, 119.
[23] Kurt Gdel, “On Formally Undecidable Propositions of Principia Mathematicaand Related Systems I” (1931), 145.
[24] Ibid., 151 n15.
[25] Kurt Gdel, “Russell’s Mathematical Logic” (1944), 124.
[26] Douglas R. Hofstadter, I Am a Strange Loop,166.
[27] John von Neumann, “Tribute to Dr. Gdel” (1951), quoted in Steve J. Heims, John von Neumann and Norbert Weiner(Cambridge, Mass.: MIT Press, 1980), 133.
[28] Russell to Leon Henkin, 1 April 1963.
[29] Ludwig Wittgenstein, Remarks on the Foundations of Mathematics(Cambridge, Mass.: MIT Press, 1967), 158.
[30] Gdel to Abraham Robinson, July 1973, in Kurt Gdel: Collected Works,vol. 5, 201.
[31] Rebecca Goldstein, Incompleteness: The Proof and Paradox of Kurt Gdel(New York: Atlas, 2005), 207.
[32] Hermann Weyl to Claude Shannon, 11 April 1940, Manuscript Division, Library of Congress.
[33] David A. Mindell, Between Human and Machine: Feedback, Control, and Computing Before Cybernetics(Baltimore: Johns Hopkins University Press, 2002), 289.
[34] Vannevar Bush, “Report of the National Defense Research Committee for the First Year of Operation, June 27, 1940, to June 28, 1941,” Franklin D. Roosevelt Presidential Library and Museum, 19.
[35] R. B. Blackman, H. W. Bode, and Claude E. Shannon, “Data Smoothing and Prediction in Fire-Control Systems,” Summary Technical Report of Division 7, National Defense Research Committee, vol. 1,Gunfire Control(Washington D.C.: 1946), 71–159 and 166–167; David A. Mindell, “Automation’s Finest Hour: Bell Labs and Automatic Control in World War II,” IEEE Control Systems15 (December 1995): 72–80.
[36] Elisha Gray to A. L. Hayes, October 1875, quoted in Michael E. Gorman,Transforming Nature: Ethics, Invention and Discovery(Boston: Kluwer Academic, 1998), 165.
[37] Albert Bigelow Paine, In One Man’s Life: Being Chapters from the Personal & Business Career of Theodore N. Vail(New York: Harper & Brothers, 1921), 114.
[38] Marion May Dilts,The Telephone in a Changing World(New York: Longmans, Green, 1941), 11.
[39] “The Telephone Unmasked,”The New York Times,13 October 1877, 4.
[40] The Scientific Papers of James Clerk Maxwell,ed. W. D. Niven, vol. 2 (Cambridge: Cambridge University Press, 1890; repr. New York: Dover, 1965), 744.
[41] Scientific American,10 January 1880.
[42] Telephones: 1907,Special Reports, Bureau of the Census, 74.
[43] Quoted in Ithiel de Sola Pool, ed., The Social Impact of the Telephone(Cambridge, Mass.: MIT Press, 1977) 140.
[44] J. Clerk Maxwell, “A Dynamical Theory of the Electromagnetic Field,”Philosophical Transactions of the Royal Society155(1865): 459.
[45] Michèle Martin, “Hello, Central?”: Gender, Technology, and Culture in the Formation of Telephone Systems(Montreal: McGill–Queen’s University Press, 1991), 55.
[46] Proceedings of the National Telephone Exchange Association, 1881, in Frederick Leland Rhodes,Beginnings of Telephony(New York: Harper & Brothers, 1929), 154.
[47] Quoted in Peter Young,Person to Person: The International Impact of the Telephone(Cambridge: Granta, 1991), 65.
[48] Herbert N. Casson,The History of the Telephone(Chicago: A. C. McClurg, 1910), 296.
[49] John Vaughn, “The Thirtieth Anniversary of a Great Invention,” Scribner’s 40(1906): 371.
[50] G. E. Schindler, Jr., ed., A History of Engineering and Science in the Bell System: Switching Technology 1925–1975(Bell Telephone Laboratories, 1982).
[51] T. C. Fry, “Industrial Mathematics,”Bell System Technical Journal20 (July 1941): 255.
[52] Bell Canada Archives, quoted in Michèle Martin, “Hello, Central?”23.
[53] H. Nyquist, “Certain Factors Affecting Telegraph Speed,”Bell System Technical Journal3 (April 1924): 332.
[54] R. V. L. Hartley, “Transmission of Information,”Bell System Technical Journal7(July 1928): 536.
[55] Ibid.
[56] H. Nyquist, “Certain Factors Affecting Telegraph Speed,” 333.
[57] R. V. L. Hartley, “Transmission of Information,” 537.
第7章 信息论(我想要的不过只是一颗寻常的大脑)
建立一套有关信息及其处理的理论,有点儿像建造一条横贯大陆的铁路。你可以从东海岸出发,先试着理解信息是如何处理的,然后向西迈进。或者你也可以从西海岸出发,先试着理解信息到底是什么,然后向东深入。我们希望的是,两条铁轨能在中间会合。
——乔恩·巴怀斯(1986)[1]
1943年初,正值第二次世界大战如火如荼之时,两位志趣相投的思想家,克劳德·香农和阿兰·图灵,经常会在贝尔实验室的食堂共进午餐,但他们对彼此的工作都守口如瓶,因为那事关机密。[2]两人都在从事密码分析工作,甚至连图灵来到贝尔实验室这件事都涉及机密。他是搭乘“伊丽莎白女王号”,辗转躲过德军的U型潜艇方才来到美国。而之所以能够躲过劫难,还要归功于他之前在布莱切利庄园成功破解了德军用来进行机要通信的密码——恩尼格玛(Enigma),该密码也用在了潜艇的通信上。当时香农正致力于X系统(SIGSALY)的工作,该系统是用来加密在五角大楼的罗斯福与在战争办公室的丘吉尔之间的语音通话。它先对模拟语音信号每秒采样五十次(即“量化”或“数字化”),然后对采样信号应用一个随机密匙,这个密匙与工程师们很熟悉的电路噪声十分相似。香农并不设计这套系统,他的任务是从理论上分析该系统,并希望证明它不可破解。他成功地做到了这一点。后世的人们清楚地认识到,正是大西洋两岸这些人的通力合作才使密码学从一门艺术变成了一门科学。但在当时,密码制作者和密码破解者却无法对此开怀畅谈。
既然密码这个话题不能拿到台面上讨论,图灵就给香农看了一篇他在七年前写的论文《论可计算数》,其中讨论了一种理想计算机器的力量和局限。他们谈论的另一个话题则是双方都感兴趣的,即机器是否可能学会思考。香农提议可以把“文化的东西”,比如音乐,也灌输进电子大脑中。双方的讨论有时会变得十分激烈,图灵曾有一次在大庭广众之下高声反驳说:“不,我对建造一颗强大的大脑不感兴趣,我想要的不过只是一颗寻常的大脑,跟美国电报电话公司董事长的脑袋瓜差不多即可。”[3]在 1943 年讨论什么思考机器似乎有点大言不惭,毕竟晶体管和电子计算机都还没有出现。不过,香农和图灵所交流的愿景与电子学无关,而只与逻辑学有关。
机器能思考吗?这个问题出现的历史相对较短,且看上去有点奇怪——说奇怪,是因为机器结结实实就是一堆物质啊。查尔斯·巴贝奇和爱达·洛夫莱斯差不多是最早研究这个问题的人,但他们早已被人遗忘。而现在,阿兰·图灵迈出了前所未闻的一步:他首先设想了一种机器,它在思维领域具备无与伦比的力量;然后他证明了,这样的机器不能做什么。他的机器在当时并未变成现实(不过现如今,它已是无处不在),这只是一个思想实验。
与机器能做什么的问题密切相关的是另一个问题,即什么样的任务是机械的(这个旧词被赋予了新的重要性)。既然机器可以演奏音乐、捕捉图像、瞄准高射炮、连接电话通话、控制组装线,还可以进行数学计算,“机械的”一词已然显得不那么贬义。不过在当时,也只有那些胆小而迷信的人才会想象机器有朝一日会变得有创造力、独到、自主,毕竟这些特性与“机械的”一词的通常意涵(自动的、被动的、循规蹈矩的)大相径庭。哲学家们发现这个词很有用。在他们看来,一个既涉及智能又可被称为机械的例子是算法:这个新术语表示的是某种古已有之的东西(体现在如菜谱、指令集、分步步骤等当中),只是现在它要求人们的正式承认。巴贝奇和洛夫莱斯与算法打了那么久交道,却没有给它加以命名。而算法在20世纪被赋予了一个核心位置,也正是从此开始的。
1936年,当图灵将他关于可计算数的论文呈交给他的教授时,他是剑桥大学国王学院的研究员,两年前刚从那里本科毕业。这篇论文的完整标题以一个华丽的德语单词收尾:《论可计算数及其在判定性问题上的应用》(“On Computable Numbers, with an Application to the Entscheidungsproblem”)。所谓“判定性问题”(Entscheidungsproblem)是大卫·希尔伯特在1928年国际数学家大会上提出来的。身为可能是他那个时代最具影响力的数学家,与罗素、怀特海一样,希尔伯特也满怀热情地致力于为全部数学奠定一个坚实的逻辑基础。他曾宣称:“在数学里,没有‘我们将来也不知道’*。”当然,数学里有很多未解之题,其中一些还很著名,如费马大定理和哥德巴赫猜想——这些命题看上去是成立的,但尚未得到证明。大多数人认为,这些命题只是暂时尚未得到证明。他们假设,或者说相信,任何数学真理都能被证实,只是时间早晚而已。
注释:*这是希尔伯特在1900年国际数学家大会上的表述,引用的是一句拉丁语箴言“我们现在不知道,我们将来也不知道”(ignoramus et ignorabimus)。1930年,希尔伯特把这句口号改成了“我们必须知道,我们也必将知道”(Wir müssen wissen — wir werden wissen!)。——译者注
注释:1995年,英国数学家安德鲁·怀尔斯与其学生理查德·泰勒对费马大定理给出了证明。可参见:西蒙·辛格,《费马大定理》,薛密译,上海:上海译文出版社,2005。——译者注
判定性问题问的就是,能否找到一个严格的、分步的算法,通过它,给定一种演绎推理的形式语言,人们就可以自动化地进行证明。这呼应了莱布尼茨的梦想,即通过一系列机械的规则来表示所有有效的推理过程。虽然希尔伯特是以问题的形式提出,但他是个乐观主义者。他认为或者说希望,自己已经知道答案了。也正是在这数学和逻辑学命运的关键时刻,哥德尔提出了他的不完全性定理。至少表面上看,哥德尔的研究彻底打破了希尔伯特的乐观主义,就像之前对罗素所做的。但实际上,哥德尔并没有回答判定性问题。希尔伯特曾区分了三个问题:
数学是完全的吗?
数学是一致的吗?
数学是可判定的吗?
哥德尔证明了,数学不可能既是完全的,又是一致的,但他并没有明确地回答第三个问题,至少没有针对全部数学给出明确答案。这样,即便某个特定的、封闭的形式逻辑体系必然包含一些从体系内部既不能证实也不能证伪的命题,但它还是可能由一个可以说是外部的裁判(如该体系外的逻辑或规则)加以判定。*
注释:*哥德尔在晚年写道:“正是由于图灵的工作,事情才完全搞清楚,即我的证明对于任何包含算术的形式体系都成立。”[7]
阿兰·图灵,当时只有二十二岁,他对于大部分的相关文献都不熟悉,工作也喜欢独来独往,有时他的教授甚至都担心他会变得“习惯于孤独”。[4]在论文中,他提出了一个(表面上看)完全不同的问题:所有的数都是可计算的吗?这是个出人意料的问题,毕竟几乎没有什么人考虑过不可计算的数。大多数人所使用或考虑的数,根据定义都是可计算的。有理数是可计算的,因为它们可以表示成两个整数的商:a/b。代数数是可计算的,因为它们是多项式方程的解。一些超越数,如著名的π和e,也是可计算的,人们事实上一直都在计算它们。对此,图灵提出了一个看似温和的命题:有些数可命名、可定义,却是不可计算的。
那这句话是什么意思?图灵将可计算数定义为,其小数表达式可在有限步骤内计算出来。他说:“这样定义的合理性,在于人类记忆是有限的这一事实。”[5]图灵同时把计算定义为一个机械的过程,一种算法。人类在解决问题时常常会借助直觉、想象或灵光一闪——这些乍看上去可以说是非机械的计算,但深究起来或许又只是步骤被隐藏起来的机械计算罢了。图灵需要把这些只可意会不可言传的东西去除。因此,他问了一个直截了当的问题:要是机器,它会怎样做?“根据我的定义,如果一个数的小数表达式可以被机器写出来,那么它就是可计算的。”
但在当时,没有一台真实的机器可供参考。从事计算工作的依然是“计算员”,几乎所有的计算工作仍旧是在纸面上运算完成的。不过,图灵确实想到了一台信息处理机器可以作为起点,那就是打字机。早在他十一岁还在上寄宿学校时,他就曾想过要发明一台打字机。他在给父母的信中写道:“你看,这些有趣的圆圈一面刻出字母的形状,从圆圈 开始,排列在一个印台四周,这样压下去就可以印出一个字母,不过图上没有把字母全部画出来。”[6]当然,打字机不是自动的,与其说它是台机器,还不如说它是个工具。它不会往页面上倾吐一连串文字,相反,是纸在一格格移动位置,然后字锤在上面敲出一个个字符。基于这样的模型,图灵想象出了另一种至纯至简的机器。也正因为这样一部机器只存在于想象当中,所以无需考虑图纸设计、技术规格或专利申请等环节的细节问题。与巴贝奇一样,图灵的机器也是用来计算数,只是他不必担心各种技术限制,因为他根本就没有打算去建造这部机器。
图灵列出了他的机器必备的很少几个组件:纸带、符号和状态。这些组件需要一一加以定义。
纸带之于图灵机,就如同纸张之于打字机。不过,打字机利用了纸张的两个维度,而图灵机只利用了它的一个维度——纸带是一长条纸,并被分成了一个个的方格。图灵写道:“在初等算术中,人们有时会用到纸张的二维特性,但这种做法是可以回避的。并且我认为,人们将会认识到,纸张的二维特性对计算来说并不是必不可少的。”[8]图灵机的纸带被想象成无限长的,也就是说,它取之不尽,用之不竭。但在任意给定时刻,在“机器内”的只有一个方格。纸带(或机器)可以左右移动至前后方格。
符号可以写在纸带上,每个方格写一个。那么可以使用多少个符号呢?这个问题需要费些思量,尤其是如果限定只能使用有限个符号(如果允许无限个符号,那么符号之间的差异将会任意小)。但这个限定并不会有太大影响,因为“总是可以用符号序列来代替单个符号”。图灵发现,至少在欧洲语言里,一个由众多字母拼成的单词是被视为单个符号(相反,汉字则“试图使用可枚举的无限个符号”)。如果 17和 999 999 999 999被视为单个符号的话,那么阿拉伯数字将有无限个,但图灵更愿意把它们视为复合符号。事实上,为了符合机器的极简主义精神,他选择了最简单的两个符号:二进制记号,0和1。符号不仅可以写入纸带,还可以读出——图灵当时使用的是“扫描”一词。在现实中,当时显然还没有出现可以把纸面上的符号扫描进机器中的技术,但等效的东西却早已有之,如用在制表机上的打孔卡片。图灵还设定了另一个限制:机器每次只能“感知”(使用这样拟人化的用语也是别无选择)一个符号,也就是在机器内的方格上的那个符号。
状态则要费更多笔墨解释。图灵使用了“格局”(configuration)一词,并指出,不同的格局对应的是不同的“思维状态”。图灵机具有有限多个状态。在任何给定状态下,机器会根据当前符号的不同,执行一个或多个操作。例如,在状态a下,机器可能会在当前符号为1时右移一格,在当前符号为0时左移一格,在当前符号为空时则打印1。在状态b下,机器可能会擦除当前符号。而在状态c下,机器可能会在当前符号为0或1时右移,否则就停机。执行完每组操作后,机器将具有一个新的状态,而它与先前状态可能相同也可能不同。给定一个计算,它所使用的各个状态都存放在一张表中,但至于如何物理地管理这张表则无关紧要。这张状态表其实就是机器的指令集。
这就是全部了。
图灵实际上是在对他的机器编程,尽管他没有使用这个术语。利用这些基本操作(移动、打印、擦除、变更状态,以及停机)就可以构建出更复杂的过程,并可以反复调用这些过程,如“复制符号序列、比较序列、擦除给定形式的所有符号等”。虽然机器一次只能看到一个符号,但实际上它可以利用部分纸带来暂时存储信息。用图灵的话来说,“另外一些[符号]则仅是临时笔记,以‘帮助记忆’”。而无穷无尽的纸带为此提供了无限的记录空间。就这样,图灵机可以完成所有算术运算。图灵演示了如何将两个数相加,也就是,写下了运算所需的状态表。他还演示了怎样让机器(无穷无尽地)打印出π的二进制表示。他花了很多时间探索这部机器能做什么以及实现某些具体任务的方法。最终他证明了,这部机器能做人类在计算数时所能做的一切工作,这其中不需要任何知识或直觉。任何可计算的,这部机器都可以计算。
接下来就是最后的准备工作。如果把图灵机简化到只剩下一张有限的状态表以及一个有限的输入集,那么图灵机本身就可以用数来表示。每一张可能的状态表,配以表示初始输入的纸带,表示了不同的机器。而每部这样的机器可以用一个特定的数来描述(这个数描述了其状态表和初始输入)。图灵给他的机器编码,就如同哥德尔给他的符号逻辑语言编码一样。如此这般,数据和指令之间的区分就被消除了:说到底,它们都不过是数而已。每个可计算数,必定对应着一个机器编号。
图灵最终(还是在脑子里)制造了一种机器,它可以模拟其他任何可能的图灵机——任何一部数字计算机。他把这部机器称为U ,取自“通用的”(universal)一词,这个说法也被数学家一直沿用至今。通用图灵机接受机器编号作为输入,也就是说,它可以从纸带上读取对其他机器的描述(这个数描述了其算法和输入)。无论一部数字计算机变得如何复杂,对它的描述都可以被编码后写入纸带,并由U读取。如果一个问题可以使用一部数字计算机来解决,也就是说,它能被编码成一组符号并通过一个算法来解决,那么这个问题也可以使用通用图灵机来解决。
现在显微镜把镜头对准了自身。通用图灵机开始检验每一个数,看它是否对应一个可计算的算法。有一些被证明是可计算的,还有一些被证明是不可计算的。但还存在第三种可能,这让图灵非常感兴趣。有那么一些算法会抗拒检查,自行其是,让机器一直计算下去,永不停机,也不明显地出现重复,只留下一旁的观察者始终纳闷它是否会停机。
现如今,图灵1936年对于停机问题的证明已经成为一个艰深难懂的杰作,其中充斥着递归定义、用以表示其他符号的符号、用以表示数(状态表、算法,乃至机器)的数。他的证明看上去是这样子的:
我们假设存在这样一个过程,也就是说,我们可以发明一台机器D,当提供了任一机器M的标准描述,它能够检测这个标准描述。如果M是循环机,则用符号u标记这个标准描述;如果M是非循环机,则用符号s标记这个标准描述。
结合机器D和U,我们可以构造机器H 来计算序列β'。机器D需要一条纸带。我们假设它使用了F-格所有符号之外的E-格,并在最后得出结论时,擦除机器D所做的所有中间工作……
我们可以进一步证明,不存在这样的机器E,当给它提供了任意一台机器M的标准描述时,它可以判断M是否曾经打印过给定的符号(比如0)。
很少人能跟得上图灵的思路。*尽管这看上去像悖论(其实这就是悖论),但图灵的确证明了有些数是不可计算的。(事实上,绝大多数的数都是不可计算的。)
注释:*图灵的论证思路大致如下:可证明H是非循环机;但H必须处理它自己的描述数,即H需要确定它本身是否是非循环的,这时H 将陷入无限循环之中;由此导致自相矛盾,从而证明假设不成立,即D不存在,也就是说,不存在一个通用过程可以判断一台机器是否是非循环的(而如果一个数可以被非循环机计算出来,那么它就是可计算数)。类似地,图灵用反证法证明了E不存在(否则,E将判断出M是否经常无限次打印0或1或都打印,从而判断出M是否是非循环的)。具体可参见:Charles Petzold,《图灵的秘密》,杨卫东,朱皓等译,北京:人民邮电出版社,2012,第10章。——译者注
同时,由于每个数都对应着一个编码后的数学和逻辑学命题,因而图灵已经回答了希尔伯特的问题,即“命题是否都是可判定的”。他证明了判定性问题有答案,且这个答案是否定的。一个不可计算的数,实际上就是一个不可判定的命题。
就这样,借助一台新奇、抽象、完全想象的机器,图灵得出了与哥德尔相似的证明和结论。不仅如此,他还更进一步,给出了一个形式体系的一般定义:任何用于生成公式的机械的流程,本质上都是一台图灵机。因此,任何形式体系中必然存在不可判定的命题。数学是不可判定的,其不完全性来源自不可计算性。
当数被拿来编码机器的行为时,悖论就会再次现身。这涉及不可避免的递归纠缠:被计算的实体与进行计算的实体纠缠到了一起,带来种种恶果。正如后来侯世达所说的,“整个事情依赖于这位停机检察官自己在看着自己[在看着自己(……)预测自己的行为时预测自己的行为]预测自己的行为时预测自己的行为”。[9]物理学同样新近遇到了类似的难题:海森堡的不确定性原理。图灵在听说这个原理后,采用自指的说法对此进行了表述:“过去我们一直假定,在科学中,只要知道宇宙在某一时刻的全部状态,我们就能把宇宙所有的未来状态都预测出来……但更为现代的科学却认为,当我们面对原子和电子时,我们无法知道它们的全部确切状态,因为我们所用的仪器本身就是由原子和电子构成的。”[10]
从巴贝奇的差分机到图灵的通用机,一个是笨重的庞然大物,一个是优雅的抽象虚构,两者相隔了一个世纪。图灵从没打算成为一个循规蹈矩的机器操作员,就像多年以后数学家和逻辑学家赫伯特·恩德滕所描述的那种“勤勉努力的办事员,遵照着给他的指令,在供应充足的纸张上做着运算”。[11]相反,一如爱达·洛夫莱斯,图灵是个程序员。他将自己想象成一台计算机,关注自己思维过程中一步步的逻辑,并将这些心智过程加以提炼萃取,得出其最小的组分,也就是信息处理的原子。
——
图灵和香农都在使用编码,只是图灵是把指令编码成数,将十进制数编码成0和1,而香农是对基因、染色体、继电器和开关编码。他们的灵思巧智都应用在了如何将一类事物映射到另一类事物(例如,代数函数与机器指令,逻辑运算符与电路),也就是找出两类事物之间严格的对应关系上。在他们心智的武器库中,符号运算以及映射的思想占据着举足轻重的地位。当然,这种编码转换不是为了遮蔽事实,相反是为了揭示事实:比如说,借此可以发现苹果和橘子归根结底是等价的,或即便不等价,也是可相互替代的。但很快,两人便都被战争引入了当时如日中天的密码学领域。
图灵的母亲常问他,他的数学有什么用。对此早在1936年,他就曾在给母亲的信中透露,自己已经找到了当时正在研究的可计算数的一种可能应用:“它回答了‘最一般的编码或密码是什么样的’问题,并且(自然而然)使得我可以构造许多特殊的、有趣的密码。”[12]他又补充道:“我猜我能以大价钱把这些密码卖给政府,但我相当怀疑这样做是否道德。”图灵机的确能够制作密码,不过英国政府当时面对的却是另外一个难题。随着战争阴影的逼近,解读拦截到的德军电报和无线电情报的任务,便落到了对外称为“政府编码与密码学校”(GC&CS)的密码破解机构肩上。该机构原本隶属于海军部,后来转移到了外交部,最早的成员包括语言学家、办事员和打字员,但没有数学家。1938年夏,图灵应召进入该学校,并在次年随学校从伦敦撤到了伯明翰郡的布莱切利庄园。这时他的同事中还有了几位国际象棋和填字游戏冠军。很显然,古典语言学对于现在的密码分析工作已经力不从心了。
一台缴获的恩尼格玛密码机
德国的密码系统名为恩尼格玛,是一种多码加密装置。密码机有手提箱大小,里面有多个转子,外面则有键盘和信号灯。这个密码系统源自著名的维吉尼亚密码,它曾号称是不可破译的密码,直到1854年被查尔斯·巴贝奇所破解。巴贝奇所用的数学方式为政府编码与密码学校的早期工作提供了帮助。同样提供了帮助的是波兰密码学家,他们在战前曾成功破解过德军早期的恩尼格玛密码系统。在“八号营房”,图灵从理论入手,最终不仅从数学上,还从物理上解决了这个难题。
这意味着要建造一台机器,用来逆推恩尼格玛加密过的数据。图灵的首台机器只是个使用假想纸带的虚幻之物,但这台绰号“炸弹”(Bombe)的机器却是个体积将近三立方米的庞然大物,里面藏着重达一顿的电线以及油腻腻的金属零件,它们有效地将恩尼格玛密码机的转子映射成了电路。这项在布莱切利庄园取得的科学成就,在战争期间及之后的三十年里一直都是机密,但它对战争结局的影响甚至要超过曼哈顿计划制造出的真正炸弹。到了战争后期,图灵的“炸弹”每天要破解数以千计的敌军情报,这样的信息处理规模是史无前例的。
尽管在贝尔实验室一起用餐时,图灵和香农都丝毫没有提及这方面的内容,但他们的确间接地谈到了图灵对于如何度量这些东西的一个构想。布莱切利庄园的分析师会对汇聚到此的各种讯息(有些难以确定,有些又互相矛盾)进行权衡,以便评估它们当中包含一定事实的概率,比如恩尼格玛的某种编码设置或潜艇的可能位置等。图灵感到这其中有些东西需要在数学上加以度量。不过,他关注的不是传统意义上的概率,用比值比(如3比2)或一个0到1的数(如0.6,或60%)来表示。他更在意的是引致概率变化的数据:影响概率的因子,有点类似于皮尔士的证据权重。他发现使用对数标度比较方便,这样乘法运算就会变成加法运算。他还为此发明了一个新单位,叫做“班”(ban)*。班是以10为底,因此,1班意味着使某一事实成立的可能性增大十倍所需的证据权重。对于粒度更小的度量需求,还可以使用分班和厘班。
注释:*单位名称源自布莱切利附近的一个镇名,班伯里(Banbury),因为当时计算所用的纸张是在这个镇特别印制的。这个单位是以 10为底,有时又被称为“哈特利”(hartley)。同时,以 2为底的信息的单位称为“比特”,以e为底的单位称为“奈特”(nat)。——译者注
与此同时,香农也在沿着类似的轨迹进行着摸索。
在纽约西村的贝尔实验室旧总部,香农发展出了一套密码学理论,也使得自己曾向万内瓦尔·布什吐露的梦想(“研究传递信息的一般系统的某些基本属性”)变得更为清晰。在整个战争期间,他同时在从事多项任务。因此,他要向对应的上司汇报相应的工作,而对别的事情守口如瓶。保密是当时的命令。对于图灵正试图借助实际拦截和物理硬件进行破解的一些密码系统,香农则是在纯数学领域对其进行了分析。例如,其中一个具体问题是,当“敌方知道我方在使用维吉尼亚密码”[13]时,该系统的安全性有多高。(实际上,当时德国人就在采用这样一套密码系统,而英国人则是知道对方在使用这套系统的敌方。)香农试图找出涉及(用他的话说)“离散信息”的密码系统的一般数学结构和属性。这意味着它们处理的是从有限集中选取的符号序列,主要是字母表中的字母,但也可以是某种语言中的单词,或甚至是“量化后的语音”,也就是声音信号被分解成不同幅度的组块。为了隐藏这些离散信息,讯息发送者需要通过某种系统化的过程,把正确的符号替换成错误的符号,而讯息接收者知道该过程使用的密钥,从而可以借此反推整个替换过程。因此,即便敌方知道了所用的加密过程,只要密钥没有泄露,整套安全系统仍然有效。
密码破解者面对的是一串看上去毫无意义的数据流,而他们想要做的是从中找出真正的信号。香农指出:“在密码分析师看来,密码系统与有噪通信系统几乎没有什么不同。”[14](这份题为《密码学的数学理论》的报告在1945年完成后,随即被列为机密文件。)数据流故意被弄得看上去像是随机的。当然,事实上绝非如此,否则其中的信号也会丢失。密码必须将像日常语言这种符合一定模式的东西,转换成表面看来无规律可循的东西。但即便如此,还是会有模式隐藏其中。为了对加密替换过程进行分析和归类,香农必须更深入地理解语言的模式,找到一条学者们(如语言学家)从未尝试过的道路。当时的语言学家已经开始把注意力放到了语言的结构上,试图从语言含糊不清而又连绵不断的形状和声音中找出其结构。语言学家爱德华·萨丕尔曾把语言的底层语音模式称为语言的“符号原子”。他在1921年写道:“单只语音并不是语言的实质性事实;语言的实质性事实毋宁说在于思维的分类、形式模式……语言,作为一种结构来看,它的内面是思维的模具。”[15]思维的模具,这个说法很精致。不过,香农需要找到比这更有形、更易数的方式来描述语言。
在香农看来,模式就等同于冗余。在日常语言中,冗余可以辅助理解。可在密码分析中,冗余就是密码的阿喀琉斯之踵。那么冗余又在哪里呢?在英语中,一个简单的例子是,紧跟在字母q后面的字母u就是冗余,即便把它去掉也不会有影响。[或者说,几乎总是冗余。要不是英语中还有极少的外来词,如Qin(秦)或Qatar(卡塔尔),它就完全成了冗余。]在字母q之后,大家都预期后面会是字母u。这里面不存在什么意外,它也就没有贡献什么信息。紧跟在字母t后面的字母 h也有一定的冗余度,因为它是最可能在此出现的字母。香农认为,每一种语言都有一定的统计结构,以及相应一定的冗余度。我们可以用D来表示冗余度(这是香农的提法)。“在某种意义上,D 度量了某种语言的文本在不损失任何信息的前提下能够缩减多少篇幅。”[16]
香农估计,英语的冗余度大约是百分之五十。*当时还没有计算机可以处理海量文本,所以他并不是很确定,但他的估计被证明是正确的。常规的英语段落可以缩减一半的篇幅而不损失信息。(试想第 1章中提到的例子,If u cn rd ths…)。对于早期最简单的替换密码,这种冗余是其首当其冲的弱点。爱伦·坡知道,如果一份密文中的字母z比所有其他字母都多,那么字母z可能替换的就是字母e,因为e是英语中出现频率最高的字母。同样,一旦字母q被破解了,字母u就手到擒来。密码破解者还会寻找反复出现的模式,因为它们可能对应着常用单词或常见字母组合,比如the、and或-tion。为了进一步改进这种频度分析,密码破解者需要对字母的出现频率有更深入的了解,当年阿尔弗雷德·韦尔或塞缪尔·摩尔斯通过查看印刷工人的铅字盘得出的结论毕竟太过粗略。而在另一方面,密码制作者也设计了更为聪明的加密过程来克服这个缺点。他们通过不断变化替换的字母表,使得每个字母都存在多种可能的替换。这么一来,那些明显的、可辨识的模式就不见了。然而,只要密文还带有一丝模式的痕迹,无论它是某种形式、某种序列,还是某种统计规律性,那么在理论上,数学家就能找到突破口。
注释:*“在不考虑统计结构的长度超过八个字母的情况下。”
当时所有的密码系统都有一个共同点,那就是它们都要使用密钥。密钥可能是一个单词、一个短语、一整本书或甚至更复杂的东西。但不管是什么,它都是发送者和接收者都知道的一个字符的来源,是除了讯息之外双方所共享的知识。在德军的恩尼格玛密码系统中,其密钥是密码机的硬件设置,且设置每天都会变换。在布莱切利庄园的分析师必须每天分析经过全新方式替换后的文本的模式,重新找出对方所用的密匙。而与此同时,香农则开始从最宏观、最一般和最理论的视角审视这个问题。这时,一个密码系统可以看作由以下几个部分构成:有限数量(虽然数目可能很大)的可能讯息、有限数量的可能密文,以及用于两者相互转换的有限数量的密钥,每个密钥都有相应的出现概率。以下是香农的示意图:
注释:恩尼格玛在理论上几乎是不可破解的,但在实际应用中,使用者的一些指令、习惯或失误等会提供一些蛛丝马迹。通过对比一些已知的明文(crib)与相应的密文,图灵的“炸弹”可以排除掉大量不可能的设置,而将需要进一步人工分析的数目减少到可处理的程度。——译者注
敌方密码分析师和解密者都试图得到同一个目标物:讯息。而香农借助数学和概率的语言,就把讯息的概念彻底从它的物理细节中抽象了出来。声音、波形等贝尔实验室的工程师通常要操心的事情,在香农的理论里变得无关紧要。讯息被看作一种选择,从一个集合中选择其中一个可选元素。在保罗·里维尔骑马报讯那晚,旧北区教堂上可选讯息的数量是二。而现如今,这个数量已经大到难以计数——不过对它仍然能够进行统计分析。
在对布莱切利庄园进行的类似工作毫不知情的情况下,香农构建起了一整套代数方法、定理和证明,使得密码学家首次拥有了一种严谨的手段,可以评估任意一套密码系统的安全性。香农也借此确立了密码学的许多科学原理。其中他证明了,完美密码是可能的——“完美”一词在这里的意思是,即便被敌方截获了无限长的讯息,它对密码破解也不会有更多帮助(“无论敌人截获了多少材料,他们的处境并不会比先前有所改善”[17])。但有得必有失,香农同样证明了,完美密码的要求太过苛刻,导致它根本没什么实际用途。在完美密码中,所有密钥的出现概率必须相等,这样生成的实际上是一串随机的字符流,同时每个密钥只能使用一次,而且最糟糕的是,每个密钥都必须与整条讯息一样长。
也是在这篇机密报告中,几乎是不经意的,香农使用了一个自己之前从未用过的说法:“信息论”。
要想为信息建立理论,香农首先要做的是去除其“意义”。这里的引号是香农自己的做法。他曾不无兴奋地提出:“对于信息论的研究而言,讯息的‘意义’基本上无关。”[18]
而香农之所以这样主张,是为了使自己的研究变得清晰明确:他需要把握住基础的“信息”概念。香农写道:“这里的‘信息’,虽然与这个词的日常意义有关,但不应该与其相混淆。”与之前的奈奎斯特和哈特利一样,香农也希望排除其中的“心理因素”,而集中注意在“物理”层面。然而,如果信息被剥除了语义内容,那么剩下的又是什么呢?对此,有几个可能的回答,而它们乍听之下都有点似非而是。信息是不确定性,是出人意料,是困难程度,是熵。
“信息与不确定性密切相关。”反过来,不确定性可以通过统计可能讯息的数量加以度量。如果仅有一条可能讯息,那么这其中就不存在不确定性,因而也就不包含信息了。
有一些讯息出现的可能性比其他讯息要大,而信息意味着出人意料。出人意料其实讲的是概率。比如在英语中,如果紧跟在字母 t之后的是字母 h,那么这其中的信息量就不大,因为字母 h在此出现的概率相对较高。
“其中重要的是,将讯息从一点传送到另一点的困难程度。”这或许听上去有点同义反复,就像用移动物体所需的力来定义质量一样。不过换个角度看,质量的确可以用这种方式定义。
信息是熵。这是各个说法当中最奇怪也最强大的一个。熵的概念早已有之,在研究热量和能量的热力学中,它被用来度量系统的无序程度。但对于这个概念,一直以来人们的理解有限。
在火控系统与密码学方面的工作之外,香农在整个战争期间都在苦苦思考这些隐隐约约的设想。他独自一人住在纽约格林尼治村的公寓里,与同事也几乎没有交往,因为他们都已经搬到了新泽西的新总部,而他却选择留在西街的旧办公楼。他不需要向别人解释自己在干什么,毕竟他在从事战争工作。这些工作也使他可以缓期服兵役,并且缓期一直延续到了战争结束后。贝尔实验室一直以来是清一色的男性世界,但在战争期间,计算部门尤其迫切需要称职的职员。由此,女性开始被招募进实验室,成长于纽约斯塔滕岛的贝蒂·摩尔(Betty Moore)就是其中的一员。在她看来,计算部门就像是为数学部门服务的打印池。一年后,她进入了微波研究组,在原纳贝斯克饼干公司的厂房工作,与实验室的旧办公楼隔街相对。微波研究组在二楼设计真空管,然后在一楼组装,克劳德·香农偶尔会过来闲逛。他和贝蒂在1948年开始约会,随后在1949年初结婚。也就是在那时,他成了人人都在谈论的科学家。
当时很少有图书馆订阅了《贝尔系统技术期刊》。因此,研究人员是靠口口相传的传统方式听说了《通信的数学理论》,也是靠直接写信给作者的传统方式才拿到了论文复印件。许多科学家会使用一种专门用于此类请求的特制明信片,于是越来越多这样的明信片便纷至沓来。并非人人都能读懂他的论文。对于许多工程师来说,论文中的数学内容太深了;而对于数学家来说,他们则对论文中的工程学背景缺乏了解。不过,时任洛克菲勒基金会自然科学部主任的沃伦·韦弗已经认识到了论文的意义。他告诉基金会的主席,香农之于通信理论的贡献,就如同“吉布斯之于物理化学”。[19]在战争期间,韦弗曾领导了政府的应用数学研究,对于火控项目以及电子计算机器的初期研究都很熟悉。1949年,韦弗在《科学美国人》杂志发表了一篇不是很技术化的赞誉文章,介绍了香农的理论。随后在同一年,香农的论文和韦弗的文章被集结成书,以《通信的数学理论》( The Mathematical Theory of Communication)为题出版,这时其中原来带有谦逊意味的不定冠词被换成了更自负的定冠词。贝尔实验室的工程师约翰·罗宾逊·皮尔斯,见证了晶体管和香农论文的同期问世历程,用他的话来说,后者的“出现犹如颗炸弹,而且还有点像是颗延时炸弹”。[20]
外行人可能会认为,通信的基本问题是使自己的意图被人理解,是传递意义,但香农描绘的场景却大为不同:
通信的基本问题是,在一点精确地或近似地复现在另一点所选取的讯息。[21]
“点”是个经过精心选择的措词,它意味着,讯息的信源和信宿可以在空间或时间上相分隔,而且信息的储存,比如唱片,也可算是一种通信。同时,讯息并不是创造出来的,而是选取出来的。一条讯息就是一个选择,它可能是从一副牌里选出一张牌、从一千个三位数中选出一个数,又或是从一个确定的码本中选出一组词。当然,香农无法完全对意义视而不见,所以他在给意义赋予一个科学家的定义后,客气地把它请出了门:
这些讯息往往都带有意义,也就是说,根据某种体系,它们指向或关联了特定的物理或概念实体。但通信的这些语义因素,与其工程学问题无关。
然而,正如韦弗努力试图解释的,这不是一种狭隘的通信概念,恰恰相反,这样的概念包罗万象:“不仅涵盖了口语和书面语,还有音乐、图像艺术、戏剧、芭蕾,乃至事实上所有的人类行为。”其实还包括非人类:机器就没有讯息要传递吗?
香农的通信模型可以用一张简单的图来示意。这张图在本质上与他在那篇机密的密码学论文中提出的图是一样的,当然这并非巧合。
一个通信系统必须包含以下要素:
信源是指产生讯息的人或机器。这里的讯息可以简单如一个字符序列,就像在电报或电传中的情形;也可以表达成时间及其他变量的数学函数,比如 fx, y, t。香农指出,在彩色电视这个复杂情形中,讯息就是由三维连续统定义的三个函数表示的。
发送器“对讯息执行某种操作”(也就是,对讯息编码)以得到适当的信号。电话机将声压转换成模拟电流,电报将字符编码成点、划和停顿。更复杂的讯息可能会经过采样、压缩、量化和交错等操作。
信道:“传输信号所使用的媒介。”
接收器执行发送器的逆操作,对讯息解码,或从信号中提取出讯息。
信宿是位于另一端的“人(或物)”。
以日常交谈为例,信源、发送器、信道、接收器和信宿分别对应的是,说话者的大脑、说话者的声带、空气、听话者的耳朵和听话者的大脑。
在香农的示意图中,还有一个方格与其他要素同样显著,那就是噪声,毕竟这对工程师来说避无可避。这涵盖了一切会削弱信号的东西,有些事先可预测,有些则不可预测,比如多余的附加信号、明显的错误、随机干扰、静电、天电、干涉、失真等。香农将种种各不相同的通信系统大致分成了三类,一类是连续的,一类是离散的,还有一类是混合的。在离散系统中,讯息和信号由分立的个体符号组成,比如字符、数字或点划。但除了电报,当时的电气工程师每天面对的大多是连续系统,其中的讯息和信号是被视为连续函数。如果要想在一个信道上传递更多信息,工程师通常的做法是,增大信源的输出功率。不过,这个方法在远距离通信中会失效,因为一次又一次地放大信号,只会导致噪声的逐渐积累。
香农避免这个问题的办法是,把信号视为一串离散符号。这时,讯息发送者可以不通过增大信源的输出功率,而是通过使用额外的符号用于纠错,以此来克服噪声的干扰。这就像非洲的鼓手在进行远距离沟通时,他并不是更用力地去击鼓,而是为自己的言语增加额外的字词。香农认为,离散的情形在数学上更为基本。此外,他还考虑到了一点:把讯息视为离散的,这不仅可以应用在传统通信领域,还可以应用于另一个新兴的小众的领域,计算机器理论。
因此,他首先分析起了电报。精确说来,电报使用的并不只有点、划两个符号。在实际操作中,电报员使用了点(一个单位时间的“电路闭合”和一个单位时间的“电路断开”)、划(三个单位时间的电路闭合和一个单位时间的电路断开),以及两种停顿:字符间停顿(一般是三个单位时间的电路断开)和词之间停顿(六个单位时间的电路断开)。这四个符号的出现位置和出现概率并不均等。比如,一个停顿后面肯定不会跟另一个停顿,而点、划可以跟在任何符号后面。对此,香农用状态一词加以表述。所以电报有两种状态:其一,一个停顿在前,这时接下来只允许出现点或划,然后状态发生转变;其二,任何符号都允许出现,并且状态只在遇到停顿时才发生转变。香农把这表示成了下图:
这套系统要远比简单的二元编码系统复杂,但香农还是在论文中推导得出了该系统信息内容和信道容量的正确方程。随后,他把注意力放到了讯息所使用语言的统计结构及其产生的效应上。正是由于语言中存在这种结构(字母 e的出现频率比q高、字母组合th的出现频率比xp高,诸如此类),我们得以借此节省所需的时间或信道容量。
这在电报中已经得到了有限的应用。人们用最短的序列,一个点,来代表英语中最常见的字母 E,而用更长的点划序列来代表较罕见的字母 Q、X和 Z。这种思想也在某些行业码本中被进一步发扬光大。它们用四五个字母的代码组表示一些常用的字词和短语,从而大幅节省了平均时间。而现如今标准化的问候和祝福电报更将这种做法推到了把一两句话编码成一串相对简短的数字的程度。[22]
为了揭示讯息的统计结构,香农借鉴了物理学中研究随机过程所用的方法论和术语。(物理学中随机过程的实例,小的如布朗运动,大的则如恒星动力学。香农就在论文中引用了天体物理学家钱德拉塞卡1943年发表在《现代物理学评论》上的经典论文。[23])随机过程既不是决定论的(下一事件能被确定地计算出来),也不是完全随机的(下一事件完全不受约束),而是受一组概率支配。每个事件的概率,不仅取决于系统当前的状态,还可能取决于它此前的历史。如果把事件换成符号,那么像英语或汉语这样的自然的书面语言,就可以看成一个随机过程。量化后的语音或电视信号,也是一个随机过程。
然后香农对统计结构进行了更深入的研究。他考察了一条讯息可能会对接下来一个符号的出现概率产生多大影响。一种可能是没有影响,也就是说,每个符号各有其出现概率,但它不依赖于之前出现的内容。这是一阶的情形。在二阶的情形中,每个符号的出现概率仅依赖于前一个符号,但与更前面的符号无关。这么一来,每个双字符组合也各有其出现概率,比如在英语中,双字母组合th的出现概率就比xp高。三阶的情形对应三字符组合,依此类推。此外,在普通文本中,在单词的层面上进行考察,显然要比在字母层面上进行考察更适合,并且这时许多新的统计事实会产生影响。比如,在“黄色”一词之后的位置,有些单词的出现概率较高,而有些则几近于零。同样,在单词an后面,以辅音字母开头的单词的出现概率就极小。假如一个单词以字母 u结尾,那么这个单词很可能是 you。而连续出现两个相同字母时,它们通常会是ll、ee、ss或oo。另外,这样的结构还可以跨越很长的长度:在一条包含“母牛”一词的讯息中,即便后面间隔了许多其他字符,再次出现“母牛”一词的概率仍然相对较高。在香农看来,一条讯息就像一个动力系统,它的未来走向会受到过去历史的影响。
为了说明各阶结构之间的差异,香农写出了(实际上是计算出了)英语文本的一系列“近似”。他使用了一个包含二十七个字母的字母表,即二十六个拉丁字母再加上词之间的空格,然后借助一张随机数表,生成了一系列字符串。(他使用的是剑桥大学出版社刚出版的一份随机数表,其中收录了十万个随机数字,定价仅三先令九便士,而且“保证排列的随机性”。[24])虽然随机数是现成的,但计算出这些字符串依然需要花很多力气。它们的样子看上去这样的:
零阶近似——完全随机的字符,其中不存在结构或依赖。
XFOML RXKHRJFFJUJ ZLPWCFWKCYJ FFJEYVKCQSGHYD QPAAMKBZAACIBZLHJQD.
一阶近似——每个字符与其他字符不存在依赖关系,各自的出现频率取在英语中的出现频率:字母e和t出现得较多,而z和j较少,且单词长度看起来也较接近现实。
OCRO HLI RGWR NIMIELWIS EU LL NBNESEBYA TH EEI ALHENHTTPA OOBTTVA NAH BRL.
二阶近似——不仅单个字母,双字母组合的出现频率也符合英语的情况。(香农从密码破解者所用的表格中,找到了所需的统计数据。[25]英语中最常出现的双字母组合是th,大致每千个单词出现168次,紧跟其后的是he、an、re和er。还有相当数量的双字母组合的出现频率为零。)
ON IE ANTSOUTINYS ARE T INCTORE ST BE S DEAMY ACHIN D ILONASIVE TUCOOWE AT TEASONARE FUSO TIZIN ANDY TOBE SEACE CTISBE.
三阶近似——三字母组合也符合英语的情况。
IN NO IST LAT WHEY CRATICT FROURE BIRS GROCID PONDENOME OF DEMONSTURES OF THE REPTAGIN IS REGOACTIONA OF CRE.
一阶单词近似。
REPRESENTING AND SPEEDILY IS AN GOOD APT OR COME CAN DIFFERENT NATURAL HERE HE THE A IN CAME THE TO OF TO EXPERT GRAY COME TO FURNISHES THE LINE MESSAGE HAD BE THESE
二阶单词近似——双单词组合以英语中期望的频率出现,所以不会出现上例中“A IN”或“TO OF”的情况。
THE HEAD AND IN FRONTAL ATTACK ON AN ENGLISH WRITER THAT THE CHARACTER OF THIS POINT IS THEREFORE ANOTHER METHOD FOR THE LETTERS THAT THE TIME OF WHO EVER TOLD THE PROBLEM FOR AN UNEXPECTED.
这一系列字符串“看起来”像英语的程度越来越高。或者换用不那么主观的说法,打字员盲打这些字符串的速度会越来越快——这也反过来说明了,人们已经下意识地把语言的统计结构内化了。
如果有充足的时间,香农还可以实现更高阶的近似,只是其中所需的工作量会变得异常繁重。但这已经足以说明问题,即可以把一条讯息看成一个随机过程的结果,其中这个过程借助一组离散的概率生成了一系列事件。香农接下去要考虑的是,这个过程生成的信息量或信息生成的速率又是多少。假设每个可能事件的出现概率已知(用p 1 , p 2 , p 3 ,..., p n 表示),香农希望找到一种方式,度量“在生成一系列事件的过程中所涉及的‘选择’有多少,或者对于结果我们有多么不确定”。[26]这样,他将信息的量度(用Hp 1 , p 2 , p 3 ,..., p n 表示)定义为了不确定性的量度。可能事件的出现概率可能相等,也可能不相等,但一般来说,选择越多意味着不确定性越高——信息越多。一个选择可能可以分解成若干前后相继、各有其概率的选择,这时这些概率需要能够可加。比如,某个双字符组合的出现概率,就是其中两个符号各自出现概率的加权总和。在各可能事件的出现概率相等的情况下,每个符号传达的信息量就是可能符号的数目的对数,也就是奈奎斯特和哈特利提出的公式:
而对于更接近现实的出现概率不相等的情况,香农提出了一个优雅的方法,解决信息的量度是概率的函数的问题,即对概率取对数后(以2为底最为方便)进行加权求和。这计算的是讯息不可能性的对数的均值,也就是意外程度的量度:
其中p i 是可能讯息的出现概率。香农指出,我们会一再得见到这个形式:“作为信息、选择和不确定性的量度,这个形式的量将在信息论中占据核心地位。”的确如此,H无处不在,而它通常被称为讯息的熵、香农熵,或干脆,信息。
这时需要一个新的单位。香农说:“如果以2为底,相应结果的单位可以称为二进制数字(binary digit),或简称为比特(bit)。”[27]作为信息最小的可能取值,1 比特代表掷硬币猜正反面时的不确定程度。掷硬币的结果有两种可能,且出现概率相等:在这里,p 1 和p 2 都等于 ,而 以2为底的对数值是-1,因此,H的值是1比特。而从包含32个字符的字母表中随机挑选的一个字符,它的信息量就要多一些:5比特,具体来说,这是因为可能讯息的数目为32,而32以2为底的对数值是 5。由 1000个这类字符组成的字符串则包含 5000比特的信息——这不只是简单的乘法,也是因为信息量表示的是不确定程度,也就是可能选择的数目:1000 个从包含 32 个字符的字母表中随机选出的字符,可能组成的讯息数目为321000,而这个数以2为底的对数值是5000。
也正在是这里,自然语言的统计结构又重新发挥了作用。如果已知这条千字讯息是英语文本,那么可能讯息的数目就会减少,而且是大为减少。在统计结构的长度不超过八个字母的情况下,香农估计,英语内在的冗余度约为 50%,讯息中每个字母所含的信息量大致只有2.3比特,到不了5比特。如果考虑更大范围的统计效应,扩展到句和段落的层面,香农估计的冗余度进一步升高到了约75%——不过他也警告,随着长度增加,这种估算会“波动得更剧烈,不确定性更大,且更严重地依赖于所涉及的文本类型”。[28]香农使用了一种度量冗余度的新方法,那就是对人类受试者进行心理学测试。虽然这是种粗略的经验观察,但这种方法“充分利用了一个事实,即每个语言使用者天然都拥有对于所用语言的统计特征的丰富知识”。
由于熟悉单词、习语、套话和语法,所以他能在校对时自动补上遗漏或错误的字母,或在对话中自动补全未说完的短语。
这里的“他”或许应该改成“她”,因为实际上他的测试对象正是自己的妻子贝蒂。他从书架上抽出一本书(根据文字可知这是雷蒙德·钱德勒的短篇侦探小说集《简单的谋杀艺术》),随机指向一个短小段落,要贝蒂逐个猜段落里的字母。如果猜错了,他会告诉她正确答案,并让她接下去继续猜。当然,她知道的内容越多,猜对的几率就越大。在猜过“A SMALL OBLONG READING LAMP ON THE”后,她猜错了第一个字母。但得知这个字母是D以后,她毫不费力地猜对了接下去三个字母。*香农注意到:“不出所料,错误最常出现在单词和音节的开头处,因为思路在这些地方有更多分岔的可能。”
注释:*指DESK(桌子)一词。这句话大意为“一盏椭圆形小阅读灯在桌子上”,取自小说集中的短篇小说《午街取货》。——译者注
以这种方式来量化可预测性和冗余度,其实是以另一种方式度量信息内容。如果一个字母能根据先前的内容猜出来,那么它就是冗余的;既然它是冗余的,那么它就没有提供新的信息。如果英语的冗余度是75%,那么一条包含一千个字母的英语讯息所承载的信息量,就只有由一千个随机选择的字母所构成的讯息的25%。尽管这听上去像是悖论,但随机讯息的确承载了更多的信息量。这也意味着,自然语言的文本可以被更有效地编码,以便于传输或存储。
为此,香农展示了这么一种适用于无噪信道的算术编码实现,这个算法充分利用了不同符号之间的概率差异。他还在论文中得出了一系列惊人的基本结论。其中一项发现是关于信道容量的一个公式,信道容量是任何信道的信息传输速率的上限(现在也直接被称为香农限)。他的另一项发现是,只要信息传输速率没有超出该上限,那么总是存在一种纠错编码方案,可以克服任何程度的噪声,使得错误概率任意小。虽然发送者可能需要越来越多的比特用来纠错,并使传输速率越来越慢,但讯息最终总能完成传送。不过,香农并未指出如何设计这样的编码方案,只是证明了这种方案是可能的,因而也开辟了后来计算机科学一个新的分支。香农的同事罗伯特·费诺(Robert Fano)在多年后回忆道:“使得错误概率任意小?从没有人这样想过。我不知道他是如何得到了这个洞见,而他又是如何使自己相信这件事是可能的。但现如今,几乎所有的现代通信理论都是基于他的这项工作。”[29]无论是消除冗余以提升效率,还是增加冗余以纠正错误,编码方案的设计都要依赖于针对语言统计结构的知识。信息与概率密不可分。1 比特,从根本上说,就是一次掷硬币。
如果说掷硬币的两种可能是表示 1比特的一种方式,那么香农也提供了一个更实用的硬件例子:
一个具有两个稳态的设备,如继电器或双稳态触发器电路,可以储存1比特信息。N 个此类设备就可以存储N 比特,因为可能状态的总数为2N,而log 2 2N=N。
香农曾见过此类设备被组合在一起,比如继电器阵列,它们可以储存数百、乃至数千比特的信息。这个数目在当时看来已然很巨大了。在论文即将完成时,有一天香农闲逛到了同事威廉·肖克莱(William Shockley)的办公室。当时肖克莱三十多岁,正带领着固态物理学组,忙于寻找可取代真空管的固态设备。在肖克莱的桌上,有个很小的原型产品,一片半导体晶体。肖克莱告诉香农:“这是一个固态放大器。”[30]当时,这东西还没起名。
1949 年夏的一天(那时《通信的数学理论》单行本还尚未出版),香农用铅笔在一张笔记本活页上,自上而下画了一条竖线,并在旁边依次写下了10的幂,从100到1013。他将这条坐标轴命名为“比特存储容量”。[31]然后,他开始列举一些可用来“储存”信息的东西。机械加法机上的数轮,只能储存十个十进制数字,也就是3比特多一点。在103下方,香农写上了“打孔卡片(所有可能配置)”。在104处,他安放的是“单行距打字的页面(32种可能符号)”。而在105附近,他写下了不同寻常的东西:“人类的基因构成”。这种科学思考在当时可谓史无前例,要知道詹姆斯·杜威·沃森(James D. Watson)那时 21岁,还只是印第安纳大学动物学系的学生,而 DNA 结构的发现还要再等上几年。这是首次有人提出,基因组是个信息仓库,并可用比特来度量。不过,香农的猜测太保守了,低了起码四个数量级。当时他认为“留声机唱片(128级)”都能存储更多信息,达到了约 300 000比特。在107级别的是一本厚厚的专业期刊(《无线电工程师学会学报》),在109级别的则是《不列颠百科全书》。香农估计,一小时的电视节目大约有1011比特信息,而一小时的“彩色电影”就要超过1012比特。最后,就在表示1014的铅笔标记之下,香农写下了他所能想到的最大的信息仓库:美国国会图书馆。
注释
[1] Jon Barwise,“Information and Circumstance,”Notre Dame Journal of Formal Logic27, no. 3 (1986): 324.
[2] Shannon interview with Robert Price: “A Conversation with Claude Shannon: One Man’s Approach to Problem Solving,” IEEE Communications Magazine 22(1984): 125; cf. Alan Turing to Claude Shannon, June 1953, Manuscript Division, Library of Congress.
[3] Andrew Hodges,Alan Turing: The Enigma(London: Vintage, 1992), 251.
[4] Max H. A. Newman to Alonzo Church, 31 May 1936, quoted in Andrew Hodges,Alan Turing,113.
[5] Alan M. Turing, “On Computable Numbers, with an Application to the Entscheidungsproblem,”Proceedings of the London Mathematical Society 42(1936): 230–265.
[6] Kurt Gdel to Ernest Nagel, 1957, inKurt Gdel: Collected Works,vol. 5, ed. Solomon Feferman (New York: Oxford University Press, 1986), 147.
[7] Letter from Alan Turing to his mother and father, summer 1923, AMT/K/1/3, Turing Digital Archive, http://www.turingarchive.org.
[8] Alan M. Turing, “On Computable Numbers,” 230–265.
[9] “On the Seeming Paradox of Mechanizing Creativity,” in Douglas R. Hofstadter,Metamagical Themas: Questing for the Essence of Mind and Pattern(New York: Basic Books, 1985), 535.
[10] “The Nature of Spirit,” unpublished essay, 1932, in Andrew Hodges,Alan Turing,63.
[11] Herbert B. Enderton, “Elements of Recursion Theory,” in Jon Barwise, Handbook of Mathematical Logic(Amsterdam: North Holland, 1977), 529.
[12] Alan Turing to Sara Turing, 14 October 1936, quoted in Andrew Hodges,Alan Turing,120.
[13] “Communication Theory of Secrecy Systems” (1948), in Claude Elwood Shannon, Collected Papers,ed. N. J. A. Sloane and Aaron D. Wyner (New York: IEEE Press, 1993), 90.
[14] Ibid., 113.
[15] Edward Sapir, Language: An Introduction to the Study of Speech(New York: Harcourt, Brace, 1921), 21.
[16] “Communication Theory of Secrecy Systems,” in Claude Shannon,Collected Papers, 85.
[17] Ibid., 97.
[18] “Communication Theory—Exposition of Fundamentals,”IRE Transactions on Information Theory, no. 1(February 1950), in Claude Shannon,Collected Papers,173.
[19] Warren Weaver letter to Claude Shannon, 27 January 1949, Manuscript Division, Library ofCongress.
[20] John R. Pierce, “The Early Days of Information Theory,” IEEE Transactions on Information Theory19, no. 1 (1973): 4.
[21] Claude Elwood Shannon and Warren Weaver, The Mathematical Theory of Communication(Urbana: University of Illinois Press, 1949), 31.
[22] Ibid., 11.
[23] “Stochastic Problems in Physics and Astronomy,”Reviews of Modern Physics15, no. 1 (January 1943), 1.
[24] M. G. Kendall and B. Babington Smith, Table of Random Sampling Numbers(Cambridge: Cambridge University Press, 1939).肯德尔和史密斯使用了一种“随机化机器”——一个圆盘被平均分成十份,上面分别标有十个数字;在圆盘转动过程中,一个霓虹灯会不时地闪烁,让人看清指针刚好所对应的数字。最早的随机数表由L. H . C.蒂皮特在1927年出版。他从当时的普查报告中取出了41 600个数字,并将其组成了10 400个四位数。但当时也有人认为这样的机器没有必要:“在现代社会中,似乎没有必要专门建造一种随机化机器,因为社会生活的许多方面都具有随机性……因此,阅读街上行驶车辆的车牌数字就能构建出足够日常使用的随机数表,因为尽管车辆是顺序编号的,但它们在街上是以非顺序的方式行驶。当然,比如阅读车牌数字的人每天都能看到史密斯先生的车总是停在49号楼前,像这样明显的错误要排除掉。”Frank Sandon, “Random Sampling Numbers,”The Mathematical Gazette28 (December 1944): 216.
[25] Fletcher Pratt, Secret and Urgent: The Story of Codes andCiphers (Garden City, N.Y.: Blue Ribbon, 1939).
[26] Claude Elwood Shannon and Warren Weaver,The Mathematical Theory of Communication,18.
[27]香农随即补充道:“这个说法最早由约翰·怀尔德·图基提出。”统计学家约翰·图基,在普林斯顿大学求学时曾是理查德·费曼的室友,在“二战”结束后曾在贝尔实验室工作过一段时间。
[28] Claude Shannon, “Prediction and Entropy of Printed English,”Bell System Technical Journal30 (1951): 50, in Claude Shannon,Collected Papers,94.
[29] Quoted in M. Mitchell Waldrop, “Reluctant Father of the Digital Age,” Technology Review(July–August 2001): 64–71.
[30] Shannon interview with Anthony Liversidge,Omni(August 1987), in Claude Shannon,Collected Papers,xxiii.
[31] Handwritten note, 12 July 1949, Manuscript Division, Library of Congress.
第8章 信息转向(形成心智的基本要素)
将信息论应用于超出其原本意图的领域,很可能是件危险的事情,但我想危险恐怕也阻止不了人们这样做的热情。
——J. C. R.利克里德(1950)[1]
大部分数学理论都是慢慢成形的,香农的信息论却如雅典娜一样,甫一问世便已成熟。不过,香农和韦弗的小书在1949年出版时,并没有引起公众足够的关注。第一篇书评来自数学家约瑟夫·利奥·杜布。他抱怨,整个讨论“暗示”的意味多于数学推导,并且“作者运用数学的动机并不总是那么正大光明”。[2]一份生物学期刊评论道:“乍看之下,这主要是本工程学专著,对于解决人类实际问题用处不大,或甚至根本没用。但事实上,该理论具有许多相当令人振奋的意涵。”[3]《哲学评论》称,哲学家不应忽视这本书:“香农提出了一个‘信息’的概念,并且令人惊讶的是,这个概念竟然是热力学中‘熵’概念的延伸。”[4]而其中最奇怪的评论来自 1950年 9月的《今日物理》(Physics Today),文章作者是麻省理工学院的诺伯特·维纳。这篇只有五段话的文章很难称得上是一份书评。
一开篇,维纳讲述了一则略带倚老卖老意味的轶事:
大约十五年前,一名非常聪明的年轻学生向麻省理工学院的教授提出了自己的一个设想,试图建立一种基于逻辑代数的电动开关理论。这名学生就是克劳德·香农。
维纳接着说,在这本书中,香农(与韦弗一起)“总结了他对于通信工程的见解”。
维纳认为,香农提出的基本思想是“把信息量视为负熵”,并随即补充道,他本人(“本书评作者”)也几乎在同一时间产生了相同的见解。
维纳声称,虽然香农的研究“独立于我的研究,但它从一开始就与我的研究紧密联系,并有着相互影响”。他还提到,通信理论与统计力学之间的类比初看上去有点牵强,但对于“我们当中那些已经试图将这个类比延伸至麦克斯韦妖研究的人来说”,它是个物理事实。但对此,他补充道,相关研究还任重道远。
维纳进而指出,香农对于语言的讨论没有给予语言在人类神经系统内的通信过程(“神经接收并传递语言到大脑”)以更多重视。不过,他也强调:“我这样说,并不是为了吹毛求疵。”
最后,维纳用一整段文字介绍了另一本新书:“我自己的《控制论》”。他认为,这两本书是一个必将迅猛发展的领域中最早的两声欢迎礼炮。
而在我的书中,作为作者,我有幸能从更思辨的角度,讨论比香农和韦弗博士所选的更广阔的话题。我希望重申,在一个新领域……不仅有空间,而且也确实需要种种在现实性或思辨性上各具特色的著作。
他之所以向这两位同人致以了敬意,恰是因为他们独立且精彩的工作殊途同归,归到了自己的控制论上。
其实,香农此前已经在《无线电工程师学会学报》上针对维纳的书写过一篇短评,虽是赞赏,但程度可谓轻淡:这是一本“出色的导论”。[5]两人的关系有点紧张,这从《通信的数学理论》中韦弗文章开头的一个大段脚注中就能感觉得到:
香农博士强调,他的通信理论在基础哲学原理方面颇多受益于诺伯特·维纳教授。另一方面,维纳教授也指出,香农在开关和数理逻辑方面的许多早期研究是在他对该领域产生兴趣之前,并且他大度地补充道,引入熵的思想,将之作为该理论的基本思想,确实是香农一个人的功劳。
香农的同事约翰·罗宾逊·皮尔斯后来写道:“维纳当时满脑子里都是他自己的研究……一些有识之士曾告诉我,维纳误以为自己早已得出了香农所得到的结论,但其实他从来都没得出过。”[6]
控制论(cybernetics),作为一个新创词、一个日后的热门词、一块全新的研究领域、一场将来的哲学运动,是由维纳这位聪明过人又锋芒毕露的思想家凭一己之力所构想出来的。维纳借用的是希腊语中的“舵手”(κυβερντη,kubernites)一词[英语中的govern(治理)一词也源自于此,显然这并非巧合]。[7]维纳的控制论意在整合通信和控制的研究,乃至人类和机器的研究。在他身为哈佛教授的父亲培养和宣扬下,诺伯特·维纳年少成名,享有神童之誉。年仅十四岁时,他就登上了《纽约时报》的头版:“一个被他的朋友们自豪地誉为世界上最聪明男孩的小伙子,下个月就将从塔夫茨学院毕业……除了学习能力过人之外,诺伯特·维纳与其他男孩一般无二……他那双深邃的黑色眼睛是他最引人注目的特征。”[8]而在撰写自己的回忆录时,维纳也总是会在书名中加上神童两字,如《昔日神童:我的童年与青年时代》和《我是数学家:一个神童后来的生活》。
从塔夫茨学院(数学专业)本科毕业后,维纳先后到了哈佛大学研究生院(动物学专业)和康奈尔大学(哲学专业)深造。然后在回到哈佛取得博士学位后,他又动身前往英国剑桥大学,师从罗素本人,研究符号逻辑和《数学原理》。不过,罗素对维纳并不是全然欣赏,他曾在给友人的信中写道:“我这来了个名叫维纳的神童,十八岁,哈佛大学博士……这孩子被惯坏了,以为自己是全能的上帝——我俩之间总是在暗暗较劲究竟谁该教谁。”[9]而维纳对罗素也不无反感:“他冷酷如冰山。他的思维给人感觉就像一部敏锐、冷酷而狭隘的逻辑机器,这部机器会将宇宙切成整齐划一的小块,比如长宽高正好三英寸。”[10]回到美国后,维纳从1919年开始在麻省理工学院执教,与万内瓦尔·布什恰在同一年。1936年,香农到麻省理工学院深造时,还上过维纳的数学课。随着战争阴影的逼近,维纳是最早一批加入了机密的高射炮火控系统研究的人。
诺伯特·维纳(1956年)
他身材矮胖,留着山羊胡,头戴厚厚的眼镜。相较于香农的火控研究是深入到研究噪声中的信号,维纳则是一直专注于研究噪声,比如雷达接收器上密集的波动、飞行路线变幻莫测的偏差等。按他的理解,这些噪声在统计上与布朗运动相似。布朗运动是一种“极其活跃而又完全杂乱无章的运动”,最早在17世纪由列文虎克通过显微镜观察到。在20世纪20年代,维纳曾对布朗运动有过深入的数学分析。当时他被这种不连续性所吸引,因为不仅是微粒轨迹,而且数学函数也表现异常。他把这称作“离散混乱”(discrete chaos),chaos这个术语则还要再过几代人的时间才会被人们很好地理解。*在火控系统的研究中,相较于香农在贝尔实验室研究组中所做的不太大的贡献,维纳与其同事朱利安·比奇洛(Julian Bigelow)则一起完成了一份极为知名的120页专著。它一度被列为机密,并被数十个有权查阅该书的人称为“黄祸”,这不仅是由于它有一个黄色封面,还由于它的内容艰深难懂。在这份正式标题为《平稳时间序列的外推、内插与平滑化》(Extrapolation, Interpolation, and Smoothing of Stationary Time Series)的研究中,维纳发展了一种统计方法,用以根据有噪声、不确定和有失真的历史数据预测未来。这种方法超出了当时武器的能力范围,但维纳还是在布什的微分分析机上进行了测试。在他的设想中,高射炮及其炮手、目标飞机及其驾驶员,双方都是人和机器的混合体,相互要预测对方的行为。
注释:*这里的chaos与20世纪70年代兴起的混沌理论(chaostheory)中的chaos并不完全相同。后者指的是对初始条件极其敏感的动力系统的行为,最早由詹姆斯·艾伦·约克和李天岩在1975年提出。前者则描述的是一种随机、混乱的状态。——译者注
香农是沉默寡言,维纳则老于世故。他游历广博,通晓多国语言,雄心勃勃且关注社会。他对科学的热情完全是发自内心,这从他对热力学第二定律的表述中就可见一斑:
我们所做的是在奔向无序的巨流中努力逆流而上,否则它将使一切最终陷于热力学第二定律所描绘的平衡和同质的热寂当中……这种物理学上的热寂在克尔凯郭尔的伦理学中有个对应物,也就是我们所生活的混乱的道德宇宙。在其中,我们的主要使命就是建立起一块块具有秩序和体系的独立领地。但这些领地在我们建立起来后并不会就一直延续下去。正如《爱丽丝镜中奇遇》里的红皇后所说的,我们只有全力奔跑,才能留在原地。[11]
维纳很关心自己在人类思想史上的地位,并且志存高远。他在回忆录中写道,控制论是“一种对人类,对人类关于宇宙和社会的知识的全新阐释”。[12]香农把自己视为数学家和工程师,维纳则认为自己首先是个哲学家,甚至从火控系统的研究中,他也能得出关于目的和行为的哲学结论。如果把“行为”的定义巧加改动(“实体针对环境所做的任何变化”[13]),那么除了动物,这个词也能拿来描述机器。为实现某个目标而采取的行为具有目的性,而目的有时是出自机器本身,而非机器的人类操作员:比如,一种配备目标搜寻机制的鱼雷。“‘伺服机制’一词正是用来称呼那些能实行具有内在目的性行为的机器。”其中的关键是控制,或自我调节。
为了对此进行有效分析,维纳从电气工程中借用了一个不常用的概念:“反馈”,即使能量从电路的输出端返回至其输入端。在正反馈的情形中,比如把扩音器输出的声音通过麦克风再次放大,它会使系统疯长而失去控制。但在负反馈的情形中,比如用于控制蒸汽机的早期机械离心式调速器(詹姆斯·克拉克·麦克斯韦最早对此进行了分析),它却能将系统导向均衡,这时它起到了维持稳态的作用。反馈可以是机械的:离心式调速器旋转得越快,其悬臂就伸展得越宽;反过来,悬臂伸展得越宽,其旋转就势必越慢。反馈也可以是电气的。但无论是哪种方式,信息都是整个过程中的关键。比如,高射炮火控系统的关键是,有关飞机坐标以及有关高射炮自身上一个位置的信息。正如维纳的朋友比奇洛所强调的,对于上一个行动的结果,重要的“不是如能量、长度或电压之类的具体物理量,而是信息(无论其以何种途径传递)”。[14]
维纳意识到,负反馈肯定无所不在。比如在手眼协调中,负反馈引导着神经系统,才能让人完成普通如拾起一支铅笔的动作。因此,他特别关注影响肢体协调或语言表达的神经失调,认为这正是信息反馈机制出错的具体情形:比如各种运动性共济失调,就是由于感官讯息或在脊髓处被阻断,或在小脑处被误读所致。维纳对此的分析深入细致,也很数学化,甚至列出了方程,而这在神经学领域几乎是前所未闻的。与此同时,反馈控制系统也被逐渐引入工厂装配线,毕竟机械系统也同样能修正自身行为。反馈成了名副其实的治理者、舵手。
就这样,“控制论”成了维纳首部著作的主书名,副书名则是“或关于在动物和机器中控制和通信的科学”。该书在1948年秋在美国和法国出版,而令出版社吃惊的是,这样一部充斥着概念和分析的作品竟然出人意料地成了当年的畅销书,连美国的大众新闻杂志《时代》周刊和《新闻周刊》都对它进行了专题报道。事实上,维纳的控制论适逢其时,因为当时一样新事物正开始进入公众的视线,那就是计算机器。随着战争的结束,首批为战争上马的电子计算工程也揭去了神秘面纱,尤其是在宾夕法尼亚大学电气工程学院的埃尼阿克(ENIAC)。这是个重近三十吨、长近三十米的庞然大物,由众多真空管、继电器和手焊线路组成,能够对最多二十个十进制数进行存储和乘法操作,曾被美军用来计算火炮射表。国际商用机器公司(IBM)除了为军事工程提供打孔卡片制表机外,也在哈佛大学建造了一部巨型计算机器——马克一号(Mark I)。而在英国的布莱切利庄园,密码破解者们建造了多部称为巨像(Colossus)的真空管计算机器,但它们在战后多年依然是高度机密。阿兰·图灵在曼彻斯特大学也在建造类似的机器。所以当公众得知这些机器的情况后,他们自然而然会将它们想象成“大脑”。所有人都在问同一个问题:这些机器能思考吗?
“它们正以令人恐惧的速度成长,起初只是以快如闪电的速度求解数学方程,现如今却已经开始像真正的机械大脑那样运作。”[15]而维纳的研究进一步鼓励了这种遐想,《时代》周刊在当年的年终版中继续说道:
在维纳博士看来,没有理由认为机器不能从经验中学习,就像许多大个早熟的孩童在文法学校中成绩会突飞猛进一样。一个这样的机械大脑,一旦通过存储经验而变得成熟,它就可能足以经营一整个产业,不仅会取代机械师和职员,甚至还会取代许多管理人员……
维纳解释道,随着人类建造出性能更优越的计算机器,随着他们对自己大脑的探索更为深入,这两者看上去会越来越相似。他认为,人类是在依照自己的形象来重建一个新的自己,只不过这次是把体积放大了很多倍。
维纳的著作,尽管曲奥难读,但仍取得了巨大的成功,而这很大一方面要归功于,他总是使自己的关注点最终落回人类身上,而非机器身上。相较于计算兴起本身(毕竟他的研究与此关联不多),维纳对于计算对人类的可能影响更感兴趣。他深切关注如精神失调、机械假体,以及智能机器兴起可能引致的社会失序等问题。他担忧,智能机器将使人的大脑贬值,就像工业机器已经使人的双手贬值一样。
在“计算机器与神经系统”一章中,维纳深入探讨了人与机器的相似处。首先,他区分了两种类型的计算机器:模拟与数字(不过他并没有使用这样的用语)。前者(比如布什的微分分析机)使用连续尺上的度量来表示数,他称之为模拟(analogy)机器。后者,他之称为数值(numerical)机器,则使用直接、精确的方式来表示数,就像机械计算器里的情形。在理想状况下,为简单起见,数值机器可以采用二进制数字系统。而如果要进行更复杂计算的话,它们还要用到某种形式的逻辑。何种形式的逻辑呢?香农早在1937年的硕士论文中就已经回答了这个问题,而现在维纳也给出了相同的答案:
逻辑代数,又称布尔代数。与二进制算术一样,这种算法也是基于二分法,即是或否的选择,属于某类或不属于某类的选择。[16]
维纳认为,人的大脑至少部分可以被视为一部逻辑机器。计算机有继电器(无论是机械的、机电的,还是完全电动的),大脑则有神经元。这些神经细胞在任意给定时刻都处在以下两种状态之一:动作(点火)或静息(休止)。因此,它们可以被视为双稳态继电器。神经元彼此连接,形成大型阵列,其接触点称为突触。讯息就在神经网络中传递。为了储存讯息,大脑有记忆功能,而计算机器也同样需要被称为记忆体的物理存储器。(维纳很清楚,这只是对该复杂系统的一种简化描述。还有其他类型的讯息,它们更多的是模拟而非数字讯息,似乎是通过激素以化学方式传递的。)他还提出,像“神经崩溃”这样的功能失调在电子学中也可能找到对应物,比如对应于“神经系统中交通拥堵和过载问题”[17]的数据过载。因此,计算机器的设计师可能需要为不合时宜的数据过载预先准备应对方案。
此外,大脑和电子计算机在执行逻辑运算时都需要大量能量。这些能量“被消耗、转化成了热量”,并被血液或通风和冷却设施带走。但这其实都无关紧要,维纳指出:“机械大脑并不会像过去的唯物论者所主张的‘如同肝脏分泌胆汁’那样分泌出思想,也不会像肌肉发出动作那样以能量的形式发出思想。信息就是信息,既不是物质也不是能量。不承认这一点,唯物主义在今天就站不住脚。”
接下来是一段群情激昂的时期。
“我们再度进入了一个科学进步的黄金时代——就像当初的前苏格拉底时代。”[18]美国神经生理学家沃伦·麦卡洛克在一次会议上对与会的英国哲学家们这样宣称道。他还告诉他们,聆听维纳和冯·诺伊曼等人就现代计算机器诸问题进行的讨论,使人恍惚置身于古代先贤的辩论当中。他认为,一种关于通信的新物理学已经诞生,形而上学也将因此发生根本的改观:“科学史上头一回,我们明白了自己是如何进行认知的,因而我们能够清楚地将其表述出来。”不过,他所指明的道路在当时无异于离经叛道,因为他所设想的这个明白人是一部计算机器,其大脑由多达上百亿个继电器组成,其中每一个都从其他继电器那里接收信号并将其传递出去。信号会被加以量化:它们或者发生,或者未发生。因此,世界的构成材料再一次被证明是德谟克利特的原子:“在虚空中随意晃荡的不可分之物、最小之物。”
它所在的是一个赫拉克利特的世界,永远“在变动”。我并不仅仅是指每一个继电器本身都在永恒的活火中时刻消亡又再生,我也是指,每一个继电器的工作都与信息相关——信息通过许多渠道进入它,在其中穿行流转,最后再次回到世界中。
而这样的思想之所以有机会进行跨学科的交流,这在很大程度上要归功于麦卡洛克,他就像一部推动交流、融合的发电机。战争刚结束不久,他就在位于纽约公园大道的比克曼酒店筹办了一系列会议(1946年至1953年)。会议得到了小乔赛亚·梅西基金会的资助,该基金会由这位19世纪来自楠塔基特岛的捕鲸船长的后代所创立。当时,一大批科学几乎在同时进入了成熟阶段:其中有些是所谓社会科学,如人类学和心理学,它们正试图为自己寻找新的数学基础;有些是有着混合名称的医学分支,如神经生理学;还有一些则还不完全称得上是科学,如精神分析。麦卡洛克邀请了所有这些领域的专家,当然还有数学家和电气工程学专家。他创立了一种诺亚方舟原则,即从每个领域邀请两名专家,这么一来,主讲者的行话就总有在场的人能完全领会。[19]会议的核心成员包括,著名的人类学家玛格丽特·米德(Margaret Mead)和当时还是她丈夫的格雷戈里·贝特森(Gregory Bateson),心理学家劳伦斯·弗兰克(Lawrence K.Frank)和海因里希·克吕弗(Heinrich Klüver),以及一对受人尊敬、但有时相互也会针锋相对的数学家——维纳和冯·诺伊曼。
米德在会上使用别人看不懂的速记符号做纪要,而在首场会议上,她甚至在激烈的讨论中咬碎了一颗牙齿而不自知,直到会后才发觉。维纳则在会上宣称,所有这些科学,尤其是社会科学,说到底研究的都是通信,因而它们共有的一个概念就是讯息。[20]会议一开始有个冗长的名称:“生物和社会系统中的循环因果和反馈机制会议”。后来,出于对维纳的敬意,也是为了借助他当时的盛名,会议名称改为了“控制论会议”。在各次会议上,“信息论”这个新潮、拗口、又有些可疑的术语被人们反复使用。在有些学科中,这个术语用起来比较契合,有些就差一点。但对于信息在各自世界观中应处于怎样的位置,人们当时还没有清晰的概念。
情况在1950年3月22日至23日举办的那次会议上有了转机。第一位主讲人是来自芝加哥大学医学院的神经科学家拉尔夫·杰勒德(Ralph Gerard)。他首先称赞了历次会议的成功:“会议主题和与会阵容引发了外界的极大兴趣,几乎成了一次席卷全国的热潮。许多知名的科学杂志,如《时代》周刊、《新闻周刊》和《生活》杂志,都对此有连篇累牍的报道。”[21]在众多报道中,他可能特别指的是《时代》周刊年初一篇关于维纳的封面报道,题为《思考机器》,其中写道:
维纳教授是一只翱翔在数学及其邻近领域的矫健的海燕(不过他看上去倒更像只粗壮矮小的海鹦)……在书中,维纳夹杂着警告和喜悦呐喊道,这些伟大的新型计算机……昭告了一门全新的通信和控制科学的诞生,并且他及时地将之命名为“控制论”。维纳指出,最新的一批机器无论从结构或功能上看,都已经与人脑十分相似了。虽然目前它们还不具备感官或“效应器”(如四肢),但为什么不给它们加上呢?
杰勒德承认,自己从事的领域正深刻地受到来自通信工程的新思维方式的影响,比如由此将神经冲动不仅视为一个“物理–化学事件”,而且视为一个符号或信号。向“计算机器和通信系统”取经很有用,但这样做无疑也存在危险性:
如果像大众媒体所说,这些机器就是大脑,而我们的大脑也不过是计算机器,这种说法未免草率。倘若这样的话,我们也可以说,望远镜就是眼睛,而推土机就是肌肉了。[22]
对此,维纳觉得有必要作出回应:“我无力阻止这些报道的面世,但我确曾尝试要求这些报道在表述上保持克制。不过,对于他们在报道中使用的‘思考’一词,我还是觉得不应该全盘否定。*”[23]
注释:*对此,让-皮埃尔·迪皮伊后来评论道:“说到底,这其实是一种极常见的情境,即科学家责备非科学家对于他们所说的过于望文生义。控制论者一方面给公众灌输了思考机器即将变成现实的观念,另一方面又迫不及待地与那些轻信此事的人撇清关系。”[26]
杰勒德的讲演主旨是讨论人的大脑(其中神经元之间的架构错综复杂,树突的分支盘根错节,而且相互的复杂交互在“化学汤”中此起彼伏)能否被恰当地界定为模拟的或数字的。[24]格雷戈里·贝特森立即打断了主讲人,表示不太明白数字的与模拟的之间的区别。这可是个根本性的问题。杰勒德强调,他本人对此的理解要归功于“先前在这块场地上得到的专家指教,尤其是来自约翰·冯·诺伊曼的”(当时,冯·诺伊曼本人就坐在下面听讲),不过他还是决定班门弄斧,尝试进行一下区分。模拟的就像计算尺,数用间距来表示;而数字的则像算盘,算珠要么被计数,要么不被计数,没有介于两者之间的状态。同样,用来调节光线的变阻器是模拟的,而墙上的开关则是数字的。杰勒德认为,神经系统的化学活动和电活动都是模拟的。
讨论变得越来越热烈。冯·诺伊曼对此也有话要说。当时他正忙于发展“博弈论”,一门他实际上视为研究不完全信息的数学。同时,他也在为新型电子计算机考虑一种新的体系结构。借着杰勒德的话头,他希望说服与会者当中那些更习惯于从模拟的角度看待问题的人能更加抽象地进行思考,从而认识到数字过程存在于这个纷繁复杂、连续的世界当中。比如,当神经细胞在两种可能状态(“神经细胞内没有讯息的状态,以及有讯息的状态”[25])中来回切换时,这种切换的化学活动中可能具有中间的细微变化,但在理论上,这些细微变化可以被忽略。冯·诺伊曼指出,不论是在大脑中,还是在真空管计算机中,尽管“这些‘离散的切换动作’实际上是在连续过程的刺激下完成的”,但这些刺激的有限变化对于动作的大局来说无关紧要。其实在不久前的一篇论文《论名叫大脑的数字计算机》中,麦卡洛克已经将这种观点表述得很清晰:“在这个世界上,即使是表面看上去连续的东西,似乎也最好将其视为由若干较小的步骤组成。”[27]在听众当中,会议新人克劳德·香农,对此未置一词。
下一位主讲者是来自哈佛大学心理声学实验室的 J. C. R.利克里德,人们都叫他利克。他是一位涉足心理学和电气工程两个不同领域的年轻科学家,在语音和声音处理方面颇有造诣。在这一年晚些时候,他加入了麻省理工学院,教授心理学,并致力于组建一个独立的心理学系(心理学在当时还是经济学系的一部分)。当时他正在研究语音量化的种种可能性,比如将语音的声波简化成可被一种“触发器电路”再现的最小量。[28]这种触发器电路其实是一个他用真空管、电阻和电容自制而成的设备,成本不过约二十五美元。但实验结果表明,即便对那些已经习惯于在电话噪声干扰下进行通话的人来说,语音能被简化而不至于无法分辨的程度还是令人惊讶。香农很用心地听了这场演讲,不仅因为他了解相关的电话工程原理,也因为他在战争期间曾参与过语音加密的机密项目。维纳也听得兴趣盎然,部分原因是他对于助听器有着特殊兴趣。
当利克里德说到,有某些失真既不是线性的,也不是对数的,而是“居于两者中间”时,维纳打断了他。
“请问‘中间’是什么意思?X 加S再除以N 吗?”
利克里德叹了口气:“数学家总是这样,对别人不精确的表述紧抓不放。”[29]不过,利克里德对于数学并无问题,随后他就给出了一个估算,看在一条带宽为5000赫兹、信噪比为 33分贝的传输线路上(这些数值与商用无线电广播的情况接近),可以传送多少信息(这里用的则是香农提出的新术语)。“我认为,这样一条信道可以传送 100 000比特的信息。”当然,这里他指的是比特每秒。这是个让人惊讶的巨大数目。作为对比,利克里德计算了日常人类语音的信息传输速率:如果每秒传输10个音素,并假设可能音素的数目为64(“为方便起见”取26,这样可能音素数目的对数值就是 6),那么信息传输速率就是每秒 60比特。利克里德补充道:“前提是,各个音素的出现概率都相等——”
“对!”维纳又插话。
“——但当然,各个音素的出现概率并不相等。”[30]
维纳被激起了兴趣,他还想知道,是否有人用类似的算法计算过“视觉压缩”,比如电视的情形,而要想达到可分辨的程度,其中所需的“真实信息”又起码要有多少。说到这,他顺口补充道:“我常弄不明白,人们为什么想要看电视。”
玛格丽特·米德则提出了另一个议题。她希望与会者不要忘记,意义有时可以与音素和字典上的定义不完全相关。她说道:“如果谈到另一种信息,比如你试图传递某人正在生气这一事实,那么在保持一条讯息原话不变的前提下,需要引入多大程度的失真才能去除该讯息中的‘生气’意义呢?”[31]
第三场讲演在晚上举行,主讲人是克劳德·香农。他一上来就开宗明义:根本不要去管什么意义。即便他讲的主题是书面英语的冗余,他也对意义毫无兴趣。
他所谈论的信息,是某种从一点被传递至另一点的东西,可能根本不含意义:“比如,它可以是一个随机数字串,也可以是一枚导弹或一个电视信号里的信息。”[32]重要的是,他打算把信源表示成一种随机过程,通过利用不同的概率生成讯息。他展示了在《通信的数学理论》(下面听众中几乎没人读过这本书)中用过的字符串样本,并描述了他的“预测实验”,即让受试者逐个字母地猜测文本内容。他告诉听众,书面英语有一个特定的熵,这个值与冗余度相关,而他能根据这些实验算出该值。听众被深深吸引住了,尤其是维纳,他也想到了自己的“预测理论”。
“我的方法与此有些相似之处。抱歉打断了你的话。”维纳插话说道。
香农和维纳的侧重点有所不同。维纳用熵来度量无序程度,而香农用熵度量的则是不确定性。不过,正如他们所意识到的,两者从根本上说是一回事。一个书面英语样本中的内在有序性越强(有序性表现为为语言使用者有意识或下意识所知悉的统计特征),其可预测性也就越高,换用香农的话来说,也就是后续字母所传递的信息量越少。如果受试者对下一个字母是什么信心十足,那么这个字母就是冗余的,它的出现没有贡献新的信息。信息是出人意料。
其他听众也纷纷提出了各种问题,比如不同语言、不同文体、表意文字或音素文字之间的统计分布是否都遵循齐普夫定律。*麦卡洛克就问道,新闻报道与詹姆斯·乔伊斯的作品是否都遵循这个定律?(有人认为是的。)冯·诺伊曼的同事、统计学家伦纳德·萨维奇(Leonard Savage)则问香农当初如何选的实验用书:随机的吗?
注释:*齐普夫定律由语言学家乔治·齐普夫(George Zipf)在1949年提出。这是一条经验定律,描述的是,在自然语言的语料库里,最常见单词的出现次数是次常见单词的两倍,是第三常见单词的三倍,依此类推。——译者注
“我走到书架前,随便拿了一本。”
“那不能称为随机吧,不是吗?”萨维奇反问道,“可能你会挑到一本工程学专著。”[33]但香农没告诉萨维奇,其实他挑到的是本侦探小说集。
还有人问香农,婴儿的咿呀学语是比大人的说话更容易预测,还是更难?
“我认为是更容易,”香农答道,“如果你与那个婴儿很熟的话。”
英语其实是很多种不同的语言,也许有多少人说英语,就有多少种不同的语言,而每一种都有各自不同的统计特征。英语中还衍生出了许多人造方言,例如字母表有限且精确的符号逻辑语言,以及一名提问者提到的所谓“飞机语”,即指挥塔台和飞行员所使用的语言。此外,语言也是在一直变动的。因此,出生于维也纳、也是维特根斯坦早期追随者的年轻物理学家海因茨·冯·弗尔斯特(Heinz von Foerster)就想知道,语言的冗余度随着语言的演化将发生怎样的变迁,尤其是在从口语文化过渡到书面文化的阶段。
与玛格丽特·米德等人一样,冯·弗尔斯特也对不含意义的信息的概念感到难以接受。冯·弗尔斯特后来回忆道:“当时我打算把他们所谓的信息论改称为信号论,因为在其中信息还没有产生。那里只有‘哔哔声’,仅此而已,没有信息。只有当这组信号被转换成我们大脑可理解的其他信号之后,信息才算诞生——总之,信息不在‘哔哔声’里。”[34]尽管如此,他还是发现自己已经开始从新的角度思考语言的本质以及它在人类心智和文化中的历史。他指出,一开始,没有人意识到字母或音素是语言的基本单位。
我想到的有古代玛雅文字、埃及的象形文字和早期的苏美尔泥板。然后在文字的发展历程中,人们花了相当长的时间(或是出于偶然)才发现语言可以拆分成比单词更小的单位,如音节或字母。
我有种感觉,那就是文字和口语之间存在着某种反馈机制……换句话说,我相信,一种语言以单词统计的冗余度与以字母统计的冗余度之间应该存在某种关联。[35]
会议上的讨论改变了他原先的认知,他开始承认信息占据着举足轻重的地位。在编辑次年的第八次会议的会刊时,他在编者注中写了这样一句带有警句意味的话:“信息可被认为是从无序中夺得的有序。”[36]
尽管香农努力试图让听众集中注意在他对信息所下的不含意义的定义上,但这群与会者可不会轻易就这样对其中的语义纠缠置之不顾。他们迅速把握了香农的核心思想,然后就开始了大胆的发挥。社会心理学家亚历克斯·巴弗拉斯(Alex Bavelas)就评论道:“如果我们同意把信息定义为任何能改变概率或降低不确定性的东西,那么很容易从这个角度来看待比如情绪安全感的变化。情绪安全感的变化可被定义为个体对于自己属不属于某类人或自己被爱或不被爱的主观概率的变化。”同样,手势或脸部表情、拍拍背或隔桌对你眨眼睛,如果这减少了你对自身状态或在陌生群体中的地位的不确定性,那么这也是信息。随着心理学家吸收了这种考虑信号和大脑的新视角,心理学的整个面貌即将发生急剧的转变。
说到群体中的陌生人,神经科学家拉尔夫·杰勒德想起了一个故事。在一个派对里,人们彼此都很熟,这时来个了新人。他看到,有个人说“72”,所有人都大笑。又有个人说“29”,全场沸腾。他就问这是怎么回事。
他旁边的人回答说:“我们讲过很多笑话,而且讲得次数太多了,所以现在干脆直接讲号码算了。”这个客人也想尝试一下。他说了几个词,然后说“63”。结果人们反应冷淡。“怎么回事,难道这数不是个笑话吗?”
“喔,是笑话,而且还是其中最好笑的之一,只可惜你没讲好。”[37]
在次年的会议上,香农带来了一个机器人。尽管它并不很聪明,外表也不像人,但它给与会者留下了深刻印象,因为它能走迷宫。他们称它为“香农的老鼠”。
香农推出了一个柜子,柜面上是一个五乘五的网格。在二十五个方格之间可以任意放置隔板,从而构造出不同的迷宫。迷宫的终点则以放置在任意一个方格里的一个徽章来标记。在迷宫中走来走去的是一个感应触头,它在两个小马达的驱动下可分别在东西和南北方向上移动。而在柜面下面有一个由约七十五个继电器相互连接组成的阵列,它们各自的开开关关形成了机器人的“记忆体”。此外,还有一个总开关,控制着机器人的启动和关闭。
香农边演示边讲解道:“机器关闭后,继电器就会忘记它已知的一切。因此现在启动时,它们又是从头开始,对迷宫毫无了解。”[38]听众们都听得入了迷。“你看,触头正在探索迷宫,找寻终点所在。每当它来到一个方格的中央时,机器就会决定接下来要尝试的方向。”一旦感应触头碰到隔板,马达就会反转,使触头回复到中央位置,而继电器则会将该事件记录下来。如此这般,机器会根据此前的“知识”(这里免不了要用到这些心理学词汇)以及香农预先设定的策略来做每一个“决策”。触头在迷宫里不断试错,有时会走进死胡同,有时会碰壁。但最终,在众人瞩目之下,触头走到了终点。这时触头上的灯泡亮起,同时铃声响起,马达停止了转动。
然后香农将触头移回起点,重新运行一次。这回,它直抵终点,没有转错弯,也没有撞到隔板。它已经“学会”了如何走这个迷宫。如果把它放到先前走过的方格中,它也能直接抵达终点。但如果把它放入先前未探索过的区域,那么它需要重新开始试错,直到最终,“它建立起了完整的信息模式,可以直接从任何位置抵达终点”。[39]
为了执行预先设定的搜寻策略和直抵目标策略,这台机器必须每访问一个方格,就存储下一点信息:具体而言,也就是它上一次离开该方格时的方向。香农解释道,由于只有东西南北四种可能,所以每个方格都被分配了两个继电器作为记忆体。两个继电器,意味着两比特信息,但这对四选一来说已经足够了,因为两个继电器可以有四种组合状态:关–关、关–开、开–关、开–开。
香农和他的迷宫
下一步,香农重新布置了隔板,这样之前的路线就失效了。机器只好“瞎打转”,直到找出新的路线为止。不过,碰得不巧的话,当旧记忆遇上新迷宫时,机器可能会陷入无尽的循环。香农演示道:“当它到达A时,它记得旧的路线是往B走,结果它就陷入了A-B-C-D-A-B-C-D的循环当中。这是一个恶性循环,或者说,它是在把这几个音符来回唱个不停。”[40]
“真是一种神经症!”拉尔夫·杰勒德说道。
不过,香农早有准备,他设计了一种“抗神经症电路”:一个计数器,用来在机器重复同样的序列六次时跳出循环。伦纳德·萨维奇认为,这不免有作弊之嫌。“它没有办法意识到自己‘发疯’了,只是意识到自己走得距离太长了?”萨维奇问道。“是的。”香农也承认这一点。
如果迷宫里没有放置终点,它又会怎样做呢?香农解释道,那它会尝试走遍每一个方格,碰遍每一块壁,并持续重复这个路径。
“这也太像人了。”劳伦斯·弗兰克不由叹道。
“乔治·奥威尔,已故的《1984》作者,大概应该见过这个东西。”精神病学家亨利·布罗辛(Henry Brosin)则这样表示。
香农使单个方向与每个方格相关联的组织机器记忆体的方式,具有一个特别之处,即路线是不可逆的。当触头抵达终点时,它并不“知道”怎样返回到出发点。机器所了解的所谓“知识”,其实是得自由这二十五个向量组成的向量场。他解释道:“沿着这些向量所示,你会走到终点。但反转这个过程的话,你可能会遇到分岔点,面对许多可能的方向。你无法通过研究记忆体确定,感应触头是来自哪个方向的。”
麦卡洛克补充道:“这就像一个熟悉某小镇的人,他可以从任意一个地方走到另一个地方,但他不一定都记得是怎么走到的。”[41]
香农的老鼠与巴贝奇的白银舞女、梅兰的机械博物馆里的白银天鹅和金属鱼是同类,即它们都是模拟生命体的自动机械,总是会带给人惊喜和欢乐。而随着信息时代的来临,出现了新一代的人工老鼠、人工甲壳虫和人工乌龟之类。它们由真空管或稍后由晶体管制成,不过即便对比仅仅几年后的标准,它们也还显得粗糙,甚至不值一提。比如,香农的老鼠的记忆体容量就只不过七十五比特。然而,香农可以当之无愧地说,他的机器能通过试错解决问题,能记住解法并正确无误地加以重复,能从经验中吸取和整合信息,还能在情况发生变化时“忘掉”旧的解法。这部机器不只是在模仿生命体的行为,它也是在完成一些原本只有大脑才能完成的功能。
匈牙利电气工程师丹尼斯·伽柏(他后来因发明全息摄影而获得诺贝尔物理学奖)就批评道:“它看上去能从经验中学习,但实际上,记忆经验的是迷宫,而非那只老鼠。”[42]这种说法有一定道理。毕竟说到底,里面并没有真正的老鼠。而继电器无论被放置到哪里,它们都仍然保持着对于迷宫的记忆。事实上,这些继电器成为了迷宫的一种心智模式,或者说,成为了关于该迷宫的一个理论。
并不是只有在战后的美国,才出现生物学家和神经科学家忽然间开始与数学家和电机工程师相互协作的情况,尽管有时美国人说得仿佛就是这样。比如,维纳在《控制论》的引论中用了相当篇幅谈及自己在别国的游历,在其中他就有点不屑地写道,虽然英国研究者在控制论方面的兴趣几乎同样“浓厚且消息灵通”,但在“整合该主题的研究,捏合不同研究思路”方面却比不上在美国所取得的进展。[43]不过到了1949年,英国科学家当中形成了新的一批研究信息论和控制论的核心团体。他们大多数都是年轻人,有着密码破解、雷达或火控方面的崭新经验。脑电图研究的先驱之一约翰·贝茨建议,有必要为此成立一个英式的晚餐俱乐部(“有限会员制,活动主要在用餐后进行”,对于俱乐部名称和徽章、会员守则、聚会地点等也会有细致规定)。贝茨希望邀请有涉足电学的生物学家以及有涉足生物学的工程师,并想到了一些可能的人选,“大概有十五个人,他们在维纳的著作出版之前,就产生了与他类似的思想”。[44]在位于伦敦布卢姆斯伯里的英国精神疾病医院(National Hospital for Nervous Diseases)的地下室,他们进行了首次聚会,并决定自称“计算俱乐部”(Ratio Club)——Ratio这个词具有多种含义可供会员选取。*(菲利普·赫斯本兹和欧文·霍兰后来在撰写该团体的历史时,曾彩访过许多当时还健在的会员,发现他们当中一半将 Ratio读作 RAY-she-oh,另一半则读作RAT-ee-oh)。[45]在首次聚会上,他们还邀请到了沃伦·麦卡洛克。
注释:*Ratio由艾伯特·厄特利(Albert Uttley)提议,取自莱布尼茨的“calculus ratiocinator”(计算机器),意指“计算或与计算、计划和推理相关联的心智功能”。Ratio 也是 rationarium(统计数据)、ratiocinatius(论证的)的词根。作为一个源自拉丁语的名字,Ratio按理应读为RAT-ee-oh。——译者注
他们讨论的话题不仅包括理解大脑,也包括“设计”大脑。精神病学家威廉·罗斯·阿什比(W. Ross Ashby)就表示自己正在研究这样一种可能性,即“由随机连接的、可塑的突触构成的大脑,通过经验的积累,将可以达到任意水平的有序性”——换句话说,心智是一个自组织的动力系统。[46]另外一些人则在讨论模式识别、神经系统中的噪声、能下国际象棋的机器人,以及机械产生自我意识的可能性。用麦卡洛克的话来说:“可以把大脑想成电报中继器,它在一个信号激发下,便发射出另一个信号。”中继器的历史则可追溯至摩尔斯的时代。“从大脑的分子事件上看,这些信号由原子构成。每个信号或发出,或不发出。”大脑的基本单位是一个选择,并且是一个二元选择。“这是或为真、或为假的最小的事件。”[47]
他们还成功地在1950年吸引了阿兰·图灵的加入。图灵在当年发表了一篇著名的论文,其中一开头便令人兴奋:“我想请大家考虑这样一个问题:‘机器能思考吗?’”[48]而对于机器和思考这两个含义模糊的词,他认为即便对此不加定义,也可以讨论这个问题。他的做法是,用一个测试来代替这个问题,他称之为“模仿博弈”,也就是后来鼎鼎有名的“图灵测试”。模仿博弈最初的形式需要三个人参与:一个男人、一个女人和一个提问者。提问者坐在一个隔开的房间里提问(在理想状况下,图灵建议,问答双方所在的两个房间通过“电传打字机通信”)。提问者的目标是判断另两个人中哪个是男人,哪个是女人。其中一个人,比如那个男人,目标是误导提问者;而另一个人的目标则是帮助揭露真相。图灵认为:“对于那个女人来说,最好的策略很可能就是如实作答。她可以补充这样一些话,比如‘我才是女人,别听他瞎说’。不过这么做并不会有所帮助,因为那个男人也可以说出类似的话。”
但如果问题并非问性别是男还是女,而是问种族是人还是机器呢?
通常认为人类的本质在于其“智能”,因此这个博弈被设计成了,通过在两个房间之间传递的看不见摸不着的讯息进行判断。图灵平淡地说道:“我们不希望机器由于在选美比赛中无法胜出而失分,同样我们也不希望一个人由于跑不过飞机而失分。”此外,人也不应该由于做算术运算很慢而失分。图灵给出了一些适当的问题和答案的例子,比如:
问:请以福斯桥为题,给我做一首十四行诗。
答:这种事就不要找我啦,我从来都不会写诗的。
不过,在继续深入之前,图灵觉得有必要解释一下自己所讨论的机器属于哪一类。他指出:“当前大家对于‘思考机器’的兴趣,其实是由一类特殊的机器所引发的,它们通常被称为‘电子计算机’或‘数字计算机’。”[49]这些设备从事的是人类计算员的工作,但要比人类更快速,也更可靠。图灵清晰地阐明了数字计算机的本质和特性,而这一点是香农没有做到的。冯·诺伊曼在建造埃尼阿克的后续机型时,同样也做到了这一点。图灵认为,数字计算机包括三个部分:一个“信息仓库”,相当于人类计算员的记忆或纸张;一个“执行单元”,负责完成一个个操作;以及一个“控制器”,管理一个指令列表,以确保各指令按照正确顺序被执行。这些指令被编码成数,它们有时被称为一个“程序”,而构建这样一个列表的工作通常被称为“编程”。
图灵认为,数字计算机的设想早已有之,并将它归功于查尔斯·巴贝奇,他曾在1828年到1839年间担任剑桥大学的卢卡斯数学教授——在当时可是鼎鼎有名,但现在却几乎被人遗忘。图灵解释道,巴贝奇“已经产生了所有核心的思想”,并且还“设计了这么一部机器,名叫分析机,但可惜始终没有完成”。分析机本来要用齿轮和打孔卡片来制造——这与电可一点关系都没有。这种机器存在(或者虽说不存在,但已经接近存在)的事实,让图灵得以驳斥他在20年纪50年代的时代精神当中觉察到的一丝迷信。当时的人们似乎认为,数字计算机的魔力本质上来源于电,并且神经系统的本质也是电。然而,图灵所努力要做的是,从最一般的抽象角度来思考计算的本质。他知道,这与电毫不相干:
由于巴贝奇的机器没有用到电,并且所有的数字计算机在某种意义上又都是等价的,我们可以得出,电的这种使用并没有什么理论上的重要性……因此,数字计算机和神经系统都使用电这一特征,其实只是非常肤浅的相似性而已。[50]
著名的图灵机是一部通过逻辑构建的机器,有着想象的纸带、任意的符号。它拥有无尽的时间和无限的记忆体,能完成任何可表示成一系列步骤或运算的工作,甚至能判断《数学原理》体系中的证明是否成立。“当遇到既不能被证实、也不能被证伪的公式时,这部机器的行为显然不能尽如人意,因为它会无休止地运行下去,却不会产生任何结果。不过,这与数学家的反应其实也相差不了多少,比如他们就花费了数百年时间研究费马大定理是否成立。”[51]因此,图灵认为这部机器应该能够玩模仿博弈。
当然,图灵无法装作能证明这一点。他的主旨其实是试图澄清在这场他看来略显愚蠢的论辩(“机器能思考吗?”)中所使用的一些术语,比如数字计算机。他还对未来半个世纪作出了一些预测:计算机的存储容量将达到109比特(在他的想象中,未来只需少量巨型计算机;他没有预见到,现如今小型计算设备会无所不在,而且它们的存储容量都要比109大上很多个数量级),并且计算机在经过编程后可以较好地玩模仿博弈,至少能在几分钟内愚弄一些提问者(就目前所见,这一点倒是不假)。
我相信,“机器能思考吗?”这个原始问题含义模糊,不值得讨论。不过我也相信,到本世纪末,字词的使用以及普通公众的认识将会发生很大改变,到时人们说到“机器能思考”时,将不会遭到什么质疑。[52]
但可惜图灵无法亲眼见证自己的预言是如何准确地得到了应验。1952年,他因同性恋行为被逮捕,随后遭受审判,并被定罪和取消参与涉密项目的资格。当局对图灵实施了侮辱性的雌激素注射。1954年,图灵自杀身亡。
在很长一段时间内,很少有人知道图灵在布莱切利庄园为破解恩尼格玛所从事的秘密工作,了解他为国家所作出的卓越贡献。他有关思考机器的思想,在大西洋两岸倒是吸引了不少关注。有些人觉得图灵的想法很荒唐,甚至很恐怖。当他们征求香农的意见时,香农则坚定地站在了图灵这一边。他曾对一位工程师写道:“对于我们所有人来说,机器能思考的思想丝毫没有什么令人不悦之处。事实上,如果反过来说,人的大脑可能本身是一部机器,能够通过无生命的物体复制其功能,我觉得这个思想相当吸引人。”[53]毕竟这比“用看不见摸不着的‘生命力’、‘灵魂’或诸如此类来解释”要有用得多。
在20世纪中叶,计算机科学家想了解计算机究竟能做什么事,心理学家也想了解大脑是不是计算机,或者说,大脑是不是仅仅是计算机。在当时,计算机科学还是门新兴学科,而心理学作为一门科学也同样非常年轻。
心理学在20世纪中叶几乎陷入了停滞。在所有的科学门类当中,心理学一直以来都最难以说清自己的研究对象究竟为何物。一开始,它的研究对象是灵魂,以区分于人体学所研究的身体和血液学所研究的血液。17 世纪的荷兰医生詹姆斯·德巴克(James de Back)最早提出“心理学”的说法:“心理学(psychologie)是一门探究人类灵魂及其效应的学问。没有灵魂,人将不人。”[54]然而在本质上,灵魂是不可言喻的,因而也几乎不可能被了解。而观察者与被观察对象共存一体、相互纠缠(这只见于心理学),更使得问题难上加难。1854 年,当时心理学还更多地被称为“心灵哲学”,大卫·布儒斯特就曾哀叹,没有一门其他学问像“心智科学,如果它能算一门科学的话”那样进展寥寥。
人的心智,一些人认为是物质的,另一些人认为是精神的,还有些人认为是由两者神秘混合而成的,但它始终不为人的感官和理性所理解。它有如一块在北风恣虐下的荒原,每位路过的思想者都在上面撒下自己的心灵杂草种子,生生扼杀了那些原本可能萌发成熟的好种子。[55]
当时这些路过的思想者,主要是通过内省的方法研究心理学,但这种方法的局限性也很明显。到了19、20世纪之交时,为了使研究变得严谨、可验证,甚至是数学化,许多心理学研究者开始转向多个大不相同的方向。弗洛伊德的思路只是其中之一。在美国,威廉·詹姆斯几乎凭一己之力创建了心理学这门学科:他开设了首个心理学课程,撰写了第一本综合性的心理学教科书《心理学原理》。但就在他花十二年时间完成了这部巨著时,他却心生弃意。他在给出版商的信中写道,这在自己看来是“一堆令人生厌、冗长、累赘、臃肿的文字,只表明了两个事实:其一,根本不存在一门称为心理学的科学;其二,威廉·詹姆斯无能”。[56]
在俄罗斯,生理学家伊万·彼得罗维奇·巴甫洛夫,他曾因对于消化过程的研究而赢得诺贝尔奖,开辟了心理学的一种新思路。詹姆斯在心情好的时候,还会把心理学称为研究心智生活的科学,但巴甫洛夫对于“心理学”一词及其所有相关术语都不以为然。在他看来,根本不存在什么心智,有的只是行为。所谓心理状态、思想、情绪、目标、目的等,全是无形的、主观的、不可把握的东西,不可避免地会沾染到宗教和迷信。詹姆斯视为心理学核心课题的东西,比如“思想流”、“自我意识”、对时空的感知、想象力、推理能力以及意志等,在巴甫洛夫的实验室里都不见踪影。科学家能观察到的只有行为,并且行为至少能够被记录和测量。行为主义者,以美国的约翰·华生和后来非常知名的B. F.斯金纳为代表,基于刺激(如铃铛、食丸、电击)和反应(如唾液分泌、按操作杆、走出迷宫)建立了整个的科学体系。华生认为,心理学的全部目的在于预测某个特定的刺激会引发怎样的反应,以及某个特定的行为要源自怎样的刺激。在刺激与反应之间是一个黑箱,人们只知道它由感官、神经通道和运动机能组成,却无法通过科学方法对其进行分析。事实上,行为主义者无非是又说了一遍“灵魂是不可言喻的”。由于在条件反射和控制行为方面取得的成果,行为主义兴盛了约半个世纪的时间。
用心理学家乔治·米勒的话讲,行为主义者大概会说:“你们说什么记忆,说什么期待,说什么感觉,说了那么多心智方面的东西。这些都是虚的,否则秀一个给我看,指一个给我瞧。”[57]而他们则甚至能教鸽子打乒乓球或是教老鼠走迷宫。然而到了20世纪中叶,不满的情绪开始显露出来。行为主义只研究可观察对象的前提变成了教条,它对心理状态的一概排斥成了束缚自身发展的牢笼,而心理学家依然渴望理解心智到底是什么。
信息论给了心理学家一条进入黑箱的入口。科学家分析了信息处理过程,并建造机器来实现这样的过程。这些机器能记忆,还能模拟学习和目标搜索的行为。对于老鼠走迷宫,行为主义者会讨论其中刺激和反应之间的关联,却会完全拒绝讨论老鼠的心智;但现在,工程师只用少量电子继电器就建造出了老鼠的心智模型。因此,工程师不只是在努力打开黑箱,他们甚至还试图自己做黑箱。在这些黑箱中,信号不断被传输、编码、存储和提取,对于外部世界的内部模型也被创建和持续更新。心理学家密切关注了这些进展,并从信息论和控制论当中借鉴了一套有用的隐喻乃至一个有效的概念框架。比如,香农的老鼠就不仅可以被视为大脑的一个粗略模型,也可以被视为一个行为理论。于是突然之间,心理学家也开始谈论起了计划、算法、句法规则等东西。他们不仅研究生物如何对外部世界作出反应,也开始考察生物如何将外部世界呈现给自己。
在不同研究者手中,香农的信息论被引向了他当初始料未及的方向。香农曾说:“通信的基本问题是,在一点精确地或近似地复现在另一点所选取的讯息。”心理学家则不难看出,可以把外部世界视为信源,而把心智视为接收器。
既然耳朵和眼睛可以被视为信道,那么为什么不像对麦克风和相机那样也对它们进行测试和度量呢?纽约市立大学亨特学院的化学家霍默·雅各布森就说道:“对于信息的本质和度量的众多新概念,使得度量人类耳朵的信息容量成为可能。”[58]他这样说,也这样做了。后来他又对眼睛进行了同样的度量,得出的估值要比耳朵的信息容量(以比特每秒计)大上四百多倍。就这样,许多更精致的类似实验突然间变得有了意义,其中一些更是直接受到了香农在噪声和冗余方面研究的启发。1951年,一个研究小组就做了一项实验,测量受试者在不同情况下听对单词的可能性:一种情况是他们被告知单词要从少量可选单词中选出,另一种情况则是要从大量可选单词中选出。[59]结果似乎显而易见,但这样的实验之前却从来没人做过。还有实验者研究了如果试图同时理解两个对话,会有什么效果。也有人开始研究,人在面对一组数字、字母或字词时能够理解或记住多少,而它们又包含多少信息。在一些标准实验中(比如,受试者可能需要在蜂鸣声中识别出语音,并在接受视觉刺激时,通过手按键和跺下脚作出反应),刺激和反应这样的用语逐渐被信息的传输和接收所取代了。
曾有一段短暂的时期,心理学研究者之间还对这种转变争执不休。但过了不久,讨论便平息了下来。1958年,主要研究选择性注意和和短期记忆的英国实验心理学家唐纳德·布罗德本特就写道:“当比较需要作出两个反应的情况与只需作出一个反应的情况时,是用刺激和反应来解释实验结果,还是用信息论的术语来解释,两者之间的差异变得最为明显……毫无疑问,用刺激和反应也能对结果作出合适的解释……但相较于信息论的解释,这样的解释就显得繁复了。”[60]也是在这一年,布罗德本特开始执掌英国医学研究理事会下的应用心理学研究部门。人们在那里及其他地方都进行了大量实验,涉及人类处理信息的各种方式,比如噪声对表现的影响、选择性注意和感知的过滤、短期和长期记忆、模式识别,以及问题解决等。那么其中逻辑又该归入哪门学科呢?是心理学,还是计算机科学?但有一点已可以肯定,它已不仅仅只属于哲学的范畴了。
在英国有唐纳德·布罗德本特,在美国则有同样影响深远的乔治·米勒,他在1960年共同发起成立了哈佛大学认知研究中心。而早在1956年,他便已经因一篇论文而声名鹊起。论文的标题略显古怪:《神奇之数:72——我们处理信息能力的某些局限》。[61]论文提出,大多数人每次在工作记忆内储存的最大单位数目大致是七个,比如七个数字(这是当时美国典型的电话号码长度)、七个单词或实验心理学家展示的七件物品。米勒声称,在其他类型的实验中也会不断发现这个数。比如受试者会被要求辨别盐度不同的盐水滴、音高或响度不同的声音,以及计算屏幕上随机显示的亮点数目(如果亮点数目在七个以下,他们几乎总能准确说出来;而如果超过七个,人们就几乎总是要靠估算)。无论实验怎么做,七总会是反复出现的那个阈值。米勒写道:“这个数会以各种不同的形式出现,有时略大一点,有时略小一点,但从来都不会变到无法辨认的程度。”
显然,这是某种类型的粗略简化;米勒也承认,人类具备从数千人脸或单词中进行辨识的能力,也能够记下很长的符号序列。为了说明这是种什么类型的简化,米勒借助了信息论,尤其是香农将信息理解为在多个可能选择中作出一个选择的观点。他首先提出,“观察者可以被视为一个信道”(这种说法想必会让当时还占据主流的行为主义者大吃一惊),他接受输入信息,传递并输出信息(关于响度、咸度或数字的信息)。米勒还简要解释了一下比特:
一比特信息,就是我们在两个出现概率相等的可能选择中做出决策时所需的信息量。如果我们想要判断某人身高是低于六英尺,还是高于六英尺,并且已知两种情况出现的可能性相等,那么我们只需一比特信息……
两比特信息使得我们能在四个出现概率相等的可能选择中做出决策,三比特使得我们能在八个出现概率相等的可能选择中做出决策……依此类推。换言之,假如存在三十二个出现概率相等的可能选择,我们就要依次做出五次二元决策,每次决策一比特信息,这样才能知道哪个选择是正确的。因此,基本规则很简单:可能选择的数目每翻一番,所需信息量的比特数就加一。
这样算来,神奇之数七是略小于三比特。米勒接着分析了,在单维刺激和多维刺激(比如结合了大小、明度和色相)的情况下,随着可能刺激的数目增加,观察者的反应会开始出现混淆,而混淆出现的这一点可以被称为其信道容量。米勒还注意到,人们还会借助信息理论家所谓的“再编码”(recoding),将信息拼凑成越来越大的组块,比如使电报的点和划凑成字母,字母又凑成单词,单词再凑成短语。米勒最后的总结颇有点宣言的性质。他宣称:“这种语言的再编码,在我看来,正是思考过程的核心命脉。”
来自信息论的各种概念和度量方法,使得我们能够对其中一些问题加以量化。该理论给我们提供了一把量尺,借此我们可以校准刺激材料,并度量受试者的表现……
信息论相关概念的价值已经在辨别和语言的研究中得到了证实,并在学习和记忆的研究方面表现出了巨大的潜力,近来甚至还有人建议它在概念形成的研究中也可以有用武之地。许多在二三十年前看来不会取得什么成果的问题,或许现在值得重新审视一番了。
这就是在心理学史上被称为认知革命的开始,一门结合了心理学、计算机科学和哲学的认知科学也由此发端。事后回想起来,一些哲学家也将这一时刻称为信息转向(informational turn)。弗雷德里克·亚当斯就写道:“在那些接受信息转向的人看来,信息是形成心智的基本要素,信息必然促成了心智的起源。”[62]也正如米勒本人所喜欢说的,心智借着机器重新进入了视野。[63]
香农在当时不是个家喻户晓的名字(他的名声从不曾传到普通公众当中),不过在自己的学术圈内,他却享有偶像级的声望。有时他也会到大学和博物馆就“信息”发表通俗演讲。在其中他会解释基本思想,比如调皮地引用《新约·马太福音》第5章第37节的话,“你们的话,是,就说是;不是,就说不是;若再多说,就是出于那恶者”,以此作为比特和冗余编码概念的范本。他还会预测计算机和自动机械的未来前景,比如他在宾夕法尼亚大学的一次演讲中就说道:“总而言之,我认为,这一整个信息产业将在本世纪快速崛起和发展,其中包括信息的采集、信息从一点到另一点的传输,以及恐怕是最为重要的,信息的处理。”[64]
克劳德·香农(1963)
面对心理学家、人类学家、语言学家、经济学家及其他各类社会科学家纷纷学时髦搭车信息论的做法,一些数学家和工程师不免感到不悦。香农本人便把信息论称为一种科学“时尚”(bandwagon),并以此为题在1956年写了一篇仅有四段话的短文,特意进行提醒:“许多不同领域的科学家同人,为其浩大声势及其开辟的科学分析新思路所吸引,正纷纷将这些思想应用到自己研究的问题上去……尽管对于我们这些从事这个领域研究的人来说,这一波流行热潮固然让人欣喜和兴奋,但同时它其中也带有危险的元素。”[65]香农提醒人们,信息论的核心是数学。尽管他个人确实认为信息论的许多概念会对其他领域有所帮助,但它不是万金油,也无法被简单照搬:“这样的应用,并不是简单地将术语翻译到一个新领域,而是需要经过缓慢而艰辛的假设和实验检验的过程。”并且香农感到,类似的艰苦工作在“我们自家院里”都还没怎么开展,因此当务之急是研究,而非阐释。
至于控制论,这个词则开始淡出人们的视线。1953年,最后一次控制论会议在普林斯顿的拿骚旅馆举办,但维纳并不在场,因为他早已与一些与会者闹翻,包括麦卡洛克。在最后进行总结发言时,对于会议所取得的成就,麦卡洛克说道:“我们从未达成过一致的共识。但就算是达成了,我也看不出上帝有什么理由会赞同我们。”[66]
返回书籍页