必读网 - 人生必读的书

TXT下载此书 | 书籍信息


(双击鼠标开启屏幕滚动,鼠标上下控制速度) 返回首页
选择背景色:
浏览字体:[ ]  
字体颜色: 双击鼠标滚屏: (1最慢,10最快)

信息简史-詹姆斯·格雷克

_6 詹姆斯·格雷克(美)
渐渐地,人们不可避免地开始用疾病来类比模因。即便当时的人们对传染病学还毫无了解,但相关的用语已经用到了各类信息当中。比如,某种情绪蔓延开来,某段旋律具有感染力,或某个习惯具有传染性。1730年,诗人詹姆斯·汤姆森就写道:“人群目目相觑,恐慌在其中蔓延。”[16]而在约翰·弥尔顿的诗篇中,欲望也是如此:“夏娃,她的眼中冒出传染的火。”[17]不过一直要到这个新千年,在全球电子通信的时代,这种等同才成为人们的第二天性。我们生活在一个病毒式的时代:病毒式教育,病毒式营销,病毒式电子邮件、影像和网络,如此等等。许多将Internet作为一种媒介来研究的学者,在讨论如众包、群体注意力、社交网络以及资源分配时,不仅利用了传染病学的用语,也借用了其数学原理。
最早使用如“病毒式文本”和“病毒式语句”等说法的人之一,可能是一名道金斯的读者,来自纽约市的斯蒂芬·沃尔顿(Stephen Walton)。在 1981年写给侯世达的读者信中,沃尔顿提出可以把诸如“照样复述!”“照样复写!”“如果你照写,我会满足你三个愿望!”之类的连锁信及其中自我复制的句子,分别称为“病毒式文本”和“病毒式语句”。侯世达当时正为《科学美国人》杂志撰写专栏。于是他在1983年的一篇专栏文章中提到了沃尔顿的来信,并指出“病毒式文本”的说法本身甚至更具传染性。
现在,就在你眼前,沃尔顿自己的病毒式文本成功地征用了一个强大宿主的设施(包括这整本杂志及其印制和发行力量)。它寄生其中,并现在(甚至就在你阅读这句病毒式语句时)正在思想圈中疯狂传播![18]
(在20世纪80年代初期,一本发行量达70万份的杂志在人们眼里仍然是个强大的传播平台。)侯世达倒是欣然接受,自己感染了“模因”这个模因。
但抗拒或至少是不安的情绪依然浓厚,原因之一是我们人类竟被排挤到了舞台边缘。说什么人只是基因制造更多基因的工具,这已经够受的了,而现在又要说人是模因传播的载具?没人喜欢被称为傀儡。丹尼特这样总结了其中的处境:“我不知道你会怎么想,但我本人一开始并不喜欢这样的想法:我的大脑不过类似某种粪堆,滋养着他人思想的幼虫,直到它们成熟后在一次信息流散中再度散播出去?……倘若如此,那么到底是谁在掌控?是我们,还是我们的模因?”[19]
对于这个重要的问题,丹尼特提醒了我们注意:无论喜欢与否,在现实中,我们其实也很少能“掌控”自己的心智。不过,他没有像通常预期的那样引述弗洛伊德,而是引用了莫扎特(或他以为是莫扎特)的一段话:
在不眠之夜,思绪涌上心头……它们从哪里来,怎么来的?我不知道,也与此无关。其中那些让我愉悦的想法,我会记在脑里并哼唱出来。
后来有人告诉丹尼特,这段名言其实并非出自莫扎特。显然,它拥有了自己的生命,是个相当成功的模因。
而对于那些热情接受了模因思想的人们来说,计算机技术进步引发的场景变化也超出了当初的想象。道金斯在1976年只是将计算机作为人脑的类比:“模因所在的计算机就是人脑。”[20]而到了1989年,在《自私的基因》第二版问世而他自己也成了一名熟练的计算机程序员时,他不得不补充道:“显而易见,人造的电子计算机最终也将成为可自我复制的信息模式的宿主。”[21]其中一些计算机通过“用户相互传递软盘”来分享信息,但道金斯也预见到了另一番即将出现的景象:计算机相互连接成网络。他写道:“许多计算机在电子邮件交换中是直接通过线缆相连接……这无疑是可自我复制的程序得以活跃的完美环境。”当时Internet还处在规模大爆发的前夜。但很快,它不仅为模因提供了一个营养充分的文化媒介,也为模因概念本身添翅插翼。“模因”迅速成为了Internet上的流行语,而人们对模因的意识越强,其传播的势头就越足。
比如像短语“跳鲨鱼”(“jump the shark”)这样的模因在 Internet之前的文化中就是不可能出现的。循环的自指现象贯穿了其存在的各个阶段。“跳鲨鱼”意指在品质或人气上盛极而衰的时刻,此后不可挽救地开始走下坡路。通常认为,这个短语最早在 1985年提出,当时一个名叫肖恩·J.康诺利(Sean J. Connolly)的大学生用此来评论了一部电视连续剧。不过,倘若不解释清楚这个短语的起源,它无法一听就懂。也许正是由于这个原因,它直到 1997年才有了首个有记录的用例——那一年,康诺利的室友乔恩·海因(Jon Hein)注册了域名JUMPTHESHARK.COM,并建立了一个网站专门推广这个短语。*在网站的常见问题列表上,其中一个问答写道:
注释:*2006年,海因出售了这个网站。随后,网站放弃了原来的定位。一些原网站的粉丝建立了一个新网站(BONETHEFISH.COM),继续在上面对电视、电影、音乐、名人等进行点评。——译者注
问:“跳鲨鱼”这个短语是源自这个网站,还是你建立了这个网站来借此牟利?
答:这个网站于1997年12月24日上线,首次提出了“跳鲨鱼”这个短语。随着网站越来越流行,这个短语也越来越普及。这个网站既是蛋生的鸡,也是鸡生的蛋,现在又是第22条军规。
很快在次年,这个短语传播到了传统媒体。2001年,莫琳·多德(Maureen Dowd)在《纽约时报》的一篇专栏文章里对它进行了解释。2003年,也是在这份报纸上,“论语言”专栏的主笔威廉·萨菲尔(William Safire)将之称为“年度流行短语”。不久之后,人们就开始在口语和书面语里下意识地使用这个短语(不加引号或解释)。再后来,不可避免地,便有文化观察家提出了问题:“‘跳鲨鱼’跳鲨鱼了吗?”(“的确,跳鲨鱼是个不错的文化概念……但现在这玩意儿泛滥成灾了。”)与任何一个成功的模因一样,它也产生了大量突变。2009 年,维基百科上的“jumping the shark”条目里给出了两个:“相关条目:‘jumping the couch’;‘nuking the fridge’。”
模因的研究是门科学吗?在专栏文章发表后,侯世达收到了其他众多也感染了“模因”这个模因的人的来信,其中就有人提议这样一门学科可以称为模因学(memetics),一个颇具模因色彩的标签。模因的研究吸引了从计算机科学到微生物学领域的众多学者。连锁信甚至成了生物信息学的一个研究对象。连锁信是一种模因,有着自己的进化史。自我复制是它唯一的目的,无论信中写了别的什么内容,有一个讯息是必不可少的:照样复写。连锁信进化史的一位研究者,丹尼尔·W. 范阿斯代尔就举出了它在连锁信乃至经典文本中的很多变体:“原样照抄七份”(1902年);“完整抄写九份,并寄给九位朋友”(1923年);“这书上的预言,若有人删去什么,上帝必从这书上所记的生命树和圣城删去他的份”(《新约·启示录》第22章第9节)。[22]凭借着一项19世纪的新技术(复写纸)以及另一项新发明(打字机)的有机配合,连锁信在20世纪初期出现了病毒式爆发。
“1933年下半年,一封不同寻常的连锁信抵达昆西市,”一位伊利诺伊州的当地历史学家写道,“随即这股连锁信热潮以惊人的速度演变成了大众的歇斯底里,并席卷了整个美国。到了1935年和1936年,美国邮政部和公共舆论机构不得不开始介入,联手压制事态发展,并最终在1939年或稍早点取得了成效。”[23]他还提供了一封样信——一个通过威逼和利诱驱动其人类载体施为的模因:
我们信仰上帝。他赐予我们福祉。
F.斯图尔泽尔太太…….密歇根州
A.福特太太……………伊利诺伊州芝加哥市
K.阿德金斯太太……….伊利诺伊州芝加哥市
……
照抄上述姓名,但去掉第一个并将你的姓名加到最后,然后寄给五位你希望赐福的人。这个传递链条由一位美国上校发起,收信者必须在收到信后二十四小时内寄出。在信寄出九天内,寄信者便会被赐予福祉。
桑福德太太赢得了三千美元。
安德斯太太赢得了一千美元。
豪太太中断了传递连锁,结果失去了拥有的一切。
按要求去做,传递链条就会产生预期的效果。
千万别中断传递链条。
再后来,随着复印机(约在1950年前后)和电子邮件(约在1995年前后)的广泛普及,连锁信的泛滥进一步得到了数个量级的提升。一个由来自 IBM 的查尔斯·亨利·本内特以及来自滑铁卢大学的李明和马斌组成的团队,从一次在香港爬山时的闲聊中获得灵感,开始分析一组产生于复印机时代的连锁信。他们一共搜集了三十三封信,全都是同一封信的变体(其中的差异包括拼写错误、遗漏以及字词和短语的顺序调整等)。他们在报告中指出:
这些连锁信从一名宿主传到另一名宿主,并在不断突变和进化。它们的平均长度大约是两千个字符,这有点像基因。它们以性命相威胁,迫使你将信传给你的“朋友和熟人”──这封信的某些变体甚至很可能已经过了数百万人之手,而这有点像烈性病毒。它们允诺给你和你传给的人带来益处,这又有点像遗传特性。连锁信也会经历自然选择,有时其部分内容甚至会在当时共存的各“物种”间相互转移,这则有点像基因组。[24]
但他们并没有满足于这些吸引人的隐喻,而是以连锁信为“实验床”,在其中应用了进化生物学的某些算法。这些算法原本被用来根据现代生物的基因组,通过推论和演绎,逆向重建生物的发生谱系,即进化树。他们设想,如果这些数学方法对基因有效,那么它们对连锁信应该也有效。这样的话,他们就可以验证其中的突变率和亲缘关系的远近。
然而,文化的大多数元素毕竟太易变动,相互边界也太易模糊,因而很难称得上是稳定的复制子。它们很少像 DNA 那样形成整齐的序列。道金斯本人就曾强调,他从来没有想过要创建像模因学这样的新科学。1997年,一份同行评议的《模因学期刊》(Journal of Memetics)问世(自然仅是在线出版),但在八年后便不得不宣布停刊,在此期间,对于该学科的地位、使命和术语的自觉争论占据了相当的篇幅。即便是与基因相比,模因也显得难以数学化,甚至难以严格定义。基因与模因的类比已经够令人不安了,而遗传学与模因学的类比则有过之而无不及。
基因起码还有物质实体作为基础,模因却是抽象、无形、不可度量的。基因的复制有着近乎完美的保真度,这也正是进化所仰赖的:一定程度的变体至关紧要,但突变绝不能多。模因却很少精确地复制,相互边界也总是模糊的,并且产生突变的程度要是放在生物学里将是致命的。同时,“模因”一词所涵盖的大大小小的事物恐怕也太过宽泛了。比如在丹尼特看来,贝多芬《第五交响曲》的头四个音符“显然”是个模因,还有荷马史诗《奥德赛》(或至少是《奥德赛》的思想)、轮子、反犹主义以及文字。[25]道金斯曾表示:“模因还没遇到它们的沃森和克里克,甚至连它们的孟德尔都还没出现。”[26]
但模因毕竟存在着。随着信息流带来愈来愈广阔的相互联系,模因的进化速度也越来越快,传播范围也越来越广。在羊群行为、银行挤兑、信息瀑布以及金融泡沫等现象当中,它们的存在即便看不到,也不难感受得到。比如,层出不穷的各种减肥食谱,它们的名字往往成为一时的流行语:迈阿密饮食瘦身法、阿特金斯健康饮食法、斯卡斯代尔节食饮食法、饼干膳食法、饮酒减肥法,不一而足。它们都曾风靡一时,但个中原因却与营养学没什么关联。医疗实践中也有过类似的“外科手术热潮”,比如20世纪中叶盛行于美国和欧洲部分地区的儿童扁桃体切除术,其实它并不比割礼更有疗效。模因也可见于车窗上“车内有宝宝”(BABY ON BOARD)的黄色车贴。这种车贴在 1984年面世后,随即在美国以及后来的欧洲和日本大行其道。随之而来的还有众多讽刺性的突变,比如“我受够了宝宝”(BABY I’M BORED)、“后备厢有前妻”等。而在上个千禧年的最后一年,当全世界都在讨论计算机的内部时钟可能会因遇到某个整值而出现宕机或崩溃时,模因的踪影也清晰可见。
在从我们的大脑和文化中争夺生存空间的战斗中,有效的作战单位是讯息。而我们对于基因和模因的新视角,虽然可能不好理解,却给了我们有益的启示,也给了我们更多可以写在莫比乌斯带上的悖论。比如,大卫·米切尔曾写道:“构成人类世界的是故事,而不是人。那些被故事用来讲述自己的人,不应该受到责备。”[27]玛格丽特·阿特伍德也写道:“就跟所有知识一样,一旦你知道了这一点,你就再也无法想象要是当初你没有知道它又会是番什么情景。这又像舞台魔术,在你还不知道时,即便知识就站在你眼前,你也会视若无睹,看向别的地方。”[28]约翰·厄普代克则在暮年反思自己的写作生涯时写道:
一生倾注于文字──但它显然徒劳
在保存逝去的事物。
因为在我死后不能想象的未来
谁还会去读?[29]
1981年,研究心智和知识的哲学家弗雷德·徳雷特斯科写道:“太初有信息,而后才有的道(word)。这种转换的实现有赖于生物体发展出选择性利用这些信息从而让自己的物种生存和延续下去的能力。”[30]而现在,在道金斯的启示下,我们或许可以再补充一句:这种转换的实现也有赖于信息自身,它们寻求生存和延续并选择性地利用这些生物体。
生物圈的大多数成员并无法见到信息圈;对它们而言,后者是个不可见的平行宇宙,其中的成员好似飘荡的游魂。但对我们来说,它们却不是游魂,或者说不再是了。在地球上的所有有机生物当中,我们人类是唯一一种同时生活在两个世界中的物种。这就仿佛我们发展出了所需的第六感,从而感受到了长久以来与我们共存却不为我们所见的东西。我们识别出了信息圈的许多物种,并给它们起了带有嘲讽意味的名字,比如都市迷思和僵尸流言,好像这样就可以让我们确信自己已经确实理解它们了。我们还将它们养在了装有空调的服务器农场里。然而即便如此,我们毕竟无法占有它们。当一段耳熟能详的旋律在我们耳边萦绕不去,或者一股热潮彻底改变了时尚潮流,又或者一个恶作剧成为全球的热门话题长达数月,然后又如快速兴起时那般快速消退时,你说谁才是主人而谁又是奴隶?
注释
[1] Douglas R. Hofstadter, “On Viral Sentences and Self-Replicating Structures,” in Metamagical Themas: Questing for the Essence of Mind and Pattern (New York, Basic Books, 1985), 52.
[2] Jacques Monod,Chance and Necessity: An Essay on the Natural Philosophy of Modern Biology, trans. Austryn Wainhouse (New York: Knopf, 1971), 145.
[3] Ibid., 165.
[4] Roger Sperry, “Mind, Brain, and Humanist Values,” in New Views of the Nature of Man, ed. John R. Platt (Chicago: University of Chicago Press, 1983), 82.
[5] Richard Dawkins, The Selfish Gene, 30th anniversary edition (Oxford: Oxford University Press, 2006), 192.
[6] Daniel C. Dennett,Darwin’s Dangerous Idea: Evolution and the Meanings of Life (New York: Simon & Schuster, 1995), 347.
[7] Daniel C. Dennett,Consciousness Explained (Boston: Little, Brown, 1991), 204.
[8] Mary Midgley, “Gene-Juggling,”Philosophy 54 (October 1979).
[9] Daniel C. Dennett, “Memes: Myths, Misunderstandings, and Misgivings,” draft for Chapel Hill lecture, October 1998, http://ase.tufts.edu/cogstud/papers/mememyth.fin.htm (accessed 7 June 2010).
[10] George Jean Nathan and H. L. Mencken, “Clinical Notes,”American Mercury 3, no. 9 (September 1924), 55.
[11] Edmund Spenser, quoted by Thomas Fuller,The History of the Worthies of England (London: 1662).
[12] Richard Dawkins,The Selfish Gene, 322.
[13] Quoted by Dawkins, Ibid., 192.
[14] W. D. Hamilton, “The Play by Nature,”Science 196 (13 May 1977): 759.
[15] Juan D. Delius, “Of Mind Memes and Brain Bugs, A Natural History of Culture,” inThe Nature of Culture, ed. Walter A. Koch (Bochum, Germany: Bochum, 1989), 40.
[16] James Thomson, “Autumn” (1730).
[17] John Milton,Paradise Lost, IX:1036.
[18] Douglas R. Hofstadter, “On Viral Sentences and Self-Replicating Structures,” 52.
[19] Daniel C. Dennett,Darwin’s Dangerous Idea, 346.
[20] Richard Dawkins,The Selfish Gene, 197.
[21] Ibid., 329.
[22] Daniel W. VanArsdale, “Chain Letter Evolution,” http://www.silcom.com/~barnowl/chain-letter/ evolution.html (accessed 8 June 2010).
[23] Harry Middleton Hyatt,Folk-Lore from Adams County, Illinois, 2nd and rev. ed. (Hannibal, Mo.: Alma Egan Hyatt Foundation, 1965), 581.
[24] Charles H. Bennett, Ming Li, and Bin Ma, “Chain Letters and Evolutionary Histories,” Scientific American 288, no. 6 (June 2003): 77.
[25] Daniel C. Dennett,Darwin’s Dangerous Idea, 344.
[26] Richard Dawkins, foreword to Susan Blackmore,The Meme Machine (Oxford: Oxford University Press, 1999), xii.
[27] David Mitchell,Ghostwritten (New York: Random House, 1999), 378.
[28] Margaret Atwood,The Year of the Flood (New York: Doubleday, 2009), 170.
[29] John Updike, “The Author Observes His Birthday, 2005,”Endpoint and Other Poems (New York: Knopf, 2009), 8.
[30] Fred I. Dretske,Knowledge and the Flow of Information Cambridge, Mass.: MIT Press, 1981), xii.
第12章 认识随机性(僭越之罪)
“我觉得,”她说,“我们越来越难找出其中的模式了,你不觉得吗?”
——迈克尔·卡宁厄姆(2005)[1]
1958年,年仅十一岁但早慧的格雷戈里·蔡廷(Gregory Chaitin),一个阿根廷移民之子,在纽约公共图书馆里发现了一本神奇的小书。[2]他兴奋地试图把里面的内容解释给其他孩子听,慢慢地,却不得不承认自己先要努力弄懂才是。这本书便是欧内斯特·内格尔和詹姆斯·R. 纽曼合著的《哥德尔证明》,由两人原先发表在《科学美国人》上的一篇文章扩充而成。在书中,两位作者以简化而严谨的方式介绍了始于乔治·布尔的逻辑学复兴、“映射”的概念(采用符号甚至整数来给数学表达式编码)、元数学的思想(关于数学因而是超越数学的一种系统化语言),以及哥德尔“惊人又不免令人感伤”[3]的证明(形式数学永远无法摆脱自相矛盾)。这些都让蔡廷兴奋不已。
但当时数学界的大部分人对哥德尔的证明却置若罔闻。数学形式体系的不完全性固然令人震惊,可这似乎无伤大雅——对数学家的实际工作并无妨碍,他们可以继续作出发现或证明定理。但部分富有哲思的数学家却深感不安,这些人的作品因而也正对蔡廷的脾胃。其中之一就是约翰·冯·诺伊曼——他在1930年柯尼斯堡的一次会议上亲耳聆听了哥德尔首次公开提出不完全性定理,后来又在美国为计算和计算理论的发展作出了重要贡献。对冯·诺伊曼而言,在哥德尔的证明之后,数学已经没有回头路:
这是一次非常严重的概念危机,牵扯到为了进行正确的数学证明所必需的严谨、适当的论证方式。在过去认为数学是绝对严谨的观点看来,这种事情的发生是完全出乎意料的。而且它发生在当今这个没有奇迹容身之地的时代,就更出乎意料了。但是它确实发生了。[4]
为什么会这样?蔡廷不免感到疑惑。他猜测,哥德尔的不完全性定理会不会与量子力学里似乎有点相似的不确定性原理存在某种关联呢。[5]后来,长大后的蔡廷借机就这个问题请教过约翰·阿奇博尔德·惠勒:哥德尔的不完全性与海森堡的不确定性是否有关联?惠勒则回答,他也曾拿着一模一样的问题问过哥德尔本人(就在普林斯顿高等研究院哥德尔的办公室,当时哥德尔双腿裹着毯子,正借着电热器的热量抵抗着室内的寒气),不过哥德尔拒绝回答。因此,惠勒也以同样的方式拒绝回答蔡廷的问题。
而当蔡廷读到图灵的不可计算性证明时,他认为这肯定是关键所在。他还读到了香农和韦弗合著的《通信的数学理论》,并惊喜于其中对熵的重新表述:基于比特的熵,一方面度量信息量,另一方面则度量无序程度。蔡廷突然意识到,这当中一个共同的元素是随机性。香农打破常规,将随机性与信息联系了起来。而物理学家则在原子内部发现了随机性,虽然爱因斯坦对这种随机性表示强烈不满(“上帝不掷骰子”)。所有这些科学界的英雄人物都在谈论随机性,或与之相关的话题。
随机,这是个很简单的词,似乎所有人都知道它是什么意思。但“所有人”都知道,换句话说,就是“没有人”知道。长久以来,哲学家和数学家都对其进行了深入的思考。对此,惠勒至少还有所表述:“概率,正如时间一样,都是人类创造的概念,所以人类也必须对与之相关的晦涩之处负责。”[6]拋掷一枚均匀硬币的结果是随机的,尽管硬币轨迹的所有细节都能根据牛顿运动定律计算出来。任意给定时刻的法国人口数的奇偶性也是随机的,但法国人口数本身显然并非随机的:这是个确定的事实,虽然具体无从得知。[7]经济学家约翰·梅纳德·凯恩斯则用其对立面来定义随机性,并从中选取了三种:知识、因果和设计。[8]任何事先知道的、由某种特定原因决定的或根据某种计划实施的,都不是随机的。
“或然性不过是我们的无知的一种量度。”这是亨利·庞加莱的名言。[9]“因此,或然现象,顾名思义,就是我们尚未掌握其规律的现象。”但他随即话锋一转,“但这个定义令人满意吗?当第一批迦勒底牧羊人仰望星空时,他们对天文学规律还一无所知,但他们会想到说,星辰的运动是受或然性支配的吗?”在庞加莱看来(他早在混沌成为一门科学之前就已对此有所领悟),随机性的例子还包括像雨滴坠落这样的现象——其影响因素虽然已经得到确认,但由于影响因素的数量太多、关系太复杂,所以其结果无法预测。在物理学或其他任何看似无法预测的自然现象当中,其表面上的随机性可能只是噪声,或可能源自更深层的复杂动力学因素。
无知是主观的,它是观察者的一种属性。而随机性,如果它真实存在的话,应当是事物本身的性质。这样的话,排除掉人为因素,我们就可以说,一个事件、一次选择、一个分布、一次博弈,或者最简单的,一个数是随机的。
但随机数的概念并没有看上去那么简单。比如,存在一个特定的随机数这样的东西吗?下面这个数有理由认为是随机的:
10097325337652013586346735487680959091173929274945…[10]
但同样,这个数是特殊的。它来自1955年的一本书,书名就叫《一百万个随机数字》。兰德公司使用了一个所谓“电子轮盘”来生成这些数字:一个随机脉冲发生器每秒发射出十万个脉冲;脉冲经过选通和标准化后,进入一个五位二进制计数器;生成的数经过一个二进制–十进制转换器的转换后,送入一部 IBM打孔机,并最后用 IBM 856型计算机打印出来。[11]整个过程耗时数年。当第一批数字送检时,统计学家在其中检测出了显著偏差:某些数字、数字组合或数字模式出现得太过频繁,或不够频繁。经过反复调试和检测后,虽然出版的最终结果依然存在微小但具有统计显著性的偏差,但已经足够令人满意。该书的编辑则不无自嘲地说道:“由于本表的特殊性质,校对每一页定稿以纠正计算机可能引入的随机错误,似乎没有必要。”
这种书在当时有市场,是因为科学家的有些工作需要大量现成的随机数,比如用来设计在统计上公平的实验,或为复杂系统构建现实的模型。新出现不久的蒙特卡洛模拟法就是利用了随机采样来对无法求得解析解的现象建模。这种方法是由约翰·冯·诺伊曼在原子弹项目中所领导的小组所发明和命名的,当时他们迫切需要随机数来协助中子扩散的计算。冯·诺伊曼知道,由于其决定论的算法和有限的存储容量,机械式计算机不可能生成真正的随机数。因此,他也只有退而求其次,接受伪随机数:由决定论的算法生成、表现得像是随机的数。它们的随机性,已经足以满足实际用途。相较于用物理方法生成随机数,冯·诺伊曼承认:“当然,任何考虑用算术方法来生成随机数的人都犯下了僭越之罪。因为,正如已经被多次指出的,不存在一个随机数这样的东西——有的只是生成随机数的方法,而一种严格的算术方法显然不属于其中之一。”[12]
随机性也许可以用秩序来定义——严格地说,是秩序的缺失。下面这个整齐的数字序列很难说是“随机的”:
00000
但它的身影却在前面提到的一百万个随机数字中多次出现。不过,从概率上看,这并不出乎意料:“00000”与其他 99 999个可能的五位数字字符串具有相同的出现概率。在一百万个随机数字里,我们还能找到:
010101
它看起来也像是带有模式。
要想从这个数字密林中找出带有模式的片断,需要一个有智能的观察者。给定一个充分长的随机数字字符串,任何充分短的子字符串都会在其中某处出现,比如银行保险柜的密码或编码后的莎士比亚全集。但它们即使出现了也没有什么用处,因为没有人能把它们找出来。
我们也许可以这么说,在特定的上下文中,像“00000”和“010101”这样的数是随机的。只要让一个人抛掷一枚均匀硬币充分长的时间(这是最简单的机械式随机数生成器之一),他肯定会在某个时刻连续抛出十次正面。而当这种事发生时,这个“随机数生成器”一般来说会舍弃这个结果,停下来喝杯咖啡,稍事休息。这恰好从一个方面表明了,即便借助了机械的帮助,人类在生成随机数方面也是能力低下。研究也证明,人类直觉在预测随机性和识别随机性上都毫无助益。无论愿意与否,人类总是偏好模式。纽约公共图书馆便将《一百万个随机数字》归入了心理学。2010年,该书在亚马逊书店上仍然有售,售价八十一美元。
数(按我们现在的理解)是信息。在香农影响下,我们现代人在考虑形式最纯粹的信息时,可能首先会想到一个由0和1组成的字符串。下面是两个五十位的二元数字字符串:
A:01010101010101010101010101010101010101010101010101
B:10001010111110101110100110101000011000100111101111
如果爱丽丝(A)和鲍勃(B)都说自己是通过抛掷硬币生成了各自的字符串,大概没人会相信爱丽丝的话。两个字符串的随机程度肯定有所不同。古典概率论无法给出充分的理由说明B比A更随机,毕竟随机过程的确可以生成两者当中的任意一个。概率针对的是整个系综,而非单个事件。概率论采用统计学来处理事件,它并不欢迎诸如“这件事当时是有多大可能发生”之类的问题。既然已经发生了,它就是发生了。
如果把这些字符串给克劳德·香农看,他大概会认为,它们看上去像讯息。他会问:两个字符串各含有多少信息?在表面上,两个字符串各含有五十比特的信息。按数字计费的电报员在度量讯息的长度后,会给爱丽丝和鲍勃开具相同的账单。但同样,这两个讯息看上去又差异明显。讯息A很快会变得乏味:一旦你看出了模式,后面再怎么重复也不会提供更多新的信息。而讯息B中的每一个比特都同样有价值。香农在最初构建信息论时,是从统计学角度处理讯息,将其视为从所有可能讯息组成的系综中作出的选择——在这里,所有可能讯息的数量为250。但香农还进一步考虑了讯息中的冗余:讯息中的模式、规律和秩序等因素使得讯息可压缩。讯息越有规律,就越可预测;越可预测,就越冗余;越冗余,含有的信息就越少。
在发送讯息A时,电报员有一条捷径可抄:他可以发送诸如“重复‘01’二十五遍”这样的讯息。对于长度更长但模式简明的讯息,这样节省下来的击键次数将相当可观。一旦明确了其中的模式,你就无需为其余的字符破费了。但发送讯息B的电报员却只能老老实实地一个个字符发送,因为每个字符都完全不可预料,都需要花费一比特的费用。这样看来,随机程度如何与含有多少信息其实是同一个问题。它们的答案也是同一个。
要是蔡廷见到这些字符串,他大概会想到的不是电报机,而是在他脑中挥之不去的图灵机——优雅到极致的抽象之物,在无限的纸带上来回移动,读写着各种符号。它摆脱了所有现实世界的混乱,摆脱了嘎吱作响的齿轮和难以伺候的电,也无需为速度操心,不愧是一台理想计算机。冯·诺伊曼也会不断向图灵机寻求帮助。它就像计算机理论里好用的实验鼠。通用图灵机U的力量则更为惊人——它能模拟任何其他数字计算机,这么一来,计算机科学家就可以忽略掉具体机器或机型错综复杂的细节。这无疑是种解脱。
1956年,从贝尔实验室回到麻省理工学院后,香农重新检视了图灵机。他将图灵机简化到了极致,证明仅用两种状态或两个符号(0和1,空白和非空白)便能构造出通用图灵机。他的整个证明只有很少的数学,更多的是务实的文字描述:他细致刻画了双态图灵机如何通过在纸带上的左右移动(来回“反弹”)来表示更多的状态。整个证明具体精致,颇有巴贝奇的遗风。例如:
读取头在纸带上移动时,关于状态的信息必须借助机器B仅有的两种状态而转移到读取头即将访问的下一格中。如果机器A的下一个状态是(比如)状态17(取自某个任意的编号系统),在机器B中,信息的转移是通过读取头在旧格和新格之间来回“反弹”17次而实现的(具体来说,是前往新格18次,返回旧格17次)。[13]
信息通过“反弹操作”在格与格之间传递,而方格则起到了“传递器”和“控制器”的作用。
图灵将他那篇伟大的论文题为《论可计算数》,但当然其中的真正重点是不可计算数。那么不可计算数与随机数会不会有关系呢?1965年,还是纽约城市大学本科生的蔡廷将自己对此的发现写了出来,并投给了一份学术期刊。这成为了他第一篇*发表的论文。[14]蔡廷在开头写道:“本文将图灵机视为通用计算机,并提出了与对其编程相关的若干实际问题。”在高中时,蔡廷曾参加了哥伦比亚大学科学荣誉生项目,因而有机会在IBM巨型机上练习机器语言编程。当时使用的还是打孔卡片,每张卡片对应一行程序。蔡廷会在前一天将打孔卡片留在计算机中心,然后次日回来收集程序的输出。他也能在大脑里运行图灵机:写0,写1,写空白,纸带左移,纸带右移……蔡廷意识到,图灵机给了他一种区分爱丽丝的数A与鲍勃的数B的办法。他可以撰写一个程序,让图灵机打印“010101…”一百万次,并且该程序可以非常之短。然而,如果给定的是一百万个随机数字,丝毫没有模式、规律或特殊之处可循,这时就没有捷径可抄,计算机程序必须包含全部数字才行。要是想让IBM巨型机输出这一百万个数字,那么蔡廷必须将这一百万个数字全部录入打孔卡片。同样,在图灵机里,他也得把这一百万个数字一一输入。
注释:*按照蔡廷自己的说法,他的第一篇的论文是他就读于布朗克斯科学高中时发表的(Gregory J.Chaitin, “An Improvement on a Theorem of E. F. Moore,” IEEE Transactions on Electronic Computers EC-14 (1965), pp. 466–467)。——译者注
下面是另一个数(这回采用的是十进制):
C:3.1415926535897932384626433832795028841971693993751…
它看上去很随机。在统计上,每一个数字的出现概率都符合期望(十分之一),每两个数字(百分之一)、每三个数字等也是如此。统计学家会说,就目前所知,这个数看上去是一个“正规数”。下一个数字总是出人意料。而莎士比亚全集早晚也会现身其中。不过,有人立马会认出这是个熟悉的数:π。所以它到底不是个随机数。
但我们为什么说π不是随机的呢?蔡廷给出了一个明确的回答:一个数只要是可计算的,即它能够被一个可定义的计算机程序生成,那它就不是随机的。因此,可计算性是随机性的一种量度。
对图灵来说,可计算性是个非此即彼的特性——一个给定的数或者可计算,或者不可计算。但对于随机性,我们有时会说有些数比其他数更随机——它们更缺乏模式,更无序。于是蔡廷指出,模式和秩序表达的是可计算性,而算法生成模式,因而我们可以通过算法的长短来度量可计算性。给定一个数(表示为任意长度的一个字符串),我们可以问:能够生成这个数的最短程序的长度是多少?利用图灵机,这个问题可以求得一个确定的答案,其长度可以用比特来度量。
蔡廷为随机性给出的算法定义,同样也适用于信息:算法的长短度量了给定字符串里含有多少信息。
在混乱中找出秩序,找出模式,这也正是科学家的工作。年仅十八岁的蔡廷认为这并非巧合。在这篇论文的结尾,蔡廷将算法信息论应用到了科学过程本身。他写道:“设想有一名科学家一直在观察一个封闭系统,该系统每秒会发射一束光线,或不发射。”
他将观察结果整理成了由0和1组成的序列,0代表“光束未发射”, 1代表“光束发射”。该序列可能会这样开头
0110101110…
并持续数千比特。这位科学家接下来会对该序列进行考察,希望从中发现某种模式或规律。这意味着什么?如果一个由0和1组成的序列无法用更好的方式计算出来,而只能全部照抄原始的表格,那么很可能它就是没有模式。
但如果这位科学家能发现一种算法可以生成同样的序列,长度却短得多,那他就可以确信这个事件不是随机的。而他也会说,自己发现了一种理论。这正是科学所一直寻求的:一种更简单的理论,既可以解释大量已知的现象,也能预测尚未发生的事件。这就是著名的奥卡姆剃刀原理,正如牛顿所说:“寻求自然事物的原因,不得超出真实且足以解释其现象者……因为自然喜欢简单。”[15]牛顿对质量和力加以了量化,但对简单程度(simplicity)的量化则留给了后人。
蔡廷将论文投给了《美国计算机协会期刊》,对方很乐于发表它,但其中一位审阅人提到,听说在苏联也有人做了类似的工作。到了1966年初,传闻得到了确认。在一份姗姗来迟的新期刊(《信息传输问题》)创刊号中,有一篇题为《定义“信息量”概念的三种途径》的论文,作者是A. N.柯尔莫哥洛夫。蔡廷不懂俄文,只来得及在论文脚注中提及这一点。
安德烈·尼古拉耶维奇·柯尔莫哥洛夫是苏联时期的杰出数学家。他于1903年出生在莫斯科东南四百多公里的坦波夫市,他的未婚母亲因难产去世。安德烈随了母姓,跟着姨妈薇拉在伏尔加河畔的一个村庄里长大。薇拉是位具有独立思想的女性,在沙皇统治末期,她管理着一所乡村学校,并在家里秘密开办了印刷厂,一次甚至将违禁文件藏到了小安德烈的婴儿床里。[16]
1920年,安德烈·柯尔莫哥洛夫进入莫斯科大学数学系就读。在随后十多年里,他做出了一系列影响深远的成果,尤其他的《概率论基础》(俄文版出版于1933年,英文版出版于 1950年)最终使概率论公理化,至今仍被奉为经典。他的研究兴趣广泛,除了概率论外,还涉及物理学、语言学以及其他快速发展的数学分支。他曾经短暂涉足遗传学,但遭到了当时得势的伪科学家特罗菲姆·李森科(Trofim Lysenko)的攻击。第二次世界大战期间,柯尔莫哥洛夫专注于研究与火炮控制相关的统计理论,并提出过一个防空气球的随机配置方案,以保卫莫斯科免遭纳粹空军的轰炸。在这个时期,他还研究了湍流和随机过程。他荣获过社会主义劳动英雄的称号以及七枚列宁勋章。
1953年,柯尔莫哥洛夫第一次读到了香农的《通信的数学理论》的俄文译本,但原论文中众多有趣的部分已被慑于当时政治环境的编辑处理掉,甚至连标题也被改成了《电子信号传输的统计理论》。“信息”一词全部被替换成了“数据”。“熵”一词则被加上引号,以示这与物理学中的熵并无实质性关联。而关于自然语言的统计分析一节则被完全删除。经过这样一番处理后,它成了一篇纯技术的、中性的文章,难免变得枯燥乏味,却也降低了遭受意识形态解读的概率。[17]这在当时可是事关重大,因为控制论最初是被代表意识形态正统的《简明哲学辞典》定义成了“反动的伪科学”和“反动帝国主义的意识形态武器”。但柯尔莫哥洛夫没有就此被束缚住手脚,至少他并不畏惧使用“信息”一词。通过与自己在莫斯科大学的学生合作,他为信息论引入了一套严格的数学表达,包括基本概念的定义、细致的证明和一些新发现——其中一些,他很快遗憾地发现,在香农的原论文里本来就有,只是在俄文译本中被删除了。[18]
当时苏联的科学界仍然与外界相当隔绝,因而柯尔莫哥洛夫独自扛起了信息论的大旗。他是《苏联大百科全书》负责数学领域的编辑,遴选作者,编辑条目,并亲自撰写了众多条目。1956年,他在苏联科学院的会议上作了一个长篇报告,全面介绍信息传输理论。对于有人质疑香农的纯数学研究的价值,认为它们“更多的是技术而非数学”,柯尔莫哥洛夫回应道:“的确,香农把一些困难情况下的严格‘证明’留给了后人。然而,他的数学直觉惊人地准确。”[19]但柯尔莫哥洛夫对控制论的兴趣就没有那么大。诺伯特·维纳自感与柯尔莫哥洛夫惺惺相惜——他们早期都研究过随机过程和布朗运动。在一次对莫斯科的访问中,维纳说:“当我读到柯尔莫哥洛夫院士的作品时,我不由感到它们也是我的想法,正说出了我想说的。我想,柯尔莫哥洛夫院士读到我的作品时,想必也会有同样的感受。”[20]但可惜事实并非如此,柯尔莫哥洛夫选择了香农的进路。他说:“不难看出,维纳的控制论作为一门数学学科缺乏内在统一性。因此很难想象,培养一个专门研究这种控制论的专家,比如一个研究生,会取得多少有价值的成果。”[21]并且他也有已取得的成果来支持自己的直觉:他得出了香农熵一个有用的一般公式,并扩展了香农的信息量度,使之可同时适用于离散时间和连续时间。
与电子通信和电子计算有关的研究最终开始得到了重视。但相关研究差不多是一片空白。在当时,实用电子工程技术几乎没有起步,而苏联电话系统之差是臭名昭著,更成为人们的笑柄。到了1965年,苏联还没有可以直拨的长途电话。长途通话数甚至尚未超过电报发报数,而美国早在上个世纪末就已经跨越了这个里程碑。莫斯科的人均电话保有量在全球主要城市中倒数第一。尽管如此,柯尔莫哥洛夫和他的学生还是凭借所取得的成果,获得了足够的支持以创办一份新的学术季刊《信息传输问题》,用来专门探讨信息论、编码理论、网络理论甚至生物信息学。创刊号的首篇论文便是柯尔莫哥洛夫的《定义“信息量”概念的三种途径》,这几乎是一篇宣言。但只有经过迟缓的旅程后,它才最终为西方数学家所知。
柯尔莫哥洛夫曾在日记中写下过这样的思考:“在任意给定时刻,‘不值一解’与不可解之间相隔只有薄薄一层。数学发现正是在一薄层中作出的。因此,在大多数情况下,一个要求求解的应用问题不是不值得一解,就是不可能求解……但如果应用问题经过选择(或调整)后,恰与某个数学家感兴趣的一种新的数学工具相关,那就是另一回事了。”[22]也正是从信息量度的新视角中,柯尔莫哥洛夫找到了解决一个概率论始终束手无策的难题,即随机性问题的办法。一个给定的“有限对象”含有多少信息?这个对象可以是一个数(一系列数字)、一条讯息或一组数据。
柯尔莫哥洛夫描述了三种度量途径:基于组合、基于概率,以及基于算法。前两种途径最早由香农提出来,他只是稍作提炼。它们关注的是一个对象在一个系综中的出现概率,比如某一讯息从一组可能讯息中被选择的概率。柯尔莫哥洛夫对此的疑问是,倘若这个对象不是简单的符号或教堂的灯笼,而是庞大复杂之物,比如一件艺术品或一个生命体,那这时该怎么处理呢?托尔斯泰的《战争与和平》的信息量该如何度量?“能以某种合理的方式将这本小说包含进‘所有可能小说’的集合里,并进一步假定该集合中存在某种概率分布吗?”[23]同样地,能通过考察包含所有可能物种的集合里的某种概率分布,来度量比如杜鹃所含有的遗传信息量吗?
因此,柯尔莫哥洛夫提出了第三种度量途径(基于算法),以避免考虑所有可能对象组成的系综时可能遇到的问题。这种途径关注的是对象本身。*他为这时所度量的东西赋予了一个新术语:复杂度。根据他的定义,一个数、一条讯息或一组数据的复杂度与其简单程度、有序程度呈反比,因而与其含有的信息呈正比。一个对象越简单,其传递的信息就越少;相反,复杂度越高,其含有的信息就越多。与格雷戈里·蔡廷一样,柯尔莫哥洛夫也利用算法来计算复杂度,从而为其思想奠定了坚实的数学基础。生成一个对象所需的最短计算机程序的长度,就是该对象的复杂度。可以用简短的算法生成的对象,具有低复杂度。反过来,倘若生成算法与对象本身等长,那它就具有最高的复杂度。
注释:*“我们这样定义信息量的优势在于,它处理的是个体对象,而无需将其视为某个具有给定概率分布的对象集合的成员。基于概率的定义适用于考察比如一系列问候电报所含有的信息量。但遇到像估算一本小说所含有的信息量,或一本小说的译文相对于原文的信息量时,它就无所适从了。”[24]
简单的对象只需若干比特就能够生成、计算或描述,而复杂的对象则需要许多比特的算法才行。这样一说,事情好像不言而喻。但在此之前,从没有人从数学的角度去理解这件事。用柯尔莫哥洛夫的话来说:
人们在很早以前就直观地意识到了“简单”对象与“复杂”对象之间的差异。但在准备将这种差异形式化时,人们会碰到一个明显的障碍:一样东西在一种语言里能够给出简单描述,但在另一种语言里可能就不能给出简单描述,并且人们也不知道应该选用哪一种描述方法才是。[25]
这个障碍在采用计算机语言后就迎刃而解了:无论是哪一种计算机语言,它们其实都是等价的,都能归约到通用图灵机的语言。一个对象的柯尔莫哥洛夫复杂度就是生成该对象所需的最短算法的长度(单位是比特)。而它也度量了信息量,还有随机程度——柯尔莫哥洛夫就宣称,它或许可以成为“一种新的‘随机’概念的基础,使之与人们极其自然的假设,即随机性是秩序的缺失相契合”。[26]信息、随机性和复杂度,这三者本质上是等价的——三个威力强大的抽象,就像地下情人一般如胶似漆。
在柯尔莫哥洛夫看来,这些思想不仅适用于概率论,也可应用于物理学。比如,如果想度量一个规则晶体或一个密闭容器内气体的复杂度,我们只需度量描述该晶体或气体状态的最短算法的长度即可。在这里,熵又成了关键所在。这些新的方法同样也可以在柯尔莫哥洛夫先前研究过的一些物理学难题中派上用场。1941年,柯尔莫哥洛夫对湍流的局部结构提出了首个有用(虽然尚有缺陷)的解释,用一组方程来预测涡旋的统计分布。他还研究过行星轨道的摄动问题,这也是个经典牛顿物理学极难处理的问题。而他的另一项研究,用熵或信息维数来分析动力系统,则为20世纪70年代混沌理论的复兴打下了基础。按照这个思路,动力系统会产生信息。如果一个动力系统不可预测,那么它就是产生了大量信息。
在当时,柯尔莫哥洛夫对格雷戈里·蔡廷一无所知,而他们两人也对一个叫雷·所罗门诺夫(Ray Solomonoff)的美国概率论学者闻所未闻,后者在几乎同时独立发展出了一些相同的思想。但世界正在发生变化。时间、距离和语言依然使苏联数学家与外界相隔离,但其间的障碍逐渐在消除。柯尔莫哥洛夫常说,人过了六十,就不应该再搞数学研究了。他曾梦想自己晚年要在伏尔加河上当一名航标管理员,闲时展开小帆,摇起双桨,驾着小船在河面上绕圈。[27]可真等到了这一天,航标管理员都已经换上了汽艇,而这无疑破坏了柯尔莫哥洛夫的梦想。于是他决定重拾旧业,做回一名高中老师。
现在,悖论又出现了。
零是个有意思的数,有书就是专门写它。一当然也是个有意思的数,因为它是(除零之外)头一个,独一无二。二从很多角度看都很有意思:它是最小的素数、典型的偶数、成功婚姻所需的人数、氦的原子数,以及在芬兰独立日许多家庭在每个窗台上会点亮的蜡烛数。“有意思”是个日常用语,不是数学用语。因此,说任何不大的数有意思,总是能找到理由。所有的两位数、许多三位数都在维基百科有独立的条目。
数论学家定义了各种类别的有意思的数:素数、完全数、平方数、立方数、斐波那契数、阶乘数,如此等等。593 这个数看似平常无奇,但它其实是九的二次方与二的九次方的和,所以是个莱兰数(即可以表达成xy+yx的数)。维基百科还有个条目专门介绍 9 814 072 356一数。它是最大的全数平方数(holodigital square),也就是最大的包含所有十进制数字且每个数字只出现一次的平方数。
那什么又是没意思的数呢?这大概就是随机数了。1917年,英国数论学家G. H. 哈代随便搭了一辆编号为 1729的出租车去探望生病的数学家斯里尼瓦瑟·拉马努金。他向拉马努金提及,1729 这个数“相当无趣”。但拉马努金回应说,恰恰相反,1729是能用两种方式写成两个立方数之和的最小数。*诚如数学家 J. E.利特尔伍德所说:“每个正整数都是拉马努金的朋友。”由于这则轶闻,1729现在常被称为哈代–拉马努金数。不仅如此,1729 还是个卡迈克尔数、欧拉伪素数和蔡塞尔数(Zeisel number)。
注释:*1729=133+123=93+103
然而,拉马努金的心智毕竟是有限的,维基百科乃至人类的所有知识也是有限的。因此,有意思的数的列表终究会在某处终结,一定存在某个没有任何特别之处的数。但无论那个数是多少,它都摆脱不了一个悖论,因为它总是可以被称为“最小的没意思的数”。
这正是另一种形式的贝里悖论,也就是罗素在《数学原理》中曾提到的那个悖论。他们问了个刁钻的问题:什么是不可能以少于十九个音节命名的最小整数?但不管它是多少,它都能用十八个音节来表达:不可能以少于十九个音节命名的最小整数。事实上,解释一个数为何有意思,如“十一的平方”或“美国国旗上的星星数”,正是为其命名的一种方式。其中有些名称看起来帮助不大,有些则相当含糊。有些涉及数学事实,比如一个数是否能用两种方式写成两个立方数之和。还有些则与世界、语言或人类的事实相关,并且这种关系可能是偶然的、短暂的,比如一个数是否对应着某个地铁站号或历史日期。
蔡廷和柯尔莫哥洛夫在提出算法信息论时,也在其中发现了贝里悖论的踪迹。蔡廷指出:“贝里悖论原本讨论的是英语,但英语太过含糊……因此,我选用了一种计算机程序语言。”[28]自然,他选用的是通用图灵机的语言。
那么命名一个整数,这是什么意思?其实,给出计算该整数的方法就是命名了它。如果某个程序的输出是某个整数,也就是说,它输出了该整数,并且输出一次后就终止,那么这个程序就是给该整数命了名。
而问一个数是不是有意思,也就是反过来问它是不是随机数。如果数n能用一个相对较短的算法计算出来,那么n就是有意思的,否则它就是随机的。算法“打印一,然后打印一百个零”会生成一个有意思的数——一古戈尔(googol)。类似地,算法“找到第一个素数,加上下一个素数,如此这般重复一百万次”也会生成一个有意思的数——头一百万个素数的和。这个数需要花费一部图灵机很长的时间来计算,但毕竟是有限的时间。因此,这个数是可计算的。
然而,如果数n最精简的算法是“打印n”,也就是说,这个算法要求输入整个数而没有捷径可抄,那么我们或许就可以说n是个没意思的数。用柯尔莫哥洛夫的话来说,这个数是随机的,并且具有最高复杂度。这时,这个数必须没有模式可循,因为任何模式都会给出捷径。蔡廷写道:“如果存在某个言简意赅的计算机程序能够算得某数,这就意味着,该数具有某种性质或特点可资利用,从而可将这个算法描述压缩得更简短。这样一来,该数就是不常见的,是个有意思的数。”
但它果真不常见吗?数学家又如何能知道有意思的数在所有数当中是罕见的还是常见的呢?此外,给定一个数,数学家能确定地判断,是否可以找到更简短的算法来描述它吗?对蔡廷而言,这些问题都十分关键。
他通过简单的数数回答了第一个问题。绝大部分数应该是没意思的,因为不可能有足够多的简短计算机程序来描述它们。数一数就知道了。假设给定 1000比特的长度,这就意味着有21000个数,但用1000比特能写出来的有用计算机程序远远达不到那个数量。蔡廷指出:“正整数太多,因而如果要求程序长度必须比数本身要小,那么它们绝对不足以命名所有正整数。”因此,对于给定长度的各个数,其中绝大多数都是随机的。
第二个问题就要棘手多了。已知绝大部分数是随机的,并且给定一个数n,数学家能证明它是随机的吗?这时仅仅通过观察是无法判断的。他们更容易证明与之相反的命题,即数n是有意思的:他们只要找到某个生成n的简短算法即可。(更具体地说,这个算法的长度必须小于log 2 n比特,也就是将n写成二进制形式时所需的比特数。)但要证明原命题就是另一回事了。蔡廷认为:“虽然在这种数学意义上,绝大部分正整数是没意思的,但对于给定一个数,我们无法确信,也无法证明……我们只能在少数情况下给出证明。”有人或许会想,那就使用蛮力,写下所有可能算法,然后逐个测试它们。然而,这种测试也要由计算机来执行,需要用一个算法来检验其他算法。这样的话,蔡廷指出,另一种形式的贝里悖论很快就会出现。相较于“最小的没意思的数”,我们无可避免地最终会遇到形如“不可能以少于n个音节命名的最小整数”这样的命题。(当然,这里讨论的不是真正的音节,而是图灵机的状态。*)它显然又是一种递归和自我循环。这正是蔡廷对于哥德尔不完全性定理的表述。以程序长度定义的复杂度,通常是不可计算的。任意给定某个由一百万个数字构成的字符串,数学家知道,它几乎肯定是随机的、复杂的、没有模式的,但就是没有办法绝对确定。
注释:*一种表述可能是这样的:“不可能用至多n态的图灵机描述的有限二元序列S”实际上是用(log 2 n+c F )态的图灵机对S进行描述[Gregory J. Chaitin, “Computational Complexity and Gdel’s Incompleteness Theorem,”ACM SIGACT News, no. 9 (April 1971), p. 12]。
蔡廷是在里约热内卢访问时完成这项研究的,当时他二十三岁。五年前,尚未从纽约城市学院毕业,蔡廷就跟随其父母返回了阿根廷,并在IBM世界贸易公司在布宜诺斯艾利斯的分公司找到了一份工作。在此后几年,他继续钻研哥德尔的不完全性定理,并在美国数学学会和美国计算机协会的期刊上发表了多篇论文。1974年,蔡廷在八年之后返回美国,在位于纽约约克敦高地的IBM研究中心做访问学者。他趁机给自己心目中的英雄、当时已年届七十的哥德尔打了一个电话。哥德尔接了电话,蔡廷首先作了自我介绍,然后说自己发现了一种证明不完全性定理的新途径,是基于贝里悖论而非说谎者悖论。
“无论用的是哪个悖论,结果都不会有区别。”哥德尔说。[29]
“您说得对,不过……”蔡廷说自己正从“信息论”的新视角研究不完全性定理,并询问能否去普林斯顿当面拜访哥德尔。当时他住在纽约白原市的基督教青年会宾馆,搭火车前往普林斯顿非常方便。哥德尔本来已经答应,却在约定当天临时取消了,因为那天下雪,哥德尔担心这会对自己的健康不利。蔡廷最终也没能见到哥德尔。晚年的哥德尔情绪越发不稳定,老是怕有人给他下毒,只吃妻子准备的食物。但在妻子因病住院时,他拒绝进食,最终在1978年初去世。
蔡廷此后一直在IBM研究中心工作,可以说他属于最后一批受到企业倾力支持而其研究却对资助者没有直接实用价值的伟大科学家。他有时会说,自己是个“藏身”在物理学系的数学家,反正传统的数学家也会认为他不过是个“空谈物理学家”。他的研究将数学视为某种经验科学,也就是说,数学不是借以抵达绝对真理的通道,而是实实在在的研究项目,受制于这个世界的偶然性和不确定性。他在一次采访时说道:“即便面对不完全性、不可计算性甚至算法随机性,数学家依然不肯放弃绝对确定性。为什么?因为对他们来说,绝对确定性就好比上帝。”[30]
在量子物理学以及后来的混沌理论中,科学家发现了自身知识的限度。他们也从探索不确定性中取得了丰硕的成果。不确定性曾让爱因斯坦非常困扰,因为他不相信上帝会在我们的物理宇宙中掷骰子。算法信息论同样为数的宇宙施加了限制。正如蔡廷所说:“上帝不仅在量子力学和非线性动力学中掷骰子,而且在基础数论中也是如此。”[31]
总结蔡廷的观点大致如下:
绝大部分数是随机的,但其中只有极少数能被证明是随机的。
一个混沌的信息流中可能隐含着一个简单算法,但要想从混沌中逆推出该算法也许是不可能的。
柯尔莫哥洛夫–蔡廷复杂性之于数学,就如同熵之于热力学:它打破了企图追求完美的幻想。一如永动机不存在,完全的形式公理体系也不存在。
某些数学事实的成立是没有理由的。它们纯属偶然,并无背后的原因或深层的意义。
物理学家约瑟夫·福特,在20世纪80年代研究了动力系统不可预测的行为。他指出,哥德尔的不完全性定理同样适用于物理学,而通过将定理翻译成“一磅重的理论无法得出十磅重的定理,就如同一百磅重的孕妇无法产下两百磅重的婴儿一样”,蔡廷“精彩地抓住了本质”。[32]“混沌现象更深层次的意义”在于:
混沌现象确有其轨迹,但它们是哥德尔的儿孙,如此复杂,充斥着如此多信息,使得人类永远无法理解。然而混沌现象在自然界中无所不在,因此,宇宙中布满了数不胜数的人类永远无法理解的谜团。
不过,还是有人想试上一试。
某某含有多少信息?这个问题很关键。
如果某个对象(一个数、一串比特流,或者一个动力系统)能用其他较少比特的方式表达,那么它就是可压缩的。追求经济有效的电报员往往喜欢发送压缩后的讯息。这种追求经济有效的精神在贝尔实验室也得到了发扬光大,因此,香农研究起数据压缩的理论和实践是再自然不过。在香农的研究里,压缩是个十分基础的问题:他战时的密码学研究分析的就是,如何在一端伪装信息以及在另一端还原信息;数据压缩与信息编码有点类似,但目的有所不同——它是为了更有效率地利用带宽。卫星电视频道,便携式音乐播放器、相机和电话,以及其他许多现代设备都要依靠编码算法来压缩数(比特序列),而所有这些算法最早都可以追溯到香农1948年的那篇论文。
首个此类算法由香农的同事罗伯特·马里奥·法诺(Robert M. Fano)在次年提出,现在通常被称为香农–法诺编码。这种算法基于一种简单的思想,即为使用频率高的符号赋予长度短的编码,就像摩尔斯电码那样。不过,他们也知道这种算法不是最优的,无法得到最短的编码。过了不到三年,这种算法就被法诺在麻省理工学院的博士生戴维·哈夫曼(David Huffman)提出的算法所超越。从此以后,各种版本的哈夫曼编码算法压缩掉了许许多多的字节。
雷·所罗门诺夫,一个俄罗斯移民之子,20世纪50年代初在芝加哥大学求学时,首次接触到了香农的著作,并受其影响,开始思考他当时称为的“信息装载问题”:给定特定数量的比特,它们可以在其中“装载”多少信息?或反过来,给定特定数量的信息,它们如何“装入”最少的比特?[33]他主修物理学,还辅修了数学生物学、概率论和逻辑学。大学毕业后不久,他结识了马文·闵斯基(Marvin Minsky)和约翰·麦卡锡(John McCarthy),另两位开辟了人工智能领域的先驱。他后来又读到了诺姆·乔姆斯基1956年的开创性论文《语言描写的三个模型》,文中应用信息论思想将日常语言的结构加以了形式化。[34]所有这些都在所罗门诺夫的脑中激荡,但茫无头绪。慢慢地,他开始把注意集中到了归纳推理问题。人是如何创造出各种理论,来解释自身对于世界的经验呢?他们必须将经验一般化,从深受随机性和噪声影响的数据中找出模式。那么机器也能这样做吗?换言之,计算机也能从经验中学习吗?
对此,他给出了一个精妙的答案,并在1964年公开发表。但他的成果在当时并未引起关注,直到20世纪70年代,蔡廷和柯尔莫哥洛夫才发现,所罗门诺夫原来早已提到了后来所谓算法信息论的许多基本要素。事实上,所罗门诺夫也在考虑计算机应该如何看待数据序列(如数列或比特串)以及怎样度量其随机程度和隐藏模式。当人或计算机从经验中学习时,它们是在使用归纳推理,从无规律的信息流里识别出规律来。从这个意义上说,科学定律其实就是一种数据压缩,而理论物理学家就像是一个非常聪明的编码算法。所罗门诺夫写道:“已发现的科学定律,可以被视为关于宇宙的大量经验数据的总结。在本文的语境中,每条这样的定律都能转换成一种编码方法,将据以归纳出该定律的经验数据加以紧凑的编码。”[35]一个好的科学理论是经济有效的。不过,对此还有其他不同的表述方式。
所罗门诺夫、柯尔莫哥洛夫和蔡廷处理的本是三个不同的问题,但他们殊途同归,得到了同一个答案。所罗门诺夫感兴趣的是归纳推理:给定一个观察数据的序列,人们如何作出关于后续事件的最优预测?柯尔莫哥洛夫寻找的则是随机性的数学定义:通过抛掷硬币以相同概率生成的两个序列,说一个序列比另一个序列更随机是什么意思?而蔡廷试图借助图灵和香农的理论,找到另一条更深刻地认识哥德尔不完全性定理的途径,正如他后来所说,“将香农的信息论和图灵的可计算理论倒进调酒器里,然后用力晃动”。[36]最终,他们三人的答案都与最短程序的长度有关,与复杂性有关。
下面这个比特流(或者说数)不太复杂,因为它是一个有理数:
D:14285714285714285714285714285714285714285714285714…
它可以简明地用“反复打印 142857”来表示,甚至干脆写成“1/7”。如果这是一条讯息,如此压缩就能节省大量击键次数。而如果这是输入的数据流,观察者可以从中识别出模式,以“七分之一”作为解释该数据的理论。
相反,下面这个序列的末尾出人意料:
E:10101010101010101010101010101010101010101010101013
电报员(或理论家、压缩算法)必须关注整条讯息才行。不过,额外的信息极少,讯息中具有模式的部分依然可以压缩。或者说,该序列包含冗余部分和随机部分。
香农最先证明了,讯息中任何非随机的部分都可以被压缩。
F:101101011110110110101110101110111101001110110100111101110
在这个序列中,一多零少,所以它可能是拋掷不均匀硬币的结果。哈夫曼编码之类的方法正是利用了统计规律性来压缩数据。相片可以压缩,因为它们记录的对象具有一定的自然结构:亮暗像素总是成簇出现;从统计上看,邻近的像素更有可能是相似的,而较远的像素则不然。视频更易压缩,因为除非记录对象的运动快速而混乱,前后帧的差异还是相对较小。自然语言也可以压缩,因为正如香农所分析的,它具有内在的冗余和规律性。只有完全随机的序列才无法压缩,因为它是由一个又一个的出人意料构成。
随机序列是“正规的”——这个用语表示,从长期的平均情况来看,每个数字都与其他数字一样常见,出现概率为十分之一;每两个数字,从 00到 99,出现概率为百分之一;每三个数字等也依此类推。总之,某一特定长度的字符串不会比相同长度的其他字符串有更大的机会出现。与其他很多概念一样,正规性乍看上去很简单,但更进一步看,数学家就发现其实里面困难重重。尽管真正随机的序列一定是正规的,但它的逆命题并不一定成立。一个数可以在统计上是正规的,却完全不随机。1933 年,图灵在剑桥大学的一位年轻朋友戴维·钱珀瑙恩(David Champernowne)就发明(或发现)了这么个数,一个由所有整数按顺序依次连接构成的数:
G:12345678910111213141516171819202122232425262728293…
很容易看出,从长期来看,每个数字(以及每种数字组合)的出现概率都相同。但显然这个序列一点也不随机,相反是结构规律、完全可预测的。如果知道了当前位置,你就知道下一个数字是几。
除去钱珀瑙恩数这样的异类,正规数其实是难以识别的。在数的宇宙里,正规性是常态;数学家可以确定,几乎所有的数都是正规的。有理数是不正规的,而且有理数有无穷多个,但正规数与之相比要多得多。尽管数学家已经解决了这个一般性的问题,但具体到某个数是否是正规数,数学家却几乎无能为力。这也是数学诸多的奇特之处之一。
就连π也仍然存在不确定性:
C:3.1415926535897932384626433832795028841971693993751…
世界各地的计算机花费了大量的时钟周期,来分析约前一万亿个已知数字。就目前结果来看,它们似乎是正规的。人们没有发现任何统计特征——没有偏差或相关关系,不论是在局部,还是在全局。π在本质上并不随机,看上去却像个随机数。已知前n个数字,并无猜出第n1个数字的捷径,下一个比特总是出人意料。
那么,这个数字字符串到底含有多少信息?它是与随机数一样信息丰富,还是与有序序列一样信息贫乏呢?
当然,电报员可以在讯息里只发送一个“π”,便会省下许多次击键——其实是省下了无穷次击键。但这不免是作弊,因为要这样做的话,就必须假设发送方和接收方共享了某些知识。发送方必须识别出这个特殊序列是什么,而接收方也必须知道π是什么以及如何找出其十进制表达或计算方法。因此事实上,双方需要使用同一码本。
不过,这并不意味着π含有大量信息,相反,其实质性讯息只需少得多的击键次数就能发送除去。这时电报员有若干策略可供选择。比如,他可以说,“4,减4/3,加4/5,减4/7,依此类推”。也就是说,电报员发送的是一种算法。这个无穷级数会缓慢收敛到π。因此,虽然接收方还要执行大量的计算,但讯息本身是经济有效的:无论要求精确到哪一位,两种表达的信息内容都是一样的。
通信有时要求线路两端共享某些知识,这使问题变得更为复杂。对此,人们有时会稍作变换,从与遥远星系中的外星生命通信的角度来探讨此类问题(即讯息所包含的信息内容的问题)。我们能告诉他们什么?我们又该告诉他们什么?数学定律具有普适性,于是我们倾向于认为,任何智能生命都能识别出π。然而,他们不太可能恰好能看懂希腊字母,也不太可能恰好能识别出其十进制表达“3.1415926535…”,除非他们也长了十根手指。
事实上,讯息的发送方不可能完全洞悉接收方心智中的码本。窗台上的两盏灯笼可能毫无意义,也可能表示“英国人走海路”。每一首诗都是一条讯息,而每个读者都会有自己的解读。但有一种办法,能排除掉这种思维方式中的模糊之处。蔡廷如此解释道:
设想是与一台数字计算机,而不是与一位远方的朋友通信,这恐怕更为可取。朋友或许有能力从不全的信息或模糊的指令中归纳推断出各个数字或构建出一个数列。计算机不具备这种能力,但就我们的讨论而言,这个弱点反而是一种优势。输入计算机的指令必须完整而明确,而且必须能够让计算机按部就班地执行。[37]
换言之,一条讯息就是一种算法。接收方则是一部机器:没有创造力,没有不确定性;除了蕴涵在机器结构内的那些“知识”以外,别无其他知识。到了20世纪60年代,计算机接受的指令已经是数字式了,可用比特来度量。因此,考虑某个算法含有多少信息就是自然而然了。
还有一类讯息可能是这样的:
即便只用眼看,也能看出这串音符不像是随机的。事实上,它所代表的讯息已经进入星际空间,远离出发点有一百八十多亿公里了,现在仍以光速零头的速度继续前进。不过,该讯息并非用这样基于印刷的记谱法来编码,也不是用任何数字形式来编码,而是编码为一条螺线状纹槽的深浅起伏,纹槽则蚀刻在一张直径三十厘米、厚度零点五毫米的唱片上。这张唱片没有用通常的聚氯乙烯制成,而是一张镀金铜片。这种捕获、保存和重现声音的模拟方法最早在1877年由爱迪生发明,他称之为留声术(phonography)。在随后一百年时间里,它是最流行的音频技术(尽管再后来就逐渐落伍了)。因此,1977 年,由天文学家卡尔·萨根领导的委员会特别制作了一张留声机唱片,并将两份副本分别放到了与小汽车差不多大的“旅行者一号”和“旅行者二号”探测器上。当年夏天,它们从佛罗里达州的卡纳维拉尔角发射升空。
所以这条讯息是被放在了星际漂流瓶中。除去自身的模式之外,它并不含有意义。也就是说,它是一种抽象艺术:巴赫的《平均律键盘曲集》第一卷的第一支前奏曲,由格伦·古尔德(Glenn Gould)演奏。又或者说,它的意义其实是,“这里有智能生命”。除了巴赫的前奏曲,唱片中还收录了其他若干文化中的音乐片段,以及一些地球上的自然声音:风声,浪声,雷鸣声;五十五种语言的口头问候语;蟋蟀、青蛙和鲸鱼的叫声;轮船汽笛声,马车行进声,以及一段摩尔斯代码的击键声;等等。除了唱片,探测器上还带有唱头、唱针以及一份简要的使用图解。不过,委员会没有费劲去准备一部留声机或电源。也许外星人总能找到某种方法,将金属纹槽的模拟信号转换成他们大气中的声波,或者其他适应他们感官的输入。
旅行者探测器携带的“金唱片”(图为唱片正面的使用图解)
但外星人能将比如巴赫精致的前奏曲,与较没意思、更随机的蟋蟀叫声区别开来吗?要是用乐谱(毕竟它包含了巴赫创作的精华),它会将讯息传递得更清晰吗?更一般地,另一端需要怎样的知识,或者说哪种码本,才能解读这条讯息?
要掌握对位法以及和旋进行?还要了解欧洲巴洛克音乐的调性变革以及演奏实践?音符成组,构成旋律,遵循着某种隐秘的语法规则,那么音乐是有其内在逻辑,而独立于地理和历史?这些都是难解的问题。而在地球上,只过了寥寥数年,还没等旅行者探测器飞出太阳系,音乐就已经很少再用模拟设备录制了。用比特来存储《平均律键盘曲集》成了更好的选择,因为根据香农采样定理,离散化的波形是无损的,而且信息能保存在几十种可用介质中。
若以比特来度量,巴赫这支前奏曲的信息量似乎不大。巴赫只用两张稿纸就写下了乐谱,总共不过六百个左右的音符,并且可选音符的数量也不多。当古尔德在1964年演奏这首乐曲时,即便融入了演奏者的阐释和变奏,乐曲全长也不过一分三十六秒。这段演奏刻录在光盘上,即用激光在聚碳酸酯塑料薄盘片上灼出微小的凹洞,占用的比特数为一亿三千五百万。不过,该比特流可以进行可观的压缩而不损失信息。如果用钢琴纸卷来记录(这是雅卡尔提花机的后代,又是打孔卡片的前身),该前奏曲只需一张纸卷的篇幅;而如果采用MIDI协议,更是只需数千比特即可。另外,即便是这约六百个字符的基本讯息,其中也包含大量冗余:节奏是恒定的,音色是单一的,旋律很简短,贯穿全曲始终的只有一个音型,不断反复,稍作变奏。但这支前奏曲简单而不单调。重复让人产生预期,旋即预期便被打破。似乎处处没有什么特别,但处处又出人意料。女钢琴家万达·兰多夫丝卡(Wanda Landowska)就形容它是“用断断续续的和弦实现了极致的和声”。它的简单如同伦勃朗的素描,用笔简练却跃然纸上。那它可算是含有很多信息吗?至少某些音乐可被认为是信息贫乏的。一个极端的例子是作曲家约翰·凯奇(John Cage)那支题为《四分三十三秒》的作品,其中根本不包含任何“音符”。作曲家端坐在钢琴前,一动不动,持续四分三十三秒,作响的只是周围的声音——听众在座位上的挪动身体声、衣服的沙沙声、呼吸声和叹气声等。
那么巴赫这支C大调前奏曲到底含有多少信息?作为一个关于时间和频率的模式的集合,它可以被分析、追踪和理解,但这也只能达到一定限度。一如诗歌或其他任何艺术,优秀的音乐意在使人无法达到完美理解。倘若有音乐可以被直抵根底,那它势必是单调乏味的。
从一种角度看,以最短程序的长度来定义复杂性看上去可谓完美,称得上是香农信息论发展的巅峰。但从另一种角度看,这个定义仍然远不能令人满意,尤其是涉及一些重大问题(如关于艺术、生物学或智能等的人文问题)时。
用复杂性的这种定义来衡量的话,一百万个零与抛掷硬币一百万次分处于两个极端。空字符串是简单的极致,而随机字符串则含有最大的复杂度。零没有传递任何信息,而抛掷硬币则生成了最大的信息量。不过,这两种极端情况有一个共同点,那就是它们都很无趣,并且毫无价值。如果它们当中一个是来自其他星系的讯息,那么我们可能不会认为发送方是智慧生物。而如果它们表示的是音乐,它们同样也没有价值可言。
我们关注的东西大都是居于两个极端之间,处于模式与随机彼此交织的地带。
蔡廷与他在IBM研究中心的一位同事,查尔斯·亨利·本内特,有时会讨论到这些问题。几年后,本内特提出了一种新的价值量度,他称之为“逻辑深度”(logical depth)。本内特的逻辑深度与柯尔莫哥洛夫复杂度相关,但又有所不同。其目的在于度量讯息的有用性,而不论这种有用性在特定领域是如何定义的。他在1988年的论文中指出:“从信息论诞生伊始,人们就清楚地意识到,信息并不是讯息价值的一个好的量度。”[38]
比如,连续抛掷硬币得到的一个典型序列含有大量信息,但其价值几乎为零。而一本给出了月球及行星在一百年间每天位置的星历,其信息量并不比据以算出这些位置的运动方程及初始条件含有的信息更多,但它为使用者节省了自己算出这些位置的大量麻烦。换言之,一条讯息的价值在于发送方可能在其中所做的数学或其他工作,这些工作接收方就可以免得再做一遍。
计算出某一结果需要做功,这一点在几乎所有基于图灵机的理论里都被忽略不计了,毕竟图灵机是不知疲倦的。本内特则重新将其纳入了考量。讯息中完全随机、不可预测的部分,没有逻辑深度。明显的冗余(单纯的重复和复制),也没有逻辑深度。相反,本内特认为,讯息的价值在于“其中所谓潜藏的冗余,即可预测但同时具有一定难度的部分,对于这些内容,接收方在原则上自己能弄明白,只是需要耗费相当的金钱、时间或计算”。我们日常在评估一个对象的复杂度或信息内容时,其实也是意识到了其中暗含的大量计算。比如,对于音乐、诗歌、科学理论或纵横字谜,只有当它们既不太隐秘而不可解,也不太浅显而无趣,而是介于两者之间时,它们才会给解读者带来乐趣。
数学家和逻辑学家长久以来习惯于将信息处理视为免费——它不像抽水或背石头那样需要做功。的确,在我们的时代里,信息处理已经变得很廉价了,但毕竟还是需要做功。本内特指出,我们需要正视这些功,并将其纳入对于复杂性的理解当中。他曾说:“事物越微妙,就越难发现。”他还把逻辑深度的概念应用到了自组织问题,即自然界中的复杂结构是如何形成的问题。进化始于简单的初始条件,但慢慢地,复杂性自发地开始涌现。无论这其中涉及的物理的或生物的基础过程具体如何,它们实质上是增加逻辑深度的计算。
注释
[1] Michael Cunningham, Specimen Days (New York: Farrar Straus Giroux, 2005), 154.
[2] Interviews, Gregory J. Chaitin, 27 October 2007 and 14 September 2009; Gregory J. Chaitin, “The Limits of Reason,” Scientific American 294, no. 3 (March 2006): 74.
[3] Ernest Nagel and James R. Newman,Gdel’s Proof (New York: New York University Press, 1958), 6.
[4] Quoted in Gregory J. Chaitin, Information, Randomness & Incompleteness: Papers on Algorithmic Information Theory (Singapore: World Scientific, 1987), 61.
[5] “Algorithmic Information Theory,” in Gregory J. Chaitin,Conversations with a Mathematician(London: Springer, 2002), 80.
[6] John Archibald Wheeler,At Home in the Universe, Masters of Modern Physics,vol. 9 (New York: American Institute of Physics, 1994), 304.
[7] Cf. John Maynard Keynes,A Treatise on Probability (London: Macmillan, 1921), 291.
[8] Ibid., 281.
[9] Henri Poincaré, “Chance,” in Science and Method, trans. Francis Maitland (Mineola, N.Y.: Dover, 2003), 65.
[10] A Million Random Digits with 100,000 Normal Deviates (Glencoe, Ill.: Free Press, 1955).
[11] Ibid., ix–x.
[12] John von Neumann, quoted in Peter Galison, Image and Logic: A Material Culture of Microphysics (Chicago: University of Chicago Press, 1997), 703.
[13] “A Universal Turing Machine with Two Internal States,” in Claude Elwood Shannon,Collected Papers, ed. N. J. A. Sloane and Aaron D. Wyner (New York: IEEE Press, 1993), 733–741.
[14] Gregory J. Chaitin, “On the Length of Programs for Computing Finite Binary Sequences,”Journal of the Association for Computing Machinery 13 (1966): 567.
[15] Isaac Newton, “Rules of Reasoning in Philosophy; Rule I,” Philosophiae Naturalis PrincipiaMathematica.
[16] Obituary, Bulletin of the London Mathematical Society 22 (1990): 31; A. N. Shiryaev, “Kolmogorov: Life and Creative Activities,”Annals of Probability 17, no. 3 (1989): 867.
[17] David A. Mindell et al., “Cybernetics and Information Theory in the United States, France, and the Soviet Union,” in Science and Ideology: A Comparative History, ed. Mark Walker (London: Routledge, 2003), 66 and 81.
[18] Cf. “Amount of Information and Entropy for Continuous Distributions,” note 1, in Selected Works of A. N. Kolmogorov, vol. 3, Information Theory and the Theory of Algorithms, trans. A. B. Sossinksky (Dordrecht, Netherlands: Kluwer Academic Publishers, 1993), 33.
[19] A. N. Kolmogorov and A. N. Shiryaev, Kolmogorov in Perspective, trans. Harold H. McFaden, History of Mathematics vol. 20 (n.p.: American Mathematical Society, London Mathematical Society, 2000), 54.
[20] Quoted in Slava Gerovitch, From Newspeak to Cyberspeak: A History of Soviet Cybernetics(Cambridge, Mass.: MIT Press, 2002), 58.
[21] “Intervention at the Session,” in Selected Works of A. N. Kolmogorov, 31.
[22] Kolmogorov diary entry, 14 September 1943, in A. N. Kolmogorov and A. N. Shiryaev,Kolmogorov in Perspective, 50.
[23] “Three Approaches to the Definition of the Concept ‘Quantity of Information,’”Selected Works of A. N. Kolmogorov, 188.
[24] A. N. Kolmogorov, “Combinatorial Foundations of Information Theory and the Calculus of Probabilities,”Russian Mathematical Surveys 38, no. 4 (1983): 29–43.
[25] “Three Approaches to the Definition of the Concept ‘Quantity of Information,’”Selected Works of A. N. Kolmogorov, 221.
[26] “On the Logical Foundations of Information Theory and Probability Theory,” Problems of Information Transmission 5, no. 3 (1969): 1–4.
[27] V. I. Arnold, “On A. N. Kolmogorov,” in A. N. Kolmogorov and A. N. Shiryaev,Kolmogorov in Perspective, 94.
[28] Gregory J. Chaitin, Thinking About Gdel and Turing: Essays on Complexity, 1970–2007(Singapore: World Scientific, 2007), 176.
[29] Gregory J. Chaitin, “The Berry Paradox,” Complexity 1, no. 1 (1995): 26; Paradoxes of Randomness,”Complexity 7, no. 5 (2002): 14–21.
[30] Interview, Gregory J. Chaitin, 14 September 2009.
[31] Foreword to Cristian S. Calude, Information and Randomness: An Algorithmic Perspective Berlin: Springer, 2002), viii.
[32] Joseph Ford, “Directions in Classical Chaos,” in Directions in Chaos, ed. Hao Bai-lin (Singapore: World Scientific, 1987), 14.
[33] Ray J. Solomonoff, “The Discovery of Algorithmic Probability,”Journal of Computer and System Sciences 55, no. 1 (1997): 73–88.
[34] Noam Chomsky, “Three Models for the Description of Language,” IRE Transactions on Information Theory 2, no. 3 (1956): 113–124.
[35] Ray J. Solomonoff, “A Formal Theory of Inductive Inference,” In formation and Control 7, no. 1 (1964): 1–22.
[36] Foreword to Cristian S. Calude, Information and Randomness, vii.
[37] Gregory J. Chaitin, “Randomness and Mathematical Proof,” in In formation, Randomness & Incompleteness, 4.
[38] Charles H. Bennett, “Logical Depth and Physical Complexity,” in The Universal Turing Machine: A Half-Century Survey, ed. Rolf Herken (Oxford: Oxford University Press, 1988), 209–210.
第13章 信息是物理的(万物源自比特)
能量越多,比特翻转得越快。土、气、火、水,归根究底,都是由能量构成,但其不同形态却由信息决定。无论做任何事都需要能量,而要明确说明做了什么也需要信息。
——塞思·劳埃德(2006)[1]
量子力学虽然历史不长,但其遭遇的危机、论战、诠释(诸如哥本哈根诠释、玻姆诠释、多世界诠释、多心智诠释等)、派别纷争以及哲学论辩却比任何其他科学都要多。但它似乎乐得让自己布满谜团,也毫不照顾人类的直觉。爱因斯坦临终都无法接受其部分结论,而理查德·费曼说,没有人真正理解量子力学,也并非全是玩笑之言。不过,对于实在的本质,出现争论恐怕是极其自然的。并且量子力学在对万物的基础给出理论解释,在实践中取得非常成就的同时,其本身的基础也不断在改造更新。但即便如此,有关量子力学的争论有时看上去更像是宗教争论而非科学争论。
“怎么会弄成这样?”量子理论学家克里斯托弗·富克斯不由这样问道。[2]他曾在贝尔实验室任职,后来去了加拿大滑铁卢的圆周理论物理研究所。
随便走进一个会场,就仿佛置身于一个喧闹的圣城。各个教派的牧师在这场圣战中彼此争执不休——玻姆诠释派、退相干历史诠释派、交易诠释派、自发性塌缩诠释派、环境诱导退相干诠释派、情境客观性诠释派,以及多世界诠释派,不一而足。所有人都宣称自己见到了圣光,终极奥义之光。每个人都告诉我们,如果我们将其解答奉为救世主,我们就也能得见圣光。
富克斯认为,是时候该另起炉灶了。扔掉现有的量子理论公理,哪怕它们既精致又数学化,转而去研究更深层的物理学原理。“这些原理应当是清晰明确、令人信服且激动人心的。”但这样的物理学原理在哪里才能找到?富克斯自己给出了答案:在量子信息论中。
富克斯所做的视觉辅助
“理由很简单,并且我认为也很充分。”他指出,“量子力学从来就是围绕着信息展开的,只不过物理学界已经忘记了这一点罢了。”[3]
但还是有人没忘记,或者说又重新发现了这一点,其中之一就是约翰·阿奇博尔德·惠勒,核裂变的先驱、玻尔的学生、费曼的老师、黑洞的命名者、20世纪物理学最后一位健在的巨人。惠勒多有格言警句传世,“黑洞无毛”就是他的名言之一。这指的是,从黑洞外部能够观察到的只有黑洞的质量、电荷和自旋,其他信息(“毛”)都观察不到。他写道:“黑洞给我们的启示是,空间可以像纸那样压缩成一个无穷小的点,时间可以像被扑灭的火焰那样消亡,而我们视为‘神圣’不可侵犯的物理定律则被证明并非如此。”[4]1989年,惠勒提出了他最后一个流行语:万物源自比特。这是种极端的观点,完全不唯物:信息第一性,物质第二性。
换言之,任何事物(任何粒子、任何力场,甚至时空连续统本身),其功能、意义和存在本身都完全(即便在某些情境中是间接地)源自……比特。[5]
为何自然看上去是量子化的?这是因为信息是量子化的。比特才是终极的不可分的基本粒子。
许多物理现象的发现将信息推向了前台,但其中最惊人的当属黑洞。不过,在一开始,黑洞似乎与信息毫不相干。
黑洞的构想源自爱因斯坦的广义相对论,虽然他并未能在有生之年目睹黑洞成为研究的焦点之一。他在1915年就指出,光会受引力作用,时空结构也会在引力作用下弯曲,而当有足够的质量压缩在一处,就像在致密星体中那样时,坍缩就会发生,并在自身引力作用的强化下,持续收缩,没有限度。由此可能得出的结论看上去是如此奇怪,以至于直到将近半个世纪后,人们才开始严肃加以对待。任何物质遇到它们,只能进入而不能逃出。其中央是奇点,密度无穷大,引力无穷大,时空曲率无穷大。其时间坐标和空间坐标相互进行了交换。并且由于没有光或任何信号能够从其内部逃逸,所以它们是名副其实的不可见之物。惠勒在1967年首次使用了“黑洞”一词来描述它们。天文学家通过观察黑洞的引力作用,确实找到了一些候选对象,但对于其中到底是什么,人们就无从知晓了。
一开始,天体物理学家的研究集中在落入黑洞的物质和能量上。但后来,他们开始为信息的问题所困扰。问题的产生源自斯蒂芬·霍金在 1974 年的发现。[6]通过结合量子效应和广义相对论,他指出,由于事件视界附近的量子涨落,黑洞应当会辐射出粒子。换句话说,黑洞会缓慢地蒸发。但问题在于,霍金辐射是热辐射,毫无特征,索然乏味,仅是单纯的热量。然而,落入黑洞的物质本来是携带信息的,这些信息原本存在于其结构、组织和量子态中——用统计力学的话来说,就在其可能的微观状态中。这时,只要丢失的信息存在于事件视界之内而不为我们所知,物理学家就不会为其所困扰。他们可以说,这些信息不可获得,但也并未消失。诚如弗兰西斯·培根在1625年所说:“在黑暗中,所有颜色看上去都一样。”
但外逸的霍金辐射不携带任何信息。如果黑洞会蒸发,那么信息到哪去了?根据量子力学的原理,信息不灭。决定论的物理学定律要求,一个物理系统在某一瞬间的状态会决定其在下一瞬间的状态;并且在微观层面,这些定律是可逆的,因而信息必须守恒。霍金第一个明确指出,或可以说警告道,这个问题威胁到了量子力学的根基。如果信息会消失,这就违反了幺正性,即所有可能事件的出现概率之和总是为一的原则。霍金就说道:“上帝不仅掷骰子,有时还掷到我们看不见的地方。”1975 年夏,霍金给《物理评论》杂志投去了一篇论文,文章标题很是骇人,《引力坍缩中的物理学失效》。直到一年多后,论文才得以发表,并换了个温和点的标题(《引力坍缩中的可预测性失效》)。[7]
不出霍金所料,论文激起了部分物理学家的强烈反对。加州理工学院的约翰·普雷斯基尔就是其中一人,他仍然坚信信息不可能消失:即便一本书被烧成灰烬,在物理学家看来,如果能跟踪每个光子和每粒灰烬,你就应该能反过来重建出那本书。在加州理工学院举办的一次研讨会上,普雷斯基尔指出了这当中的危险性:“信息的消失,牵一发而动全身。我们很难修改量子理论,使其允许在黑洞中出现这种情况,同时却避免它在我们能在实验室里研究的其他普通情况中出现。”[8]1997年,他甚至与霍金就此打了个赌,并引发了普遍关注。他赌信息一定以某种方式从黑洞中逃了出去,赌注则是一套百科全书,由获胜方来挑。斯坦福大学的伦纳德·萨斯坎德(Leonard Susskind)也站到了普雷斯基尔一边。他指出:“有些物理学家可能觉得,讨论黑洞里究竟有什么只不过是理论讨论,或甚至近乎宗教讨论,就如同讨论针尖上能站几个天使。但事实并非如此:这个问题事关未来物理学的定律。”[9]此后几年,物理学家给出了多种设想,试图解答这个问题。霍金也提出了一个:“信息可能是进入了另一个宇宙,但我现在还不能给出数学证明来。”[10]
直至2004年,时年六十二岁的霍金才收回成见,愿赌服输。他宣布,自己已经找到了一种方法证明量子引力遵循幺正性,以及信息是守恒的。[11]他将量子不确定性的一种表述(即费曼提出的路径积分表述,又称为“历史求和”)应用到了时空结构的拓扑中,并由此得出结论,其实黑洞并不是全黑的,它们也给出了信息。霍金写道:“之所以会出现混淆和悖论,是因为过去人们是从经典物理学时空只有单一拓扑结构的角度来考虑问题。”*有些物理学家认为霍金的新理论含糊不清,并遗留了诸多悬而未决的问题,但有一点霍金是明确的。他写道:“并没有什么分枝的子宇宙,就像我过去认为的那样。信息始终存在于我们这个宇宙中。我很遗憾要让科幻迷们失望了。”最终,他输给了普雷斯基尔一套2688页的《完全棒球手册:终极棒球百科全书》——“从中信息可以容易地恢复出来,”霍金在文章最后开玩笑道,“但或许我本该把灰烬送给他。”
注释:*“人们通常认为,它要么是四维时空,要么是黑洞。但费曼的历史求和表述允许两者同时存在。”
查尔斯·本内特则是沿着另一条大不相同的进路,最终涉足量子信息论。在发展出逻辑深度的思想之前很久,他曾思考过所谓“计算的热力学”——这是个有点古怪的课题,毕竟长久以来人们考虑的大多数信息处理情境都不涉及实物。本内特写道:“在19世纪,除去巴贝奇的远见,计算往往被视为一个心理过程,而非机械过程。因此,就算有人突发奇想,想到考虑计算的热力学,很有可能它看上去也不比诸如爱情的热力学之类的科学课题更重要。”[12]这就像考虑思考的能量。思考会消耗卡路里,但没有人细算具体是多少。
而更古怪的是,本内特试图研究一种看上去与热力学最不相关的计算机的热力学——那种抽象的、理想化的图灵机。图灵当初从不担心,在自己的思想实验中,机器在想象的纸带上的来回移动会耗费能量或辐射热量。但到了 20世纪 80年代初,本内特却指出,一条满是零的纸带可以当做“燃料”使用——通过使自己随机化,对外做热功或机械功。当然,这仍是个思想实验,但它关注却是个非常现实的问题:逻辑操作的物理成本是多少?本内特认为:“计算机可被视为一种将自由能转化成废热和数学功的机器。”[13]这时,熵再次出现了。一条满是零的纸带、一条写有编码后的莎士比亚全集的纸带,或一条写有π的纸带,它们的熵很低,因而具有“燃料价值”。相反,一条写有随机数的纸带则没有。
本内特生于1943年,父母都是音乐教师,他从小在纽约的韦斯特切斯特郊区长大。20世纪60年代,本内特先后就读于布兰戴斯大学和哈佛大学,学习化学。詹姆斯·沃森当时正在哈佛大学教授基因编码,本内特还给他当了一年助教。他的博士研究方向是分子动力学,需要用到计算机模拟。当时学校使用的早期计算机内存只有约两万个十进制数字,需要昼夜不停地工作,最后的结果则打印在一长串折叠式记录纸上。为了找到更多计算资源来继续自己的研究,本内特先后来到了加利福尼亚州的劳伦斯·利弗莫尔国家实验室以及伊利诺伊州的阿戈讷国家实验室,并最后在1972年加入了IBM研究中心。
当然,IBM不生产图灵机。但本内特有一天忽然灵机一闪,意识到其实有一种特殊功能的图灵机早已在自然界中被发现了,它就是RNA聚合酶。他是直接从沃森那了解到这种聚合酶的,知道它是一种负责根据DNA模板转录生成RNA的酶。它沿着DNA(“纸带”)移动,其逻辑状态则随着DNA序列中的化学信息而发生相应的改变,并且其热力学行为是可以度量的。
20世纪70年代,计算机硬件发展迅猛,能量利用效率已较先前电子管时代的高了数千倍。但尽管如此,电子计算机还是以废热的形式浪费了可观的能量。随着科学家逐渐降低计算机的能耗,他们越来越迫切地想知道能耗的理论最小值究竟是多少。早在1949年,冯·诺伊曼就提出了一个估算,“信息的每个基本动作,即每个基础的二元选择以及单位信息的每次传输”都至少会耗散一定的热量。[14]冯·诺伊曼的估算是基于莱奥·齐拉特对于麦克斯韦妖的重新诠释。*按照冯·诺伊曼的说法,信息处理的每个基本动作,即每个基础的二元选择,都要付出代价。这种观点在20世纪70年代被普遍接受。但随后它被证明是错误的。
注释:*冯·诺伊曼提出的、每个逻辑操作的理论能耗公式是kTln2焦耳每比特,其中T是计算机电路的热力学温度,k是玻尔兹曼常数。齐拉特先前已经证明了,麦克斯韦妖每得到一比特关于分子位置的信息,齐拉特热机就能输出kT ln 2焦耳的功,但熵增加必定会在每个循环的某个环节出现。
指出冯·诺伊曼错误的是本内特在IBM的导师,罗尔夫·兰道尔。[15]第二次世界大战爆发前,他为逃离纳粹德国的迫害来到美国,并在后来加入了IBM。他倾注了很多心血,试图为信息奠定物理基础。《信息是物理的》是兰道尔一篇知名论文的标题,文章旨在提醒学界注意:信息不是不具实体的抽象,而总是与物理载体相联系,因而也必须遵循物理定律。唯恐有人忘记这一点,兰道尔将后续的一篇论文(不料这成了他的绝笔之作)起名为《信息必然是物理的》。他强调,无论它是表现为石板上的一个刻记、打孔卡片上的一个孔洞,还是一个粒子的自旋,信息都不可能摆脱某种物理载体而独立存在。1961年,兰道尔尝试证明冯·诺伊曼给出的信息处理能耗公式,却发现大多数逻辑操作其实不增加熵。当一比特信息从零翻转为一,或相反时,该信息是守恒的。这个过程是可逆的,这时熵没有改变,也没有热量需要耗散。兰道尔提出,只有不可逆的操作,才会导致熵增加。
兰道尔和本内特犹如一对对比鲜明的相声搭档:一个是做事循规蹈矩的IBM老派职员,另一个则是不修边幅的嬉皮士(按本内特自己的描述)。[16]针对兰道尔提出的原理,本内特分析了各式各样或真实或抽象的计算机,从图灵机、信使RNA到“弹道”计算机——早期军方所用的火控计算机,借助类似台球的东西来传递内部信号。他最终确认了,许多计算可以不耗费任何能量就能完成,而热量耗散也只有在擦除信息时才会发生。擦除是一种不可逆的逻辑操作。当图灵机的读写头清除纸带上的某一方格,或电子计算机清空一个电容器时,一比特信息就损失掉了,然后有热量必须耗散掉。在齐拉特的思想实验中,麦克斯韦妖在观察或选择一个分子时无需付出熵的代价;只有在消除记录,也就是在妖擦除上一次观察的结果,为下一次观察腾出空间时,熵增加才会发生。
遗忘需要功。
“你或许可以说,这是信息论对量子力学的复仇。”本内特说道。[17]有时,一个领域里大获成功的思想可能会阻碍另一个领域的发展。量子力学里的不确定性原理就是一个例子。它让人们意识到,测量过程本身也扮演着重要角色。“看”一个分子不再像说得那么简单;观察需要借助光子,而且要求光子比热背景更活跃。这时,问题就变得错综复杂了。在量子力学中,观察行为本身会产生影响,而无论观察的执行者是实验科学家或麦克斯韦妖。自然对我们的实验十分敏感。
“量子理论使人们误认为,计算的每一步不可避免地都要付出热力学代价。”本内特继续说道,“另一方面,香农理论的成功也导致人们忽视了信息处理中所有物理层面的东西,从而误认为它纯粹是个数学过程。”随着通信工程师和芯片设计师越来越接近原子层次,他们就越发担心量子效应会干扰到在经典物理学中原本可以明确区分的零和一的状态。不过,换个角度看,挑战与机遇并存——也正是在这里,量子信息科学诞生了。本内特及其他科学家意识到,量子效应或许可以为我所用。
本内特在IBM研究中心办公室的墙脚摆放着一个像是嫁妆箱的设备,密不透光,人们称它为“玛莎阿姨”(其实全称是“玛莎阿姨的棺材”)。它由本内特和研究助手约翰·斯莫林(John Smolin)在 1988年至 1989年间亲手打造,不过外面的铝壳是请金工车间做的。[18]为了制造全黑的实验环境,他们在铝壳内壁涂上黑色的油漆,又在里面挂上了黑色天鹅绒。他们采用发光二极管作为光源,并对光脉冲的偏振态进行调整,从而借此发出了第一条采用量子密码编码的讯息。这个实验首次演示了,信息处理任务仅通过量子系统也可以有效完成。在此后不久,量子纠错、量子隐形传态以及量子计算机等设想随之出现。
在这些设想中,量子信息通常是在爱丽丝(A)和鲍勃(B)之间传递的。这种说法原来常见于密码学,后来也被量子理论学者所借用。此外,偶尔还会有查理(C)参与进来。在各种理论场景中,三人经常会各自走入不同的房间,抛掷硬币,并互相传递密封的信封。他们还会选择量子态,执行泡利矩阵变换等。本内特的同事、新一代量子信息论学者芭芭拉·特哈就解释道:“诸如‘爱丽丝向鲍勃发送了一个量子比特,但忘记发送的是什么’或‘鲍勃进行了测量,并把结果告诉了爱丽丝’等,这些都是我们常说的。”[19]特哈自己研究的方向之一就是爱丽丝和鲍勃的关系是否存在一夫一妻(monogamous)关系——自然,这也是个量子理论的术语。
在玛莎阿姨实验中,爱丽丝发送给鲍勃的讯息是经过加密的,这样恶意的第三方(窃听者伊芙)就无法解读。如果通信双方都知道私钥的话,鲍勃便可以解读讯息。但一开始爱丽丝如何将私钥传送给鲍勃呢?本内特与蒙特利尔大学的吉勒·布拉萨尔(Gilles Brassard)最早提出了一个设想,将每比特信息编码为单一的量子对象,比如一个光子。信息可以用该光子的量子态来表示,比如垂直偏振态或水平偏振态。不同于经典物理学中的对象会被拦截、监控、观察和传递,量子对象无法被如此,它们也无法被复制或克隆。观察动作不可避免地会对量子讯息造成破坏。因此,即便窃听者动作再小,她都会被发觉。借助本内特和布拉萨尔提出的一个精密复杂的协议,爱丽丝就能够生成一个随机比特序列作为私钥,保证伊芙无法在不破坏私钥的前提下加以破解,而鲍勃在确认私钥未被破坏后,就可以重建完全一样的序列。[20]
在玛莎阿姨的棺材里所做的首次实验成功地将量子比特通过三十厘米长的“量子信道”(普通空气)进行了传递。传递的内容不是“华生先生,快来,我要见你”,而是一个绝对无法破解的密钥——这在密码学史上可是头一回。后来的实验者开始尝试使用光纤作为信道。与此同时,本内特的研究方向则转向了量子隐形传态。
“隐形传态”(teleportation)的说法很容易产生误解,比如当时IBM市场部在一则宣传他的研究成果的广告里就使用了这样的广告语:“请注意,我将给你传送(teleport)一些匈牙利红烩牛肉。”[21]这不免让本内特有点后悔自己的用词选择。但这个说法还是保留了下来,因为确实是有东西传送了,只是不是匈牙利红烩牛肉,而是量子比特。*
注释:*该单词(qubit)尽管在2007年12月已被OED所收录,但它尚未被普遍接受。戴维默明曾主张采用Qbit的拼写形式,他写道:“不幸的是,qubit这一违反常理的拼写形式目前占据着主流……尽管qubit遵循了英语(以及德语、意大利语等)要求q后面紧跟着u的规则,但它同时违反了另一条同样强有力的规则,即要求qu后面紧跟着一个元音。我猜,这一拼写形式之所以被普遍接受,可能是因为它与一个已被弃用的英制长度单位 cubit(肘尺)看上去很像,听上去也同音。但只要试想……一个人要用Qutip[棉棒(Q-tips)]擦拭底片或掏耳朵,就可看出其中的冗赘之处。”[22]
量子比特是最小的非平凡量子系统。与一个经典比特一样,它有两个可能取值:零和一,也就是两个能可靠地彼此区分的状态。在经典系统中,原则上所有状态都是可以彼此区分的。(如果你无法区分两种颜色,那只是因为你的测量设备不够完美。)但在量子系统中,拜海森堡不确定性原理所赐,不完美的可区分性随处可见。只要你测量了一个量子对象的某一属性,你就没有办法测量与之互补的另一属性。比如你可以确定一个粒子的动量或位置,但不可能同时知道两者。其他相互互补的属性还包括自旋的不同方向以及(就在像玛莎阿姨的棺材的例子里)偏振态的不同方向。物理学家常用几何方式来考虑这些量子态——系统的各种量子态对应于一个多维空间中的各个方向,它们相互的可区分性取决于这些方向是否彼此垂直(或者说“正交”)。
量子比特
正是这种不完美的可区分性赋予了量子物理学一个梦幻般的特性:无法在不干扰的前提下观察量子系统,也无法克隆量子对象或将它们广播给众多收听者。自然,量子比特也拥有这个梦幻般的特性。它不仅仅是非此即彼的零和一。其零和一是由能可靠区分的量子态来表示,比如垂直偏振态或水平偏振态;但此外还存在处于两者之间的量子态连续统,比如对角偏振态,它们会以不同概率趋向零或一。因此,物理学家称量子比特是一种态叠加,是不同概率幅的线性组合。它是确定性的,但内部又弥漫着不确定性的密云。不过,量子比特并不是一团糟:态叠加不是一锅大杂烩,而是概率元素的组合,遵循着一套清晰优雅的数学原理。
“一个非随机的整体可以包含随机的部分,”本内特说道,“这是量子力学中最有违直觉的部分。但这正是态叠加原理的结论,也是就我们目前所知,自然的运行方式。人们一开始或许并不喜欢,但过一段时间后就会习惯,到时其他可能选择反而显得糟糕多了。”
隐形传态以及与之相关的部分量子信息科学的关键在于所谓量子纠缠现象。量子纠缠遵循态叠加原理,并且其适用对象是一对空间上相隔遥远的量子比特。这对相纠缠的量子比特作为整体具有确定的量子态,而单独一个的量子态则是不确定的。最早提出量子纠缠概念的是爱因斯坦,为其命名的则是薛定谔。1935年,在与鲍里斯·波多尔斯基、纳森·罗森合作撰写的著名论文《量子力学对于物理实在的描述能被认为是完全的吗?》中,爱因斯坦通过一个思想实验试图揭示他认为的当时量子力学中存在的瑕疵,在其中他首次提出了这个概念。[23]这篇论文引起了广泛关注,沃尔夫冈·泡利在给维尔纳·海森堡的信中就写道:“爱因斯坦再度对量子力学公开表态……众所周知,每当这种事发生时,这可能意味着一场灾难。”[24]爱因斯坦的思想实验设想了一对粒子,比如由同一原子发射的两个光子,会以某种特别的方式相互关联。两者的偏振态虽是随机的,却相互一致——只要它们保持相互纠缠。
爱因斯坦、波多尔斯基和罗森想知道,当这对光子相隔遥远,并对其中一个光子进行测量时会发生什么。当两个粒子相互纠缠时,即便相隔数个光年,测量其中一个粒子似乎也会对另一个产生影响。在爱丽丝测量得知她的光子处于垂直偏振态的那一瞬间,鲍勃的光子也会在对应的轴上变为确定的偏振态,而其对角偏振态则变为不确定。这样的话,测量效应的传播速度显然要高于光速,而这似乎导致了悖论。爱因斯坦对此深恶痛绝,他后来写道:“空间 B 的实际状态不应该取决于在空间A进行了何种测量。”[25]在原论文的末尾,他也坚决地写道:“这种现象不可能在任何合理定义的现实中发生。”他还给这种现象取了一个难以磨灭的名字——“鬼魅似的超距作用”。
2003年,以色列物理学家阿舍·佩雷斯为EPR佯谬(以爱因斯坦、波多尔斯基和罗森的姓氏首字母缩写命名)提出了一种解答。他认为,论文严格说来并没有错,只是它问世太早了:EPR论文发表时,香农还未发表他的信息论,“并且又过了很多年,后者才被加入物理学家的工具箱中”。[26]信息是物理的。光讨论量子态,却不考虑关于量子态的信息没有什么意义。
信息并不只是一个抽象概念。它需要有物理载体,而物理载体(基本上)是定域的。毕竟,贝尔电话公司的业务就是将信息从一门电话传递至位于其他位置的另一门电话。
……在爱丽丝测量其粒子的自旋时,她所得到的信息局限在她所处的位置,并保持如此,直至她决定将结果广播出去。这时在鲍勃那里绝对没有发生任何事情……当且仅当爱丽丝(通过邮件、电话、无线电或其他物质载体,自然它们都受限于光速)通知了鲍勃她所得到的结果时,鲍勃才会意识到其粒子有了一个确定的纯态……对于鲍勃来说,其粒子的状态突然发生改变,不是因为有什么东西作用于该粒子,而是因为鲍勃收到了关于一个遥远事件的信息。量子态不是物理实体,它们只存在于我们的想象中。
此外,克里斯托弗·富克斯也认为,谈论量子态本身没有什么意义,量子态是观察者的构造之物——由此不免生出了诸多麻烦。在他看来,现在是状态唱罢,信息登场。“术语本身就说明了一切:一个这一领域的从业者,面对一个量子态,无论她是否考虑到其量子基础,她既有可能说‘量子态’,也同样有可能使用‘量子信息’的说法。‘量子隐形传态协议是用来做什么的?’这个问题目前的标准答案是:‘协议将量子信息从爱丽丝那传至鲍勃那。’可以说,我们现在经历的是一场思维模式的转换。”[27]
然而,鬼魅似的超距作用问题并未彻底解决。非定域性在众多由EPR思想实验衍生的精致实验里得到了证明。实验证明,量子纠缠不仅真实存在,而且普遍存在。每个氢分子( H2 )中的一对原子都是量子纠缠的(薛定谔最早用的是德语verschrnkt一词)。1993年,本内特首次提出了一个借助量子纠缠实现量子隐形传态的协议。[28]利用一对相纠缠的粒子,量子隐形传态可以将第三个粒子的量子信息传递任意远的距离。首先,生成一对相纠缠的粒子,并将其分别交给爱丽丝和鲍勃。爱丽丝虽然无法直接测量这第三个粒子,但她能测量出它与自己的粒子的某些关系。测量后,这两个量子比特便会被破坏。然后她将得到的经典比特信息通过经典信道传递给鲍勃,这个过程必定不会超过光速。而借助量子纠缠效应和收到的经典比特信息,鲍勃就可以还原出第三个粒子的量子信息。本内特及其同事写道:“量子隐形传态的净结果相当平淡:[量子对象]在爱丽丝手中消失,过了相应一段时间后,重新出现在鲍勃手中。这里唯一值得称道的是,在这个过程中,信息被清晰地分成了经典的和非经典的两部分。”
此后,研究者很快就想象出了许多可能的应用,比如将易失的信息传入安全的存储或内存中去。无论它是否能传送匈牙利红烩牛肉,量子隐形传态无疑都激动人心,因为它为可望而不可即的量子计算之梦开启了全新的可能性。
量子计算机的设想很奇特。1981年,在麻省理工学院的一次讲演中,理查德·费曼首次探讨了利用量子系统来计算量子难题的可能性。他的讨论便是从量子力学的奇特之处开始。(同时,他也不忘离题开个小玩笑——“以下内容是机密!机密!快把门关上!”)
我们在试图理解量子力学所代表的世界观时,总是会遇到很大的困难。至少我是如此,因为虽然我年事已大[当时他六十二岁],但我还是没达到透彻理解它的地步。好吧,我承认我对它仍旧隐隐感到不安……我尚不能确信它当中不存在实质性问题。我也无法指出具体是什么问题,因而我猜它大概没有问题,但我不能确认它真的没有问题。[29]
不过,费曼十分清楚计算(用计算机来模拟量子物理)当中的问题所在。问题在于概率。每一个量子变量都涉及概率,这使得计算的难度呈指数增加。“如果信息比特的数目与空间中点的数目相当,那么你不得不用大致NN个组态来描述概率,而这对一部N阶计算机来说是超出了其处理能力……因此,在这种条件下,我们不可能通过计算概率来完成模拟。”
于是费曼提议,以毒攻毒:“另一种途径或许是,用一台自身也是基于概率的计算机C来模拟基于概率的自然(我暂且称之为N)……它是在这种意义上进行了模拟,即C从某种状态(或可称为初始状态)变为某种最终状态的概率与N从相应初始状态变为相应最终状态的概率相同。”费曼认为,量子计算机不是图灵机,而会是全新的东西。
本内特对此评论道:“费曼洞察到了一点,即这个量子系统从某种意义上说,是在不断地计算着自己的未来。你或许可以说,量子计算机是一种有其自身动力学的模拟计算机。”[30]研究者很快意识到,如果量子计算机对于解决模拟物理学的难题有奇效,那么它或许也能用来解决其他类型的老大难问题。
量子计算机的威力来自于那神秘而不可触碰的量子比特。概率是它们的内在属性。而态叠加使得它们比经典比特更为强大,后者的状态只能是非此即彼,非零即一。用固体物理学家戴维·默明的话来说,经典比特是个“可怜巴巴的二维向量”。[31]又如罗尔夫·兰道尔所说:“我们人类在刚学会用黏乎乎的手指数数时,就被误导了。我们长久以来一直以为,一个整数只能有特定的唯一值。”其实在真实世界里并非如此——真实世界是个量子世界。
在量子计算中,量子比特是相互纠缠的。多个量子比特一齐工作时,威力不是成倍增加,而是呈指数增加。而在经典计算中,一个比特就是非此即彼,所以n个比特可以编码2n个值中的任意一个。量子比特则不仅可以编码所有这些布尔值,还可以编码所有可能的态叠加。这赋予了量子计算机超强的并行计算潜力,令经典计算机完全无法与之匹敌。因此,在理论上,量子计算机可以解决某些过去认为不具备计算可行性的问题。
一个例子是求一个大数的因子分解。这也是破解目前使用最广泛的加密算法的关键,特别是RSA加密算法。[32]全球Internet电子商务的安全都仰赖于此。在实际应用中,大数是用以加密讯息的公钥。而窃听者只要找出该大数的素因子(这也是个大数),就能破解讯息。不过,将两个大素数相乘很容易,其逆运算却极其困难。这个过程就像是一条信息的单行道。因此,对RSA数分解因子是经典计算的一大难题。2009年12月,一个由来自瑞士洛桑、荷兰阿姆斯特丹、日本东京、法国巴黎、德国波恩以及美国华盛顿州雷德蒙德的科学家组成的团队,动用几百台机器花费了近两年时间才算出:
12301866845301177551304949583849627207728535695953347921973224
52151726400507263657518745202199786469389956474942774063845925
19255732630345373154826850791702612214291346167042921431160222
1240479274737794080665351419597459856902143413
=3347807169895689878604416984821269081770479498371376856891243
1388982883793878002287614711652531743087737814467999489
×3674604366679959042824463379962795263227915816434308764267603
2283815739666511279233373417143396810270092798736308917.
据科学家估算,这次计算涉及约1020次操作。[33]
这个RSA数还算小的。不过,要是这答案能更早一点算出来,他们本可以赢得RSA实验室悬赏的五万美元奖金。如果只是涉及经典计算,这种程度的加密被认为相当安全。而对于更大的数,因子分解所需的时间会呈指数增加,甚至所需的计算时间会超过宇宙的寿命。
量子计算则完全是另一回事。量子计算机能同时占据很多状态这一能力,立刻为我们打开了全新的视野。1994年,在尚还无人知道如何实际构造量子计算机时,贝尔实验室的一名数学家就已经想出了为量子计算机编程来分解因子的方法。他就是彼得·肖尔(Peter Shor),一个解题神童,很小的时候便在数学奥林匹克竞赛和其他数学竞赛中崭露头角。其聪明的算法为这个领域开辟了道路,因而通常被人们称为肖尔算法,虽然他自己只是简单称之为因子分解算法。两年后,贝尔实验室的另一位研究员洛夫·格罗弗(Lov Grover)设计出了一种搜索大型的未排序数据库的量子算法。这种搜索问题在一个信息无穷无尽的世界里是道经典难题,就好比大海捞针。
2009 年,在一次会议讨论中,希伯来大学的多里特·阿哈龙诺夫指出:“量子计算机,从根本上说,是一场革命。这场革命爆发的标志就是肖尔算法。但革命之所以出现的原因,除去量子计算机预示的令人振奋的实用前景外,还在于它们重新定义了什么样的问题是容易的,什么样的问题是困难的。”[34]
但赋予量子计算机威力的特质,也让它们变得极其难以操控。如果想从一个量子系统中获取信息,我们就需要观察该系统,但观察也就意味着会干扰到该系统的量子魔力。在众多量子比特并行处理其呈指数增长的操作时,我们是不能看的;而一旦试图去测量其错综复杂的概率,它们就会退化成经典比特。量子信息是脆弱的。欲知计算结果如何,只有等到量子操作结束。
量子信息如幻似梦——它们稍纵即逝,永远不会像白纸黑字那样稳定地存在。正如本内特所说:“许多人可以阅读同一本书,并得到相同的讯息。但在试图告诉别人你做的梦时,你对梦的记忆就变了。到最后,你会忘记那个梦,而只记得你对梦的描述。”[35]反过来,量子擦除是一种真正的撤销:“可以说,甚至上帝也会忘掉先前之事。”
至于香农本人,他没能见证自己栽下的种子开出的这朵奇葩。“要是香农现在还在,我敢说他一定会对引入了量子纠缠的信道容量感到十分激动。”本内特说道,“将香农公式扩展后得到的形式,能以相当优雅的方式同时涵盖经典信道和量子信道。事实证明,经典信息论的量子扩展已经得出了一个更清晰、更强大的计算和通信理论。”[36]香农于2001年去世,他的晚年饱受阿兹海默症的困扰,对于数字革命晚近的成就已经浑然不知。他的一生几乎贯穿了整个20世纪,而他也帮助定义了这个世纪的面貌。他是信息时代的开创者之一,赛博空间便部分源自他的创造,尽管他后来已经无从得知。1987年,他在接受最后一次采访时提到,自己正在思考关于镜子房的想法:“我试图找出所有可能的合理的镜子房设置,这样如果你从一个房间中央朝各个方向看,你会发现空间被分隔成了许许多多的房间,而你出现在每个房间里,以至于无穷,同时又不会出现任何矛盾。也就是说,你四下张望时,不会发现什么不妥之处。”[37]他还打算在麻省理工学院附近的自己家中建造它们,但终究没有实行。
为量子信息科学未来发展指明方向的是约翰·惠勒。他列出了一份适中的待办事项列表,留给下一代物理学家和计算机科学家完成。[38]
比如,“将弦论和爱因斯坦几何动力学的量子版本从连续统的语言翻译成比特的语言”。
“充分发挥想象力,逐一梳理数学(包括数理逻辑)所提供的每一样可用来从整体而非细节层次处理定理的强大工具,并将每一样这种技术引入比特的世界。”
以及,“从计算机程序的顺次演进中发掘、整理和展示每一个能揭示物理学层层递进结构的特征”。
此外,“最后:遗憾,作为意义的确立的基本单位,‘比特’一词缺乏明确清晰的定义?不,相反我们应当庆幸……如果有一天我们知道了如何通过组合海量数目的比特而得到我们所谓的存在,那时我们就会更好地理解我们所谓的比特以及所谓的存在到底是什么”。
但有一个挑战依旧悬而未决,而且不仅针对的是科学家,那就是意义的确立。
注释
[1] Seth Lloyd,Programming the Universe (New York: Knopf, 2006), 44.
[2] Christopher A. Fuchs, “Quantum Mechanics as Quantum Information (and Only a Little More),”arXiv:quant-ph/0205039v1, 8 May 2002, 1.
[3] Ibid., 4.
[4] John Archibald Wheeler with Kenneth Ford,Geons, Black Holes, and Quantum Foam: A Life in Physics (New York: Norton, 1998), 298.
[5] “It from Bit” in John Archibald Wheeler,At Home in the Universe,Masters of Modern Physics, vol. 9 (New York: American Institute of Physics, 1994), 296.
[6] Stephen Hawking, “Black Hole Explosions?”Nature 248 (1 March 1974), DOI: 10.1038/248030a0,30–31.
[7] Stephen Hawking, “The Breakdown of Predictability in Gravitational Collapse,”Physical Review D 14 (1976): 2460–2473; Gordon Belot et al., “The Hawking Information Loss Paradox: The Anatomy of a Controversy,”British Journal for the Philosophy of Science 50 (1999): 189–229.
[8] John Preskill, “Black Holes and Information: A Crisis in Quantum Physics,” Caltech Theory Seminar, 21 October 1994, http://www.theory.caltech.edu/~preskill/talks/blackholes.pdf (accessed 20 March 2010).
[9] John Preskill, “Black Holes and the Information Paradox,”Scientific American (April 1997): 54.
[10] Quoted in Tom Siegfried, The Bit and the Pendulum: From Quantum Computing to M Theory—The New Physics of Information (New York: Wiley and Sons, 2000), 203.
[11] Stephen Hawking, “Information Loss in Black Holes,”Physical Review D72 (2005): 4.
[12] Charles H. Bennett, “Notes on the History of Reversible Computation,” IBM Journal of Research and Development 44 (2000): 270.
[13] Charles H. Bennett, “The Thermodynamics of Computation—a Review,” International Journal of Theoretical Physics 21, no. 12 (1982): 906.
[14] Ibid.
[15] Rolf Landauer, “Information Is Physical,” Physics Today 23 (May 1991); “Information Is Inevitably Physical,” in Anthony H. G. Hey, ed., Feynman and Computation (Boulder, Colo.: Westview Press, 2002), 77.
[16] Charles Bennett, quoted by George Johnson in “Rolf Landauer, Pioneer in Computer Theory, Dies at 72,”The New York Times, 30 April 1999.
[17] Interview, Charles Bennett, 27 October 2009.
[18] J. A. Smolin, “The Early Days of Experimental Quantum Cryptography,” IBM Journal of Research and Development 48 (2004): 47–52.
[19] Barbara M. Terhal, “Is Entanglement Monogamous?” IBM Journal of Research and Development 48, no. 1 (2004): 71–78.
[20]对此的细致解释可参见:Simon Singh, The Code Book: The Secret History of Codes and Codebreaking (London: Fourth Estate, 1999)。书中花了十面文字(始于第339页)加以解释。
[21] IBM advertisement,Scientific American (February 1996), 0–1; Anthony H. G. Hey, ed.,Feynman and Computation, xiii; Tom Siegfried,The Bit and the Pendulum, 13.
[22] N. David Mermin, Quantum Computer Science: An Introduction Cambridge: Cambridge University Press, 2007), 4.
[23] Albert Einstein, Boris Podolsky and Nathan Rosen, “Can Quantum-Mechanical Description of Physical Reality Be Considered Complete?”Physical Review 47 (1935): 777–780.
[24] Wolfgang Pauli to Werner Heisenberg, 15 June 1935, quoted in Louisa Gilder, The Age of Entanglement: When Quantum Physics Was Reborn (New York: Knopf, 2008), 162.
[25] Albert Einstein to Max Born, March 1948, in The Bohr-Einstein Letters, trans. Irene Born (New York: Walker, 1971), 164.
[26] Asher Peres, “Einstein, Podolsky, Rosen, and Shannon,”arXiv:quant-ph/0310010 v1, 2003.
[27] Christopher A. Fuchs, “QBism, the Perimeter of Quantum Bayesianism,” arXiv: quant-ph/ 1003.5209 v1, 26 March 2010: 3.
[28] Charles H. Bennett et al., “Teleporting an Unknown Quantum State Via Dual Classical and Einstein-Podolsky-Rosen Channels,”Physical Review Letters70 (1993): 1895.
[29] Richard Feynman, “Simulating Physics with Computers,” in Anthony H. G. Hey, ed., Feynman and Computation, 136.
[30] Interview, Charles H. Bennett, 27 October 2009.
[31] N. David Mermin,Quantum Computer Science, 17.
[32] RSA一名取自其三位发明者的姓氏首字母:罗纳德·里维斯特(Ronald Rivest)、阿迪·沙米尔(Adi Shamir)以及伦纳德·阿德尔曼(Leonard Adleman)。
[33] T. Kleinjung, K. Aoki, J. Franke, et al., “Factorization of a 768-bit RSA modulus,” Eprint archive no. 2010/006, 2010.
[34] Dorit Aharonov, panel discussion “Harnessing Quantum Physics,”18 October 2009, Perimeter Institute, Waterloo, Ontario; and e-mail message 10 February 2010.
[35]Charles H. Bennett, “Publicity, Privacy, and Permanence of Information,” in Quantum Computing: Back Action, AIP Conference Proceeding 864 (2006) ed. Debabrata Goswami (Melville, N.Y.: American Institute of Physics), 175–179.
[36] Charles H. Bennett, interview, 27 October 2009.
[37] Shannon interview with Anthony Liversidge,Omni (August 1987), in Claude Elwood Shannon,Collected Papers, ed. N. J. A. Sloane and Aaron D. Wyner (New York: IEEE Press, 1993), xxxii.
[38] John Archibald Wheeler, “Information, Physics, Quantum: The Search for Links,”Proceedings of the Third International Symposium on the Foundations of Quantum Mechanics (1989), 14.
第14章 洪流过后(一本宏大的巴别相册)
试想每本书里隐藏着另一本书,书页上的每个字母里也隐藏着另一本书,只是这些书并不占书桌上的空间。试想知识能被浓缩成精华,从而可被纳入一个图案、一个符号、一个不占空间的地方里。又试想人的头颅成了一个内部开阔的空间,里面有着众多嗡嗡作响的房间,仿佛蜂巢一般。
——希拉里·曼特尔(2009)[1]
“我的宇宙(有人称之为图书馆)……”[2]
这是豪尔赫·路易斯·博尔赫斯1941年出版的短篇小说《巴别图书馆》的开场白。小说描写了一座神秘的图书馆,其中收藏了所有语言的所有书,包括验证和预言了每个人行为的书,福音书、福音书的注解以及福音书的注解的注解,详细到分钟的未来历史,所有书的所有改写版本,以及图书馆的正确书目和不计其数的错误书目,等等。这座图书馆(有人称之为宇宙)珍藏了所有信息。但你在其中却找不到知识,这恰是因为所有知识都在里面,与所有谬误混淆难分。无数的书架摆放在同样无数一模一样的六边形平台上,在那当中你能找到所有可能的一切,却也找不到想找的一切。这无疑是信息过载最完美的例子。
我们人类也建造了众多信息仓库。而信息的持久性、遗忘的困难性(这是我们这个时代的显著特点)则给信息仓库平添了许多混乱。随着维基百科(一个内容自由、任何人都可通过相互协作进行撰写的在线百科全书)在规模和全面性上都开始超越世界上所有的纸质百科全书,其编辑开始意识到,它当中有太多名词拥有多重含义。于是他们制定了一种消歧义策略,使用了超过十万个消歧义页。比如,一个用户在维基百科如迷宫般的词海中搜寻“Babel”时,他会找到一个“Babel(消歧义页)”,上面进一步给出了如下链接:古巴比伦的希伯来文名字、巴别塔(消歧义页)、一份伊拉克报纸、一本帕蒂·史密斯写的书、一名苏联记者、一份澳大利亚语言教师协会的期刊、一部电影、一家唱片公司、一座澳大利亚境内的岛屿、两座加拿大境内的山脉,以及“《星际迷航》虚构宇宙里的一个中立星球”,等等。并且消歧义的路径可能会层层分岔,比如上述“巴别塔(消歧义页)”上的链接,除了指向《旧约》上的故事,还指向了众多歌曲、游戏、图书以及一幅老勃鲁盖尔的油画、一幅埃舍尔的版画和一张“塔罗牌”。我们建造的“巴别塔”可真不少。
早在维基百科出现之前很久,博尔赫斯也曾写过一篇关于一部百科全书的短篇小说,其中混杂了虚构和事实,又在某种程度上映照了现实世界。这部百科全书描述了一个光怪陆离的虚构世界,特伦(Tln)。博尔赫斯写道:“据猜测,这个美丽新世界是由一个秘密团体发明创造的,其成员囊括了天文学家、生物学家、工程师、形而上学家、诗人、化学家、代数学家、伦理学家、画家、几何学家等……整个计划是如此宏大,每位撰写者的贡献几乎可以忽略不计。在一开始,人们相信特伦仅是一团混沌,不过是天马行空的恣意想象,但现在人们才明白它是个有序的宇宙。”[3]不难想象,后来信息时代的作家会把这位阿根廷文学大师奉为先知(威廉·吉布森就借用小说里的说法,将他称为“我们的异端领导人叔叔”[4])。
又在博尔赫斯诞生之前很久,查尔斯·巴贝奇也已经想象出了另一座巴别图书馆。这就是空气,它杂乱却永恒地记录下了人类说过的每一句话。
返回书籍页