必读网 - 人生必读的书

TXT下载此书 | 书籍信息


(双击鼠标开启屏幕滚动,鼠标上下控制速度) 返回首页
选择背景色:
浏览字体:[ ]  
字体颜色: 双击鼠标滚屏: (1最慢,10最快)

博弈论

_2 白波 (现代)
  永不停息的博弈
  人们的工作和生活,可以看做是永不停息的博弈决策过程。人们每天从一早醒来就必须不断地作决定,我们日复一日决定早餐要吃什么,直到养成固定的饮食习惯;要不要到超市疯狂采购一番;要不要看场电影、散散步、买部车、把菜吃完、在转盘赌局里下红或是下黑,甚至读一本书......不管有意无意,深思熟虑或一时冲动,你已经开始读这本书了--这就是一个决定。
  还有更重大的:报考什么学校、选择什么专业、从事什么样的工作、怎样开展一项研究、如何打理生意、该和谁合作、做不做兼职、要不要辞掉工作、要不要竞争总裁的职位。甚至是要不要结婚、什么时候结婚、该和谁结婚、要不要孩子、怎样将孩子抚养成人等,这只不过是人生重大决策的几个例子。
  在这些决策中,存在一个共同的因素,那就是你并不是一个人在作决定,在一个毫无干扰的真空世界里作决定。相反,你的身边充斥着和你一样的决策者,他们的选择与你的选择相互作用。这种互动关系自然会对你的思维和行动产生重要的影响,而且别人的选择和决策直接影响着你的决策结果。鲁滨孙一个人沦落荒岛,做什么都是他自己说了算;可是等来了个"星期五",他就要面对博弈问题了。
  博弈论是由两位杰出的学者--冯·诺曼和摩根斯坦在上世纪中期创立的。用专业术语说,博弈论是"研究决策主体的行为在直接相互作用时,人们如何进行决策、以及这种决策如何达到均衡的问题"。
  为了解释和理解博弈决策的相互影响,我们不妨设想一个石匠的决策和一个拳击手的决策会有什么区别。当石匠考虑怎样开凿石头的时候,他的"对象"原则上是被动的和中立的,不会对他表现策略对抗。然而,当一名拳击手打算攻击对方要害的时候,不仅他的每一步计划都会招致抵抗,而且他还面临对方主动的攻击。他必须设法克服这些抵抗和攻击。
  在人与人的博弈中,你必须意识到,你的商业对手、未来伴侣乃至你的孩子都是聪明而有主见的人,是关心自己利益的活生生的人,而不是被动的和中立的角色。一方面,他们的目标常常与你的目标发生冲突;另一方面,他们当中包含着潜在的合作因素。在你作决定的时候,必须将这些冲突考虑在内,同时注意发挥合作因素的作用。
  为了自己,也为了与他人更好地合作,你需要学习一点博弈论的策略思维。正是因此,著名经济学家保罗·萨缪尔森说:"要想在现代社会做一个有文化的人,你必须对博弈论有一个大致了解。"
  贴士:
  博弈论说来有点绕嘴,但是内容还是很好理解的,那就是每个对弈者在决定采取何种行动时不但要根据自身的利益和目的行事,也要考虑到他的决策行为对其他人的可能影响,以及其他人的行为对他的可能影响,通过选择最佳行动计划,来寻求收益或效用的最大化。
  游戏是人生的抽象
  "博弈"这个词听起来高深莫测,其实它就是"游戏"的意思。更准确点说,是可以分出胜负的游戏。博弈论如果直译就是"游戏理论"。不妨说,博弈论是通过"玩游戏"获得人生竞争知识的。
  游戏是什么?简单地说,游戏是人生的抽象。
  比如国际象棋,有这样几种角色:国王、皇后、骑士、主教和小兵,俨然是一个政教兼具的小王国。当然,比照人生,这个模型是太简略了,但是一样可以反映人生的某些道理。而且,惟其简略,这些原本被生活的复杂表象所掩盖的道理才更清晰可见。
  面对复杂事物时,人们常落入见树不见林的陷阱,被细节压得喘不过气来,找不到重点。而在游戏中,可以反映出一些现实世界的问题,并将干扰因素减至最低,是一种很适当的决策入门方法。
  围棋可能是最简单也是最复杂的游戏,它源于4000年前的中国,但直到现在,我们也未必真弄懂了它。最简化的棋盘--纵横各19条线(最初是17条)编织成的一张网;最简化的棋子(只分黑白两色);最简单的规则(轮流下子,两气活棋,空多者胜,再加上一些"劫争"之类的补充规定),一个对围棋一无所知的人也能在几分钟内学会,可是它的玄妙深奥却又超过了任何一种棋类游戏。如果你对围棋下过一些工夫,你就一定能从中领悟某些哲理,例如"不输就是赢"、"流水不争先"、"乱中求胜"、"过犹不及"等等。在这一点上,游戏有些像我们从小阅读的寓言故事,我们不正是从这些"小中见大"的故事中学会生活的道理吗?
  不要小看游戏,它的确是人生的模型。从小我们就是从游戏里学习怎样生活、怎样与他人相处、怎样适应并利用这世界上的种种规则,并在这个过程中确立自己的人格。因此,千万不要低估游戏,它确实能反映真正的人生。
  贴士:
  零和游戏:游戏者有输有赢,但整个游戏的总成绩永远为零。整个博弈的过程就是一个零和游戏。
  从游戏到人生
  一个参加了海湾战争的美国飞行员回国后,有人问他对战争的感想,他回答道:就像在玩电脑游戏。事实上,现在很多电脑游戏已经被应用于军事训练。"9·11"之后,微软的一款飞行游戏受到了关注,因为在游戏中,玩家可以体验驾驶飞机在纽约等大城市上空飞行的感觉,甚至可以从世贸大楼中间穿过。人们担心:恐怖分子可以借助这个游戏获得练习机会,或许他们已经这样做了。
  游戏是学习的好方法。击败了拿破仑的威灵顿公爵曾说过:"滑铁卢之役的胜负是在伊顿中学操场上决定的。"平时勤于练习技巧和战术,在危急时才不致慌了手脚,这个原则适用于大多数的比赛或游戏。
  最妙的是:在游戏过程中,你不会损失任何东西当然除了部分自尊外,即使是输了也不会有什么损失。在大富翁的游戏中,你可以从一眨眼输掉几百万元的经验里,学会如何精明地买卖房地产,事后又不必付出任何代价。
  当然,游戏各不相同,对游戏者的要求也不同。有些人长于思考性的游戏,但不同的运动项目对决策智慧有不同程度的要求,例如在拳击或相扑这样按"重量级"来划分比赛等级的游戏中,聪明才智就不那么重要了。
  玩游戏需要用到许多不同类型的技巧。其中一种是基本技巧,比如打篮球不能缺少的投篮能力、在法律界工作不能缺少的案例积累、玩围棋游戏的时候还需要记住大量的"定式"(双方可以接受的变化,可称为围棋盘上的"均衡")等。这些技巧一旦脱离了游戏,可能就没有多大用处了。但博弈论的策略思维则是另外一种技巧。策略思维从你的基本技巧出发,考虑的是怎样将这些基本技巧最大限度地发挥出来,这是具有普遍意义的原则,可以应用于生活的方方面面。
  战略的筹划和博弈论的道理其实是相通的:你的决策必须赢过对手,个人、家庭、部族或国家才有活命的机会。
  贴士:
  法国著名女高音歌唱家玛·迪梅普莱有一个很大的私人园林。每逢周末,总是会有人到她的园林里采花、拾蘑菇,更有甚者还在那里搭起了帐篷露营野餐。虽然管理人员多次在园林四周围上篱笆,还竖起了"私人园林,禁止入内"的木牌,可所有这些努力都无济于事。迪梅普莱知道了这种情况后,就吩咐管理人员制作了很多醒目的大牌子,上面写着"如果有人在园林中被毒蛇咬伤后,最近的医院距此15公里"的字样,并把它们立在园林四周。从此以后,再也没有人私自闯入她的园林了。--如果习惯的方法不能解决问题,就要调整自己的视角和观念。
  多人博弈不可避免的矛盾
  游戏不只限于两个对手,有很多游戏是多人参加的。如果后果要由许多人共同承担,那么整个决策过程将会更加困难;因为你将面临不同成员与不同目标的排列组合。而关于多人决策,可以通过小组对抗的模式来了解,在这类竞赛中,好的决策可以创造胜利。
  真正的多人决策有许多不同的形态:有时候虽然参与决策人数众多,却只要一种意见,这是理想委员制;有些是两人共同参与决策,但却处于对立的状态,如角力、下棋、击剑、网球单打等;另外还有多人多意见的决策形态,如国会、联合国、扑克牌局、政治党派等。姑且不论生活品质高低,这些决策的终极目标都是为了追求人类在地球上的永续生存。然而,虽有许多极重要的决策有待确定并付诸实施,但我们却没有一套理性的做法完全避免"三个和尚没水喝"之类的困境。每个决策者与选择方案的组合都自成一个系统,成就的决策好坏不一,也有些组合则完全无法运作。在某些情况下,根本不可能作出不自相矛盾的决策。
  博弈是一种策略的相互依存状况:你的选择即策略将会得到什么结果,取决于另一个或者另一群有目的的行动者的选择。处于一个博弈中的决策者称为参与者,而他们的选择称为行动。一个博弈当中的参与者的利益可能严格对立,一人所得永远等于另一人所失。这样的博弈称为零和博弈。
  不过,更常见的情况是,既有共同利益,也有利益冲突,从而可能出现导致共同受益或者共同受害的策略组合。在实践当中,博弈可能包含一些相继行动过程,也可能包含一些同步行动过程,因此须将技巧综合起来,灵活运用,思考和决定自己最佳行动应该是什么。
  贴士:
  如果你离开双方相互适应的简单原则,那么你的聪明是不会有好结果的。
  公平来自博弈
  博弈不一定是坏事,也未必不能取得好的结果。我们今天享受的丰富的物质生活,都是来源于自由市场的竞争--同样也是博弈的结果。亚当斯密在1776年所发表的经典之作《原富》,其中关于自私行为与市场运作的两段,是经济学上被引用得最多的名言:
  "很多时候,一个人会需要兄弟朋友的帮助,但假如他真的要依靠他们的仁慈之心,他将会失望。倘若在需求中他能引起对方的利己之心,从而证明帮助他人是对自己有益的事,那么这个人的成功机会较大。任何人向他人提出任何形式的交易建议,都是这样想:给我所需要的,我就会给你所需要的--这是每一个交易建议的含义;而我们从这种互利的办法中,所获的会比我们所需的更多。我们的晚餐不是得自屠夫、酿酒商人,或面包师傅的仁慈之心,而是因为他们对自己的利益特别关注。我们认为他们给我们供应,并非行善,而是为了他们的自利。"
  "所以,每个人都会尽其所能,运用自己的资本来争取最大的利益。一般而言,他不会有意图为公众服务,也不自知对社会有什么贡献。他关心的仅是自己的安全、自己的利益。但如此一来,他就好像被一只无形之手引领,在不自觉中对社会的改进尽力而为。在一般的情形下,一个人为求私利而无心对社会作出贡献,其对社会的贡献远比有意图作出的大。"
  政治领域同样如此。尽管美国的民主政治并非像某些人鼓吹的那样完美,但立国200多年的实践,还是可以说明这个体制有很多可取之处。美国的民主制度最为关键的基础是1787年的制宪会议。参与该会议的55位代表都是当时的有识之士,但是他们并不是圣人,这是一个集体博弈的例子。一方面,他们富有远见,希望创造新的政府形态以避免两件事的发生,一是独裁,他们早就受够了英国王室的专制;二是混乱,大伙儿一致认为这比独裁还要糟。他们建立复杂的制衡制,目的就是试图在两个极端中寻找平衡点,消弭大小州之间的差异。但是同时每个人又代表着各自的集团利益,在政治、经济利益分配方面各有立场,争吵不休。最终形成的美国宪法可说是"远见"和"妥协"的综合成果。事实上,很难说究竟是前者的远见卓识,还是后者的争权夺利对美国的政治体制贡献更大。
  游戏需有规则
  任何游戏都有自己的规则。生活这个博弈游戏自然也是如此,这就是法律、道德和各种成文或不成文的规章制度和惯例等等。当然,这些规则也不是一成不变的,它会随着情况的改变和人们的要求不断修修补补,但是只要规则存在,你就必须服从它,否则就要大吃苦头。
  其实,也可以说,那些企图通过非法手段获取利益的人具有某种"创新"精神--他们试图在社会通行的规则之外另搞一套。社会的游戏规则固然是稳定的、安全的,可是来得太慢了。如果我能一下子弄到一大笔钱,为什么还要一分一分地挣?应该说,这种不劳而获的心理是普遍的,可是为什么它没有成为社会的普遍行为呢?
  银行大盗总有某些传奇色彩,可是研究人类行为的社会学家告诉我们:抢劫银行可能是最不划算的人类行为之一。其成功率之低、风险之大(包括漫长的法律追溯期)、潜在的不确定因素之多,简直令人怀疑还要做这事的人是否具备正常的理智。
  据一项统计:每1000起这类案件中,真正得手的只有110,而且抢到的钱也少得可怜:平均不到2000元。按照一位长期研究银行抢劫案的犯罪学专家的想法,银行大盗们不该被送进监狱,而是该被送进疯人院。
  贴士:
  犯罪为什么不是好买卖?风险太大算一个,不利于财富积累算一个,缺乏必要的约束机制(这就是为什么罪犯不会适时收手的原因)也算一个。这些原因都可以归结为一点:作为个人,试图挑战规则总是要付出代价的。
  好规则与坏规则
  规则定得过死,游戏不好玩;可是如果规则宽松得形同虚设,游戏又玩不下去。制定规则的分寸,着实不好把握。好的规则是既能保证不出乱子,又能最大程度地给游戏者选择的空间。就如我们前面谈到的围棋,最简单的规则却创造了最复杂的艺术,即使在这个电脑时代,技术专家还是无法制造一台"围棋深蓝"打败人类,给我们的智慧保留了一些面子,为此不能不感谢这个"完美的制度"。
  在人类社会中影响最深远的问题是"效率"与"公平"的矛盾,也就是找到一种稳定且公正的方法来管理并分配各社会团体的所有成员,其利益、责任、义务、权利的方法。这些都是在政府出现之前就需要处理的。
  古老的政府形态都要确立一个领导人,他拥有绝对的权威,借用武力、共识、年龄、家世,或是宣称拥有神权以主导重大决策。在危急的情况下,一个受认可的领导者不论多么无能,都比完全没有领导人要来得好,所有的军队都明白这个道理。绝对权威也许并不公正,却可以发挥效用,特别当危机来临时更是如此。
  权威体制的另一种形态就是交由法律管理,在这样的制度下会产生一套严格而概括性的规范,这套规范可能自古老传统衍生而来,像各种宗教经典及汉谟拉比法典都是很好的例子,十诫则可算是一种精简版。
  至于其他规范来自于普遍共识,在这种情况下,所有的决策都只能达到最低标准,对置身其中的人可不一定是件好事。
  此外,还有一些规范是来自多数人的约束。这方式可能产生所谓的多数暴力,使得少数人的权益被牺牲掉。这个问题会因时间而变得微不足道,但在民主制度中是无法避免的。邱吉尔曾经表示,民主是无法避免的恶,这句话正说明了上述的两难。
  博弈论不是"策略大全"
  一本关于决策的书首先必须说服读者,理性地作决策是办得到的,而且也确实能改善决策品质。其次要告诉读者如何理性地作决策。我们常强调自己作重大决策都要经过深思熟虑,可是事实未必如此。如果再继续逼问下去,就只好承认,偶尔还是得碰碰运气,其实有时候并没有太多选择,因为命运这类因果的因素时常会影响决定,所以也只好见招拆招。不过,当情况危急,或者直线式思考也能发挥作用的时候,没有选择的决策还是很重要的,也会带来好结果。
  当然,游戏不能直接拿来作为生活教材,只能片面反映现实状况。歌德有一句名言,大意是抽象的理论是苍白的,而生命之树常绿。同样,抽象的人生模型也许可以反映理性的决策,但是未必能完全照搬于现实。
  就个体而言,由于决策人可自行决定并承担后果,因此,理论上应该有所谓的"最佳决策模式",但仍无法保证每次都能作出最好的选择。在人生的奋斗过程中,人们经常因一时冲动而作出决定,结果有好有坏,但事后却很少记得自己的选择是对还是错。至于那些相当重要的决策,我们要么庆幸自己做对了,要么就幻想着不然的话会如何如何。
  一样米养百样人,有些轻率、大胆、可爱的人会尝试各种不同的事物,成为畅销小说与电视剧中的英雄人物。而这些鲁莽的英雄在作者的保护下,不必为其胆大妄为付出应有的代价所谓鲁莽也就是做事不经大脑。他们可以从很高的地方跳下来却毫发无伤,现实生活并非如此另一种人则因优柔寡断、垂头丧气、害怕犯错,一辈子也成就不了任何值得留念的事迹。"好花堪摘须及时",就是告诉我们,要把握机会。还有些人只作极端保守的决策,竭尽所能避免错误,他们也一样无法完成任何值得回忆的事,而在这两种极端之间更存在着许多空间。
  本书的部分章节会以有趣的谜题作为开端,由简单到复杂,由理论到现实,并通过在不同情形下的决策和竞赛等实例,来了解已知事实的个人决策;并在此基础上,通过组织、国家博弈的案例,来解释多人、多重标准的决策过程。在这个过程中,我们不但可以了解人类理性决策的原则,也可以发现人类理性中的某些难以解决的问题,这就是某些让人头痛的"困境"。从个人到群体,乃至国家和人类社会,都不得不面临这些困境,而我们能否解决它们,还有待时间考验。
  值得注意的是,任何书本都无法向读者提供一本类似"策略大全"这样的东西。本书只能帮助读者建立博弈策略思维的意识,了解一些基本概念和原理。假如你想将它们运用于你自己面临的某一个具体情况,并且作出正确的决策和选择,那么你还得再做一些体现你自己创造性的工作。
  贴士:
  生活就是如此。我们常常自以为已经踏上了一条所谓"完美"的坦途,并准备心安理得地走下去,不经意间,却发现当我们试图以一种逻辑、一套方法、一条道路、一劳永逸地解决一切问题时,总难免会碰得头破血流。
第1章 囚徒困境
人类的自私天性,使他们陷入“囚徒困境”难以自拔。社会生活和商业竞争中的许多逻辑都与这一困境密切相关。
  合作是可能的吗
  在什么条件下才能从没有集权的利己主义者中产生合作?这个问题已经困惑人们很长时间。大家都知道人不是天使,他们往往首先关心自己的利益。然而,合作现象到处可见,它是文明的基础。那么,在每一个人都有自私动机的情况下,怎样才能产生合作呢?我们对这个问题的回答极大地影响了我们在与他人的社会、政治、经济交往时的思维和行为。
  最著名的回答是由托马斯·霍布斯给出的。他悲观地认为,在有政府存在之前,自然王国充满着由自私的个体的残酷竞争引发的矛盾,生活显得“孤独、贫穷、肮脏、野蛮和浅薄”。按照他的观点,没有集权的合作是不可能产生的。因此,一个有力的政府是必要的。
  曾经有一位人类学家写了一个关于伊克人的故事:伊克人从前是在乌干达北方山谷里采集、打猎的游牧民族,政府决定在那里开辟一个国家公园,于是,他们为法律所迫,不再在山谷间打猎,而成了耕种于山岭薄地的农民。
  生活环境和生活方式的变化,摧毁了他们原有的社会规范,伊克人因此把自己变成了一群不可救药的、让人讨厌的人,他们六亲不认、极端自私、毫无爱心。
  这些人似乎生活在一起,聚集在密集的小村子里,但他们实际上是孤寂的、互不联系的个人,没有明显的互相利用。他们也说话,但说出的只是些粗暴的强求和冰冷的回绝。他们什么东西都不共享,从来不歌唱。孩子一旦能走路了,就把他们赶出家门去抢劫。只要可能,随时都会把老年人抛弃,让他们饿死。行劫的孩子从无能为力的老人嘴边抢走食物。
  他们生儿育女时毫无爱心,甚至连粗疏的照顾都没有。他们在彼此的大门口排便。他们对邻居幸灾乐祸,只是见到别人不幸时他们才笑。他们常常笑,也就是常常有人倒霉。
  伊克人因此成为文学上的一个象征,用来代表整个人类失去信心、失去人情味后的命运将是什么。
  今天,世界各个国家在没有统一领导(联合国只是个协调机构)的情况下交往。因此,产生合作的必要条件就与国际政治的许多中心问题有关。最重要的就是安全困境:国家往往通过那些威胁到其他国家安全的手段来寻求自身的安全。这个问题体现在区域冲突和军备竞赛上。
  在日常生活中,我们会问自己还要请多少次那些从来不回请我们的客人来就餐。一个机构中的管理者为了得到一些回报而给另一位管理者提供帮助。一个得到绝密消息的新闻记者为了得到进一步的消息而对来源保密。如果只有两个公司同时生产一个产品,一个公司定较高的价格是为了期望另一个公司也能保持高价,因为这样,双方都能得到好处(当然消费者吃亏了)。
  合作中存在着一个根本问题,两个工业国家之间相互设置贸易壁垒便是一个很好的例子。由于自由贸易能给双方带来好处,因此,如果两个国家消除这些贸易壁垒都能受益。问题是,无论谁单方面采取行动消除自己一方的贸易壁垒,它都会发现自己处于不利于本国经济的贸易状态下。事实上,不论一个国家如何做,另一个国家保持它的贸易壁垒总是比较有利的。因此,每一个国家都有利益动机来保持贸易壁垒,尽管由此带来的结果比双方都合作差得多。
  这个根本问题就是:个体对自身利益的追求会损害整体的利益。为进一步了解大量的具有这类性质的情况,需要有一个方法来表示这些情况的共同点,同时避免陷于每个情况的具体细节,即著名的“囚徒困境”游戏。
  启示:一只河蚌正张开壳晒太阳,不料,飞来了一只鹬鸟,张嘴去啄它的肉,河蚌急忙合起两张壳,紧紧地钳住鹬鸟的嘴巴。鹬鸟说:“今天不下雨,明天不下雨,就会有死蚌肉。”河蚌说:“今天不放你,明天不放你,就会有死鹬鸟。”谁也不肯松口。有一个渔夫看见了,便走过来把它们一起捉走了——在对手的背后,往往还有更大的、共同的敌人。
  “囚徒困境”的故事
  1950年,数学家塔克任斯坦福大学客座教授,在给一些心理学家作讲演时,他用两个囚犯的故事,将当时专家们正研究的一类博弈论问题,作了形象化的解释。从此以后类似的博弈问题便有了一个专门名称——“囚徒困境”。
  借着这个故事和名称,“囚徒困境”广为人知,在哲学、伦理学、社会学、政治学、经济学乃至生物学等学科中,获得了极为广泛的应用。
  所谓的“囚徒困境”,大意是这个样子的。
  甲、乙两个人一起携枪准备作案,被警察发现抓了起来。警方怀疑,这两个人可能还犯有其他重罪,但没有证据。于是分别进行审讯,为了分化瓦解对方,警方告诉他们,如果主动坦白,可以减轻处罚;顽抗到底,一旦同伙招供,你就要受到严惩。当然,如果两人都坦白,那么所谓“主动交代”也就不那么值钱了,在这种情况下,两人还是要受到严惩,只不过比一人顽抗到底要轻一些。在这种情形下,两个囚犯都可以作出自己的选择:或者供出他的同伙,即与警察合作,从而背叛他的同伙;或者保持沉默,也就是与他的同伙合作,而不是与警察合作。这样就会出现以下几种情况(为了更清楚地说明问题,我们给每种情况设定具体刑期):
  如果两人都不坦白,警察会以非法携带枪支罪而将二人各判刑1年;
  如果其中一人招供而另一人不招,坦白者作为证人将不会被起诉,另一人将会被重判15年;
  如果两人都招供,则两人都会因罪名各判10年。
  这两个囚犯该怎么办呢?是选择互相合作还是互相背叛?从表面上看,他们应该互相合作,保持沉默,因为这样他们俩都能得到最好的结果——只判刑1年。但他们不得不仔细考虑对方可能采取什么选择。问题就这样开始了,甲、乙两个人都十分精明,而且都只关心减少自己的刑期,并不在乎对方被判多少年(人都是有私心的嘛)。
  甲会这样推理:假如乙不招,我只要一招供,马上可以获得自由,而不招却要坐牢1年,显然招比不招好;假如乙招了,我若不招,则要坐牢15年,招了只坐10年,显然还是以招认为好。无论乙招与不招,我的最佳选择都是招认。还是招了吧。
  自然,乙也同样精明,也会如此推理。
  于是两人都作出招供的选择,这对他们个人来说都是最佳的,即最符合他们个体理性的选择。照博弈论的说法,这是本问题的惟一平衡点。只有在这一点上,任何一人单方面改变选择,他只会得到较差的结果。而在别的点,比如两人都拒认的场合,都有一人可以通过单方面改变选择,来减少自己的刑期。
  也就是说,对方背叛,你也背叛将会更好些。这意味着,无论对方如何行动,如果你认为对方将合作,你背叛能得到更多;如果你认为对方将背叛,你背叛也能得到更多。你背叛总是好的。这是一个有些让人寒心的结论。
  为什么聪明的囚犯,却无法得到最好的结果?两个人都招供,对两个人而言并不是集体最优的选择。无论对哪个人来说,两个人都不招供,要比两个人都招供好得多。
  “囚徒困境”这个问题为我们探讨合作是怎样形成的,提供了极为形象的解说方式,产生不良结局的原因是因为囚犯二人都基于自私的角度开始考虑,这最终导致合作没有产生。
  在这个游戏中,你将如何做呢?设想你认为对方将合作,你可以选合作,那么你将得到“对双方合作的奖励”。当然,你也可以选背叛,得到“对双方背叛的惩罚”。
  换言之,如果你认为对方合作,那么你背叛将能得到更多的好处。反过来,如果你认为对方将背叛,那么你也有两个选择,你选择合作,那么你就是“笨蛋”;你选择背叛,就会得到“对双方背叛的惩罚”。因此,对方背叛,你也背叛将会更好些。这就是说,无论对方如何行动,你背叛总是好的。到现在为止,你似乎知道该怎样做;但是,要知道相同的逻辑对另一个人也同样适用。
  因此,另一个人也将背叛而不管你如何做。这样,你们将是双方背叛,只能一起坐牢很久,这比你们双方合作所能得到的“奖励”(只需短期服刑)差很多。个体的理性导致双方得到的比可能得到的少,这就是“困境”。
  启示1:在“囚徒困境”中表现最好的策略直接取决于对方采用的策略,特别是取决于这个策略为发展双方合作留出多大的余地。独立于对方所用策略之外的最好决策规则是不存在的。
  启示2:“囚徒困境”是一些非常普遍而有趣的情形的简单抽象。在这些情形中,从个人的角度来说,背叛是最好的选择,但双方背叛会导致不甚理想的结果出现。
  选1还是选2
  这个问题不仅让商人们苦恼不堪,也同样折磨着商学院的学生们。一位教授让自己班上的27名学生进行一个博弈,而这个博弈会把他们带入“囚徒困境”。
  假设每一个学生都拥有一家企业,现在他必须决定自己应该1,生产高质量商品来帮助维持较高价格,还是2,生产假货来通过别人所失换取自己所得。根据愿意选择1的学生总数,将收入分给每个学生。
  这是一个“事先设计好”的博弈,目的是确保每个选择2的学生总比选择1的学生多得50美分,这个设定当然有现实意义,生产假货成本要比高质量商品低。不过,选择2的人越多,他们的总收益就会越少,这个假设也有道理:假货太多,就会使市场混乱,产品信誉降低。
  假设全体27名学生一开始都打算选择1,那么他们各得1.08美元。假设有一个人打算偷偷改变决定,选择2,那么,选择1的学生就有26名,各得1.04美元比原来少了4美分,但那个改变主意的学生就能得到1.54美元比原来多了46美分。
  实际上,不管最初选择1的学生总数是多少,结果都是一样,选择2是一个优势策略。每一个改选2的学生都会多得46美分,同时会使他的26个同学分别少得4美分,结果全班收入会少得58美分。等到全体学生一致选择自私的策略,尽可能使自己的收益达到最大,他们将各得50美分。反过来,假如他们联合起来,协同行动,不惜将个人的收益减至最小,他们将各得1.08美元。你会怎么抉择?
  演练这个博弈的时候,起初不允许集体讨论,后来允许一点讨论,以便达成“合谋”,结果愿意合作而选择1的学生总数从3到14不等。在最后的一次带有协议的博弈里,选择1的学生总数是4,全体学生的总收益是15.82美元,比全体学生成功合作可以得到的收益少了13.34美元。“我这辈子再也不会相信任何人了。”领导合谋的学生这样嘟囔。那么,他自己又是怎么选择的呢?“噢,我选了2。”他答道。
  政治家们也会变成同样的困境中的囚徒。1984年,大多数人都很明白,美国联邦预算赤字实在太高了。裁减必要的巨额开支在政治上并不可行,因此,大幅增税应该是不可避免的。不过,谁愿意担当政治领导角色带头主张这么做呢?民主党总统候选人沃尔特·蒙代尔想要在自己的竞选活动当中为这么一个政策转变制造声势,却被罗纳德·里根打得落花流水,因为里根许诺绝不加税。里根当选之后,这个议题陷入僵局,无论你怎么划分政治派别,民主党对共和党,众议院对参议院,还是政府对国会,各方都希望把提出加税的主动权推给对方。
  双方都知道,联合起来共同倡议加税和削减开支,可以共同分享荣誉,分担谴责。这么做与同时坚守被动,眼看巨额赤字上升而无所作为相比,显然会对整个国家更有利,即便对他们自己的政治生涯从长期而言也会有好处。反过来,假如自己提出这样的政策,而对方坚守被动局面,并不附和,自己就会落得最糟糕的下场。从各方的角度看,最好的结果在于,对方有人提出加税和削减开支,并因此不得不付出政治代价。
  我们可以将这个情况变成一个博弈。双方分别是民主党和共和党。为了表示谁更加倾向于怎么做,显而易见,对每一方而言,保持被动是一个优势策略。而这正是真实发生的情况:这一届国会根本没有作出任何加税决定。这就是为什么美国是世界上最富有的国家,却同时又是最大的债务国的原因。
  启示:这些情景使我们回想起尤塞里安在约瑟夫·海勒的小说《第22条军规》当中的境遇。故事的背景是:第二次世界大战胜利在望,可是为了给自己捞取功劳,一个飞行大队的指挥官没完没了地提高下属的任务定额,弄得所有人都人心惶惶。投弹手尤塞里安不想成为胜利前夕最后一批牺牲者,千方百计逃避执行任务。他的上级军官问:“可是,假如我方士兵都这么想呢(意思是“你不扛枪,我不扛枪,谁来保卫家”)?”可尤塞里安答道:“那我若是不这么想,岂不就成了一个大傻瓜?”
  学生与囚犯
  “囚徒困境”不仅可以解释政治、经济领域的竞争,在广阔的社会生活中,这一困境的影响也随处可见。例如,我国目前的基础教育,可以说就是一个“囚徒困境”。
  最近10多年来,应试教育的弊端已经为社会公认,目前要求“减负”的不仅是中小学生和学生家长,也是教育专家和教育管理部门,也可以说是全社会的呼声。教育管理部门这几年做了一系列的工作,但收效甚微,并没有从根本上解决问题。
  很少有人否认,学校不断给学生增加负担是目前教育的实际状况。同样,大家普遍认为呆板僵化的应试教育扼杀了学生的创造性。无论是专家还是家长,都在呼吁改变应试教育的模式。但是无论你是否意识到教育有问题,你的小孩都必须接受这个教育。如果没有改变整体性的教育体制,个别人、个别学校、个别地方单独改变都可能使其付出代价。每个家长都会这样想:尽管这种教育不好,但是其他小孩采取的是这种教育,衡量标准(如中考、高考)也是依据这种教育,我的小孩如不这样做,在竞争方面就会吃亏。因此,每个孩子和家长已经不知不觉地进入了一个囚徒困境。
  如果我国现有的考试制度没有改变,“减负”就是空谈。现在假设国家严格规定:所有的学生都“减负”,少留作业,不补课、不做其他的练习题,是否能解决问题?可以肯定的是,规定即使一时有效,但效果会很快消失,最终极可能的结果是规定成了一纸空文,学生还是要背大书包、拼命做课外作业和各种练习题。
  可以说,减负的状态是不稳定的,而“增负”的状态是稳定的均衡。原因就是,目前教育的博弈结构规定了各种行动或行为的收益或好处:获得高分的会进入好的初中、高中,进入好的初中、高中的学生可以考高分进入好的大学。而对于老师和学校来说,学生的升学率高意味着名利双收、饭碗牢靠;如果整个规则都倾向“增负”,“负”又如何减得下来?
  从理论上说,摆脱“增负”的囚徒困境的惟一办法是改变教育的博弈结构,即改变博弈规则或游戏规则,让“全面发展”的学生获得更多的机会。可是要在实践中达到这个效果,却又困难重重,除了教育投入不足、师资水平不高等现实问题,最大的难点,是如何找到一个更科学、合理,同时又能保证公平的新的“游戏规则”。
  至少在现在,这还是个没有答案的问题。
  启示:管理的目的不是让每个人做到最好,而是避免内耗过多。
  烟草商为何不反对禁止烟草广告
  从上面的例子来看,一旦陷入“囚徒困境”,其中任何一方都无法独善其身,即使双方都有合作意愿,也很难达成合作。那么,有什么办法可以使我们逃脱“困境”?稍后将详细讨论这个问题,这里只说一个外力干预打破困境的例子,它具有一些背谬甚至滑稽的色彩。
  1971年,在“禁烟运动”的声势下,美国国会通过了禁止在电视上做烟草广告的法律。令许多人奇怪的是,这一回财大气粗的烟草公司反应相当平静,并没有动用其庞大的社会资源和影响力阻止这个法律的通过。而且,后来的统计资料表明:尽管烟草广告因受到限制而减少,可是烟草公司的利润却提高了。
  你是否知道烟草公司为什么不反对、甚至可能还欢迎这项法律?因为这个禁令使他们从“囚徒困境”中解放了出来。
  烟草行业同样竞争激烈,为了争夺市场,各大烟草公司都必须大做广告。为此,它们每年都要花费巨额广告费用,这无疑降低了它们的利润水平。也就是说,如果烟草公司都不做广告,它们的利润要更高。可是,如果其中一家公司不做广告,它的市场份额就会被其他公司抢走。这正是一个囚徒困境:你合作,对方不合作,你就吃亏了。在这种情况下,做广告就是优势策略。那么,烟草公司能否达成都不做广告的协议呢?不能,因为谁遵守协议,就很可能被对手耍弄。
  现在好了,烟草公司做不到的,国家为它做了:法律起到了协议的作用,而政府承担了监督的成本,借用过去的一句话说,是“起到了阶级敌人想起而起不到的作用”,烟草公司又何乐不为呢?
  你可能会说:广告不但有竞争的作用,也有开拓市场的作用,在这方面,烟草公司不是也有损失吗?当然如此。但是注意这个法律是有限的,被禁止的只是电视广告,而不包括其他媒体;而且只禁止在美国做电视广告,而不包括其他国家。(几年前,我们不是都看过气势不凡的“这里就是万宝路的世界”这个电视广告吗?)对于已经比较成熟的市场,像香烟这样的商品,广告的开拓作用是有限的。现在,美国烟草公司已经把开拓的目标放在了广大的国外市场。
  一定是坏事吗
  “囚徒困境”确实揭示了自私对合作的破坏作用,但是正如“有一利必有一弊”这句话,“囚徒困境”给我们带来的也并不全是坏消息。
  作为一个比喻,我们会为囚犯不能合作而遗憾;可是如果它发生在现实中,我们就巴不得他们不能合作。如果两个危险的罪犯通过合作逃脱了法律制裁,一定会给社会造成更大的危害。
  同样,如果商家通过合谋控制物价,我们就不能享受合理的价格,这也会大大增加人们的消费成本,降低人们的生活水平。
  从经济的角度来看,如果几个大企业联手或勾结起来形成对行业的垄断,谋求最大利润,那么它们结成的联盟称为“卡特尔”。卡特尔因为由自主的企业组成,所以很不稳定。以产量竞争来说,组成卡特尔,就要讨价还价,达成限制产量的协定,总产量因为协定的限制降低了,价格也就会上去,可能比结成卡特尔以前高出很多。这时候,谁要是偷偷地扩大产量,他可能占到很大的便宜。卡特尔联盟和组成联盟的成员之间的关系,不是上下级的关系,不是谁服从谁的关系。卡特尔的成员都是独立的经济主体,只不过为了利益关系走到一起来了。偷偷违反协议增加产量或提供优惠会捞到很大的便宜,这就促使一些成员违反协议。所以说,卡特尔本身就提供了瓦解卡特尔的激励。
  在人类经济活动中,除了石油输出国组织欧佩克一度比较成功以外,卡特尔成功的例子实在很少。
  欧佩克之所以比较成功,很大的原因在于它的最大的成员国沙特阿拉伯“自律”较严。石油产量最大的沙特阿拉伯自律严了,在一段时间内就可以避免其他成员违反协议,造成危害卡特尔的结果。沙特阿拉伯为什么自律较严,我们在后面将会谈到。
  从政府管制的角度来看,卡特尔在许多情况下是非法行为。例如近年来的“家电”大战,电视、空调等价格一路下跌,残酷的价格战让家电企业吃不消,几年前,9家企业曾经一起协议制定最低价格,规定什么类型的家电至少要卖多少钱,不许把价格降到比协议规定的价格还低的水平,其目的无非是不要竞相降价,以免大家的利润都下降。这就是卡特尔行为。很快,国家计委就发出文件,指出该决议非法。这主要是不许企业联手抬高商品价格损害消费者的利益。发达国家对垄断现象和卡特尔现象的限制往往更加严厉。最典型的例子是20世纪80年代,经过多年的辩论和漫长的立法程序,美国把原来垄断电话通讯市场的AT&T公司强行分割为几个公司。分割以后,由于公司之间的竞争,电话服务的价格很快就下降了一半,再加上竞争激励出来的技术进步,现在用电话卡从美国往中国打电话一分钟只要几美分。
  从原则上说,政府鼓励企业之间的竞争,因为企业竞争会给广大消费者带来很大的好处。比如我国电话服务市场长期是垄断的,所以直到前几年,在我国许多地方,装一部电话不仅要花三四千元,而且还要排队等待不少时间才能装上。但是在许多发达国家,如果你要装电话,只需通知电话公司,马上就会给你装好,完全不用缴纳什么安装费。由于竞争,如果你把选择的电话服务从原来的公司撤出来转到另一家公司,新的公司还会给你奖励,比如说奖励你30分钟的国内长途电话费,再加一件T恤什么的。现在,我国电话服务市场开放竞争,消费者固然马上得到实惠,服务水平也在明显上升。再如过去我国移动电话市场原来基本上是一家垄断,当时购置、使用一部移动电话的费用高达一两万元,是典型的“奢侈品”。后来打破了这一垄断,允许几家企业共同经营,移动电话的费用很快就降到千元左右,几乎成了人手一部的“必需品”。
  初看起来,鼓励竞争似乎对企业不利,使企业不容易赚钱。但是只有这样,才能激励企业改善管理,开发技术,努力以较低的成本生产质量较好的产品。提高企业的市场竞争力。竞争力不是天生就有的,它本身就是竞争的结果。若不首先让我们的企业在国内市场好好竞争,他们在国际市场就不可能有强大的竞争力。
  启示:曾经有两个饥饿的人,他们从一位智者那里得到了一根鱼竿和一篓鲜鱼,得到那篓鲜鱼的人就在原地把鱼煮熟了一口气吃完,解决了饥饿问题,可是很快就又感到肚内空空,最终饿死在了空空的鱼篓旁。而另一个得到鱼竿的人则提着鱼竿向遥远的大海走去,当他终于来到了大海边的时候,他也用尽了自己的最后一点力气。不久之后,同样是两个饥饿的人,他们也从智者那里得到了同样的一根鱼竿和一篓鲜鱼。不同的是他们并没有分头行动,而是一起去寻找遥远的大海。每到饥饿的时候,他们就会从鱼篓中拿出一条鱼来吃。当他们终于来到了大海边的时候,这两个人就拿着那根鱼竿开始了靠捕鱼为生的日子。
第2章 优势、劣势与均衡
  当你身处类似"囚徒困境"这样的同时行动的博弈中,你的最佳策略是什么?决定胜负的因素又是什么?双方的策略选择往往是有迹可遁的,并形成某种"定式"--即均衡。
  新闻大战与博弈策略
  势者,因利而制权也。--《孙子兵法》
  前面所引的这句话的意思就是:所谓(有利的)形势,即根据对我有利的情况采取措施和行动。
  当你身处类似"囚徒困境"这样的同时行动的博弈(跟棋牌之类的交替行动博弈不同)你的最佳策略是什么?决定胜负的因素又是什么?双方的策略选择往往是有迹可循的,并形成某种"定式"--即均衡。
  为了说明博弈如何达到"均衡"的结果,我们可以通过两份杂志(以美国的两大杂志《时代》和《新闻周刊》为例)来演示这一过程。
  每个星期,《时代》和《新闻周刊》都会暗自较劲,要做出最引人注目的封面故事。一个富有戏剧性或者饶有趣味的封面,可以吸引站在报摊前的潜在买主的目光。因此,每个星期,《时代》的编辑们一定会举行闭门会议,选择下一个封面故事。
  他们这么做的时候,很清楚在此时《新闻周刊》的编辑们也在关起门来开会,选择下一个封面故事。反过来,《新闻周刊》的编辑们也知道《时代》的编辑们正在做同样的事情,而《时代》的编辑们也知道《新闻周刊》的编辑们知道这一点......这两家新闻杂志投入了一场策略博弈。由于《时代》与《新闻周刊》的行动是同时进行的,双方不得不在毫不知晓对手决定的情况下采取行动。等到彼此发现对方做了什么,再想做什么改变就太迟了。当然,这个星期的输家下个星期很可能竭力反扑,不过,等到那时,说不定已经出现了一个完全不同的新的故事模式,开始了一场完全不同的博弈。
  要注意这种同时进行的博弈与相继(一先一后)行动的博弈所要用到的策略思维和行动是完全不同的。对于像下棋这样的一人一步的相继行动的博弈,每个参与者都必须向前展望,估计对手的意图,从而倒后推理,决定自己这一轮应该怎么走。这是一条线性的推理链:"假如我这么做,他就会那么做--若是那样,我会这么反击",依此类推。也就是说,你怎么走,完全取决于对手的上一步行动。
  而在同时行动的博弈里,没有一个参与者可以在自己行动之前得知另一个参与者的整个计划。在这种情况下,互动推理不是通过观察对方的策略进行,而是必须通过看穿对手的策略才能展开。要想做到这一点,单单假设自己处于对手的位置会怎么做还不够。即便你那样做了,你只会发现,你的对手也在做同样的事情,即他也在假设自己处于你的位置会怎么做。因此,每一个人不得不同时担任两个角色,一个是自己,一个是对手,从而找出双方的最佳行动方式。与一条线性的推理链不同,这是一个循环--"假如我认为他认为我认为......",诀窍在于怎样破解这个循环。
  启示:有一个著名的寓言:两个人都在喝水,都喝了半杯水,一位说:"我已经喝了半杯。"另一位说:"我还有半杯水没有喝。"他们好像说的是一回事,然而聪明人都可以听出他们说的又不是一回事,就像有些人说:"我的钱已经用了一半。"而另一些人说:"我的钱还有一半没有用。"
  同时行动的优势策略
  你怎样才能看穿所有那些错综复杂而又看不见的策略呢?首先,你不要把其他参与者的未知行动视做像天气那样,具有与个人无关的不确定性。上班之前,你可能收听天气预报,知道今天是否下雨,你会利用这个信息去决定要不要带一把雨伞去上班。当然,你带不带伞,丝毫不能影响天下不下雨。但为封面故事而作决定的概率则完全是另外一回事。
  区别在于,《时代》的编辑对《新闻周刊》有一个非常中肯的了解--另一个杂志的编辑与天气不同,他们是策略的博弈参与者,就跟《时代》的编辑自己一样。即便一个编辑不可能真的观察到另一个杂志的决定,他也可以通过另一个杂志的视角思考这个问题,尝试确定它现在一定在做什么。
  我们可以提供一个单一的、统一的原理,为相继行动(即有先有后)的博弈确定最佳策略。这就是向前展望,倒后推理。在这里,事情不会那么简单。不过,关于同时行动必不可少的思维方式的思考可以总结为指导行动的三个简单法则。反过来,这些法则又基于两个简单概念:优势策略与均衡。
  举个简单的例子:你是一名足球前锋,你和队友形成了二打一的局面,你面对着对方的后卫,你可以选择带球突破,也可以选择传球给队友,一般情况下,传球过人的成功率更大,那么传球就是你的优势策略。即某些时候它胜于其他策略,且任何时候都不会比其他策略差。一般而言,假如一个球员有某一做法,无论其他球员怎么做,这个做法都会高出一筹,那么这个球员就有一个优势策略。假如一个球员拥有这么一个策略,他的决策就会变得非常简单;他可以选择这个优势策略,完全不必担心其他对手怎样行事。因此,寻找优势策略是每一个人的首要任务。
  回到《时代》对《新闻周刊》的例子,假定本周有两个大新闻:一是国会就预算问题吵得不可开交;二是发布了一种据说对艾滋病有特效的新药。编辑们选择封面故事的时候,首要考虑的是哪一条新闻更能吸引报摊前的买主(订户则无论采用哪一条新闻封面故事都会买这本杂志)。在报摊前的买主当中,假设30%的人对预算问题感兴趣,70%的人对艾滋病新药感兴趣。这些人只会在自己感兴趣的新闻变成封面故事的时候掏钱买杂志;假如两本杂志用了同一条新闻做封面故事,那么感兴趣的买主就会平分两组,一组买《时代》,另一组买《新闻周刊》。
  现在,《时代》的编辑可以进行如下推理:"假如《新闻周刊》采用艾滋病新药做封面故事,那么,假如我采用预算问题,我就会得到整个'预算问题市场'(即全体读者的30%);假如我采用艾滋病新药,我们两家就会平分'艾滋病新药市场'(即我得到全体读者的35%),因此,艾滋病新药为我带来的收入就会超过预算问题。假如《新闻周刊》采用预算问题,那么,假如我采用同样的故事,我会得到15%的读者,假如我采用艾滋病新药,就会得到70%的读者;这一次,第二方案同样会为我带来更大的收入。因此,我有一个优势策略,就是采用艾滋病新药做封面。无论我的对手选择采用上述两个新闻当中的哪一个,这一策略都会比我的其他策略更胜一筹。"
  启示:一家尖端科技公司的某部经理,询问副总工程师新产品的市场成功率。他得到的答案是"大约50%",这位经理回答说:"太高了,最好设定在30%,否则,我们会因太保守而不敢放手做。"
  当对手有优势策略时
  在这个博弈里,双方都有一个优势策略。
  以策略观点来看,各方均有一个优势策略的博弈是最简单的一种博弈。虽然其中存在策略互动,却有一个可以预见的结局:全体参与者都会选择自己的优势策略,完全不必理会其他人会怎么做。但这一点并不会降低参与或者思考这种博弈的趣味性。
  在囚徒困境中,两个参与者都有一个优势策略,只不过这股压倒一切的力量最终将他们引向了一起倒霉的结局。这就提出了一个很有意思的问题:参与者怎样合作才能取得一个更好的结果?
  有时候,某参与者有一个优势策略,其他参与者则没有。我们只要略微修改一下《时代》与《新闻周刊》的封面故事大战的例子,就可以描述这种情形。假设全体读者略偏向于选择《时代》。假如两个杂志选择同样的新闻做封面故事,喜欢这个新闻的潜在买主当中有60%的人选择《时代》,40%的人选择《新闻周刊》。
  对于《时代》,艾滋病新药仍然是优势策略,但对于《新闻周刊》就不再是了,因为《时代》的优势策略是选择艾滋病新药这个主题,如果它也做同样选择,那么只能得到28%的读者,小于选择预算问题的30%。
  换言之,《新闻周刊》的最佳选择不再与《时代》的策略无关。假如《时代》选择艾滋病新药,《新闻周刊》选择预算问题就能得到更好的销量,对于《新闻周刊》,预算问题市场总比新药市场要大。
  《新闻周刊》的编辑们不会知道《时代》的编辑们将会选择什么,不过他们可以分析出来。因为《时代》有一个优势策略,那一定就是他们的选择。因此,《新闻周刊》的编辑们可以很有把握地假定《时代》已经选了艾滋病新药,并据此选择自己的最佳策略,即预算问题。
  由此可见,只有一方拥有优势策略的博弈其实也非常简单。拥有优势策略的一方将采用其优势策略,另一方则针对这个策略采用自己的最佳策略。
  优势策略与对手策略无关
  现在,既然我们已经介绍了优势策略的概念,就有必要强调可用来确定什么不是优势策略的两点特征。
  人们很容易就会弄错,不知道优势策略的优势究竟是对什么而言的。"优势策略"的优势是指你的这个策略对你的其他策略占有优势,而不是对你的对手的策略占有优势,无论对手采用什么策略。
  某个参与者如果采用优势策略,就能使自己获得比采用任何其他策略更好的结果。回顾封面大战的例子,《时代》和《新闻周刊》都有一个优势策略,但双方都不可能得到比对方更高的销量。
  另一个常见的误解在于,一个优势策略必须满足一个条件,即采用优势策略得到的最坏结果也要比采用另外一个策略得到的最佳结果略胜一筹。在前面讲到的例子里,所有优势策略凑巧都满足这个条件。按照最初设定的条件,《时代》假如采用艾滋病新药做封面故事,最坏的结果是得到35%的市场份额;他们若采用预算问题做封面故事,可能得到的最佳结果是30%的市场份额。但这并非优势策略的一个普遍特征。
  现在让我们想像一下《时代》和《新闻周刊》之间爆发了一场价格战。假设每本杂志的制作成本是l美元,且售价只有两个可能的价位选择,分别是3美元(意味着每本利润为2美元)和2美元(意味着每本利润为l美元)。假设顾客永远倾向于选择价格较低的杂志,且在杂志价格相同的时候两种杂志各得一半读者。杂志定价3美元的时候,读者总数是500万;杂志价格降到2美元,读者总数将升到800万。这时,你可以轻易算出《时代》在四种可能出现的价格组合里将会获得多少利润,即如果你们都是3美元,利润都是500万;一方降价至2美元,独得800万,另一方分文不得;如果双方都降,每一方利润都是400万。
  有点像"囚徒困境"是不是?的确,在囚徒困境中,双方的优势策略都是招供,在这里都是降价。
  《时代》的优势策略是定价2美元(《新闻周刊》亦如此)。《时代》采用这个优势策略可能得到的最坏结果是赢利400万美元。但是,采用另外一个策略可能得到的最佳结果将超过这一数字,达到500万美元。问题是比较这两个数字毫无意义。500万美元的数字是在两本杂志同时定价3美元的时候出现的;不过,假如这时《时代》把价格降到2元,利润还会更高,达到800万美元。
  我们可以把这些例子归纳为一个指导同时行动的博弈的法则。即:假如你有一个优势策略,请照办。
  不要担心你的对手会怎么做。假如你没有一个优势策略,但你的对手有,那么就当他会采用这个优势策略,相应选择你自己最好的做法。
  提醒一句:我们已经确立了同时行动的博弈的优势策略的概念。若是换了相继行动的博弈,采用优势策略的时候就要格外留神。因为策略互动的本质已经改变,优势策略的概念也会完全不同。假设我们说你有一个优势策略,无论你的对手选择怎么做,你按照这个策略做都比采用其他策略更好。若是相继行动,而你的对手先行,你就应该一直选择自己的优势策略。正如我们已经说过的那样,这是你对你的对手每一个行动的最佳对策,因此也是对现在他选择的这个特定行动的最佳对策。但是,假如你先行,你就不会知道你的对手将会采取什么行动。他会观察你的选择,同时作出自己的决定,因此你有机会影响他的行动。某些情况下,若是采用优势策略以外的策略,你可能更有效地施加这种影响。
  启示:马太效应:凡是少的,连他仅有的也夺过来;凡是多的,就加给他,让他更多。在各个领域,马太效应畅行无阻--你不在上面,就在下面。而一旦成功地利用它,就可以达到事半功倍的效果。
  追求最佳,避免最差
  不是所有博弈都有优势策略,哪怕这个博弈只有一个参与者。实际上,优势与其说是一种规律,不如说是一种例外。虽然出现一个优势策略可以大大简化行动的规则,但这些规则却并不适用于大多数现实生活中的博弈。这时候我们必须用到其他原理。
  一个优势策略优于其他任何策略,同样,一个劣势策略则劣于其他任何策略。假如你有一个优势策略,你可以选择采用,并且知道你的对手若是有一个优势策略他也会照办;同样,假如你有一个劣势策略,你应该避免采用,并且知道你的对手若是有一个劣势策略他也会规避。
  假如你只有两个策略可以选择,其中一个是劣势,那么另一个一定是优势策略。因此,与选择优势策略做法完全不同的规避劣势策略做法,必须建立在至少一方拥有至少三个策略的博弈的基础之上。
  在你没有优势策略的情况下,你要做的就是剔除所有劣势策略,不予考虑。如此一步一步做下去。
  假如在这么做的过程当中,在较小的博弈里出现了优势策略,应该一步一步挑选出来。假如这个过程以一个独一无二的结果告终,那就意味着你找到了参与者的行动指南以及这个博弈的结果。即便这个过程不会以一个独一无二的结果告终,它也会缩小整个博弈的规模,降低博弈的复杂程度。
  利用优势策略方法与劣势策略方法进行简化之后,整个博弈的复杂度已经降到最低限度,不能继续简化,而我们也不得不面对循环推理的问题。你的最佳策略要以对手的最佳策略为基础,反过来从你的对手的角度分析也是一样。接下来我们将会介绍解开这个循环的技巧,最终走出这个循环。
  博弈的均衡--纳什均衡
  我们已经找到了一个策略组合,其中,各方的行动就是针对对方行动而确定的最佳对策。一旦知道对方在做什么,就没人愿意改变自己的做法。博弈论学者把这么一个结果称为"均衡"。这个概念是由普林斯顿大学数学家约翰·纳什(也就是电影《美丽心灵》的主人公)提出的,因此被称为"纳什均衡"。
  纳什均衡是博弈分析中的重要概念。1950年,还是一名研究生的纳什写了一篇论文,题为《n人博弈的均衡问题》,该文只有短短一页纸,可就这短短一页纸成了博弈论的经典文献。在这篇论文中,纳什给出了博弈均衡的定义,即纳什均衡。
  那么,什么是纳什均衡呢?简单说就是,一策略组合中,所有的参与者面临这样的一种情况:当其他人不改变策略时,他此时的策略是最好的。也就是说,此时如果他改变策略,他的支付将会降低。在纳什均衡点上,每一个理性的参与者都不会有单独改变策略的冲动。
  在囚徒困境中存在惟一的纳什均衡点,即两个囚犯均选择"招认",这是惟一稳定的结果。
  有些博弈的纳什均衡点不止一个。如下述"夫妻博弈"(或称性别之战)中有两个纳什均衡点。丈夫和妻子商量晚上的活动。丈夫喜欢看拳击,而妻子喜欢欣赏歌剧。但两人都希望在一起度过夜晚。在这个"夫妻博弈"中有两个纳什均衡点:(歌剧,歌剧),(拳击,拳击)。在有两个或两个以上纳什均衡点的博弈中,其最后结果难以预测。在"夫妻博弈"中,我们无法知道,最后结果是一同欣赏歌剧还是一起去看拳击。
  纳什均衡是博弈论中的重要概念,同时也是经济学的重要概念。
  诺贝尔经济学奖获得者萨缪尔森有一句幽默的话:你可以将一只鹦鹉训练成经济学家,因为它所需要学习的只有两个词:供给与需求。博弈论专家坎多瑞引申说:要成为现代经济学家,这只鹦鹉必须再多学一个词,这个词就是"纳什均衡"。由此可见纳什均衡在现代经济学中的重要性。纳什均衡不仅对经济学意义重大,对其他社会科学意义也同样重大。
  启示:通俗地说,纳什均衡含义就是:给定你的策略,我的策略是最好的策略;给定我的策略,你的策略也是你最好的策略。即双方在对方给定的策略下不愿意调整自己的策略。
  纳什均衡有什么用
  纳什的想法成为我们指导同时行动博弈的最后一个法则的基础。这个法则如下:走完寻找优势策略和剔除劣势策略的捷径之后,下一步就是寻找这个博弈的均衡。
  我们还要解释一下这个法则。为什么一个博弈的参与者非得达到这么一个结局呢?我们可以说出好几个理由。没有一个理由本身就有足够的说服力,不过,只要把几个理由结合起来,就能形成一个有力的答案。
  首先,存在避免循环推理的必要,因为循环推理帮不上忙。均衡在没完没了的"我知道他知道我知道......"的循环里是稳定不变的,这使参与者对其他人的行动的估计能保持连贯性。各方正确预计别人的行动,并且确定自己的最佳对策。
  均衡策略的第二个好处出现在零和博弈中。在这种博弈里,参与者的利益严格相悖。你的对手不能通过引诱你采取一个均衡策略而得到任何好处。你已经充分考虑到他们对你正在做的事情会有什么样的最佳对策。
  第三个理由是,均衡方法注重实效。要想知道梨子的滋味,就要吃一吃。我们将会利用均衡方法讨论许多博弈。希望读者来检验它对博弈结果的预测以及这种思维方式产生的行为指导方针。相信这么做会使我们的分析更有意思,比抽象地讨论均衡方法的优点更有意义。
  最后,可能存在一个对均衡概念的误解,希望各位可以避免。当我们说博弈的结果是均衡,并不一定是对参与者最有利的结果,更不意味着是对整个社会作为一个整体而言最有利的结果。有利或者不利的评价永远属于另外一个问题,答案视各个案例的具体情况而各有不同。
  在经济学中,均衡意即相关量处于稳定值。在供求关系中,某一商品市场如果在某一价格下,想以此价格买此商品的人均能买到,而想卖的人均能将商品卖出去,此时我们就说,该商品的供求达到了均衡。此时的价格可称之为均衡价格,产量称之为均衡产量。均衡分析是经济学中的重要分析。
  那么什么是博弈论的均衡呢?所谓博弈均衡,它是一稳定的博弈结果。均衡是博弈的一结果,但不是说博弈的结果都能成为均衡。博弈的均衡是稳定的,因而是可以预测的。
  纳什均衡是一最常见的均衡。它的含义是:在对方策略确定的情况下,每个参与者的策略都是最好的,此时没有人愿意先改变自己的策略。
  在上面的"买--卖"的博弈中,可以解释为什么在现实中讨价还价后买卖能做成的原因,因为这对双方来说都是最优选择。同时在"买--卖"博弈中,其均衡对双方来说是全局最优的。
  警察与小偷
  是不是所有的博弈均存在纳什均衡点呢?不一定存在纯策略纳什均衡点--所谓纯策略是指参与者在他的策略空间中选取惟一确定的策略。但至少存在一个混合策略均衡点--所谓混合策略是指参与者采取的不是惟一的策略,而是其策略空间上的概率分布。这就是纳什于1950年证明了的纳什定理。我们下面将在"警察与小偷"的博弈中给出混合策略的说明。
  在西部片里,我们常能看到这样的故事:某个小镇上只有一名警察,他要负责整个镇的治安。现在我们假定,小镇的一头有一家酒馆,另一头有一家银行。再假定该地有一个小偷,要实施偷盗。因为分身乏术,警察一次只能在一个地方巡逻;而小偷也只能去一个地方。假定银行需要保护的财产价格为2万元,酒馆的财产价格为1万元。若警察在某地进行巡逻,而小偷也选择了去该地,就会被警察抓住;若警察没有巡逻的地方而小偷去了,则小偷偷盗成功。警察怎么巡逻才能使效果最好?
  一个明显的做法是,警察对银行进行巡逻,这样,警察可以保住2万元的财产不被偷窃。可是如此,假如小偷去了酒馆,偷窃一定成功。这种做法是警察的最好做法吗?有没有对这种策略改进的措施?
  这个博弈没有纯策略纳什均衡点,而有混合策略均衡点。这个混合策略均衡点下的策略选择是每个参与者的最优(混合)策略选择。
  对于这个例子,对于警察的一个最好的做法是,警察抽签决定去银行还是酒馆。因为银行的价值是酒馆的两倍,所以用两个签代表银行,比如如果抽到1、2号签去银行,抽到3号签去酒馆。这样警察有2/3的机会去银行进行巡逻,1/3的机会去酒馆。而小偷的最优选择是:以同样抽签的办法决定去银行还是去酒馆偷盗,只是抽到1、2号签去酒馆,抽到3号签去银行,那么,小偷有l/3的机会去银行,2/3的机会去酒馆。
  警察与小偷之间的博弈,如同小孩子之间玩"剪刀石头布"的游戏,在这样一个游戏中,不存在纯策略均衡,对每个小孩来说,自己采取出"剪刀"、"布"还是"石头"的策略应当是随机的,不能让对方知道自己的策略,哪怕是"倾向性"的策略。如果对方知道你出其中一个策略的"可能性"大,那么你在游戏中输的可能性就大。因此,每个小孩的最优混合策略是采取每个策略的可能性是l/3。在这样的博弈中,每个小孩各取三个策略的1/3是纳什均衡。由此可见:纯策略是参与者一次性选取的,并且坚持他选取的策略;而混合策略是参与者在各种备选策略中采取随机方式选取的。在博弈中,参与者可以改变他的策略,而使得他的策略选取满足一定的概率。当博弈是零和博弈时,即一方所得是另外一方的所失时,此时只有混合策略均衡。对于任何一方来说,此时不可能有纯策略的占优策略。
  启示1:没有把真正的问题找出来就盲目采取行动,是最愚蠢的做法。能够找出问题,已经可以说是把问题解决一半了。
  启示2:解决问题的公式:
  (1)找出问题发生的原因;
  (2)分辨情报的价值;
  (3)彻底推行解决方案;
  (4)观察事情进行得是否顺利。
  任何事情都看似很难,实质不难;任何事情都比你预期的更令人满意;任何事情都能办好,而且是在最佳的时刻办好--麦可斯韦尔定律有助你走出阴霾。
  斗鸡博弈的难局
  试想有两只公鸡遇到一起,每只公鸡有两个行动选择:一是退下来,一是进攻。如果一方退下来,而对方没有退下来,对方获得胜利,这只公鸡则很丢面子;如果对方也退下来双方则打个平手;如果自己没退下来,而对方退下来,自己则胜利,对方则失败;如果两只公鸡都前进,那么则两败俱伤。因此,对每只公鸡来说,最好的结果是,对方退下来,而自己不退,但是此时面临着两败俱伤的结果。
  两者如果均选择"前进",结果是两败俱伤,两者均获得-2的支付;如果一方"前进",另外一方"后退",前进的公鸡获得1的支付,赢得了面子,而后退的公鸡获得-l的支付,输掉了面子,但没有两者均"前进"受到的损失大;两者均"后退",两者均输掉了面子获得-1的支付。当然这些数字只是相对的值。
  这个博弈有两个纳什均衡:一方前进,另一方后退。但关键是谁进、谁退?一个博弈,如果有惟一的纳什均衡点,那么这个博弈是可预测的,即这个纳什均衡点就是一事先知道的惟一的博弈结果。但是如果一博弈有两个或两个以上的纳什均衡点,则无法预测出一个结果来。因此,我们无法预测斗鸡博弈的结果,即不能知道谁进谁退,谁输谁赢。
  用这个博弈来解释美苏两个超级大国之间的古巴导弹危机,是最合适不过的了。
  面对美国的反应,苏联面临着是将导弹撤回国还是坚持部署在古巴的选择?而对于美国,则面临着是挑起战争还是容忍苏联的挑衅行为的选择?也就是说,这两只大公鸡均在考虑采取进的策略还是退的策略?
  战争的结果当然是两败俱伤,而任何一方退下来(而对方不退)则是不光彩的事。结果是苏联将导弹从古巴撤了下来,做了丢面子的"撤退的鸡"。美国坚持了自己的策略,做了"不退的鸡"。当然,为了给苏联一点面子,同时也担心苏联坚持不退而发生美苏战争--这是美国不愿意看到的,美国象征性地从土耳其撤离了一些导弹。古巴导弹危机是冷战期间美苏两霸之间发生的最严重的一次危机。
  这就是美国与苏联在古巴导弹上的博弈结果。对于苏联来说,退下来的结果是丢了面子,但总比战争要好;对美国而言,既保全了面子,又没有发生战争。这就是这两只"大公鸡"博弈的结果。
  启示:任何事情都看似很难,实质不难;任何事情都比你预期的更令人满意;任何事情都能办好,而且是在最佳的时刻办好--麦可斯韦尔定律有助你走出阴霾。
  左边还是右边
  前面我们已知,在博弈中纳什均衡点如果有两个或两个以上,结果就难以预料。这对每个博弈方都是麻烦事,因为后果难料,行动也往往进退两难。一个小例子就是两个骑自行车的人对面碰头,很容易互相"向住":因为不知道对方会不会躲、往哪边躲,自己也不知该如何反应,于是撞到一起。
  自行车相撞一般不会造成什么大麻烦,可是如果换成马车、汽车,就可能出现伤亡。所以,应该有一个强制性的规定,来告诉人们该怎么做。
  开车的时候你应该走哪一边?假如别人都靠右行驶,你也会留在右边。套用"假如我认为他认为"的框架进行分析,假如每个人都认为其他人认为每个人都会靠右行驶,那么每个人都会靠右行驶,而他们的预计也全都确切无误。靠右行驶将成为一个均衡。
  不过,靠左行驶也是一个均衡,正如在英国、澳大利亚和日本出现的情况。这个博弈有两个均衡。均衡的概念没有告诉我们哪一个更好或者哪一个应该更好。假如一个博弈具有多个均衡,所有参与者必须就应选择哪一个达成共识,否则就会导致困惑。
  海上航行也要面临同样的问题,尽管大海辽阔,但是航线却是比较固定的,因此船只交会的机会很多,这些船只属于不同的国家,如何调节谁进谁退的问题呢?先来看一个小笑话:
  一艘军舰在夜航中,舰长发现前方航线上出现了灯光。
  舰长马上呼叫:"对面船只,右转30度。"
  对方回答:"请对面船只左转30度。"
  "我是美国海军上校,右转30度。"
  "我是加拿大海军二等兵,请左转30度。"
  舰长生气了:"听着,我是'列克星顿'号战列舰舰长,这是美国海军最强大的武装力量,右转30度!"
  "我是灯塔管理员,请左转30度。"
  即使你官阶、舰船再大,灯塔也不会给你让路。那么,如果是两条船相遇,又如何决定呢?
  谁先让不能等待临时谈判,也不是由官阶说了算。海上避碰也有像许多国家规定车辆在马路上靠右走那样不容谈判的规矩。人们规定,迎面交会的船舶,各向右偏一点儿,问题就解决了。十字交叉交会的船舶,则规定看见对方左舷的那艘船要让,慢下来或者偏右一点儿都可以。这就从制度上规定了避让的方式。
  这十字交叉交会时如何避免碰撞的规矩,就是上述博弈的两个纳什均衡中的一个。究竟哪一个纳什均衡真正发生,现在就看两船航行的相互位置。如果甲看见乙的左舷,甲要让乙原速直走,就是右上角那个纳什均衡;如果乙看见甲的左舷,乙要让甲原速直走。
  谁打电话
  上面的例子是通过规定解决了问题,不过,若是遇到电话打到一半突然断了的事,你该怎么办?
  假如你正在和女友通话,电话断了,而话还没说完。这时有两个选择,马上打给对方,或等待对方打来。注意:如果你打过去,她就应该等在电话旁,好把自家电话的线路空出来,如果她也在打给你,你们只能听到忙音;另一方面,假如你等待对方打电话,而她也在等待,那么你们的聊天就没有机会继续下去。
  一方的最佳策略取决于另一方会采取什么行动。这里又有两个均衡:一个是你打电话而她等在一边,另一个则是恰好相反。
  一个解决方案是,原来打电话的一方再次负责打电话,而原来接电话的一方则继续等待电话铃响。这么做的好处是原来打电话的一方知道另一方的电话号码,反过来却未必是这样。
  另一种可能性是,假如一方可以免费打电话,而另一方不可以(比如你是在办公室而她用的是住宅电话),那么,解决方案是拥有免费电话的一方应该负责第二次打电话。还有一种比较通常的解决方法是,由较热切的一方来打电话,如一个煲电话粥成瘾的家庭主妇对谈话的热情很高,而她的同伴就未必这样,这种情况下通常是她打过去。再如恋爱中的男女遇到这种情况,通常也是由主动追求者打电话。
  假如不考虑以上因素,那么打这个电话又得用到这种"混合策略"了:设想双方都投硬币决定自己是不是应该给对方打电话,根据前面给出的条件,两人这种随机行动的组合成为第三个均衡。
  假如我打算给你打电话,我有一半机会可以打通(因为这时你恰巧在等我打电话),还有一半机会发现电话占线;假如我等你打电话,那么,我同样会有一半机会接到你的电话,因为你有一半机会主动给我打电话。
  每一个回合双方完全不知道对方将会采取什么行动,他们的做法实际上对彼此都最理想。因为我们只有一半机会重新开始被打断的电话聊天,我们知道我们(平均来说)要尝试两次才能成功接通。
  需要再次强调的是:均衡不一定是博弈的最优结果。在"囚徒困境"中,惟一的均衡是一起招认,站在群体的角度,这是最坏的结果。均衡只是博弈的最"稳定"结果,或者说是最可能出现的结果。那么,这就需要我们思考一个问题:如果这个"稳定"结果效果不佳,我们能否找到合理的策略打破这个"均衡"?
  启示:在同时行动的博弈中,有三个行动法则:一是寻找和运用优势策略;二是寻找和避免劣势策略,同时假定你的对手也在这么做;三是寻找和运用均衡。
  第3章 打破"囚徒困境"
在"囚徒困境"中表现最好的策略直接取决于对方采用的策略,特别是取决于这个策略为发展双方合作留出多大的余地。这个原则的基础是下一步相对于当前一步的权重足够大,即未来是重要的。
  囚犯的救赎
  为了验证面对"囚徒困境"时人们可选择的策略以及这些策略的有效程度,美国的学者组织了一次以此为主题的计算机竞赛。竞赛要求参加者根据这一困境设计程序,并将程序输入计算机,通过各种程序的相互对局的最后得分评判优劣。
  竞赛的游戏方法是:游戏双方都在不知对方将如何选择的情况下,选择合作或背叛。这些选择放在一起就产生了四个可能的结果,即:合作,合作;合作,背叛;背叛,合作;背叛,背叛。在这个游戏中,如果双方选择合作,双方都能得到较好的结果R,即"对双方合作的奖励"。在这个例子中R为3分,3也可以代表参赛者得到的奖金数。如果一方合作而另一方背叛,那么,背叛者得到"对背叛的诱惑"T=5。而合作者则得到"给笨蛋的报酬"S=0。如果双方都背叛那么双方都得到P=1,即"对双方背叛的惩罚"。
  参赛者提出了各种程序,但是大致可分为"善良的"、"邪恶的"和"随意的"三类,竞赛的结果也许有些出人意料:"善良"即"以合作为主"的策略大获全胜,而"邪恶"即"以占便宜为主"的策略成绩不佳。
  现在考虑一个双方对局的例子。一个对策者采用的策略是每一步都背叛,即"总是背叛",另一个对策者采用的策略是"一报还一报",即在第一步合作,然后就采用对方上一步的选择。"一报还一报"意味着在对方每一次背叛之后就背叛一次。当对方采用"一报还一报"时,采用"总是背叛"的对策者,将在第一局得到收益,在而后的对局中都得到相应的回击。这样,这个背叛者只是在第一局得到5分,而在以后的每局都只能得到1分,最终他可能会"战胜"对手,但由于总分仍然很低,而被淘汰出局。
  你可能忍不住要问:"什么是最好的策略?"换句话说,什么策略能使对策者得到可能的最高分?这个问题问得很好。但是就像以后要说明的一样,独立于对方所用策略之外的最好决策规则是不存在的。从这个意义上说,"囚徒困境"完全不同于一般游戏,如国际象棋。一个象棋大师可以有把握地假定对手将走让他最头疼的一步,这种假定是这类游戏的基础。然而在这里,游戏者的利益并不是完全冲突的。双方可以通过合作而得到"对合作的奖励"R,也可以通过背叛而得到"对背叛的惩罚"P。如果你假定对方总是走你最担忧的一步,那么,你就会认为其他人总是不合作,这就会使你也不合作,最后招来无休止的惩罚。所以与下棋不同,在"囚徒困境"中假定对方一心要赢你是不可靠的。
  事实上,在"囚徒困境"中表现最好的策略直接取决于对方采用的策略,特别是取决于这个策略为发展双方合作留出多大的余地。这个原则的基础是下一步相对于当前一步的权重足够大,即未来是重要的。总的来说,如果你认为今后将难以与对方相遇,如果你不太关心自己未来的利益,那么,你现在最好是背叛,而不用担心未来的后果。
  这样,我们得到了第一个正式的结论,但却是一个令人伤心的结论,即:如果未来是重要的,就不存在最优策略。
  启示:好莱坞大片《肖申克的救赎》是一部很好看的电影,主要内容是一个被冤屈的囚犯如何凭着坚定的信念和聪明才智逃出牢房。我们的"囚犯"也可以通过好的策略合作,摆脱"困境"的诅咒。
  "一报还一报"的伟大胜利
  区分善良规则好坏的一个特征是,看它们如何迅速地和可靠地对来自对方的挑战作出反应。一个规则可以被称为"报复性的",如果它在对方的背叛之后立即以背叛报复。除非一个策略能迅速反应来自对方的挑战,否则,对方将简单地从这样一个好说话的策略身上获得越来越多的好处。
  在比赛中,有好几个规则故意使用若干次背叛,试试看它们能否讨到便宜。因此,很大程度上决定善良规则的最后名次的是它们能否很好地应付这些挑战。
  对付这类挑战性规则的最好办法是时刻准备报复来自对方"无缘无故"的背叛。因此,善良能得到好处,报复也能得到好处。"一报还一报"综合了这些优点,它是善良的、宽容的和具报复性的。它从不首先背叛,但是不管过去相处的关系如何好,它总能被一个背叛所激怒,而迅速作出反应。
  生态分析的结果说明了"一报还一报"的又一个胜利。在最初的竞赛中"一报还一报"领先一点点,而且在整个生态模拟过程中一直保持领先。到了第1000代,它是最成功的规则,并且比任何一个其他规则都增长得快。
  "一报还一报"的所有记录是令人难忘的。概括地说,"一报还一报"是62个参赛者中平均得分最高的规则。在竞赛的生态模拟中它一直保持领先。加上它在实验室的对策实验中的良好表现,"一报还一报"显然是一个非常成功的策略。
  "一报还一报"的成功可以说明的是它是一个很具适应性的规则:即它在很大范围的环境中表现极佳。它的成功部分是由于其他规则预料到它的存在并且被设计得与它很好相处。要和"一报还一报"很好相处就要和它合作,这反过来就帮助了"一报还一报"。即使那些被设计成伺机占便宜而不被惩罚的规则,也很快向"一报还一报"道歉。任何想占"一报还一报"便宜的规则最终将伤害自己。"一报还一报"从自己的不可欺负性得到好处,是因为以下三个条件得到了满足:1.遇到"一报还一报"的可能性是显著的;2.一旦相遇,"一报还一报"很容易被识别出来;3.一旦被识别出来,其不可欺负性就显示出来。因此,"一报还一报"从它自己的清晰性中得到好处。
  另一方面,"一报还一报"放弃了占他人便宜的可能性。这种机会有时是很有利可图的,但是试图占便宜而引来的问题也多种多样。首先,如果一个规则用背叛试探是否可以占便宜,它就得冒被那些可激怒的规则报复的风险。第二,双方的反击一旦开始,就很难自己解脱。
  "一报还一报"的稳定成功的原因是它综合了善良性、报复性、宽容性和清晰性。它的善良性防止它陷入不必要的麻烦,它的报复性使对方试着背叛一次后就不敢再背叛,它的宽容性有助于重新恢复合作。它的清晰性使它容易被对方理解,从而引出长期的合作。
  启示:一报还一报能够赢得竞赛不是靠打击对方,而是靠从对方引出使双方都有好处的行为。
  你不必每次都赢
  虽然预见对于合作的进化不是必要的,但它却对我们很有帮助。因此在这里将分别对参与者和改革者提供建议。
  下面为那些处于"囚徒困境"的人提供建议。从个体的眼光看,目标是在与对手的一系列对局中尽可能地得高分。由于这个游戏是"囚徒困境",参与者会受到背叛的短期诱惑,但是通过与对方建立双方合作的模式可以得到更多的长期好处。对计算机竞赛的分析和理论研究的结果,为我们提供了一些有用的信息,即在不同的条件下什么样的策略会起作用和为什么这些策略能表现得好。这一章就是把这些发现转化成对参与者的建议。
  在持续的"重复囚徒困境"中应如何表现,下面是四个简单的建议:
  1.不要嫉妒
  人们习惯于考虑零和对局,在这种情况下,一个人赢,另一个就输。一个很好的例子就是下棋比赛。为了能赢,一个参赛者必须在大部分时间里比对手做得更好。白棋赢黑棋就输。
  然而生活中的大多数情况都是非零和的。双方可以都做得很好,也可以都做得很差。双方的合作是可能的,但并不是总能实现。这就是为什么"囚徒困境"是各种各样的日常情形的有用模型。
  人们倾向于采用相对的标准,这个标准经常把对方的成功与自己的成功对立起来。这种标准导致了嫉妒,嫉妒导致企图抵消对方已经得到的优势。在"囚徒困境"的形式下,抵消对方优势只能通过背叛来实现。但是背叛导致更多的背叛和对双方的惩罚。因此嫉妒是自我毁灭。
  要求自己比对方做得好不是一个很好的标准,除非你的目的是消灭对方。在大多数情况下,这个目的是不可能实现的。
  "一报还一报"由于与其他多种多样策略相处得很好而赢得了竞赛。平均来说,它比竞赛中的其他任何策略都做得更好。但是"一报还一报"从来没有一次在游戏中比对方得更多的分!事实上,它不可能比对方多得分。它总是让对方先背叛,并且它的背叛次数决不比对方背叛的多。因此"一报还一报"不是得到和对方一样多的分,就是比对方略少。"一报还一报"赢得竞赛不是靠打击对方,而是靠从对方引出使双方有好处的行为。"一报还一报"如此坚持引出双方有利的结果,从而使它获得比其他任何策略更高的总分。
  因此在一个非零和的世界里,你没有必要非得比对方做得更好。特别当你要和许多不同的对手打交道时更是这样。只要你自己能做得好就没有理由去嫉妒对方的成功。因为在长时间的"重复囚徒困境"中,其他人的成功是你自己成功的前提。
  在生意场中也是这样,一个从供应商那儿买来东西的公司期望供方和买方都有好处的成功的关系。妒忌供方的利润是完全没有意义的。任何通过不合作行为(如不按时付账)来减少这种利润的企图,都将激起供方的报复行动,报复行为可以采用多种形式,经常以不明显惩罚形式,诸如拖延发货,较低的质量保证,不愿意打折扣,或者不交换市场条件变化的信息。这种报复使得嫉妒代价很大。买者不要担心卖方的相对的利润,而可以考虑是否有其他更好的购买策略。
  2.不要首先背叛
  竞赛和理论分析的结果都表明,只要对方合作你也合作就会有好处。竞赛结果是很令人吃惊的。决定一个规则表现如何的惟一最好的特征是这个规则是否善良。也就是说这个规则是否不首先背叛。在第一轮竞赛中,前8名规则中都是善良的,在后7名规则中没有一个是善良的。在第二轮竞赛中,前15名规则中只有一个是非善良的(它名列第8),而后15名规则中只有一个是善良的。
  有些不善良的规则,使用相当复杂的方法来试探它是否能逃脱惩罚。例如尝试在第一步背叛,如果对方报复的话,它就马上撤回。在另一个例子中,它在背叛前等待十几步,看看对方是否能被哄骗和被偶尔占便宜。如果是的话,就更频繁地增加背叛,直到对方反击而被迫撤回。但是这些尝试道德背叛的策略都表现得不怎么好。因为存在许多由于愿意报复而不被占便宜的策略,所以导致冲突的代价有时是很高的。
  甚至许多专家也没有意识到善良性对避免不必要的冲突的价值。在第一轮竞赛中,由对策论专家送来的规则中几乎有一半是不善良的。参考了第一轮的明显结果,第二轮比赛中大约有1/3规则用不善良的策略,但是,它们都没有占到便宜。
  前面的竞赛结果提供了另一个方式来说明为什么善良的规则能表现得如此好,由于善良的规则相互之间相处得很好,因而善良规则的群体是很难被侵入的。而且能够阻止单个变异个体侵入的善良规则的群体也能阻止这个变异规则的任何小群体的侵入。
  当然,你可以尝试更保险的方式,即先背叛直到对方合作,才开始合作。然而,竞赛的结果表明,这实际上是一个很有风险的策略,因为你的最初的背叛就可能引起对方的报复,并使你处于要么被占便宜要么双方背叛的两难境地。如果你惩罚对方的报复,这种反应就会一直延续下去。如果你宽恕了对方,你就得冒被欺负的风险。即使你能避免这些长远问题,对你的最初背叛的当下报复会使你希望自己从一开始就应该是善良的。
  对竞赛的生态分析揭示了另一个为什么首先背叛是很冒险的道理。第二轮竞赛中前15名规则中惟一的非善良策略是名列第8的"哈林顿"。因为它与竞赛中的名次较低的规则相遇的得分都很高。在假想的未来生态竞赛中,名次较低的规则在群体中的比例越来越小,最终能被这个最初挺成功的非善良策略占便宜的策略就越来越少,接着它自己也消亡了。因此,只会占"傻瓜"的便宜是没有用的,它只不过是一个自我毁灭的过程。这个教训说明,虽然不善良在最初看来似乎是很有希望的,但长期下去它将毁坏使自己成功所必需的环境。
  3.对合作与背叛都要给以回报
  "一报还一报"超常的成功给出了一个简单的但又是很有力量的建议:要回报。在第一步合作之后,"一报还一报"只是简单地回报对方在上一步的所为。这个简单的规则惊人地有效。它赢得了第一轮"囚徒困境"计算机竞赛,并取得比任何其他由对策论专家们送来的规则更高的平均得分。每一个第二轮竞赛的参加者知道这个结果,但"一报还一报"又赢了第二轮竞赛。这个胜利显然是令人惊讶的。因为每一个参赛者都是在考虑了"一报还一报"在第一轮竞赛中的胜利结果之后,才提交参赛规则的。显然人们都希望能干得更好,但是他们错了。
  "一报还一报"不仅赢得竞赛本身,而且在假设的继续比赛中比其他任何规则表现得都好。这表明"一报还一报"不仅与最初的各种规则相处得很好,而且能与那些可能在未来群体中占较大份额的成功的规则相处得很好,它不毁坏自己成功的基础,相反它在与其他成功的规则相互交往中繁荣起来。
  "一报还一报"所体现的回报在理论上也是很重要的。当未来相对于现在是足够重要的时候,"一报还一报"是稳定的。这就意味着,如果每个人都使用"一报还一报"策略,那么对一个特定的个体的最好建议就是也采用"一报还一报"策略。或者这么说,如果你能肯定对方是采用"一报还一报",并且这种交道将持续足够长,那么,你最好也采用相同的策略。
  事实上,"一报还一报"很善于区分哪些规则会回报它的最初合作,哪些不会。这就使得它能够以小群体形式侵入"小人"的世界。并且,它回报背叛也回报合作。这使得它是可激怒的。而善良的策略要阻止被侵入,就必须是可激怒的。
  在反应对方的背叛时,"一报还一报"保持了惩罚和宽恕的平衡。"一报还一报"总是在对方每次背叛之后只背叛一次。那么,是否总是严格的一对一回报才是最有效的平衡?这就很难说了,但有一点是清楚的,即用多于一次背叛来回报对方的背叛将有可能使冲突升级。另一方面,少于一对一的回报将有被占便宜的危险。
  以上分析的启示是,最优的宽恕水平与环境有关。特别是如果主要的危险是来自那些善于占"好说话"的规则的便宜的策略,那么,太多的宽恕就要付出代价。对一个给定的环境,准确的平衡是很难确定的,但是,竞赛的结果证明对背叛类似一对一的反应可能在大多数情况下都是相当有效的。因此,对参与者的一个很好的建议是对合作和背叛都要给予回报。
  4.不要耍小聪明
  竞赛结果表明在"囚徒困境"的情况下人们容易耍小聪明,然而复杂的规则并不比简单的规则做得更好。事实上,这些规则的共同问题是,使用一些复杂的方法来推断对方。而这些推断常常是错误的。一部分问题是对方经常用试探性的背叛来表明它不会被引诱而合作,但是问题的关键是这些规则没有考虑到它自己的行为会引起对方的变化。对方对你的行为是有反应的,对方将把你的行为看作你是否回报合作的信号。因此,你自己的行为将会反射到你的身上。
  试图使得分最大化的规则把对方看作环境的一个不变的部分而忽略了相互的作用,不管他们在有限的假设下所做的计算是多么的聪明。如果你离开双方相互适应的简单原则,那么你的聪明是不会有好结果的。这是一条艰难的路,显然在两次竞赛中没有一个复杂的规则精于此道。
  另一个过分聪明的方式是使用"永久报复"的策略。这个策略只要对方合作它就合作,但是一旦对方背叛一次,它就决不合作。由于这个策略是善良的,它与其他善良的策略相处得很好。并且它与那些完全随机的规则相遇时干得也不错。但它与许多其他规则相遇就干得很差,因为对于那些偶尔背叛但准备一旦受惩罚就撤回的规则来说,它太快放弃合作了。"永久报复"看起来似乎很聪明,因为它为避免背叛提供了最大的激励,但是它为了自己的利益显得太严厉了。
  参加竞赛的规则中还有第三种太聪明的形式是,它们采用的策略是如此复杂,以至于其他策略不能把它们与纯粹的随机选择区分开来。用另一方式来说,就是太多的复杂性就显得是完全杂乱无章。如果你采用一个看起来是随机的策略,那么你也就显得对对方不反应,如果你是不反应的,对方就受不到与你合作的激励。因此复杂到不可理解是非常危险的。
  当然,在许多人类事务中,一个使用复杂规则的人可以向对方解释每一个选择的理由。然而,问题出现了:对方可能怀疑所提供的这些理由,在这个情况下对方将认为不值得有任何反应,对方会把一个显得不可预测的规则看作不可改造的,结果自然是导致背叛。
  "一报还一报"在竞赛中得到巨大成功的原因之一是它具有很大的清晰性,即它非常容易被对方理解。当你使用"一报还一报"策略时,对方有很好的机会去理解你在干什么。你对任何背叛的一对一的反应是一个很容易被意识到的模式。而且你的未来行为是能被预测的。一旦这些情况发生了,对方能容易地发现应付"一报还一报"的最好方式就是与他合作。假设这个游戏有足够的可能继续下去,至少还有下一步相遇。那么当你遇到"一报还一报"策略时只有马上和他合作是最好的,这样你将可以在下一步得到合作。
  另外,在零和对策(如下棋)和非零和对策(如"重复囚徒困境")之间有一个重要的不同。在下棋时,让你的对手猜疑你的企图是很有用的,你的对手越是怀疑,他(或她)的策略就越没效果。但是在非零和情况下,如此聪明不总是有好处的。在"重复囚徒困境"中,你要从对方的合作中得到好处。诀窍在于鼓励合作,一个好的方式就是清楚地表明你愿意回报,这就是"一报还一报"之所以如此有效的原因。
  启示1:重复囚徒困境的几个建议:
  (1)不要嫉妒;
  (2)不要首先背叛;
  (3)对合作与背叛都要给以回报;
  (4)不要耍小聪明。
  启示2:联翩而来的好运总是可疑的,只会占"傻瓜"的便宜是没有用的。
  启示3:一报还一报从来没有一次在游戏中比对方得到更多的分!
  未来影响现在
  对未来的预期,是影响我们行为的重要因素。一种是预期收益:我这样做,将来有什么好处;一种是预期风险:这样做可能面临的问题。这些将影响个人的策略,如学生读书,为了将来考上好学校取得文凭,获得更高的地位和收入。如果文凭一钱不值,就会影响学生的热情。也影响与他人、社会的关系。
  地摊、车站、旅游点,这些人群流动性大的地方,不但商品和服务质量最差,而且假货横行,因为在商家和顾客之间"没有明天"--一个旅客不大可能因为你的饭菜可口而再次光临,一锤子买卖,不赚白不赚。
  在公共汽车上,两个陌生人会为一个坐位争吵,可如果他们认识,就会相互谦让。在相互社会联系紧密的人际关系中,人们普遍比较注意礼节、道德,因为都需要这个环境。
  道德、法律、权力利益的划分,都与"还要见面"有关。从消极的层面看,我们互不侵犯,是为了避免没完没了、两败俱伤的循环报应。例子:两个原始人见面,一个拿着兽皮,一个拿着野果,他们都想把对方的东西据为己有。如果他们的见面是偶然的,可能相互抢劫;可是如果他们都生活在附近,考虑到对方家族的报复,抢劫的风险就大了。所以他们不去打对方的主意--所有权就这样产生了。如果他们确实想得到对方的东西,他们可以选择合作--以物易物,交易就这样产生了。
  两个相邻的国家,如果相互敌对,是一件非常不幸的事。它们不可能"搬家",又不可能消灭对方(这是现代国际关系准则所不允许的),这个死结就可能缠绕它们许多年。遗憾的是,这样关系的邻国还不少,如巴以、印巴、两伊以及伊拉克和科威特。希腊和土耳其也曾经是这样的世仇,现在关系虽已缓和,但是它们之间的不信任感还是长久不能消除。
  长期敌对对双方来说,都是损失巨大的。不但随时有爆发战争的危险,经济建设也受到拖累。谁也不可能把钱花在朝不保夕的危险地区,一来风险太大,二来,如果在边界有许多建设,也更容易被对方讹诈--那无异于是把人质交给对方。一个例子就是韩朝关系,韩国比朝鲜更害怕发生战争,因为首都汉城就在对方的炮火射程之内。一个包袱更重的国家,维护和平的代价要比对方更大。
  中苏交恶的年代,双方都在边境地区陈兵百万,巨大的军费开支和潜在的战争风险对两国都是重负。现在两国关系改善,互信增加,边境军事力量大大减弱,可以说是一个双赢。从这个意义上说,"面向未来"不仅仅是一句外交辞令。
  "笼中猪"博弈
  简单的例子如果能够说明方法,能够启迪思维,就有它的价值。今天再讲博弈论著作中常见的另一个简单的例子"笼中猪"博弈。
返回书籍页