必读网 - 人生必读的书

TXT下载此书 | 书籍信息


(双击鼠标开启屏幕滚动,鼠标上下控制速度) 返回首页
选择背景色:
浏览字体:[ ]  
字体颜色: 双击鼠标滚屏: (1最慢,10最快)

策略思维

_2 阿维纳什·K(美)
“新洁”应该怎么办?这是决策分析员需要解决的问题,也是商学院里讲授的问题。他们会画出一幅非常相似的图,却称之为“决策树”。理由是,他们通常把“接纳”和“打价格战”两种选择方案的结果看做偶然现象。因此他们会标出两者的出现概率。比如,假如他们认为接纳与打价格战出现的机会一样大,那么两者的概率同为1/2。接着,他们可以计算出“新洁”进人市场会得到多少利润,方法是将盈利和损失分别乘以相应的概率再相加。他们得到
1/2*$100000-1/2*$200000=-$50000
由于这是一个亏损数字,商业分析员们就会根据这些概率下结论说“新洁”不应该进军古巴市场。
以上的估计数字是从哪里来的呢?博弈论提供了答案:它们来自“新洁”自己对“快洁”在各种情形下的利润情况的估计。要估计“快洁”会怎么做,“新洁”首先应该估计“快洁”在不同情形下会得到多少利润。然后通过向前展望、倒后推理,预计对方会怎么做。进一步分析这个例子:我们假设“快洁”作为一个垄断者,有能力赚取30万美元利润。与“新洁”分享市场则意味着自己的利润降为10万美元。另外,从“快洁”这边估计,发动一场价格战的代价是10万美元。现在我们可以在这棵树上添加这些结果(如图2-6 所示)。
接纳 新洁得10万美元快洁得10万美元
快洁
打价格战 新洁亏20万美元快洁亏10万美元
进入
新洁
不进入 新洁得O美元快洁得30万美元
图2-6
我们利用这棵树包含的信息预计以后的全部招数。由于具体招数可以由这个博弈的结果确定,这棵树完全适合看做一棵博弈树,而不是一棵决策树。比如,要预计“快洁”对“新洁”进入的反应,我们知道,“快洁”接纳“新洁”的话仍会有10万美元利润,发动价格战则会损失10万美元;“新洁”应该预计到“快洁”会选择前者。向这个方向展望,同时倒后推理,“新洁”应该在盘算的时候先把打价格战这个分枝去掉。它应该进入这个市场,因为预计它可以赚到10万美元。
若是换了其他环境,最后的决策可能发生变化。比如,假设“新洁”下一步有可能继续进军“快洁”早已建立市场的其他岛屿,“快洁”大约会觉得有必要在这个新来者面前摆出一副不好对付的样子,宁可在古巴损失10万美元也要发动一场价格战。“新洁”应该看到,这意味着自己注定会损失20万美元,最后决定还是留在外面,不要硬闯的好。
“新洁”可以看出任何一个得失数字都会转化为相应的行动。不过,它自己可能并不知道“快洁”在这棵树的顶端会得到什么样的回报。这种利润的不确定性将会转化为行动的不确定性。比如,“新洁”可能认为,有33.3%的机会“快洁”会在一场价格战中损失10 万美元,有33.3%的机会双方会打个平手(利润为零),最后还有33.3%的机会“快洁”即便打价格战也能赚到12万美元。若遇到这种情况,“向前展望,倒后推理”会认为,有2/3 的概率“快洁”会选择接纳“新洁”——赚到10万美元总比损失10万美元或双方打个平手要好,只比不上赚到12万美元。因此,发动一场价格战的可能性是33.3%。要弄清究竟会发生什么情况,惟一途径就是进军市场。不过,基于上述可能性,“新洁”有2/3 的概率赚到10万美元,1/3 的概率损失20万美元,因此,它的预计利润实际为零,根本没有理由进军市场。
在这个例子里,“新洁”对于“快洁”的得失的不确定性直接转化为对“快洁”会有什么反应的概率估计。不过,我们必须注意应该在哪里加人这种不确定性。正确的地方是在树的末端。现在就来看看,假如我们在考虑的时候企图跳到前面去会犯什么错:平均而言,“快洁”可以在一场价格战当中赚到$6667(即1/3*$120000+1/3*$0-1/3*$100000 )。但这并不意味着“快洁”就一定想打价格战。愿意打价格战的可能性不是100%。而且这种不确定性并不表示我们就应该猜测“快洁”愿意打价格战的可能性是50%。对“新洁”而言,分析这个问题的正确思路是从这个博弈的终点着手,预计“快洁”每一步会怎么做。
5 .更加复杂的树
在现实生活里,你会遇到的博弈远比上述我们用来进行形象描述的例子复杂。不过,即便这些“小树苗”长成“大树”,同样的原理也依然管用。象棋(国际象棋)可能是最好的例子。虽然象棋的规则相对比较简单,却已经形成一种需要进行策略推理的博弈游戏。白棋先行,黑棋回应,双方依次相继移动。因此,象棋当中最“纯粹”的策略推理就包含着向前展望你自己这一步将会导致什么后果,就跟我们在前面看到的一样。其实例可能是这样:“假如我现在走兵,我的对手就会进马,威胁我的车。我在走兵之前必须用我的象护住那四个格子,不让对手的马得逞。”
象棋是一种相继出招的博弈游戏,我们可以用一棵树来表示。白方可以从20种开局方式中任选一种。[2]在图2-7 中,我们用这棵树的第一个决策点(或节点)表示白方拥有的第一个先行机会,标为W1。他可以选择的20种走法变成20个枝条,从这个节点发散出去。每一个枝条代表的行动方式就是这个枝条的标签:兵进K4 (P-K4 或代数标记法里的e4)、兵进Q4 ,等等。我们的目的只是描述普遍情况,因此,为了避免这幅图表变得枝节丛生,我们不会显示或标明所有枝条。每一个枝条都会引出下一个节点,代表黑方的第一次行动,标为B1。黑方同样可以从20种开局方式中任选一种,于是,同样会有20个枝条从每一个标明B1的节点发散出去。双方走完第一步,我们已经看到有400种可能性。从现在开始,枝条的数目就会取决于前面一步。举个例子:假如白方的第一步是P-K4 ,他的第二步就有许多选择,因为他的后以及王旁边的象现在都可以出动。然后你就会发现,建立这棵树所要运用的原理多么简单,而这棵树在实践中又会很快变得多么复杂。
我们可以选择这棵博弈树上每一个决策点(节点)的一个枝条,沿着这个枝条一路走下去。这表示这盘博弈继续下去的一种特定方式。象棋大师早在博弈初期(开局阶段)就盘算过许多这样的路径,考虑过这些路径会有什么结果。比如我们已经标出的路径,白方第一步是P-K4 ,黑方以P-QB4 回敬,就是预兆一场恶战的西西里防御。①
① 继续下去,就是第二步,N-KB3,P-Q3 ;第三步,R-Q4,PxP ;第四步,NxP , N-KB3;第五步,N-QB3 , P-QR3 ;第六步,B-KN5 , P-K3 ;第七步,P-KB4,Q-N3 ;第八步,Q-Q2,QxP 。这种走法称为毒兵变局(Poisoned pawn variation) ,听上去好像来自善于玩弄阴谋诡计的西班牙博尔吉亚家族(the Borgias)的宫廷,或是华尔街。
在许多博弈里,每一条这样的路径都会在有限次的选择之后到达终点。在体育或棋类比赛中,这可能是在一方取胜或双方打平的时候。更常见的情况是,博弈的最终结果可能是以给参与者货币回报、非货币回报或惩罚的形式出现。比如,商业对手之间的一场商界博弈可能给一家公司带来非常可观的利润,却使另一家公司破产。而核军备竞赛的博弈则可能达成一项成功的条约或导致两败俱伤。
假如一个博弈无论选择哪一条路径,都会在有限次的行动之后到达终点,我们在理论上就可以完全解决这个博弈。这意味着能找出谁将取胜以及他将怎样取胜。这是通过沿着这棵树倒后推理得出的。一旦我们走通了整棵树,我们就会发现我们究竟能不能取胜,还有,假如可以取胜,我们应该使用怎样的策略。对于任何一个相继选择并且数目有限的博弈,总是存在某种最佳策略。当然,存在一个最佳策略并不等于说我们总是可以轻而易举地找到这个最佳策略。象棋就是一个很好的例子。临到比赛结束之际,象棋大师在刻画最优策略方面一直做得非常出色。一旦棋盘上只剩下三四个棋子,大师级选手就能预见博弈的结局,(通过倒后推理)确定一方有没有一个万无一失的取胜策略,或另一方是否能迫使双方打平。接着,他们可以通过预计最后阶段的各种不同局势,评估中盘阶段的策略。问题在于,从来没有人可以一直倒后走通整棵树,直到开局的第一步。
一些简单的博弈可以用这样的方法得到完全解决。比如,3 x3 的连城游戏总是可以变成平局。① 这也是只有小孩才玩这个游戏而大人不屑一顾的原因。即便是西洋跳棋,也存在这个问题。大家都相信,第二个参与者总有办法达成平局,虽然这一结论尚未得到证明。为了保持大家对这种游戏的兴趣,西洋跳棋比赛让参与者从中局开始行动,在中局大家还看不出什么取胜或打平的策略。等到象棋也有可能用这种方法完全解决的那一天,象棋的规则大概也得进行修改了。
① 你也许觉得连城游戏是一种简单的博弈,但你还是不要指望能画出这裸博弈树。请注意,没有一局能在第五次行动之前走完,因为直到这时其中一方才第一次有机会在棋盘上放下三颗棋子,而此时枝条的数目已经达到9x8x7x6x5 = 15120 。当然,即便如此,这个博弈还是可以轻易解决,因为大多数枝条从策略上看是一模一样的。举个例子:虽然第一步有9种可能的走法,但这个博弈的对称性使我们不难发现,实际上这里只有3种完全不同的走法,即角、边线或中间。正是这样的小诀窍使这棵博弈树变得易于处理。
而在目前阶段,象棋参与者都做了什么呢?他们做了我们大家将相继移动的策略运用到实践中去的时候都应该做的事情:将向前展望分析与价值判断结合在一起。他们会问:“这条路在四五步之后会使自己争得一个有利局面,抑或陷入一个不利局面?”他们假设现在比赛已经结束,由此判断每一个可能的结果的价值。然后,他们选择那个五步之后可以达到最大价值结果的策略,向前展望,倒后推理。倒后推理是相对容易的部分。难的是怎样确定中盘局面的价值。每一个子的价值都要计算在内,同时要在吃子与取势两方面的优势之间进行权衡取舍。保罗·霍夫曼(Paul Hoffman)在他的《阿基米德的报复》(Archimedes' Revenge)一书中描述了汉斯·伯利纳(Hans Berliner)的电脑象棋程序。伯利纳是以通讯方式进行的象棋比赛的世界冠军,研制了一台专门用于下象棋的电脑,可以在每一步棋限定的3分钟之内检查3000 万种备选方案。伯利纳还确定了一个很好的规则,用于评估中盘局面的价值。能林够击败这个电脑程序的人不超过300名。在十五子棋比赛中,伯利纳也开发了一个程序,该程序已经使世界冠军俯首称臣。
将倒后推理的清晰逻辑与基于实践经验确定的、评估中盘局面价值高低的最佳规则结合起来,是处理远比象棋复杂的博弈的一种有用方法。
6 .讨价还价
无论在商界还是在国际政坛,参与各方经常通过讨价还价或者谈判来决定总收益这个“蛋糕”应该怎样划分。我们将在第11章更详细地探讨这一现象。现在我们把它当做一个形象的例子,解释倒后推理这一方法怎样使我们得以预见相继行动的博弈的结果。
大多数人基于社会常识,预测一场谈判的结果就是妥协。这样做的好处是能够保证“公平”。我们可以证明,对于许多常见类型的谈判,一个50对50的妥协也是倒后推理的结果。
首先,我们必须认识讨价还价的两个普遍特征。我们必须知道谁向谁提出了一个什么条件,换言之,就是这个博弈的规则是什么;接着,我们还要知道,假如各方不能达成一个协定,将会导致什么后果。
不同的谈判按照不同的规则进行。在大多数零售店里,卖方会标出价钱,买方的惟一选择就是要么接受这个价格,要么到别的店里碰运气。① 这是一个简单的“接受或者放弃”的法则。而在工资谈判的例子中,工会首先提出一个价码,接着公司决定是不是接受。假如公司不接受,可以还一个价码,或者等待工会调整自己要求的价码。有些时候,相继行动的次序是由法律或者习俗决定的,还有些时候这一次序本身就具有策略意义。接下来,我们会探讨一个讨价还价的问题,在这个问题里,双方轮流提出条件。
① 有些顾客似乎可以在任何地方(甚至包括西尔斯百货公司)讨价还价。在这方面,赫伯·科恩(Herbo Coben)的著作《你可以就任何事情讨价还价》(You Can Negotiate Anything)提供了许多有用的小提示。
谈判的一个必不可少的特征在于时间就是金钱。假如谈判越拉越长,蛋糕就会开始缩水。不过,这时各方仍然可能不愿意妥协,暗自希望只要谈成一个对自己更加有利的结果,其好处就将超过谈判的代价。查尔斯·狄更斯(Charles Dickens)的《荒凉山庄》(Bleak House)描述了一个极端的情形:围绕贾恩迪斯(Jarndyce)山庄展开的争执变得没完没了,以至于最后整个山庄不得不卖掉,用于支付律师们的费用。按照同样的思路,假如不能达成工资协定而引发罢工,那么公司就会失去利润,工人就会失去工作。假如各国陷人一轮旷日持久的贸易自由化谈判,它们就会在争吵收益分配的时候丧失贸易自由化带来的好处。这些例子的共同点在于,参与谈判的所有各方都愿意尽快达成协议。
在现实生活中,收益缩水的方式非常复杂,不同情况缩水比例也不同。不过,我们可以用一种非常简单的方法充分阐明这一点:假设每提出一个建议或反建议,蛋糕都会朝零的方向缩小同样大小;设想这是一个冰淇淋蛋糕,孩子们一边争吵怎么分配,蛋糕一边融化。
首先,假设整个过程总共只有一步。桌子上放了一个冰淇淋蛋糕;一个孩子(Ali ,阿里)向另一个孩子(Baba ,巴巴)提议应该如此这般分配。假如巴巴同意,他们就会按照提议分享这个蛋糕;假如巴巴不同意,蛋糕融化,谁也吃不到。
现在,阿里处于一个强有力的地位:她使巴巴面临有所收获和一无所获的选择。即便她提出自己独享整个蛋糕,只让巴巴在她吃完之后舔一舔切蛋糕的餐刀,巴巴的选择也只能是舔一舔,否则他什么也得不到。
当然,巴巴可以因为感到这么分配太不公平而生气,断然拒绝接受这一条件。又或者,他可能希望建立或者保持自己作为一个不好对付的讨价还价者的形象,从而为日后的讨价还价奠定基础,而日后的讨价还价可能是跟阿里进行,也可能是跟其他得知今天自己所作所为的孩子们进行。在实际操作当中,阿里同样需要考虑到这些问题,要向巴巴放出刚好足够的诱饵(比如一小片蛋糕?) ,引诱他上钩。为简化阐述过程,我们将所有这些复杂问题搁在一边,假设阿里可以拿走她所要求的100%的份额。实际上,我们还可以不考虑留给巴巴舔的餐刀,假定阿里有能力提出“接受或者放弃”的条件,她可以得到整个蛋糕。①
① 同样的简化做法还将用在我们对更多回合的建议和反建议的讨论上。读者可以很方便地将我们的分析套用到一个更接近现实、但也更庞大的决策过程中,这个过程可以将我们在这里忽略的复杂情况包含在内。
一旦出现第二轮谈判,局势就会大大偏向巴巴。不妨再设想一下,现在桌子上放了一个冰淇淋蛋糕,但是两轮谈判过后,整个蛋糕就会融化。假如巴巴拒绝接受阿里提出的条件,他可以提出一个反建议,不过,到这时,桌子上只剩下半个蛋糕了。假如阿里拒绝接受巴巴的反建议,剩下的半个蛋糕也会融化,双方都会一无所获。
现在,阿里必须向前展望她最初提出的条件会有什么后果。她知道,巴巴可以拒绝她的条件,从而占据有利地位,反过来就剩下的半个蛋糕提出“接受或者放弃”的分配方案。这实际上意味着巴巴已经将那半个蛋糕掌握在自己手里。因此,他不会接受任何低于阿里第一轮条件的反建议。假如阿里不能阻止这一幕发生,她将一无所获。一旦看清了这一点,她会从一开始就提出与巴巴平分这个蛋糕,这正是刚好足够引诱对方接受而又为自己保有一半收益的条件。于是他们会马上达成一致,平分这个蛋糕。
说到这里,个中原理已经非常清楚,我们的讨论还可以再进一步。分析结果是相同的,要么加速谈判进程,要么延缓蛋糕融化速度。随着谈判各方提出每个建议和反建议,蛋糕也在融化,从一个变成2/3再变成1/3,直到零,什么也剩不下。假如阿里提出最后一个建议,而蛋糕已经缩小到只有1/3,她就可以全部拥有。巴巴知道这一点,所以在轮到自己提条件的时候(这时蛋糕还剩下2/3)许诺分给她1/3。这么一来,巴巴可以得到的最好结果就是1/3 个蛋糕,即剩下的2/3的一半。阿里知道这一点,所以从一开始就许诺分给巴巴1/3 (刚好足够引诱对方接受),自己得到2/3 。
各得一半的分配方案存在什么规律吗?每一次的步骤数目都是偶数,且这一现象反复出现。更重要的是,即便步骤数目是奇数,随着步骤数目增加,双方也会越来越接近一半一半的分配方案。
若是四步,巴巴得以提出最后一个条件,从而得到这个时候桌子上剩下的1/4个蛋糕。因此,阿里必须在倒数第二轮提出分给巴巴1/4 个蛋糕,当时桌子上还剩下半个蛋糕。而在此前的一轮,巴巴可以让阿里接受分给她剩下的3/4个蛋糕中1/4个蛋糕的条件。因此,一路这么向前展望下去,在讨价还价一开始,阿里就应该提出分给巴巴半个蛋糕,自己得到另一半。
若是五步,阿里一开始可以提出分给巴巴2/5个蛋糕,自己得到3/5 。若是六步,那么分配方案又回到各得一半。若是七步,阿里得到4/7,巴巴得到3/7。更为普遍的情况是,假如步骤数目是偶数,各得一半。假如步骤数目n是奇数,阿里得到(n+l)/(2n),而巴巴得到
(n-1)/(2n)。等到步骤数目达到101,阿里可以先行提出条件的优势使她可以得到51/101个蛋糕,而巴巴得到50/101 个。
在这个典型的谈判过程里,蛋糕缓慢缩小,在全部消失之前有足够时间让人们提出许多建议和反建议。这表明,通常情况下,在一个漫长的讨价还价过程里,谁第一个提出条件并不重要。除非谈判长时间陷入僵持状态,胜方几乎什么都得不到了,否则妥协的解决方案看来还是难以避免的。不错,最后一个提出条件的人可以得到剩下的全部成果。不过,真要等到整个谈判过程结束,大概也没剩下什么可以赢取的了。得到了“全部”,但“全部”的意思却是什么也没有,这就是赢得了战役却输掉了战争。
我们必须看到很重要的一点:虽然我们考虑过许多可能的建议和反建议,预期结果却是阿里的第一个条件能够被对方接受。谈判过程的后期阶段不会再发生。不过,假如第一轮不能达成一致,这些步骤将不得不走下去,这一点在阿里盘算怎样提出一个刚好足够引诱对方接受的第一个条件时非常关键。
这个观察结果反过来提示了另一种讨价还价策略。向前展望、倒后推理的原理可能在整个过程开始之前就已经确定了最后结果。策略行动的时间可能提前,在确定谈判规则的时候就已经开始。
同样的观察结果还会引出一个谜。假如讨价还价的过程真像这里阐述的那样,应该不会出现罢工。当然,罢工的可能性会影响最终达成的协议,不过公司会把握第一个提条件的机会,提出一个刚好足以引诱对方接受的条件,工会也会这样做。罢工变成现实,或者更普遍的情况,即谈判破裂,一定是现实生活更微妙或者更复杂的特征引出的结果,而这些特征早已从上述这个简单的故事中排除出去,未予考虑。我们会在第11章探讨其中一些问题。
7 .战争与和平
倒后推理的另一个实例是怎样通过一系列双边谈判维护和平。我们举一个只有部分假设的例子:苏丹是一个相对弱小的国家,现在面临被其邻国利比亚人侵的危险。假如这两个国家在某种程度上都是与外界隔绝的,那么,要想阻止利比亚人侵并击败苏丹简直毫无可能。
尽管两个敌对邻居可能无法继续和平共处,但第三方的存在也许可以构成必要的制约。在利比亚与苏丹的例子里,这一原理可能会是“我的敌人的敌人就是我的朋友”。假如利比亚真要跟苏丹开战,那么,利比亚将不得不从东部与埃及接壤的边境抽调兵力。埃及当然不愿意贸然入侵一个全副武装的利比亚,不过,假如利比亚跟苏丹打仗而实力大减,埃及人也许会得到一个难以抗拒的大好机会,一举干掉这个麻烦的邻居。利比亚可以(或者至少应该)通过倒后推理,预计到一旦他们进攻苏丹,埃及就会人侵。表面看来,苏丹安全了。不过,在三个国家后面就停止继续思考这个问题,可能会造成一种虚假的安全感。
假如三个敌人可以达成稳定状态,四个又如何?现在加入以色列。假如埃及要打利比亚的主意,很有可能遭到以色列入侵。在萨达特(Sadat)和贝京(Begin)将双方关系正常化以前,这确实是埃及面临的一个严重威胁。在1978年以前,利比亚不必担心埃及入侵,就是因为埃及一想到以色列就战战兢兢,不敢大意。结果,苏丹不可能指望埃及来抑制利比亚的扩张野心。① 随着以色列与埃及关系改善,倒后推理的链条在埃及这里中断,而苏丹也安全了,至少目前是这样。
① 由此我们知道“我的敌人的朋友不是我的朋友”。
这个关于制约因素的例子当然经过了必要的格式化,这样它更加切合我们讨论的主题。从表面看来,这个例子说明,一个国家究竟会不会遭到入侵,将取决于潜在侵略者链条的节点数目是奇数还是偶数。一个更加接近现实生活的情况分析可以把国与国之间的复杂关系考虑在内,从而得到更多细节,用于分析一国入侵别国的企图究竟有多大。不过,还有一个重要的结论:博弈的结果在很大程度上取决于参与者的人数。参与的人越多越好,参与的人越少越糟,即便在同一个博弈里也是如此。但是,两个敌对国家难以和平共处、三个敌对国家就能恢复稳定局面的结论并不意味着若有四个敌对国家就更好;在这个例子里,四个的结果跟两个是一样的。②
② 实际上,假如这个链条存在的国家数目是奇数,那么,A是安全的。假如这个链条的节点数目是偶数,那么B就会人侵A;B发动入侵之后,链条上的节点数目就会减为奇数,B就安全了。
为了进一步阐述这个制约因素的观点,我们请读者研究本书最后一章“案例分析”的“三方对决”一节。三个敌对者,实力各不相同,现在必须决定自己应该袭击哪一个。你可能会发现答案令人大吃一惊。
8 .英国人玩的博弈
本章我们讨论了有序行动或者有序移动的博弈。实际上,现实生活当中没有几个博弈存在清晰界定而参与者又必须遵守的行动规则。参与者自己制定自己的规则。那么,他们怎么才能向前展望、倒后推理呢?他们又怎么才能知道这个博弈究竟有没有行动次序呢?
我们借用1987年英国大选的情形说明这一点。玛格丽特·撒切尔(Margaret Thatcher)领导的执政保守党面对以尼尔·金诺克(Neil Kinnock)为首的工党的挑战。大选期间,双方都要选择是走平坦大道,即以就事论事为原则进行竞选,还是走崎岖小径,即进行人身攻击。选民当中很大一部分人对撒切尔夫人的政绩深表满意,因此,假如双方按照相仿的规矩拉票,将出现整个竞选一面倒的局面,撒切尔夫人就会取胜。
金诺克先生的惟一希望,在于他可以通过风格完全不同的拉票活动,建立一个足以超越对手的好印象。现在我们假设,撒切尔夫人选择平坦大道,而他选择崎岖小径,或者两者调换选择,他的成功概率都是一样的。假设他们私下里都愿意选择平坦大道,但这一想法必须让位给取胜这一目标。
哪一条才是“人迹罕至”的路呢?答案取决于双方做决定的次序。我们现在就来考察一些可能出现的情况。
假设撒切尔夫人首先选择竞选风格,这是因为,比如说,就传统而言都是执政党在反对党之前公布自己的竞选纲领。这样,她可以画出下面的博弈树(如图2-8 所示)。
通过向前展望和倒后推理,撒切尔夫人可以预计,假如她选择平坦大道,金诺克先生一定会选择崎岖小径,反之亦然。① 既然两个方案赋予她的取胜概率相同,她愿意选择平坦大道。
① 苏格兰民歌《罗梦湖》(Loch Lomond)唱道:“噢,你走你的平坦大道,我走我的崎岖小径,我会比你早到苏格兰。”因此,我们必须指出,工党在苏格兰赢得了多数议席,虽然保守党以大比分赢得了整个英国大选。
撒切尔夫人先行会使她陷于不利,因为这么一来,金诺克先生就可以选择与其完全不同的道路。不过,她先行本身不会造成这个问题。现在我们在这个对局上做一个小小的修改。假设撒切尔夫人已经跟她的保守党顾问以及竞选宣传经理们开过会,确定了她的策略。但是这一决定“没有公开。金诺克先生也在开同样一个会议。他应该怎么做?他应不应该假设撒切尔夫人在先行的时候,是按照我们刚刚描述的方法进行推理的呢?那将意味着她已经选择了平坦大道,因此金诺克先生应该选择走崎岖小径。不过,假如撒切尔夫人想到金诺克先生也会这么想,她就会为自己选择崎岖小径的策略。金诺克先生并不确实知道她的选择,他若是忽略这么一种“第二层次”的思考,他就是一个大傻瓜。那么、他应不应该选择平坦大道呢?不一定,因为撒切尔夫人可以想到“第三层次”,如此类推。一个普遍的观点是若要运用向前展望、倒后推理的原理,不可缺少的前提是后行者可以观察到先行者的行动。
即便撒切尔夫人先行,而她的选择也是外人可以看到的,但如果她在竞选期间改变策略,又会发生什么情况呢?假设只有选民得到的最后印象才算数,而撒切尔夫人在第一次发表声明的时候说了什么无关紧要。金诺克先生绝不能信以为真,并据以制定自己的策略。反过来,撒切尔夫人在考虑自己应该怎么迈出第一步的时候,也不能指望金诺克先生只有一种反应方式。这样,我们就得到向前展望、倒后推理原理的另一个适用条件:策略必须是不可逆转的。
假如这两个条件有一个不符合,又会怎么样?即便两党是在不同时间做出各自的决定,就策略思维而言,这些决定就跟同时做出没有两样。从相继做出决定到同时做出决定的转变,可能对两党中的一方有利,也可能对双方都有利。实际上,在1987年的英国大选中,双方至少都改变了一次自己的策略。第3章将提出同时进行的博弈的行动规则。
关于相继行动与同时行动的博弈的区别,体育比赛提供了另一个例子。百码短跑是同时行动的博弈,因为根本没时间排出相继行动的次序。而在蝶泳比赛中,运动员也许有时间进行思考,却会发现看清对手的位置是非常困难的。马拉松比赛具有相继行动的博弈的组成成分:运动员们可以看到其他人的位置(以一点为基准),策略也是不可逆转的,因为不可能回头重新比赛早先跑过的路程。
结束这一章的时候,我们回到查理·布朗要不要踢那个橄榄球的问题。在橄榄球教练汤姆·奥斯本(Tom Osborne)指挥冠军争夺战的最后几分钟,这个问题真的出现了。我们同样认为他做了错误的选择。倒后推理可以揭示错误的原因。
9 .案例分析之二:汤姆·奥斯本与1984年橙碗球场决赛的故事
在1984年的橙碗球场决赛上,战无不胜的内布拉斯加打谷者队( Nebraska Cornhuskers)与曾有一次败绩的迈阿密旋风队(Miami Hurricanes)狭路相逢。因为内布拉斯加队晋身决赛的战绩高出一筹,只要打平,它就能以第一的排名结束整个赛季。
不过,在第四节,内布拉斯加打谷者队以17:31 落后。接着,他们发动了一次反击,成功触底得分,将比分追至23:31。这时,内布拉斯加队的教练汤姆·奥斯本面临一个重大的策略抉择。
在大学橄榄球比赛中,触底得分一方可以从距离入球得分线只有2 1/2码的标记处开球。该队可以选择带球突破或将球传到底线区,再得2分;或者采用一种不那么冒险的策略,将球直接踢过球门柱之间,再得1分。
奥斯本选择了安全至上,内布拉斯加队成功射门得分,比分改写为24:31 。该队继续全力反击。在比赛最后阶段,他们最后一次触底得分,比分变成30:31 。只要再得1 分,该队就能战平对手,取得冠军头衔。不过,这样取胜总不大过瘾。为了漂亮地拿下冠军争夺战,奥斯本认为他应该在本场比赛取胜。
内布拉斯加队决定要用得2分的策略取胜。欧文·弗赖尔(Irving Fryer)接到球,却没能得分。迈阿密队与内布拉斯加队以同样的胜负战绩结束全年比赛。由于迈阿密队击败内布拉斯加队,最终获得冠军的是迈阿密队。
假设你自己处于奥斯本教练的位置。你能不能做得比他更好?
案例讨论
星期一出版的许多橄榄球评论文章纷纷指责奥斯本不应该贸然求胜,没有稳妥求和。不过,这不是我们争论的核心问题。核心问题在于,在奥斯本甘愿冒更大的风险一心求胜的前提下,他选错了策略。他本来应该先尝试得2分的策略,然后,假如成功了,再尝试得1 分的策略,假如不成功,再尝试得2分的策略。
让我们更仔细地研究这个案例。在落后14分的时候,奥斯本知道他至少还要得到两个触底得分外加3分。他决定先尝试得1分的策略,再尝试得2分的策略。假如两个尝试都成功了,那么使用两个策略的先后次序则无关紧要。假如得1分的策略失败,而得2分的策略成功,先后次序则仍然无关紧要,比赛还是以平局告终,内布拉斯加队赢得冠军。先后次序影响战局的惟一可能性在于内布拉斯加队尝试得2分的策略没有成功。假如实施奥斯本的计划,这将导致输掉决赛以及冠军锦标。相反,假如他们先尝试得2分的策略,那么,即便尝试失败,他们仍然未必输掉这场比赛。他们仍然以23:31落后。等到他们下一次触底得分,比分就会改为29:31 。这时候,只要他们尝试得2分的策略得手,比赛就能打成平局,他们就能赢得冠军头衔!①
① 而且,这将是尝试取胜的努力失败之后导致的平局,因此没有人会批评奥斯本,说他一心想打成平局。
我们曾经听到有人反驳说,假如奥斯本先尝试得2分的策略,那么,如果没有成功,他的队将只能为打平对手而努力。但这么做不是那么鼓舞人心,并且他们很有可能不能第二次触底得分了。更重要的是,等到最后才来尝试这个已经变得生死攸关的得2分的策略,他的队将陷入成败取决于运气的局面。这种看法是错的,有几个理由。假如内布拉斯加队等到第二次触底得分才尝试得2分的策略,一旦失败,他们就会输掉这场比赛。假如他们第一次尝试得2分的策略失败,他们仍然有机会打平。即使这个机会可能非常渺茫,但有还是比没有强。激励效应的论点也站不住脚。这是因为,虽然内布拉斯加队的进攻可能在冠军决赛这样重大的场合突然加强,但迈阿密队的防守也会加强。这场比赛对双方是同样重要的。相反,假如奥斯本第一次触底得分之后就尝试得2分的策略,在一定程度上确实存在激励效应,提高第二次触底得分的概率。这也使他可以通过两个三分球打平。
从这个故事中可总结的教训之一在于,假如你不得不冒一点风险,通常都是越早冒险越好。这一点在网球选手看来再明显不过了:人人都知道应该在第一发球的时候冒风险,第二发球则必须谨慎。这么一来,就算你一发失误,比赛也不会就此结束。你仍然有时间考虑选择其他策略,并借此站稳脚跟,甚至一举领先。
第3章看穿对手的策略
每个星期,《时代》和《新闻周刊》都会暗自较劲,非要做出最引人注目的封面故事不可。一个富有戏剧性或者饶有趣味的封面,可以吸引站在报摊前的潜在买主的目光。因此,每个星期,《时代》的编辑们一定会举行闭门会议,选择下一个封面故事。他们这么做的时候,很清楚在某个什么地方,《新闻周刊》的编辑们也在关起门来开会,选择下一个封面故事。反过来,《新闻周刊》的编辑们也知道《时代》的编辑们正在做同样的事情,而《时代》的编辑们也知道《新闻周刊》的编辑们知道这一点……
这两家新闻杂志投入了一场策略博弈,不过,这个博弈从本质上看跟我们已经讨论过的博弈存在很大差别。第2章讨论的博弈是由一系列相继进行的行动组成的。查理·布朗在选择要不要踢那个橄榄球时,心里明白露西现在还没有决定要不要拿走那个球;在象棋里,白方与黑方交替行动。相反,《时代》与《新闻周刊》的行动却是同时进行的。双方不得不在毫不知晓对手的决定的情况下采取行动。等到彼此发现对方做了什么,再想做什么改变就太迟了。当然,这个星期的输家下个星期很可能竭力反扑,不过,等到那时,在这个日新月异的世界上说不定已经出现了一个完全不同的新的故事模式,开始了一场完全不同的博弈。
这两种博弈所要用到的策略思维和行动在本质上存在天壤之别。对于第2章讨论的相继行动的博弈,每个参与者不得不向前展望,估计对手的反应,从而倒后推理,决定自己这一轮应该怎么走。这是一条线性的推理链:“假如我这么做,另一个参与者会那么做——若是那样,我会这么反击”,依此类推。
而在同时行动的博弈里,没有一个参与者可以在自己行动之前得知另一个参与者的整个计划。在这种情况下,互动推理不是通过观察对方的策略进行,而是必须通过看穿对手的策略才能展开。要想做到这一点,单单假设自己处于对手的位置会怎么做还不够。即便你那样做了,你又能发现什么?你只会发现,你的对手也在做同样的事情,即他也在假设自己处于你的位置会怎么做。因此,每一个人不得不同时担任两个角色,一个是自己,一个是对手,从而找出双方的最佳行动方式。与一条线性的推理链不同,这是一个循环——“假如我认为他认为我认为……”。诀窍在于怎样破解这个循环。
夏洛克·福尔摩斯(Sherlock Holmes)和他的死对头、罪恶魔头莫里亚蒂(M噢riarty)教授擅长这类推理,对此我们一点都不觉得惊讶。正如福尔摩斯在《最后的问题》里告诉华生(Watson)的:
“我要说的其实已经在你的脑海闪过。”他说。
“那么我的答案大概也已经在你的脑海闪过。”我答道。
你就和华生医生一样,大概也在揣摩福尔摩斯怎么未卜先知。听完我们的解释,我们希望你会同意这其实相当简单。
你怎样才能看穿所有那些错综复杂而又看不见的策略呢?首先,你不要把其他参与者的未知行动视做天气那样,具有与个人无关的不确定性。上班之前,《时代》的编辑可能收听天气预报,知道今天下雨的概率是40%,他大概会利用这个信息去决定要不要带一把雨伞去上班。但《新闻
周刊》将会采用哪个特定主题作为封面故事的概率则完全是另外一回事。
区别在于,《时代》的编辑对《新闻周刊》有一个非常中肯的了解——另一个杂志的编辑与天气不同,他们是策略的博弈参与者,就跟《时代》的编辑自己一样。① 即便一个编辑不可能真的观察到另一个杂志的决定,他也可以通过另一个杂志的视角思考这个问题,尝试确定它现在一定在做什么。
① 有些人相信,自然界也是一个策略博弈的参与者,而且心肠狠毒,整天想着怎样破坏我们早已定下的计划,以从中取乐。比如,当你听说下雨的概率是40%,这意味着,有六成概率是你带了雨伞上班而老天爷又没有下雨,另有四成机会则是你忘带雨伞而老天爷偏偏下起雨来。
在第2章,我们可以提供一个单一的、统一的原理,为相继行动的博弈确定最佳策略。这就是我们的法则1:向前展望,倒后推理。在这一章,事情不会那么简单。不过,关于同时行动必不可少的思维方式的思考可以总结为指导行动的三个简单法则。反过来,这些法则又基于两个简单概念:优势策略与均衡。与第2章一样,我们也会通过简单的例子解释这些概念和法则。
1 .优势策略
在棒球比赛里,假如一方已经有两个人出局,而又打出三个坏球和两个好球,那么,任何一名进攻上垒的球员都必须在下一次投球的时候跑向下一垒。这可以通过琢磨各种可能的情形得出来。在大多数情况下,攻垒球员怎么做无关紧要。假如击球手碰不到球,要么出现第四个坏球而攻垒球员成功上垒,要么出现第三个好球而这一局结束。假如投球手投出界外球,攻垒球员只消退回原先所在的垒。假如这是一个擦棒球而又被接住,那么这一局就结束了。不过,有一种情况跑动攻垒占有优势,即假如击球手将投球击到界外,那么攻垒球员就有很好的机会上垒或者得分。
我们认为,在这种局面下,跑动攻垒就是优势策略,即某些时候它胜于其他策略,且任何时候都不会比其他策略差。一般而言,假如一个球员有某一做法,无论其他球员怎么做,这个做法都会高出一筹,那么这个球员就有一个优势策略。假如一个球员拥有这么一个策略,他的决策就会变得非常简单;他可以选择这个优势策略,完全不必担心其他对手怎样行事。因此,寻找优势策略是每一个人的首要任务。
一旦你知道自己在找什么,你就会发现这个东西无所遁形,我们身边其实到处都是优势策略的有趣例子。比如印第安纳·琼斯(Indiana Jones)在电影《印第安纳·琼斯与最后的十字军东征》(Indiana Jones and the Last Crusade)的最紧张局势时所处的地位。印第安纳·琼斯、他的父亲以及纳粹分子全都聚集在安放圣杯的地方。眼看纳粹分子只差一步就要得到圣杯,琼斯父子却无论如何不愿意助封为虐。于是,纳粹分子打了琼斯父亲一枪。只有具备起死回生力量的圣杯才能救老琼斯博士的命。在这种情况下,琼斯只好引他们走向圣杯。不过,前面还有一个最后的挑战:琼斯必须在十几个杯子当中做出选择,选出耶稣基督用过的圣杯。圣杯可以使人永生不死,其他杯子却会致人于死地。纳粹头子迫不及待地拿起一个华丽的黄金杯,喝下里面的圣水,却突然倒地而死,因为他选错了,那不是圣杯。琼斯选了一个木头杯,那是一个木匠用的杯子。他一边大叫“只有一个办法可以证实”,一边将杯里的水倒出一点在圣水器上,自己先喝了下去,希望自己选中的就是生命之杯。当琼斯发现自己没搞错,立即把杯子送到他父亲那里,圣水果然治愈了致命的枪伤。
虽然这一幕增添了紧张气氛,但在一定程度上却让我们感到难堪,因为一个像印第安纳·琼斯博士那样了不起的教授,居然会看不到他的优势策略。他本来应该先把杯子递给他父亲,没有必要自己亲身尝试。假如琼斯确实选对了杯子,那他父亲就会得救。假如他选错了杯子,那他父亲就会丧命,却至少可以保全琼斯。在将杯子递给他父亲之前自己测试一下其实毫无用处,这是因为,假如琼斯选错了杯子,那就再也没有第二次机会了——琼斯将死于致命之水,而他父亲也会死于致命枪伤。①
① 这个例子同时指出博弈论的弱点:人们单凭行为导致的结果给行为打分,行为本身则变得无足轻重。比如,即便印第安纳·琼斯的父亲已经受了致命枪伤,琼斯可能还是不愿意为导致父亲死亡的行为承担责任,一定要亲身试饮那杯水。
相比之下,寻找优势策略会比寻找圣杯容易一些。不妨想想英国桂冠诗人艾尔弗雷德·丁尼生爵士(Alfred,Lord Tennyson)那令人耳熟能详的名句:“爱过之后失去总比从来没有爱过好。”[1]换言之,爱是一种优势策略。
2 .封面之战
回到《时代》与《新闻周刊》的竞争上来。假设有一个星期出了两桩大新闻:一是众议院和参议院就预算问题吵得不可开交;二是发布了一种据说对艾滋病有特效的新药。编辑们选择封面故事的时候,首要考虑的是哪一条新闻更能吸引报摊前的买主(订户则无论采用哪一条新闻做封面故事都会买这本杂志)。在报摊前的买主当中,假设30%的人对预算问题感兴趣,70%的人对艾滋病新药感兴趣。这些人只会在自己感兴趣的新闻变成封面故事的时候掏钱买杂志;假如两本杂志用了同一条新闻做封面故事,那么感兴趣的买主就会平分两组,一组买《时代》,另一组买《新闻周刊》 。
现在,《时代》的编辑可以进行如下推理:“假如《新闻周刊》采用艾滋病新药做封面故事,那么,假如我采用预算问题,我就会得到整个‘预算问题市场’(即全体读者的30% ) ,假如我采用艾滋病新药,我们两家就会平分‘艾滋病新药市场’(即我得到全体读者的35%) ,因此,艾滋病新药为我带来的收入就会超过预算问题。假如《新闻周刊》采用预算问题,那么,假如我采用同样的故事,我会得到15%的读者,假如我采用艾滋病新药,就会得到70%的读者;这一次,第二方案同样会为我带来更大的收入。因此,我有一个优势策略,就是采用艾滋病新药做封面。无论我的对手选择采用上述两个新闻当中的哪一个,这一策略都会比我的其他策略更胜一筹。”
我们可以借助一个简单的表格,更加迅速而清晰地看出这番推理的逻辑性。我们用图3-1 中的两列表示《 新闻周刊》的对应选择,用两行表示《时代》的对应选择。这时我们得到四个格子,每一个格子对应一组策略。格子里的数字代表《时代》的销量,用购买《时代》的读者数占全体潜在读者数的百分比显示。第一行显示的是假如《时代》选择艾滋病新药,它在《新闻周刊》选择艾滋病新药或者预算问题的两种情况下的销量。第二行显示的是假如《时代》选择预算问题,它在《新闻周刊》选择艾滋病新药或者预算问题的两种情况下的销量。比如说,在左下角或者西南方向的格子,《时代》选择预算问题,《新闻周刊》选择艾滋病新药,结果《时代》得到30%的市场。
这个优势策略很容易看出来。第一行的两个格子无一例外都比第二朋行对应的格子占优,因为第一行的两个数字都比排在同一列下面的数字大。这是优势地位的特征。通过这个表格,你可以很快就看出这个特征是不是符合。你可以想像自己用第一行覆盖在第二行上面,然后会发现,盖住第二行的是更大的两个数字。相比之下,这个表格在阐述前面一段话的时候具有压倒语言推理的直观优势,而这种优势随着博弈的复杂程度加大而越发明显。在复杂的博弈当中,各方都有好几个策略。
《 新闻周刊》 的选择艾滋病新药预算问题
图3-1《时代》的销售
同理,在这个博弈里,双方都有一个优势策略。为了解释这一点,我们为《新闻周刊》的销量也画了一个表格(如图3-2 所示)。第一列数字显示的是假如《新闻周刊》采用艾滋病新药,它在《时代》采用艾滋病新药或者预算问题的两种情况下各有多大销量。这一列的两个数字无一例外都比第二列对应的数字占优,你可以再次想像自己拿起第一列覆盖在第二列上时会发现什么。因此,艾滋病新药对《新闻周刊》来说也是优势策略。
《 新闻周刊》 的选择艾滋病新药预算问题
图3-2 《新闻周刊》的销售
以策略观点来看,各方均有一个优势策略的博弈是最简单的一种博弈。虽然其中存在策略互动,却有一个可以预见的结局:全体参与者都会选择自己的优势策略,完全不必理会其他人会怎么做。但这一点并不会降低参与或者思考这种博弈的趣味性。比如,在百码短跑中,优势策略是能跑多快就跑多快,但许多人还是很喜欢参加或者观看这种比赛。在第1章提到的捷尔任斯基广场牢房出现的囚徒困境中,两个参与者都有一个优势策略,只不过这股压倒一切的力量最终将他们引向了一起倒霉的结局。这就提出了一个很有意思的间题:参与者怎样合作才能取得一个更好的结果?我们会在下一章进行更详细的探讨。
有时候,某参与者有一个优势策略,其他参与者则没有。我们只要略微修改一下《时代》与《新闻周刊》的封面故事大战的例子,就可以描述这种情形。假设全体读者略偏向于选择《时代》。假如两个杂志选择同样的新闻做封面故事,喜欢这个新闻的潜在买主当中有60%的人选择《时代》,40%的人选择《新闻周刊》。现在,我们画出《时代》的销量表格(如图3-3 所示)。
图3-3《时代》的销售
对于《时代》,艾滋病新药仍然是优势策略,但对于《新闻周刊》,销量表格则变成下面这样(如图3-4 所示)。
假如你拿起第一列,覆盖在第二列上,你会发现,30被一个较小的数字(28)覆盖,而12却被一个较大的数字(70 覆盖。没有一个策略占有压倒优势。换言之,《新闻周刊》的最佳选择不再与《时代》的策略无关。假如《时代》选择艾滋病新药,《新闻周刊》选择预算问题就能得到更好的销量,反之亦然。对于《新闻周刊》,得到整个预算问题市场总比得到一个较小份额的艾滋病新药市场要好,虽然整个艾滋病新药市场比预算问题市场要大。
图3-4《新闻周刊》的销售
《新闻周刊》的编辑们不会知道《时代 的编辑们将会选择什么,不过他们可以分析出来。因为《时代》有一个优势策略,那一定就是他们的选择。因此,《新闻周刊 的编辑们可以很有把握地假定《时代》已经选了艾滋病新药,并据此选择自己的最佳策略,即预算问题。由此可见,只有一方拥有优势策略的博弈其实也非常简单。拥有优势策略的一方将采用其优势策略,另一方则针对这个策略采用自己的最佳策略。
现在,既然我们已经介绍了优势策略的概念,就有必要强调两点特征,这两点特征可用来确定什么不是优势策略。人们很容易就会弄糊涂,不知道优势策略的优势究竟是对什么而言的。
1981年,伦纳德·西尔克(L俄onard Silk)在撰写有关国会对《经济复苏税法》争论的新闻时这样概括:“里根先生(Mr.Reagan)早已料到共和党人拥有博弈论中称为‘优势策略’的东西,一个使参与者领先其对手的策略,无论这些对手采用什么策略,结局都是一样。”[2] 我们将在第5章更加仔细地介绍这个博弈,在这里想指出的是,西尔克对优势策略的定义并不正确。“优势策略”的优势是指你的这个策略对你的其他策略占有优势,而不是对你的对手的策略占有优势。无论对手采用什么策略,某个参与者如果采用优势策略,就能使自己获得比采用任何其他策略更好的结果。回顾封面大战的例子,《时代》和《新闻周刊》都有一个优势策略,但双方都不可能得到比对方更高的销量。
另一个常见的误解在于,一个优势策略必须满足一个条件,即采用优势策略得到的最坏结果也要比采用另外一个策略得到的最佳结果略胜一筹。在前面讲到的例子里,所有优势策略凑巧都满足这个条件。按照最初设定的条件,《时代》假如采用艾滋病新药做封面故事,最坏的结果是得到35%的市场份额;他们若采用预算问题做封面故事,可能得到的最佳结果是30%的市场份额。但这并非优势策略的一个普遍特征。
现在让我们想像一下《时代》和《新闻周刊》之间爆发了一场价格战。假设每本杂志的制作成本是1美元,且售价只有两个可能的价位选择,分别是3美元(意味着每本利润为2美元)和2美元(意味着每本利润为1美元)。假设顾客永远倾向于选择价格较低的杂志,且在杂志价格相同的时候两种杂志各得一半读者。杂志定价3美元的时候,读者总数是500万;杂志价格降到2美元,读者总数将升到800 万。这时,你可以轻易算出《时代》在4种可能出现的价格组合里将会获得多少利润,并由此得出图3-5 。
图3-5《时代》的利润
《时代》的优势策略是定价2美元(《新闻周刊》亦如此)。《时代》采用这个优势策略可能得到的最坏结果是赢利400万美元。但是,采用另外一个策略可能得到的最佳结果将超过这一数字,达到500万美元。问题是比较这两个数字毫无意义。500万美元的数字是在两本杂志同时定价3美元的时候出现的;不过,假如这时《时代》把价格降到2美元,利润还会更高,达到800 美元。
我们可以把这些例子归纳为一个指导同时行动的博弈的法则。
法则2:假如你有一个优势策略,请照办。
不要担心你的对手会怎么做。假如你没有一个优势策略,但你的对手有,那么就当他会采用这个优势策略,相应选择你自己最好的做法。提醒一句:我们已经确立了同时行动的博弈的优势策略的概念。若是换了相继行动的博弈,采用优势策略的时候就要格外留神。因为策略互动的本质已经改变,优势策略的概念也会完全不同。假设我们说你有一个优势策略,无论你的对手选择怎么做,你按照这个策略做都比采用其他策略更好。若是相继行动,而你的对手先行,你就应该一直选择自己的优势策略。正如我们已经说过的那样,这是你对你的对手每一个行动的最佳对策,因此也是对现在他选择的这个特定行动的最佳对策。但是,假如你先行,你就不会知道你的对手将会采取什么行动。他会观察你的选择,同时做出自己的决定,因此你有机会影响他的行动。某些情况下,若是采用优势策略以外的策略,你可能更有效地施加这种影响。我们将在第6章讨论承诺的时候全面分析这个问题。
3 .劣势策略
不是所有博弈都有优势策略,哪怕这个博弈只有一个参与者。实际上,优势与其说是一种规律,不如说是一种例外。虽然出现一个优势策略可以大大简化行动的规则,但这些规则却并不适用于大多数现实生活中的博弈。这时候我们必须用到其他原理。
一个优势策略优于其他任何策略,同样,一个劣势策略则劣于其他任何策略。假如你有一个优势策略,你可以选择采用,并且知道你的对手若是有一个优势策略他也会照办;同样,假如你有一个劣势策略,你应该避免采用,并且知道你的对手若是有一个劣势策略他也会规避。
假如你只有两个策略可以选择,其中一个是劣势,那么另一个一定是优势策略。因此,与选择优势策略做法完全不同的规避劣势策略做法,必须建立在至少一方拥有至少三个策略的博弈的基础之上。现在就让我们看一个这种类型的简单例子。
设想一场橄榄球比赛的一次对抗。攻方一门心思竭尽全力向前推进,能跑几码算几码,而守方则全力以赴阻挡对方向前移动,寸步不让。举个例子:当比赛只剩下很少时间,攻方可能希望尽力推进,使自己更容易得到一个射门得分的机会。
假如攻方只有两个策略,即带球跑动或者传球,而守方则有三个策略——拦截带球跑动,拦截传球以及闪击四分卫(blitz the quarterback)。我们可以计算出全部六种策略组合分别能使攻方向前推进多少码的距离。以守方选择闪击四分卫而攻方打算传球为例。假设四分卫被撞得倒退10码的概率是10% ,迅速传球传出10码的概率是70% ,而传球传出更远达到20码的概率是20%。那么,平均值就是
0.1l*(-10)+0.7*10+0.2*20 =-1+7+4 =10
显而易见,这些数字本应该以两队拥有或者缺少的特殊技能为基础;我们只不过为了描述方便而选择了一些非常独特的技巧。①
① 在这个例子里,攻方善于传球,不善于带球跑动。因此,即便是在对方集中防御传球的时候,选择传球还是会比带球跑动更好。带球之所以比闪击四分卫更好,是因为防守后卫不在他们的位置上。
我们用图3-6 显示所有六种策略组合将会得出怎样的计算结果。
图3-6攻方期望得到的码数
如图3-6所示,攻方竭力要得到最大数目,守方则尽量压低这个数目,因此,我们没有必要分开列表确定他们的行动。①
① 所有零和博弈都会出现这样的情况,而零和博弈是指一方所得等于另一方所失。
双方都没有一个优势策略:没有一行的数字完全高于另一行,也没有一列的数字完全低于另一列。不过,守方倒是有一个劣势策略,就是闪击四分卫。闪击四分卫的结果是无论如何都会拱手让出较大的码数,因此,这一策略对于守方而言会比它采用其他可能的策略都更糟糕。因此,守方不应该闪击四分卫,攻方也可以非常自信地认定对手不会那么做。
至此,这场推导尚未结束。闪击策略可能从守方教练的笔记本中删除了,整个比赛可以被视为双方各有两个策略。在这场经过简化的比赛中,攻方有一个优势策略,就是传球。其数字分别是9和8,都大于带球跑动策略的数字,分别是3和 。传球之所以不是原来的比赛的优势策略,原因在于,带球跑动的结果在守方采取闪击策略的时候会有一个比较理想的结果(因为带球者可能趁守方闪击四分卫而分身无术时,顺利突人开阔地带),而现在闪击策略已经不予考虑。因此,攻方将会选择传球。反过来,守方也会想到这一点,选择自己的最佳策略,即防守传球。
这里涉及的普遍适用的概念可以归纳为一个指导相继移动的博弈的行动法则。
法则3 :剔除所有劣势策略,不予考虑,如此一步一步做下去。
假如在这么做的过程当中,在较小的博弈里出现了优势策略,应该一步一步挑选出来。假如这个过程以一个独一无二的结果告终,那就意味着你找到了参与者的行动指南以及这个博弈的结果。即便这个过程不会以一个独一无二的结果告终,它也会缩刁整个博弈的规模,降低博弈的复杂程度。
我们以一个虚构的波斯湾海军对峙局势具体描述逐步剔除劣势策略的做法。② 图3-7 所示的格栅代表战斗舰艇的方位以及可能的选择。I点的一艘伊拉克舰艇准备发射一枚导弹,企图击毁A点的一艘美国舰艇。这枚导弹的路径已经由电脑程序在发射的时候确定,可以直线前进,也可以每隔20秒大幅转动一个直角。假如这枚伊拉克导弹笔直从I点飞向A点,美国导弹防御系统可以非常轻易地进行拦截。因此,伊拉克一定会尝试带点拐弯的路径。所有能从I点通向A点的路径已经由下面的格栅显示出来。每条边的长度,比如IF的长度,等于这枚导
②这个故事是J.D.威廉斯(J.D.Williams)在《完全策略大师》(The Compleat Strategyst)一书中描绘的猫捉老鼠游戏的一个更新版本。猫可能指的就是波斯人。弹20 秒之内可以走过的距离。
那艘美国舰艇的雷达会监测到伊拉克舰艇发射的这枚导弹,因此电脑会马上发射一枚反导弹。反导弹的速度和伊拉克导弹相同,也可以做同样的90度拐弯。于是,这枚反导弹的路径也可以用同样的格栅表示,只不过这次是由A点出发。但是,为了填装足够撞毁一枚导弹的爆炸物,反导弹不得不少装燃料,装的燃料只够它飞行1分钟,因此,它只能走过三个节点(比如,从A 到B点,B点到C点,然后再从C点到F点,这一路径我们用ABCF表示)。
图3-7
假如在这1分钟开始之前或者结束之际,我们的反导弹将与来犯的导弹相遇,那么,反导弹就会爆炸,消除伊拉克导弹的威胁,否则伊拉克导弹就会击中我们的舰艇。问题是,应该怎样选择两枚导弹的路径?在这个博弈里,值得关注的只有第1分钟的路径。各方必须事先想好三个20秒时间段应该怎么走。将每个时间段的可能选择加起来,双方各有8条可能的路径,共有64种组合方式。我们现在就来考察全部64种组合方式,计算哪些方式下反导弹和导弹会迎头相撞,哪些方式下不会相撞。
举个例子:假设伊拉克选择IFCB,即头两个时间段直线从I点经F点到C点,然后转90度到B。对照美国的ABCF策略,可见,反导弹和导弹将在两个时间段(即40秒)之后在C点相遇,因此这一组合的结果是相撞。假如伊拉克还是采取IFCB策略,而美国却选择ABEF迎击,反导弹和导弹就不会相撞。表面上看来,上述弹道都经过B点和F点,但反导弹和导弹是在不同时间达到这些点;比如美国反导弹20秒后到达B点,而伊拉克导弹则要在60秒后到达。
图3-8显示了所有这样的组合。伊拉克的8个策略分别标为I1到I8,同时标出具体路径,比如I1表示IFCB。同样地,美国的策略用A1到A8表示。相撞的结果记做H,不会相撞的结果记做O。
图3-8 击中与错过图
图3-8看起来好像很复杂,但只要借助消除劣势策略的法则,就能将其大大简化。美国反导弹的目标在于得到相撞的结果,因此在美国人看来,H强于O。不难看出,对于美国人,A2策略与A4策略相比处于劣势:假如你将A4行举起,盖在A2行上面,你会发现,只要是A2 得到H的地方,A4也会得到H,而且A4还多一个H,即对应伊拉克巧策略的地方。对全部可能性进行这样的分析,可以知道A2、A3、A6和A7策略与A4和A8策略相比处于劣势,A1不及A8, A8又不及A4。因此,伊拉克人可以确信美国人只会采取A4或者A8策略。伊拉克人把注意力集中在这两行,一心想避免反导弹和导弹相撞,因此在他们看来,I2、I3、I4、I6、I7和I8策略与I1或者I5策略相比处于劣势。划掉劣势策略所在的行和列之后,整个博弈就简化为图3-10 。*
*简化过程详见图3-9。——译者注
我们的两个法则不可能将图3-10进一步简化了,因为这里已经没有任何优势策略或者劣势策略可言。不过,我们已经做得很不错了。看一看表格里剩下的策略,我们发现,伊拉克导弹应该沿着格栅外围前进,而美国反导弹则应该小步曲折前进。这样,我们很快就能看到双方应该怎样从各自拥有的两个方案中进行抉择了。
图3-9,击中与错过图
图3-10,简化的击中与错过图
4 .均衡策略
利用优势策略方法与劣势策略方法进行简化之后,整个博弈的复杂程度已经降到最低限度,不能继续简化,而我们也不得不面对循环推理的问题。你的最佳策略要以对手的最佳策略为基础,反过来从你的对手的角度分析也是一样。接下来我们将会介绍解开这个循环的技巧,最终走出这个循环。
为了说明这一点,我们首先回到《时代》与《新闻周刊》的价格战,不过这次不会假设备选价格只有2美元和3美元两种,而是一系列价格。现在,《时代》的管理层必须针对《新闻周刊》可能选择的每一个价格确定最佳对策。假设每种杂志都有一群忠实读者,也有一群可能受到价格竞争影响的流动读者。如果出于某种原因,《新闻周刊》的管理层把价格定在1美元的水平,也就是制作成本的水平,那么,《时代》的管理层一定不会跟随这个毫无盈利的价格策略,而会定出一个较高的价格,杂志仍然可以卖给忠实读者而获得一定利润。如果《新闻周刊》提价,那么《时代》也会提价,只不过幅度较小,从而为自己赢得一定的竞争优势。假定《新闻周刊》每提价1美元,《时代》的最佳对策是提价50美分,于是,我们可以用图3-11表示《时代》针对《新闻周刊》可能选择的每一个定价而确定的最佳对策。
我们假定两本杂志的成本一样,具有同等大小的忠实读者群以及同样的吸引流动读者群的能力。那么,《新闻周刊》针对《时代》可能选择的每一个定价而确定的最佳对策将与图3-11完全一致。
现在我们可以想像两种杂志的经理正各自埋头琢磨。《时代》的经理说:“如果他卖1美元,我就卖2美元。不过,他因为知道我这么想,所以不会真的卖1美元,而是执行他在我卖2美元时的最佳对策,即2.50 美元。那样的话我就不能卖2美元,而是采用我在他卖2.50 美元时的最佳对策,卖2.75 美元。不过,他因为知道我这么想…… ”这样一层一层分析下去,究竟有完没完呢?
有的,结局是3美元。假如这位《时代》经理认为《新闻周刊》会卖3美元,那么他自己的最佳对策就是也卖3美元,反过来,从《新闻周刊》的角度分析也是一样。整个循环推理最后将聚成一点。
我们可以用图3-12 来显示这个结果,该图同时反映了两者的对策。可以看到,两条线在两家都卖3美元的一点相交。
图3-ll
图3-12
我们已经找到了一个策略组合,其中,各方的行动就是针对对方行动而确定的最佳对策。一旦知道对方在做什么,就没人愿意改变自己的做法。博弈论学者把这么一个结果称为“均衡”。这个概念是由普林斯顿大学数学家约翰·纳什(John Nash)提出的。纳什的想法成为我们指导同时行动博弈的最后一个法则的基础。这个法则如下。
法则4:走完寻找优势策略和剔除劣势策略的捷径之后,下一步就是寻找这个博弈的均衡。
这一定就是夏洛克·福尔摩斯和莫里亚蒂教授曾经用来看穿对方心思的秘诀。
我们还要解释一下这个法则。为什么一个博弈的参与者非得达到这么一个结局呢?我们可以说出好几个理由。没有一个理由本身就有足够的说服力,不过,只要把几个理由结合起来,就能形成一个有力的答案。
首先,存在避免循环推理的必要,因为循环推理帮不上忙。均衡在没完没了的“我知道他知道我知道…… ”的循环里是稳定不变的,这使参与者对其他人的行动的估计能保持连贯性。各方正确预计别人的行动,并且确定自己的最佳对策。
均衡策略的第二个好处出现在零和博弈中。在这种博弈里,参与者的利益严格相悖。你的对手不能通过引诱你采取一个均衡策略而得到任何好处。你已经充分考虑到他们对你正在做的事情会有什么样的最佳对策。
第三个理由是,均衡方法注重实效。要想证明一个东西是布丁,就要吃一吃。综观全书,我们将会利用均衡方法讨论许多博弈。我们希望读者来检验它对博弈结果的预测以及这种思维方式产生的行为指导方针。我们相信,这么做会使我们提供的案例更有意思,比抽象地讨论均衡方法的优点更有意义。[3]
最后,可能存在一个对均衡概念的误解,我们希望各位可以避免。当我们说博弈的结果是均衡,并不自动意味着这就是对博弈的全体参与者最有利的结果,更不意味着是对整个社会作为一个整体而言最有利的结果。有利或者不利的评价永远属于另外一个问题,答案视各个案例的具体情况而各有不同。在第4章和第9章,我们会谈到这两种例子。
5 .盛宴还是饥荒
盛宴
均衡的概念是不是同时行动的博弈中循环推理问题的一个完全解?老天爷,不是的。有些博弈存在好几个均衡,有些博弈却一个均衡也没有,而在另外一些博弈里,均衡的概念还会由于接纳新型策略而变得更加微妙。我们现在就来描述和解释这几点。
开车的时候你应该走哪一边?这个问题不能通过运用优势策略或者劣势策略理论予以回答。不过,即便如此,答案却显得很简单。假如别人都靠右行驶,你也会留在右边。套用“假如我认为他认为”的框架进行分析,假如每个人都认为其他人认为每个人都会靠右行驶,那么每个人都会靠右行驶,而他们的预计也全都确切无误。靠右行驶将成为一个均衡。
不过,靠左行驶也是一个均衡,正如在英国、澳大利亚和日本出现的情况。这个博弈有两个均衡。均衡的概念没有告诉我们哪一个更好或者哪一个应该更好。假如一个博弈具有多个均衡,所有参与者必须就应该选择哪一个达成共识,否则就会导致困惑。
在开车行驶的例子里,一条早已制定的规则给了你答案。不过,若是遇到彼得和波拉打电话打到一半突然断了的事,你该怎么办?假如彼得马上再给波拉打电话,那么波拉应该留在电话旁(且不要给彼得打电话),好把自家电话的线路空出来。另一方面,假如波拉等待彼得给她打电话,而彼得也在等待,那么他们的聊天就永远没有机会继续下去。一方的最佳策略取决于另一方会采取什么行动。这里又有两个均衡,一个是彼得打电话而波拉等在一边,另一个则是恰好相反。
这两个人需要进行一次谈话,以帮助他们确定彼此一致的策略,也就是就应该选择哪一个均衡达成共识。一个解决方案是,原来打电话的一方再次负责打电话,而原来接电话的一方则继续等待电话铃响。这么做的好处是原来打电话的一方知道另一方的电话号码,反过来却未必是这样。另一种可能性是,假如一方可以免费打电话,而另一方不可以(比如彼得是在办公室而波拉用的是收费电话),那么,解决方案是拥有免费电话的一方应该负责第二次打电话。
为了检验读者协调达成一个均衡的能力,请思考下面的问题:明天某个时候你要在纽约市会见某人。他已被告知要与你会面。不过,双方都没有更多信息,不知道究竟何时或者在哪里会面。那么,你应该于何时去何地?
托马斯·谢林(Thomas Schelling)在他的《冲突策略》一书里使这个问题家喻户晓。这个问题只有通常最常见的答案,除此之外没有任何预先确定的正确答案。在我们的学生当中,正午时分在中央车站一直是最常见的答案。即便是普林斯顿的学生,虽然他们乘坐的到纽约的火车是在宾州车站而非中央车站停,他们的答案也是一样。①
① 也许最具创意的另一个答案来自加州大学圣迭戈分校教授塔妮亚·鲁尔曼(Tanya Luhrmann)。她的回答是:“纽约公立图书馆阅览室。”我们告诉她,这假如不是空前绝后的答案,也是相当少见的答案。她立即为她的选择进行了辩解。她说,这是因为,虽然她的成功机会可能很低,可她还是更有兴趣跟愿意选择纽约公立图书馆阅览室而非选择纽约中央车站的人见面!
饥荒
另一个复杂因素在于,并非所有博弈都有我们前面描述的那种均衡,哪怕是一个,在导弹截击的故事里,余下4个结果没有一个是均衡。举个例子,我们看看伊拉克I1策略遇到美国A4策略的情况。这一策略组合的结果是反导弹没能拦截导弹,假如美国转向A8策略,情况就会大不一样。不过,那样的话伊拉克就该转向I5策略,而美国反过来也要转向A4 策略,伊拉克则相应转向I1策略,如此类推。关键在于,如果一方坚守某种确定行为,另一方就会因此大占便宜。双方惟一明智的做法在于随机选择自己这一步怎么走。实际上,导弹截击问题具有很强的对称性,以至于正确的策略组合简直是显而易见的:美国的策略应该随机地“一分为二”,一半时间选择A4策略,另一半时间选择A8策略,伊拉克则以同样的概率选择I1和I5策略。
这种“混合策略”即便在双方打算合作的时候也会出现。在前面提到的打电话的例子中,设想双方都投硬币决定自己是不是应该给对方打电话,根据前面给出的条件,两人这种随机行动的组合成为第三个均衡:假如我打算给你打电话,我有一半机会可以打通(因为这时你恰巧在等我打电话),还有一半机会发现电话占线;假如我等你打电话,那么,我同样会有一半机会接到你的电话,因为你有一半机会主动给我打电话。每一个回合双方完全不知道对方将会采取什么行动,他们的做法实际上对彼此都最理想。因为我们只有一半机会重新开始被打断的电话聊天,我们知道我们(平均来说)要尝试两次才能成功接通。
而在其他博弈中,各方应该按照什么概率采取不同策略的答案却没有这么明显。在第7章我们会建立一套法则来确定什么时候需要采取混合策略,还会介绍一个找出正确的几率组合的方法。
我们现在简要回顾一下。在同时行动的博弈中,我们有三个行动法则:一是寻找和运用优势策略;二是寻找和避免劣势策略,与此同时假设你的对手也在这么做;三是寻找和运用均衡。本章结束之际,我们来看一个案例,这个案例向各位展示了这些指导法则是怎样转化为实际行动的。
6 .案例分析之三:莽汉软招
罗伯特·坎普(Robert Campeau)在第一次投标收购联盟商店(及其掌上明珠布鲁明代尔百货商店)的时候,运用了一个称为两阶段出价法的竞购方案。这个案例分析将会研究这种出价方案作为一个策略行动的效能。这一行动会不会让收购者占了便宜,从而违反公平原则了呢?
典型的两阶段出价法给先出让股份的股东支付的价格高,给后出让股份的股东支付的价格低。为避免复杂的计算,我们假设出价收购前的股价是每股100美元。收购者在第一阶段提出一个较高价格,即每股105美元,向先出让股份的股东支付,直到全部股份的一半出让为止。另一半待出让股份则进入第二阶段,收购者愿意支付的股价只有90美元。出于公平原则,股份不是按照股东出让的时间次序分属不同阶段。相反,每个人都会得到一个混合的价格:所有出让股份会按照一定比例均等划入两个阶段(假如招标成功,那些未出让自己股份的人就会发现他们的股份落入第二阶段)。① 我们可以用一个简单的代数表达式说明这些股份的平均支付价格。假如愿意出让的股份不超过50% ,每个人都会得到105美元的股价;假如这家公司的全部股份当中有X%愿意出让,且X%〉=50% ,那么,每股平均价格就是
$105*50/X+$90*(X-50/X)=90+15*50/X
① 拥有这家公司控制权的收购者有权将公司收为私有,然后悉数收购余下股份。按照法律,他必须向这些股东提供一个“公平市场”价格,以收购他们的股份。一般而言,在两阶段出价的竞购过程中,较低阶段的出价应该仍在可被接纳为公平市场价值的范围内。
值得注意的一点是,两阶段出价的竞购方案是无条件进行的;即便收购者没能得到公司的控制权,仍然应该按照第一阶段的价格收购全部愿意拍卖的股票。第二个特点在于,两阶段出价法的性质决定了假如所有人都愿意出让自己的股票,那么每股的平均价格只有97. 50美元。这个价格不仅低于收购者提出收购前的股价,也低于股东们在收购失败后可能得到的股价,这是因为,假如收购者被击败,股东们将会看到股价回到原来100美元的水平。因此,股东们希望要么收购者被击败,要么再出现一个收购者。
实际上,当时真的出现了另一个收购者,那就是梅西百货公司。现在就让我们假设梅西提出一个有条件的收购计划:它愿意用每股102 美元的价钱收购股份,前提是它能得到该公司大部分股份,那么,你将向哪一家出让你的股份,而你又觉得哪一家的计划会成功呢?
案例讨论
以两阶段出价的竞购方案来出让股份,是一种优势策略。为了证明这一点,我们会考察全部可能的情形。总共存在3种可能性,分别是:
两阶段出价的竞购方案吸引到的股份不足50% ,因而收购失败。
两阶段出价的竞购方案吸引到超过50%的股份,因而收购成功。
两阶段出价的竞购方案刚好吸引到50%的股份;假如这时你同意出让你的股份,收购就能成功,否则的话收购只能失败。
在第一种情形下,两阶段出价的竞购方案遭到失败,因此,股价要么回到100美元水平,要么达到102美元,后者是在竞争对手成功收购的条件下。不过,假如你出让自己的股份,你就能得到105美元的股价,比前面提到的两个结果都要好。在第二种情形下,假如你不出让你的股份,你能得到的股价只有90美元,而出让股份则至少能让你得到97.50 美元。因此,出让股份仍然是一个更好的选择。在第三种情形下,假如收购成功,别人得到的价格都不如以前,但你自己的结果却变好了。理由是,由于出让的股份刚好达到50% ,你将得到105美元的股价。这个价格值得出让。因此你愿意促成这桩收购。
因为出让是一种优势策略,我们可以预计人人都愿意出让自己的股份。一旦人人都出让股份,每股的平均混合价格可能低于收购前的价格,甚至可能低于预期收购失败后的价格。因此,两阶段出价的竞购方案可以使收购者以低于公司价值的价格收购成功。由此可见,股东们拥
有一个优势策略的事实并不意味着他们就能占先。收购者利用第二阶段的低价不公平地占到了便宜。通常,第二阶段的狡猾本质不会像在我们这里给出的例子那样赤裸裸地暴露出来,因为这一胁迫手段多多少少会被收购后红利的诱惑隐蔽起来。假如一家公司在收购之后的实际价值是每股110美元,收购者仍然可以通过一个低于110美元而又高于100美元的第二阶段出价占到便宜。律师们认为两阶段出价法具有胁迫性质,并且成功地利用这一点作为一个依据,在法庭上跟收购者打官司。在争夺布鲁明代尔的战役中,罗伯特·坎普取得最后胜利,但他却是通过一个修改了的出价达到目的的,其中并不包含任何阶段性的结构。
我们还会发现,一个有条件的竞购方案对于一个无条件的两阶段出价竞购方案不是一个有力的抵御策略。在我们给出的例子中,假如梅西许诺无条件支付每股102美元的话,那么它的竞购方案就会更难对付。梅西的无条件竞购将会破坏两阶段出价竞购方案取胜而达到的均衡。理由在于,假如人们认为两阶段出价竞购方案笃定取胜,他们将会得到的只是97.50 美元的平均混合价格,而这个数字显然低于他们把股份出让给梅西将会得到的股价。因此,不可能出现股东们希望两阶段出价竞购方案成功且又愿意向梅西出让股份的情况。①
①不幸的是,同样不可能出现一个梅西竞购成功的均衡点,因为若是这样,意味着两阶段出价的竞购方案吸引到不足50%的股份,那么股价仍将高于梅西愿意支付的价格。唉,这就是一个没有均衡点的例子。要想找出解决方案就必须用到随机策略,这一点我们将在第7章进行讨论。
1989 年年底,坎普由于负债累累而陷人经营困境。联盟商店按照《破产法》第十一条申请重组。当我们说坎普的策略很成功时,我们只想表明他的策略成功地达到了赢得竞购战的目的。成功经营一家公司完全是另外一场不同的博弈。
第1部分结语
我们在前三章借助商界、体育、政治等领域的例子作为辅助工具,介绍了许多概念和方法。在后面的章节,我们会实际运用这些概念和技巧。这里我们对这些概念和技巧进行回顾和总结,供读者参考。
博弈是一种策略的相互依存状况:你的选择(即策略)将会得到什么结果,取决于另一个或者另一群有目的的行动者的选择。处于一个博弈中的决策者称为参与者,而他们的选择称为行动。一个博弈当中的参与者的利益可能严格对立,一人所得永远等于另一人所失。这样的博弈称为零和博弈。不过,更常见的情况是,既有共同利益,也有利益冲突,从而可能出现导致共同受益或者共同受害的策略组合。但是,我们通常还是会把这个博弈当中的其他参与者称为一方的对手。
一个博弈的行动可能是相继进行,也可能是同时进行。在相继行动的博弈里,存在一条线性思维链:假如我这么做,我的对手可以那么做,反过来我应该这样应对…… 这种博弈通过描绘博弈树进行研究。只要遵循法则1:向前展望,倒后推理,就能找出最佳行动方式。
而在同时行动的博弈中,存在一个逻辑循环的推理过程:我认为他认为我认为…… 这个循环必须解开,一方必须看穿对手的行动,哪怕他在行动的时候并不知道这是怎么一回事。要想解开这么一种博弈,可以建立一张图,这张图能显示所有可能想像得到的策略组合将会相应产生什么结果。然后按照下列步骤进行分析。
首先看参与各方有没有优势策略,优势策略意味着,无论对手采取什么策略,这一策略都将胜过其他任何策略。这就引出法则2:假如你有一个优势策略,请照办。假如你没有优势策略,但你的对手有,那么,尽管认定他一定会照办吧,然后相应选择你自己的最佳策略。
接着,假如没有一方拥有优势策略,那就看看有没有人拥有一个劣势策略,劣势策略意味着无论对手采取什么策略,这一策略都将逊于其他任何策略。如果有,请遵循法则3:剔除劣势策略,不予考虑。如此一步一步做下去。假如在这么做的过程当中,在简化之后的博弈里出现了一个优势策略,应该采用这个优势策略。假如这个过程以一个独一无二的结果告终,那就意味着你找到了参与者的行动法则以及这个博弈的结果。即便这个过程可能不会导出一个独一无二的结果,这么做也可以缩小整个博弈的规模,使其变得更加容易控制。最后,假如既没有优势策略,又没有劣势策略,又或者这个博弈已经经过第二步进行了最大限度的简化,那么,请遵循法则4:寻找这个博弈的均衡,即一对策略,按照这对策略做,各个参与者的行动都是对对方行动的最佳回应。假如存在一个这样的独一无二的均衡,我们就有许多很好的证据证明为什么所有参与者都应该选择这个均衡。假如存在许多这样的均衡,你就需要用一个普遍认同的法则或者惯例做出取舍。假如并不存在这样的均衡,这通常意味着一切有规则可循的行为都有可能被对方加以利用,这时候你需要将你的策略混合运用。
在实践当中,博弈可能包含一些相继行动过程,也可能包含一些同时行动过程,因此须将上述技巧综合起来,灵活运用,思考和决定自己的最佳行动应该是什么。
第2部分
第4章走出囚徒困境
20世纪70年代,石油输出国组织(欧佩克)一直合谋提高原油价格,从1973年的每桶不足3美元提高到1980年的每桶超过30美元。每逢欧佩克召集定价会议,整个世界都会焦急不安地等待消息。20世纪70年代后期,一些能源专家已经预测,这么下去,等到20世纪末,石油价格将会涨到每桶超过100美元。不料,突然之间,这个卡特尔组织似乎就要崩溃了。石油价格开始下滑,1986年年初一度下跌至每桶10美元,1987年才逐步回升到每桶18美元。① 就在我们撰写本书的时候,伊拉克人侵科威特,油价又迅速上升到每桶35美元。专家们对欧佩克的前途莫衷一是。
① 当然,我们必须同时记住一件事,即在1981-1985 年,美元对其他货币强劲升值。因此,不管是油价在20世纪80年代上半叶下跌,或者是之后收复失地,油价的变化用美元以外的其他货币结算,都不如用美元结算时看起来那么富有戏剧性。
究竟是什么因素主宰了这样一个卡特尔的成败?而在多数情况下,又是什么因素左右了从商界、政界乃至其他社会机构的合作与竞争之间的平衡?借助我们在第1章提到的发生在克格勃牢房的囚徒困境,这个问题至少可以部分得到解决。
欧佩克的故事就是这么一个博弈。当然,我们讲述的时候采用了戏剧化的叙事方式,强调了个中困境,抛开了许多历史细节。现在,我们从考察仅仅两个成员的产量决策开始,假设这两个国家是伊朗和伊拉克。为以后讲解方便,我们只允许每个国家各有两个产量水平可以选择,分别是每天200万桶原油或者400万桶原油。根据这两个国家的不同决策,输出到全球市场的总量将是每天400万桶、600万桶或者800万桶原油。与这组数字对应,假设价格分别是每桶25美元、15美元和10美元。在伊朗,原油提炼成本是每桶2美元,而在伊拉克则是每桶4美元。于是,我们可以用“百万美元/天”为单位,在图4-1上显示两个竞争对手的利润。每个格子的右上方是伊拉克每天可得的利润,左下方是伊朗的利润。①
图4-l 伊朗和伊拉克的利润图
① 这种用同一个矩阵表示两个参与者的得失的做法来自托马斯·谢林。他用过分谦逊的笔触写道:“假如真有人问我有没有对博弈论做出一点贡献,我会回答有的。若问是什么,我会说我发明了用一个矩阵反映双方得失的做法…… 我不认为这个发明可以申请专利,所以我免费奉送,不过,除了我的学生,几乎没有人愿意利用这个便利。现在,我愿提供给各位免费使用。”
每个国家都有一个优势策略,即选择较高的产量水平进行生产。比如说,伊朗第四行对应产量的利润数字分别是52和32,全都高于第二行对应的数字46和26。假如两国全都选择各自的优势策略,它们的利润将分别达到每天3200万美元和2400万美元。这当然不是一个小数目,不过,假如它们合作,本来可以分别得到4600 万美元和4200 万美元。
这种情况称为“囚徒困境”。其显著特征在于,双方选择各自的优势策略,以使其收益达到最大,不过,与双方选择将其收益最小化的策略相比,最终的收益却更糟。那样的话,双方为什么不选择最小化的策略呢?回到伊朗和伊拉克的例子上来。即使伊朗愿意选择最小化的策略,每天生产200万桶,但伊拉克仍然有生产400万桶的动机,这么一来,结果就是对伊拉克最有利,而对伊朗最不利。假如伊朗不想合作,坚持生产400万桶,这时,伊拉克若是只生产200万桶,伊拉克就是傻瓜,白白牺牲自己的利润。这个卡特尔的问题在于,怎样才能在双方都面临诱惑、很想欺骗对方、从对方所失中获利的前提下,找到一个方法,维持一个低产量、高价格的策略,而这一策略能为双方都带来最高收益。
伊朗和伊拉克的情况与前面提到的克格勃的两个囚犯情况相仿。两个人都知道坦白才是优势策略:假如一方不坦白,另一方就会由于坦白而得到好处;假如一方坦白,另一方若不坦白就是傻瓜了。因此,无论一方怎么做,另一方还是想坦白。这一点对双方都适用。但一旦双方都坦白,各人都会遭到严厉的惩罚。我们再一次看到,谋求个人利益的私心最终导致了一个糟糕的结果。实际上,假如双方都不坦白,双方的结局都会更好一些。问题是,在双方暗自较劲希望为自己谋求一个更好的结果的时候,怎样才能达成这样的合作。
一个产业的几个竞争企业之间也会出现同样的问题。这个间题不仅让商人们苦恼不堪,也同样折磨着商学院的学生们。得克萨斯州A&M大学一位教授让自己班上的27名学生进行一个博弈,而这个博弈会把他们引人囚徒困境。[1]假设每一个学生都拥有一家企业,现在他必须决定自己应该生产1来帮助维持较高价格,还是生产2来通过别人所失换取自己所得。根据愿意选择1的学生总数,将收入按照表4-1 的方式分配给每个学生。
换用图4-2 ,我们可以看得更加清楚,效果也更加明显。
这是一个“事先设计好”的博弈,目的是确保每个选择2的学生总”比选择1的学生多得50美分,不过,选择2的人越多,他们的总收益
就会越少。假设全体27 名学生一开始都打算选择1,那么他们各得1.08 美元。假设有一个人打算偷偷改变决定,选择2,那么,选择1的学生就有26名,各得1.04 美元(比原来少了4美分),但那个改变主意的学生就能得到1.54 美元(比原来多了46美分)。实际上,不管最初选择1的学生总数是多少,结果都是一样,选择2是一个优势策略。每一个改选2的学生都会多得46美分,同时会使他的26个同学分别少得4美分,结果全班收人会少得58美分。等到全体学生一致选择自私的策略,尽可能使自己的收益达到最大,他们将各得50美分。反过来,假如他们联合起来,协同行动,不惜将个人的收益减到最小,他们将各得1.08 美元。你会怎么抉择?
表4-1
图4-2
演练这个博弈的时候,起初不允许集体讨论,后来允许一点讨论,以便达成“合谋”,结果愿意合作而选择1 的学生总数从3到14不等。在最后的一次带有协议的博弈里,选择1的学生总数是4,全体学生的总收益是15.82 美元,比全体学生成功合作可以得到的收益少了13.34 美元。“我这辈子再也不会相信任何人了。”领导合谋的学生这样嘟囔。那么,他自己又是怎么选择的呢?“噢,我选了2。”他答道。
这个情景使我们回想起尤塞里安(Yossarian在约瑟夫·海勒( Joseph Heller)的小说《第22 条军规》(Catch-22)当中的境遇。第二次世界大战胜利在望,尤塞里安不想成为胜利前夕最后一批牺牲者。他的上级军官问:“可是,假如我方士兵都这么想呢?”尤塞里安答道:“那我若是有别的想法岂不就成了一个大傻瓜?"
政治家们也会变成同样的困境中的囚徒。1984年,大多数人都很明白,美国联邦预算赤字实在太高了。裁减必要的巨额开支在政治上并不可行,因此,大幅增税应该是不可避免的。不过,谁愿意担当政治领导角色,带头主张这么做呢?民主党总统候选人沃尔特·蒙代尔( Walter Mondale)想要在自己的竞选活动当中为这么一个政策转变制造声势,却被罗纳德·里根(Ronald Reagan)打得落花流水,因为里根许诺绝不加税。1985年,这个议题陷人僵局,无论你怎么划分政治派别,民主党对共和党,众议院对参议院,还是政府对国会,各方都希望把提出加税的主动权推给对方。
从各方的角度看,最好的结果在于,对方有人提出加税和削减开支,并因此不得不付出政治代价。反过来,假如自己提出这样的政策,而对方坚守被动局面,并不附和,自己就会落得最糟糕的下场。双方都知道,联合起来共同倡议加税和削减开支,共同分享荣誉,分担谴责,与同时坚守被动,眼看巨额赤字上升而无所作为相比,显然会对整个国家更有利,即便对他们自己的政治生涯,从长期而言也会有好处。
我们可以画出一张常见的图(如图4-3所示),标明策略和结果,将这个情况变成一个博弈。双方分别是民主党和共和党。为了表示谁更加倾向于怎么做,我们把每个结果按照各方的眼光给出从1到4的排序,数字越低对自己越好。每个格子左下角是共和党给出的排序,右上角是民主党给出的排序。
显而易见,对每一方而言,保持被动是一个优势策略。而这正是真实发生的情况;第99届国会根本没有做出任何加税决定。此届国会确实通过了《格拉姆-拉德曼-霍林斯法》(Gralmm-Rudman-Hollings Act) ,这一法案规定以后必须实行削减赤字政策。不过,这只是一种伪装,好像采取了行动,实际却推迟了作出艰巨抉择的时间。这一目的与其说是通过限制财政支出的做法达成的,不如说是通过玩弄会计上的小把戏而实现的。
图4-3 共和党和民主党的排序
1 .如何达成合作
一旦陷入囚徒困境,人们就会想方设法逃脱,寻求大家一致愿意看到的合作的结果。圈外人则大约更愿意看到他们困在中间无法脱身。举个例子:某个产业的企业由于陷入囚徒困境而不能合谋抬高价格,买方得以从较低价格中受益。在这个例子中,社会希望阻挠这个产业合谋,不让其破解囚徒困境,反垄断法就是其中一道路障。但是,不管我们愿意寻求合谋或者是阻挠合谋,我们都必须了解有什么途径可以破解囚徒困境。只有这样,我们才能找出合适的对策,要么沿着这条路走下去,要么在上面设置路障。
一个根本的难题在于在任何协定下参与者都有作弊的动机。因此,中心问题是,怎样才能觉察这么一种作弊行为?什么样的惩罚才能阻止这种行为?现在我们逐一分析。
2 .觉察作弊
卡特尔作为一种企业联合组织,必须找出有效的办法,了解是不是出现了作弊行为,以及若是有作弊行为的话,确定是谁作弊。在我们已经讲过的例子中,觉察有人作弊通常都不是什么难事。比如在伊朗和伊拉克石油生产的例子中,石油价格只有在两国合作,每天生产200万桶原油的时候才会达到25美元一桶;只要价格低于每桶25美元,肯定有人作弊。在现实生活当中,情况更加复杂。价格下降可能有两个原因,一是需求下降,二是生产者之一作弊。除非一个卡特尔有本事区分这两种影响,确定价格下降的真实原因,不然的话,它就会在根本没人作弊的时候误以为有人作弊,并且采取惩罚措施,或者是反过来,有人作弊却没觉察。① 这些做法会降低准确性,使有关防范措施的效果大打折扣。一个妥协的解决方案是设置一个关键价格,或者称为“触发”(trigger)价格,一旦价格落到这个价格之下,卡特尔就可认定有人作弊,随即采取惩罚措施。
① 统计文献将错误的肯定称为一类错误,而将错误的否定称为二类错误。最常见的错误却是三类错误:记不起来确切的是哪个。
不过,在现实生活当中还有一个复杂因素。这类博弈通常都有很多不同层面的抉择,觉察作弊的可能性在不同层面也有所不同。比如,企业之间会在价格、产品质量、售后服务以及其他许多方面进行竞争。价格相对而言算是比较容易观察的,虽然可能存在的秘而不宣的折扣或者定价策略的灵活性会使问题复杂化。而在产品质量方面,质量具有许多不同层面,很不好把握。因此,旨在合谋维持较高价格的卡特尔经常发现,企业不断地将竞争引向新的层面。这样的事情就发生在民航产业。在受到政府监管的时期,机票价格是固定的,新竞争者进入的通道实际上被堵死了。这就相当于航空公司在民航管理局的推动下结成卡特尔。但在卡特尔内部,航空公司之间却开始竞争,或者说是作弊。它们虽然不能降低机票价格,却可以提供更加超值的服务,比如可口的飞机餐和美丽的空中小姐。假如劳工法要求航空公司也要聘用男性乘务员,而且不能因为空中小姐超过30岁就解雇,竞争则可以转向其他层面,比如提供更多直飞航线、加大座位宽度以及增加座位前面伸展腿脚的空间。
这种发展趋势还有一个例子,出现在国际贸易政策领域。关税是最容易看出来的、用于限制贸易的工具,关贸总协定(GATT)通过连续多个回合的谈判,最终促使所有发达国家一起大幅下调关税。不过,各国仍然面临国内强大的特殊利益集团的政治压力,它们要求限制进口。因此,各国渐渐转向利用其他一些不那么容易看出来的手段,比如自愿限制协定、海关估价手续、标准、行政手段以及复杂的配额制度。①
① 比如,按照复合纤维协议确定的配额,其征税标准极其复杂,不同织物在不同国家就有不同做法。这套标准使人难以看出配额制度对提高任何一种特定商品的价格究竟有什么影响。尽管如此,有些经济学家仍然估算出了这种影响,而且发现价格可能提高100%的幅度——若是关税高到这个程度,恐怕就要引发广大消费者的强烈抗议了。
这些例子说明了一个共同主题,即合谋集中在比较透明的抉择层面,竟争则转向不那么容易看出来的层面,我们把这个现象称为“提高不透明度定律”。也许读者未必看得出来,但合谋仍然可能损害你的利益。比如,1981年开始实施日本汽车进口配额制度后,不仅包括日本车和美国车在内的全部汽车涨价了,而且大众化的日本车型也从市场上消失了。不透明的竞争后果更甚:不仅导致价格上升,产品组合的平衡也被扭曲了。
确认作弊者可能比觉察作弊更为艰巨。假如只有两个参与者,诚实的一方当然知道谁在作弊。即便如此,能不能让他承认错误可能又是一个未知数。假如出现不止两个参与者,我们可能知道有人作弊,却没人知道究竟是谁,只有作弊者自己心知肚明。遇到这种情况,用于惩罚作弊的手段必然显得莽撞生硬,它会同时影响到无辜者和作弊者。
最后一点,作弊行为可能表现为维持被动,拒绝出头,因此也就更难区分出来。我们前面讲过的不肯带头倡议加税的例子就属于这个情况。遇到这种情况,想要推测或者断定有没有作弊更是难上加难。一方面,积极的行动人人都看得见,另一方面,不作为的借口也有很多,比如还有更加亟须处理的事情,需要时间动员全部力量,诸如此类。
3 .对作弊者的惩罚
在每一个鼓励合作的良好计划里,通常都会包含某种惩罚作弊者的机制。一个坦白且供出合作伙伴的囚徒可能遭到这些人的朋友的报复。若是知道外面会有什么报应等着自己,尽快逃脱牢狱之灾的前景大概也就不会显得那么诱人了。人人都知道,警察会威胁毒品贩子说要释放他们以让其坦白。这种威胁的作用在于,一旦他们被释放,卖毒品给他们的人就会认定他们一定是招供了。
而在得克萨斯州A&M 大学教室进行的实验里,假如学生们觉察到究竟是谁拒绝按照合谋选择1,他们可能就会整个学期不再理会这个家伙。估计没有哪个学生愿意为了50美分而冒被抵制的风险。至于欧佩克的例子,由于20世纪70年代阿拉伯国家存在社会与政治合作,任何一个打算作弊的国家都担心有可能遭到抵制,因而最终放弃了作弊的想法。这些例子反映了在最初博弈之上增加惩罚机制的做法,其目的就是为了减少作弊的动机。
在博弈的结构里还存在其他类型的惩罚。一般而言,这种情况发生的原因在于这个博弈反复进行,这一回合作弊所得将导致其他回合所失。我们还是用伊朗和伊拉克之间的原油例子进行分析。
由于两个国家天天都在进行这个博弈,惩罚的可能性也就出现了。假设他们从相互信任的基础起步,各国每天生产200万桶,携手维持较高的价格。然而各国都会不断受到诱惑,很想偷偷作弊一把。回到每天的利润图上来。假如这天伊朗作弊且取得成功,伊拉克保持诚实,那么伊朗这天的利润将从原来的4600 万美元上升到5200 万美元,净增600万美元(如图4-4 所示)。
图4-4伊朗和伊拉克的利润图
问题在于,假如伊拉克发现出了事又会怎么样。一个似是而非的情景是,彼此之间的信任瓦解,双方从此进人高产量、低价格的结局。与彼此信任的时候相比,这使伊朗每天少得1400万美元(从4600万美元减少到3200万美元)。可见,作弊带来的短期好处根本无法弥补之后带来的损失:假设伊拉克需要1个月的时间才能觉察伊朗作弊,并且断然决定解除合作,那么,伊朗由于作弊一个月而多得的1.8亿美元,在两国合作破裂13天之后就会被损失抵消。当然,时间就是金钱,今天增加的利润会比明天失去的同样数目的利润更值钱,不过,上述计算看起来仍然很不利。对伊拉克来说,卡特尔破裂将会带来更糟糕的下场:假如它作弊而未被觉察,也没有受到惩罚,那么每天可以多得利润200万美元;假如合作破裂,则每天损失将达1800万美元。显然,在这个例子中,哪怕只有一点点担心两国的相互信任会破裂,也足以约束两个竞争者乖乖遵守协定。
信任破裂有很多原因。比如,若是伊朗和伊拉克开战,欧佩克就很难强迫这两个国家遵守产量配额。有能力对违反协定者进行惩罚是维持卡特尔配额的信任的基础。不过,对于两个已经在用炸弹和“人浪”攻势相互惩罚的国家,你还有什么样的惩罚手段可用呢?一旦战争停止,由于出现了受到惩罚的可能性,合作的可能性也会再度浮现。
归纳起来,在一个一次性的博弈当中没有办法达成互惠合作。只有在一种持续的关系中才能够体现惩罚的力度,并因此成为督促合作的木棒。合作破裂自然就会付出代价,这一代价会以日后利润损失的形式出现。假如这个代价足够大,作弊就会受阻,合作就会继续。上述基本原则包含一些警示。第一个警示出现在合作关系存在某种自然而然的终点的时候,比如一个当选政府的任期到期就会结束。这种情况下,博弈反复进行的次数是一定的。运用向前展望、倒后推理的原则,我们可以看到,一旦再也没有时间可以进行惩罚,合作就会告终。但是,谁也不愿意落在后面,在别人作弊的时候继续合作。假如真的有人仍然保持合作,最后他就会脱不了身。既然没人想当傻瓜,合作也就无从开始。实际上,无论一个博弈将会持续多长时间,只要大家知道终点在哪里,结果就一定是这样。
现在我们进一步考察这个论点。从一开始,两位参与者就应该向前展望,预计最后一步会是什么。在这最后一步,再也没有什么“以后”需要考虑,优势策略就是作弊。这最后一步的结果是一个不可避免的结论。既然没有办法影响这个博弈的最后一步,那么,在考虑对策的时候,倒数第二步实际上就会成为最后一步。
而在这一步,作弊再次成为优势策略。理由是,位于倒数第二的这一步对最后阶段的策略选择毫无影响。因此,倒数第二步可以视为孤立阶段,单独进行考虑。对于任何孤立阶段,作弊都是一种优势策略。
现在,最后两个阶段的情形已经确定。早期进行合作根本无济于事,因为两个参与者已经决心在最后两个阶段作弊。这么一来,在考虑对策的时候,倒数第三步实际上就会成为最后一步。遵循同样的推理,作弊仍是一种优势策略。这一论证一路倒推回去,不难发现,从一开始就不存在什么合作了。
这一论证的逻辑无懈可击,不过,在现实世界里我们仍然可以找到阶段性的成功合作。有几个方法可以解释这一现象。一是,不错,这个类型的所有真实博弈只会反复进行有限次,但具体数目却没人知道。既然不存在一个确定的结束时间,那么这种合作关系就永远有机会继续下去。同时,参与者会有某种动机维持这种合作,为的是万一将来遇到不测,需要别人帮忙;假如这个动机足够强烈,合作就可以维持下去。
二是,这个世界存在一些“善良的”人,不管作弊可能带来什么样的物质利益,他们仍然愿意合作。现在让我们假设你没有那么善良,看看会出现什么情况。假如你按照自己的私心行事,那么在一个反复进行有限次的囚徒困境博弈里,你会从一开始就作弊。而这会使其他参与者看清楚你的本质。于是,为了掩盖真相,或者是至少掩盖一会儿真相,你不得不装出善良的样子。为什么你会那么做呢?假设你一开始就按照善良人的方式行事,其他参与者就会认为你大约属于周围少有的几个善良人之一。合作一段时间将会带来实实在在的好处,而且其他参与者也会打算仿效你的善良人的做法,换取这些好处。这对你也有好处。当然,你和其他参与者一样,仍然打算在博弈接近尾声的时候偷偷作弊。但你们仍然会在最初一个阶段进行互利互惠的合作。因此,在各人假装善良等待占别人便宜的时机的当口,大家都会从这种共同欺骗中得到好处。
三是,能在一个反复进行的囚徒困境中使信任出现的条件是,作弊所得早于合作破裂产生的代价之前出现。这么一来,两者相比哪一个更重要,就取决于现在与将来相比哪一个更重要。在商界,比较现在与将来的利润的时候,会用一个合适的利率对将来的利润打折扣。而在政界,现在与将来的重要性比较更加带有主观色彩,不过,一般而言,下
一次竞选之后的时间看起来无关大局。这使合作变得难以达成。即便是在商界,若是遇到不景气的年份,整个产业处于崩溃边缘,管理层觉得已经走到山穷水尽,没有明天了,那么,竞争就有可能变得比正常年份更加激烈。同样地,由于战争迫在眉睫,伊朗和伊拉克会认为现在的利润会比将来的利润更重要,由此加深了欧佩克面临的困境。
4 .惩罚的保证
最巧妙的方式在于通过一个保证加以惩罚的承诺推行一个价格联盟,而且是以竞争的名义进行。现在我们将要看到的是纽约市及其立体声音响商店大战。疯狂埃迪(Crazy Eddie)已经打出了自己的口号:“我们不能积压产品。我们不会积压产品。我们的价格是最低的——保证如此!我们的价格是疯狂的。”它的主要竞争对手纽瓦克与刘易斯(Newark&Lewis) ,口号却没叫得那么野心勃勃。然而每次购物,你都会得到这个商店的“终生低价保证”。按照这一承诺,假如你在别的地方看到更低的价格,商店会按差价的双倍赔偿给你。
如果您在购物之后发现,在您购买产品的正常使用年限里,本地同一销售区域的其他商店同样型号的商品打出的价格或者实际销售的价格更低(必须附有打印的凭据),我们纽瓦克与刘易斯将很乐意向您(以支票方式)支付100%的差价,外加25%的差价,或者,假如您愿意,我们将赠送面值相当于差价200%的礼品券(包含100%的差价外加相当于100%的差价的礼品券)。
——摘自纽瓦克与刘易斯的“终生低价保证”
不过,尽管这一家的政策听上去很有竞争力,这个非要击败对手不可的承诺却有可能加强一个操纵价格的卡特尔的内部约束。为什么会发生这样的事情呢?
假设一台录像机的批发价是150美元,现在疯狂埃迪和纽瓦克与刘易斯都卖300美元。疯狂埃迪偷偷作弊,减价为275美元。假如没有那个击败对手的承诺,疯狂埃迪完全有可能将一些原本打算在对手那边购物的顾客吸引过来,而这些顾客之所以要去纽瓦克与刘易斯那边购物,原因很多,可能是因为路途较短或者以前曾在那里买过东西。不幸的是,对疯狂埃迪而言,这回减价起了完全相反的效果。因为纽瓦克与刘易斯有那么一条价格保证,人们就想赚便宜,纷纷进来买一台录像机,然后要求赔偿50美元。这么一来,相当于纽瓦克与刘易斯的录像机自动减价为250美元,比疯狂埃迪减得还厉害。不过,当然了,纽瓦克与刘易斯一定不愿意就这么付出50美元。因此,它的对策就是降价至275美元。无论如何,疯狂埃迪的结果都不如原来。那又何必搞鬼作弊呢?价格还是保持在300美元好了。
虽然卡特尔在美国是非法的,疯狂埃迪与纽瓦克与刘易斯却还是结成了这么一个组织。读者可以看到,它们两家结成的这个心照不宣的卡特尔是怎样按照我们前面提过的卡特尔内部强制条件运行的:觉察作弊,并且惩罚作弊者。纽瓦克与刘易斯可以轻易觉察疯狂埃迪作弊。那些跑来说疯狂埃迪打出更低价格而要求赔偿的顾客,其实在毫不知情的情况下,扮演了这个卡特尔的执法侦探。惩罚的形式是价格协定破裂,结果导致利润下降。那则“击败竞争对手”的广告实际上自动而迅速地实施了惩罚。
联邦贸易委员会接过一个著名的反垄断案子,其中就涉及一种类似机制的利用,这种机制看上去会加剧竞争程度,其实却是一个卡特尔的约束机制。E.I.杜邦公司、乙烷基公司(Ethyl)和其他生产抗震汽油添加剂的公司被指控利用了一个“最优惠客户”条款。这个条款规定,这些最优惠客户将享受这些公司向所有客户提供的价格当中的最优惠价格。从表面上看,这些公司是在寻找它们的最优惠客户。不过,让我们深入考察一下。这个条款意味着这些公司不能展开竞争,不能通过提供一个带有选择性的折扣价格,将它的对手的顾客吸引过来,同时只能向它的熟客提供原来的较高价格。它们必须一起降价,而这么做的成本会大很多,因为它们卖出的所有产品的利润都下降了。读者可以看出这个条款对一个卡特尔有什么好处:作弊所得比作弊所失要小,因此卡特尔也更容易维持。
在评估这个“最优惠客户”条款的时候,联邦贸易委员会裁定其存在反竞争效果,禁止这些公司在它们与客户签订的合同里使用这么一个条款。① 假如现在的被告是疯狂埃迪和纽瓦克与刘易斯,你又会怎么判决呢?判断竞争激烈程度的一个标准是涨价幅度。许多所谓“廉价”立体声音响商店在定价的时候,差不多要在各个元件批发价之和的基础上再加100%。虽然很难看出哪一部分涨价是由库存和广告成本导致的,我们却可以发现一个表面上看来证据确凿的案例,说明疯狂埃迪究竟有多疯狂。
① 这一裁决并非没有争议。委员会主席詹姆斯·米勒(James Miller)就不同意。他写道,这个条款“可以证明能够减少买方的搜索成本,使它们能够在众多买家里找到具有最佳价格价值比的顾客”。希望进一步了解这个案例的读者,请参阅“In the matter of Et hyl Corporation et al.” FTC Docket 9128,FTC Decisions, pp.425-686。
5 .惩罚方式的选择
如果存在几个不同的惩罚手段,可以阻止作弊和维持合作,我们应该怎样抉择呢?有几个标准可供参考。
惩罚手段最重要的特征也许在于简单明确,这样的话,任何一个打算作弊的参与者都能很方便也很精确地算出作弊的后果。举个例子:假如判断是不是有人作弊的方法是,在过去18个月的折扣利润低于同期产业资本平均真实回报率10个百分点,而这个方法对于绝大多数企业而言实在太复杂了,根本算不过来,那么,这就不是一个良好的阻止作弊的约束方式。
接下来应该考虑的是确定性。参与者应该有信心,相信作弊者将受到惩罚,合作将会得到回报。这在欧洲国家寻求推动关贸总协定的时候成了一个主要问题。如果遇到一个国家投诉说另一个国家在贸易协定上作弊,关贸总协定就会启动一个行政程序,且一搞就是几个月,甚至好几年。而在判决过程中,几乎没人会听案件本身的事实陈述,判决通常更受国际政治和外交政策的影响。这样的约束机制显然不可能发挥什么作用。
然后我们会问,惩罚应该有多严厉。大多数人的直觉反应是,惩罚应该“与罪行相抵”。不过,这也许并不足以阻止作弊。阻止作弊最可靠的方式在于使惩罚变得尽可能严厉。既然以惩罚进行威胁可以成功地维持合作,那么,惩罚本身有多严厉就无关紧要了。恐惧使大家不敢作弊,这么一来,实际上就不会出现违规行为,违规将要付出什么代价当然也就无关紧要了。
这一思路的问题在于,它忽略了出错的风险。侦察过程可能出错,如报告说卡特尔内部有人作弊,而真正导致价格下跌的罪魁却是一个完全不受控制的因素,比如需求下跌。假如惩罚尽可能严厉,那么这个错误的代价就会非常高昂。要想减小出错付出的代价,惩罚必须尽可能轻微,刚刚能阻止作弊就够了。最低限度的惩罚可以达到阻止作弊的目的,又不会在不可避免的差错出现时招致任何额外代价。
6 .以牙还牙
这里列出的一个惩罚机制应该具备的理想条件显得相当高不可攀。不过,密歇根大学的政治学学者罗伯特·阿克塞尔罗德(Robert A xelrod)指出,以牙还牙法则恰好符合这些条件。[2]以牙还牙其实是古老的“以眼还眼”行为法则的一种变形:人家对你怎么做,你也对他们怎么做。① 说得更精确一些,这个策略在开始阶段双方是合作的,以后则模仿对手在前一阶段的行动。
① 在《旧约·出埃及记》(Exodus, 21:22 )中,我们看见,“人若彼此争斗,伤害有孕的妇人,甚至坠胎,随后却无伤害,那伤害她的总要按妇人的丈夫所要的,照审判官所断的受罚。若有别害,就要以命偿命,以眼还眼,以牙还牙,以手还手,以脚还脚,以烙还烙,以伤还伤,以打还打。”《新约》则提倡更具合作精神的行为。在《新约·马太福音)(Matthew, 5:38)中,我们读到,“你们听见有话说:‘以眼还眼,以牙还牙。’只是我告诉你们,不要与恶人作对。有人打你的右脸,连左脸也转过来由他打。”我们从“以其人之道还治其人之身”转为“你们愿意人怎样待你们,你们也要怎样待人”(《新约·路加福音》,Luke, 6:31)的金科玉律。假如人们当真遵循这一金科玉律,也就不会存在什么囚徒困境了。此外,只要我们看得更深远一些,不难发现,虽然合作可能在某一个特定博弈中降低你的收益,但是以后可能带来的回报却甚至足以使一个自私的人相信,合作应该算是一个理性策略。
阿克塞尔罗德认为,以牙还牙法则体现了任何一个行之有效的策略应该符合的四个原则:清晰、善意、刺激性和宽容性。再也没有什么字眼会比“以牙还牙”更加清晰、更加简单。这一法则不会引发作弊,所以是善意的。它也不会让作弊者逍遥法外,所以能够产生刺激。它还是宽容的,因为它不会长时间怀恨在心,而愿意恢复合作。
阿克塞尔罗德并未仅仅纸上谈兵,而是通过实验证明了以牙还牙法则的威力。他设计了一个二人囚徒困境博弈锦标赛。世界各地的博弈论学者以电脑程序的形式提交他们的策略。这些程序两两结对,反复进行150次囚徒困境博弈。参赛者按照最后总得分排定名次。
冠军是多伦多大学的数学教授阿纳托·拉波波特(Anatol Rapoport)。他的取胜策略就是以牙还牙。阿克塞尔罗德对此感到很惊讶。他又进行了一次锦标赛,这次有更多学者参赛。拉波波特再次提交了以牙还牙策略,并再次夺标。
以牙还牙策略一个非常引人注目的特征在于,它在整个比赛中取得了突出的成绩,虽然它实际上并没有(也不能)在一场正面较量中击败对手。其最好的结果是跟对手打成平局。因此,假如当初阿克塞尔罗德是按照“赢者通吃”的原则打分,以牙还牙策略的得分怎么也不会超过500 ,也不可能取得最后的胜利。
不过,阿克塞尔罗德并没有按照“赢者通吃”的原则给结对比赛的选手打分,只有比赛结束才算数。以牙还牙策略的一大优点在于它总是可以将比赛引向结束。其最坏的结果是遭到一次背叛,也就是说,让对方占了一次便宜,此后双方打成平局。以牙还牙策略之所以能赢得这次锦标赛,是因为它通常都会竭尽全力促成合作,同时避免相互背叛。其他参赛者则要么太轻信别人,一点也不会防范背叛,要么太咄咄逼人,一心要把对方踢出局。
不过,尽管如此,我们仍然认为以牙还牙策略是一个有缺陷的策略。只要有一丁点儿发生误解的可能性,以牙还牙策略的胜利就会土崩瓦解。这个缺陷在人工设计的电脑锦标赛中并不明显,因为此种情况下根本不会出现误解。但是,一旦将以牙还牙策略用于解决现实世界的问题,误解就难以避免,结局就可能是灾难性的。
举个例子:1987年,美国就苏联侦察和窃听美国驻莫斯科大使馆一事做出回应,宣布减少在美国工作的苏联外交官人数。苏联的回应是调走苏联在美国驻莫斯科大使馆的后勤人员,同时对美国外交使团的规模作出更加严格的限制。结果是双方都难以开展各自的外交工作。另一个引发一系列以牙还牙行动的例子出现在1988年,当时加拿大发现前来访问的苏联外交官从事侦察活动,当即宣布缩小苏联外交使团的规模,而苏联则以缩小加拿大在苏联的外交使团的规模作为回报。到了最后,两国关系恶化,此后的外交合作更是难上加难。
以牙还牙策略的问题在于,任何一个错误都会反复出现,犹如回声。一方对另一方的背叛行为进行惩罚,从而引发连锁反应。对手受到惩罚之后,不甘示弱,进行反击。这一反击又招致第二次惩罚。无论什么时候,这一策略都不会只接受惩罚而不作任何反击。以色列由于巴勒斯坦发动袭击而进行惩罚,巴勒斯坦拒绝忍气吞声,而采取报复行动。由此形成一个循环,惩罚与报复就这样自动而永久地持续下去。
哈特菲尔德家族(Hatfields)与麦科伊家族(McCoys)*的长期争斗,又或者是马克· 吐温(Mark Twain)笔下的格兰杰福特家族(Grangerfobrds) 与谢泼德森家族(Shepherdsons)的世代仇恨,给我们提供了另外两个例子,说明以牙还牙的行动是怎样导致两败俱伤的。不和各方一定不愿意停止争斗,除非他们觉得两家已经打平了。但是,就在这样持续不断的寻求打平的过程中,他们实际上是出手越来越重。最后他们甚至会为此送了命。几乎没有可能回到起点,重新谋求解决双方的不和了,因为,争斗一旦开始,就不会按照人们的意志发展。比如,当赫克·芬恩(Huck Finn)试图了解格兰杰福特家族与谢泼德森家族世仇的源头究竟是什么时,他却遇到了鸡生蛋还是蛋生鸡的难题。
“这究竟是为什么呢,巴克?——为了土地么?”
“我估计是的——我不知道。”
“那么,究竟是谁开的枪呢?是格兰杰福特家的人还是谢泼德森家的人?”
“天哪,我怎么会知道呢?那是多久以前的事啊。”
“有没有人知道呢?”
“噢,有的,老爸知道,我估计,还有其他一些老头子,不过现在他们也不晓得当初究竟发生了什么事。”
*哈特菲尔德家族与麦科伊家族是19世纪80年代美国肯塔基州的两大帮派,长期不和,以在肯塔基与西弗吉尼亚交界的山区地带持枪对射而闻名。当局虽然也会出动镇压,还逮捕滋事分子,无奈两大帮派根深蒂固,称霸一方,入狱者总是很快获得释放。如此僵持不下,直到1890年,两家争斗才渐渐平息下来。此事大大破坏了南北战争之后肯塔基州的形象。——译者注
以牙还牙策略缺少的是一个宣布“到此为止”的方法。因此,若将这一策略用于必然包含误解的情形,就会变得很危险。以牙还牙策略实在太容昌被激发起来。当某一作弊行为看上去像是一个错误而非常态举止的时候,你应该保持宽容之心。即便这一作弊是故意的,经过一个漫长的惩罚循环之后,也许到了该叫停并尝试重建合作的时候了。与此同时,你当然也不想太轻易地宽恕对方而被对方占了便宜。那么,你应该怎么取舍呢?
一个常见的评估策略的方法是衡量它有多大本事对付它自己。如果我们从发展的、演进的角度思考,就会发现“最符合情况的策略”是人们的优势策略。结果是,这些策略会经常相互较量。除非一个策略能够压倒自己,否则,任何最初阶段的成功都将转变为自我毁灭。
乍看上去,以牙还牙策略在对付自己的时候做得相当不错。两个以牙还牙者会从合作开始,然后,由于各方反应一致,合作似乎注定可以永久地持续下去。这种策略配对似乎可以彻底避免囚徒困境问题。
不过,若是有可能出现一方误解另一方行动的情况,又会怎么样呢?为了找出答案,我们仍然利用哈特菲尔德家族与麦科伊家族的例
子,因为他们就是用以牙还牙策略处理邻里关系的。起初他们和平相处(记作P) ,如图4-5所示。
图4-5
假设在第四轮,一个哈特菲尔德族人对一个麦科伊族人产生了误会。结果,虽然麦科伊家族真心维护和平,哈特菲尔德家族还是认为他们出现了侵略的举动(记作A) ,如图4-6所示。
图4-6
这么一个小小的误会犹如回声一般反复进行下去。在第五轮,哈特菲尔德家族以为麦科伊家族出现了侵略的举动而以侵略行动回敬,侵略从原来的想像变成现实。现在,两个以牙还牙的家族陷人了交替为前一次遭到报复而报复对方的情况。在第六轮,麦科伊家族为哈特菲尔德家族在第五轮的侵略而进行报复,导致对方在第七轮再次进行报复。如此类推。企图通过扳回一局而打成平手的做法根本行不通。
这一情况持续下去,直到出现第二个误会。此时有两种可能的发展方向。哈特菲尔德家族可能将和平误会为侵略,又或是将侵略误会为和平。① 假如侵略被误会为和平,整个争斗就会停止(至少可以维持到出现下一个误会之前)。
① 同样地,这些误会也可能出现在麦科伊家族一边,其后果也是一样。
假如第二个误会是将和平当做侵略,双方还会继续相互报复。图4-7显示了第九轮的情况。图中惟一一条表示和平的线段被误会为侵略。结果,哈特菲尔德家族在第十一轮以报复予以回应。双方将继续为对方前一次惩罚自己而进行报复,直到下一个误会出现。虽然以牙还牙者可以出手报复,却不能忍受别人的报复。
图4-7
关于以牙还牙策略的运作,我们可以得出什么结论呢?只要有可能出现误会,长期而言,以牙还牙策略会有一半时间合作,一半时间背扳。理由是,一旦出现误会,双方将问题复杂化与澄清误会的可能性一样大。这么一来,以牙还牙策略其实就跟扔硬币决定合作还是背叛的策略差不多,因为后者选择合作和背叛的几率也是相同的。
在这一节的讨论中,我们似乎一直忽略了一个重要因素:出现误会的可能性。但实际上,我们的结论并不取决于这一可能性!不管出现误会的几率怎样微乎其微(即便是小到万亿分之一),长期而言,以牙还牙策略还是会有一半时间合作,一半时间背叛,就跟一个随机策略一样。如果出现误会的几率很小,那么出现麻烦的时间就会推迟。不过,反过来,一旦出现误会,就要花更长时间才能澄清。
存在出现误会的可能性意味着你必须有更宽宏的雅量,但只可记住,而不是简单地采取以牙还牙的报复行动。这在大家认为出现误会的几率很小,比如5%的时候是正确的。不过,假如处于一个有50%的几率出现误会的囚徒困境中,你又该怎么做呢?你该有多大的宽宏雅量呢?
一旦出现误会的几率达到50% ,再也没有可能在囚徒困境中达成合作。你应该永远背叛对方。为什么呢?设想两种极端情况。假设你永远选择合作,而你的对手有一半时间会误会你的行动,结果是他会认为你一半时间背叛,一半时间合作。假如你永远背叛又会怎样?这种情况下你仍然会有一半时间被误会,只不过这一次对你是有利的,因为对手认为你有一半时间是合作的。
不管你选择什么策略,你都不可能影响你的同伴的看法。这就好比你的同伴是靠扔硬币来决定自己认为你做了什么一样。一旦出现误会的可能性达到50% ,看法与现实将再也没有什么联系。既然你根本没有可能影响你的同伴接下来将要作出的抉择,你大约还是选择背叛的好。你会在每一个阶段得到较高的回报,将来也不会遭到什么损失。
关键在于,保持宽宏雅量直到某一阶段是值得的。假如出现误会的可能性变得太高,那么在囚徒困境里保持合作的可能性就会消失殆尽。合作实在是太容易破裂,以至于不可能加以利用。较高的出现误会的可能性使你根本没有办法通过自己的行动传达清晰的信息。由于缺乏通过行动沟通的能力,合作的希望也就不复存在。
出现误会的可能性达到50%是可能出现的最糟糕的情况。假如大家都知道误会一定会出现,就会把每一个信息理解成相反的意思,那么误会也就不会出现了。一个百发不中的股市预言者其实跟一个百发百中的股市预言者同样出色。只不过你要知道应该怎样解读这些预言罢了。
记住这一点。接下来我们会找一个办法,破解这个其中可能出现误会而出现误会的可能性又不是太高的困境。
7 .以牙还牙策略的一个替代选择
清晰、善意、刺激性和宽容性等基本性质看起来很可能恰好符合任何能将自己解脱出囚徒困境的行为准则的要求。不过,以牙还牙策略在惩罚一个有过合作历史的人时显得过于急躁了一些。我们必须找出一个更能区别对待的策略:这一策略应在背叛只是偶尔为之时显得宽容一些,而在背叛成为一种惯常行为时又能果断地实施惩罚。
读者可以考虑遵循以下指导原则,作为迈向这一方向的一步。(1) 开始合作。(2)继续合作。(3)计算在你合作的情况下对方看上去背叛了多少次。(4)假如这个百分比变得令人难以接受,转向以牙还牙策略。注意,与以前不同,此时的以牙还牙策略不是作为对良好行为的奖赏,相反,却是对企图占你便宜的另一方的惩罚。
要想确定令人难以接受的背叛的百分比是多少,你必须了解对方行为的短期、中期和长期历史。仅看长期历史是不够的。一个人合作了很本长时间并不意味着他不会在声誉开始下降的时候企图占你的便宜。你还要知道“最近你都对我做过什么”。
这里有这一策略的一个例子,更具善意,更宽容,又没有那么大的刺激性,比以牙还牙策略复杂一点。从合作开始,如此继续下去,直到情况符合下面4个检验中的1个。
·第1印象:第一轮就背叛绝对不可接受。转向以牙还牙策略。
·短期:任何3轮当中出现2次背叛也是不可接受的。转向以牙还牙策略。
·中期:过去20轮当中出现3次背叛也是不可接受的,转向以牙还牙策略。
·长期:过去100轮当中出现5次背叛也是不可接受的,转向以牙还牙策略。
用以牙还牙策略惩罚不必永远持续下去。记录对方符合上述4个测试的频率。出现第一次背叛之后,进行20轮如回声一般的以牙还牙的相互报复,然后改为合作。同时将对方置于观察期,严密监视。另将中期和长期测试当中可能允许出现的背叛次数减1。假如对方在观察期内的背叛次数没有达到这一数字的50% ,就可以将他的背叛记录清为零,重新开始计算。假如对方在观察期内犯规,那就采取以牙还牙策略,永不改变。
对于第一印象以及短期、中期和长期印象,其确切规则取决于错误或误会发生的几率、你对未来获益和目前损失的重要性的看法,等等。不过,在并不完美的现实世界里,这种策略很可能胜过以牙还牙策略。
必须记住的一个重要原则是,假如有可能出现误会,你不要对你看见的每一次背叛都进行惩罚。你必须猜测一下是不是出现了误会,不管这个误会来自你还是你的对手。这种额外的宽容固然可使别人对你稍加作弊,不过,假如他们真的作弊,他们的善意也就不会再有人相信了。最终误会出现时,你再也不会听之任之。所以,如果你的对手有投机倾向,他终将自食其果。
8 .案例分析之四:国会对联邦储备局
美国国会和联邦储备局经常在经济政策上发生冲突。为了解释这一争端是如何引发以及将会导致什么结果,我们在这里介绍一下普林斯顿大学经济学家艾伦·布林德(Alan Blinder)对这一争端所做的博弈论分析。[3]这两个机构各自拥有相当独立的制定经济政策的权力。制定财政政策(税收和政府支出)是国会的工作,而制定货币政策(货币供给和利率)则属联邦储备局负责。各方可以选择用扩张或紧缩的模式实施自己的政策。扩张的财政政策意味着高支出和低税收,这会降低失业率,却有引发通货膨胀的风险。扩张的货币政策意味着低利率及由此形成的更宽松的借贷条件,这同样有可能引发通货膨胀。
对于经济结果,这两个机构也有各自的好恶标准。选民喜欢政府支出给他们带来的好处,比如降低按揭,却不愿意交税。有鉴于此,国会倾向于采取扩张性的政策,除非通货膨胀已经迫在眉睫,而且非常严重。相反,联邦储备局看得更长远,认为通货膨胀才是更关键的问题,因此倾向于采取紧缩性的货币政策,即紧缩银根。
1981-1982年,国会一度不再把通货膨胀当做一个多么了不起的风险。他们觉得整个经济有能力承受一个扩张性的财政政策,想要联邦储备局加以配合,同时采取一个扩张性的货币政策。不过,保罗·沃尔克(Paul Volcker)领导的联邦储备局担心这么做只会重新引发通货膨胀。在联邦储备局看来,第一选择是财政政策和货币政策同时紧缩。换言之,国会认为最理想的政策在联邦储备局看来糟糕透顶,反之亦然。
国会与联邦储备局的利益却并非完全对立。为了达成妥协,双方就一个采取扩张政策,另一个采取紧缩政策的相对优点进行了辩论。不管谁采取扩张政策,谁采取紧缩政策,这一混合策略对一般就业和通货膨胀的影响都相差不大,区别在于其他重要方面。扩张的财政政策和紧缩的货币政策会产生庞大的预算赤字,同时会拉高利率,因为只有这样做才能募集必要的资金,以在货币政策紧缩的前提下支持这个赤字的财政政策的运行。高利率还会对一些重要的行业,比如汽车和建筑业,造成非常严重的伤害。而外国资本由于受到美国高利率的吸引,也会蜂拥而入。美元将会升值,美国的国际竞争力将因此受到削弱。
财政紧缩政策和货币扩张政策会导致相反的结果:利率降低,美元贬值,对我们的汽车和建筑行业大有好处,也使我们销售的产品更具竞争力。国会和联邦储备局在这两种选择面前一致倾向于采取后面这个混合政策。
这种情况下,你预计可能出现什么结果?你会怎样判断这个结果?而你又会觉得整个政策制定过程应当进行什么改革呢?
案例讨论
这是一个囚徒困境。不然的话,这个案例也不会出现在这一章了,不是吗?)让国会和联邦储备局对4种可能的政策混合模式排列名次,1表示最佳,4表示最差。于是我们可以得到图4-8。
图4-8 联储和国会对结果的排序
对于国会,高支出是一个优势策略;对于联邦储备局,优势策略是收紧银根。一旦双方这么想,而且各自选择自己倾向的策略,结果将是财政赤字和银根紧缩。这正是20世纪80年代初发生的事情。不过,其实还存在一个对双方都更加有利的结果,即预算盈余和银根放松。
究竟是什么使它们没能达成一个对彼此都更加有利的选择呢?答案又是决策的相互依存性。只有在双方一致选择单独看来不那么好的策略的时候,才会取得对于双方都更好的结果。国会必须限制支出,从而达到一个平衡的预算。不过,假如国会这样做了,谁能保证联邦储备局就不会报以一个收紧银根的政策呢?若是联邦储备局当真那么做,就会出现在国会看来最糟糕透顶的结果。国会不相信联邦储备局有能力抵御这样的诱惑。它们没有办法彼此许下值得信赖的承诺,正是这一事实堵死了通向双方都更愿意看到的结果的道路。
我们能不能提出一个走出这一困境的办法呢?双方有着一种持续的关系,合作可能出现在反复进行的博弈当中。不过,合作只有在双方都足够重视未来收益的时候才会出现。国会议员每隔两年就要谋求竞选连任,要他们以如此长远的目光行事,实在困难。
我们不妨从另一个角度审视这个间题。其实,联邦储备局本身就是国会的一项发明。在大多数其他国家,政府(财政部)对中央银行的控制权要大得多。假如美国也是这样,那么,国会完全可以强迫联邦储备局采取一个扩张的货币政策,从而达成国会最想看到的结果。当然,那些赞同联邦储备局的看法,认为通货膨胀才是重要问题的人,会觉得这实在令人感到遗憾。
看上去这是一个没有胜方的情况:协调财政和货币政策等同于国会短视的政治目标取得成功,可惜,由一个独立的联邦储备局开出的支票和结余却引出了一个囚徒困境。也许,一个解决的方案是让联邦储备局决定支出和税收,而让国会确定货币供给?
第5章策略行动
我们必须组织一场毫不留情的战斗。绝不能让敌人拿到一片面包或一升汽油。合作农场的农民必须将牲口赶到别处,将粮食转移到其他地方。无法转移的东西一律就地毁灭。桥梁和道路必须埋设地雷。森林和仓库都要烧毁。留给敌人的只能是难以忍受的局面。
——斯大林在宣布苏联对抗纳粹的“焦土”防御政策时的讲话,1941年7月3日。
今天,在企业控制的战场上,仍然可以看见斯大林的战略。西太平洋(Western Pacific)打算吞并霍顿·米夫林(Houghton Mimin)出版公司,后者威胁说要清空自己的作者群。约翰·肯尼思·加尔布雷思(John Kenneth Galbraith)、阿奇博尔德·麦克利什(Archibald MacLeish)、小阿瑟·施莱辛格(Arthur Schiesinger ,Jr.)以及许多盈利可观的教科书的作者一致威胁说,假如霍顿· 米夫林被兼并,他们就会另投别处。“当西太平洋主席霍华德·(米基)·纽曼(Howard (Mickey) Newman)接到头几封作者寄来的抗议信的时候,他还觉得这是一个笑话,称之为‘捏造’。不过,当他接到更多这样的信件时,他开始意识到,‘我可能买下这个公司后却一无所获。’”[1]结果,西太平洋收回收购计划,霍顿·米夫林得以继续独立经营。
不过,这一策略并非总是管用。比如,当鲁拍特·默多克(Rupert Mudoch)有意收购《纽约》 杂志时,该杂志社肩负重任的管理层决心将他打回去。许多著名的作者威胁说,假如默多克夺得控制权,他们就即要离开《纽约》 杂志。但这并未吓倒默多克。他还是收购了《纽约》 杂志。作者们确实离开了,但是,广告客户并没有走。默多克得到了他想要的东西。作者们走错了方向。要想使焦土政策起作用,你就必须毁灭入侵者想要的一切,而这些东西未必是现在的主人最重视的。
我们倒不是有意暗示说,这么一个策略无论成功或失败,其本身或结果都是可取的。我们不难想像社会希望避免这么一种意味着巨大浪费的破坏行动的出现。我们的目的在于解释这些策略的本质,这样你就可以更好地运用它们,或者避免使用它们。
焦土防御只不过是被博弈论者称为策略行动的做法的一个例子。[2[ 一个策略行动的设计意图在于改变对方的看法和行动,使之变得对自己有利。其突出特征是刻意限制你的行动自由。这一点可以通过一种无条件的方式实现,比如一个总统候选人发誓说“不会提高税收,就是这样”。又或者,由于策略行动确定了一个怎样应付不同情况的规则,自由因此受到限制。比如,美国许多州都有强制性的制裁持枪犯罪的法律,这些规则实际上有意限制了司法裁判的自由。
你大约已经觉得,保留选择余地总归是有好处的。不过,在博弈论的王国里,这一点却不成立。你虽然少了自由,却在策略上得了益,因为这么做改变了其他参与者对你以后可能采取什么反应的预期,而你可以充分利用这一点,为自己谋利。其他人知道,只要你有行动的自由,你就有让步的自由。引用奥斯卡·王尔德(Oscar Wilde)的名言,就是:“我就是没法拒绝诱惑。”[3]
1 .无条件行动
设想美国和日本争先恐后发展高清晰度电视。虽然美国拥有技术方面的优势,却由于财政赤字越积越高,可以动用的资源实在非常有限。日本抓住美国这个短处,再次击败了它。不过,一个乍看上去可能进一步束缚美国的策略行动其实可以扭转整个局面。
在缺少无条件行动的前提下,华盛顿和东京同时开始选择各自的策略。每个国家都必须决定对研究开发的投入是高还是低;投入高,会大大缩短开发时间,当然产生的成本也更高。我们把这个情况看做一个博弈,画出它的得失图表(如图5-1所示)。每一方都有两个策略,因此会出现4个可能的结果。
我们假设双方都认为,投入高是一个最糟糕的结果,因为:在日本看来,美国很可能赢得一场全力以赴的比赛,自己的投入只会变成损失;而在美国看来,这么做的成本太高。把这个结果称为各方的1 。各方第二糟糕的结果(2)是自己的投人水平低,而对方却选择了高水平:这等于在毫无成功希望的前提下花钱。
图5-1 美日高清晰度电视竞赛的得益
日本最愿意看到的结果(4)是,自己选择高水平,美国却选择低水平;那样的话,它取胜的机会很大,而且资源成本问题在它看来也没那么严重。在美国看来,最理想的结果是双方同时选择低水平,那样的话,美国很有机会以较低成本打赢这一仗。
低水平是美国的优势策略。美国的问题在于,日本会早已料到这一点。日本的最佳对策是转向高水平。这个博弈的均衡点出现在右上方的格子里,在那里,美国得到的是自己第二糟糕的结果。要想改善这一局面,必须采取一个策略行动。
假设美国占了先机。日本还没来得及做出决定,美国已经抢先宣布自己无条件支持这一开发项目。这就使原本同时出招的博弈变成相继出招的博弈,而且还是美国先行。于是,上图5-1 也相应变成一棵树(如图5-2 所示)。①
① 要想把一棵树变成一张桌子(表格),非得借助一个聪明的木匠不可;一个聪明的策略家,知道怎样把一张表格变成一棵树。(在英语中,“表格”和“桌子”是同一个单词,作者在这里是用这个多义词开玩笑。——译者注)
图5-2 相继行动的博弈树及其得益(括号内第一个数字为美国的得益,第二个数字为日本的得益)
这个博弈可以通过向前展望、倒后推理解出。假如美国选择低水平,日本就会报以高水平,那么美国的结果就是2。假如美国选择高水平,日本报以低水平,那么美国的结果就是3。因此,美国应该宣布选择高水平,同时希望日本报以低水平。这就是这个相继出招的博弈的均衡点。这么做,美国可以得到3,胜于它在原来那个同时出招的博弈里得到的2。
这个使美国占得有利形势的策略行动,在于单方面、无条件地宣布自己的选择。这个选择不是美国在同时出招博弈里会做出的选择。引入策略思维的精彩之处,正在于此。美国若是宣布选择低水平,不会得到任何好处;在其没有作出任何声明的情况下,日本反正也是这么预期的。
要想策略地行动,你必须保证自己不要采取在同时出招博弈里的均衡策略。美国的这个策略行动改变了日本的预期,进而改变了它的行动。一旦相信美国会不惜一切代价选择高水平,日本就会选择低水平。当然了,等到日本拿定了主意,美国最好还是改变主意,同样回到低水平的道路上去。
这就提出了几个问题:为什么日本应该相信美国的声明?它难道就不会预计到美国会改变主意么?假如它料到美国会有这么一个改变,它还会选择高水平么?
换言之,美国走出的无条件行动的第一步的可信度值得怀疑。假如美国并不可信,那么这一招将毫无作用。大多数策略行动都会遇到这个可信度的问题。回顾本章开始提到的几个例子,虽然政治家们发誓不会加税,这是无条件的,却并非不可收回。一旦当选,他们常常可以找到借口加税。即便是有条件的规则,在特定的时候也会出现例外情况,比如一个精神科医生用一枝非法的手枪自卫,抵抗一名神经错乱的病人的袭击,那么强制判刑的条例就失去了效力。
为了使一个策略行动可信,你必须采取其他附加行动,使扭转这一行动变得代价高昂乃至完全没有可能。可信度要求对这个策略行动作出一个承诺。当斯大林威胁说要饿死他的敌人,烧毁田野的行动就使他的威胁变得非常可信。而在其他情况下,可信度是一个程度间题。(大多数时候)法律体系中的先例使强制判刑条例显得可信;至于政治家的承诺,例外情况反而更加常见。在高清晰度电视的竞赛里,美国可以划拨专项资金,专供有意参与开发计划的公司申请支取,从而使自己投人高水平研发力量的选择显得更加可信。
因此,策略行动包含两个要素:计划好的行动路线以及使这一路线显得可信的承诺。本章我们集中考察行动。我们将策略行动划分为不同类型,逐一进行解释,而暂时把怎样使这些行动变得可信的问题放在一边。打个比方,若说这是一个烹调过程,下一章我们会提供一个承诺的详细“食谱”,现在让我们继续研究行动的主“菜单”。
2 .威胁与许诺
一个无条件的行动可以使这个参与者获得策略上的优势,抢占先机,率先出招。即便你并未真的先行,仍然可以通过对一个回应规则作出一个承诺,获得相仿的策略优势。回应规则把你的行为视为对其他人行动的一种回应。虽然你是跟在别人后面行动,但这个回应规则必须在别人开始行动之前就实施。父母对孩子说,“除非你吃掉菠菜,否则没有甜品”,实际上就是在确立一个回应规则。毫无疑问,这个规则必须在这个孩子把自己那份菠菜喂了小狗之前就开始实施,并且明确宣布出来。
回应规则分为两大类:威胁与许诺。威胁是对不肯与你合作的人进行惩罚的一种回应规则。既有强迫性的威胁,比如恐怖分子劫持一架飞机,其确立的回应规则是假如他的要求不能得到满足,全体乘客都将死于非命;也有阻吓性的威胁,比如美国威胁说,假如苏联出兵攻击任何一个北约国家,它就会以核武器回敬。强迫性的威胁的用意在于促使某人采取行动,而阻吓性的威胁的目的在于阻止某人采取某种行动。两种威胁面临同样的结局:假如不得不实施威胁,双方都要大吃苦头。
第二大类的回应规则是许诺。这是对愿意与你合作的人提供回报的方式。为寻找证人,检察官会向一个被告许诺说,只要他愿意成为公诉方的证人,检举同案中的其他被告,他就会得到宽大处理。许诺同样可以分为强迫性的和阻吓性的两种。强迫性许诺的用意是促使某人采取对你有利的行动,比如让被告摇身一变成为公诉方的证人;阻吓性许诺的目的在于阻止某人采取对你不利的行动,比如黑帮分子许诺好好照顾证人,只要他答应保守秘密。相仿地,两种许诺也面临同样的结局:一旦采取(或者不采取)行动,总会出现说话不算数的动机。
有时候,威胁与许诺的界限非常模糊。一个朋友在纽约市被抢了钱,却得到下面这个许诺:只要你“借给”我20美元,我许诺一定不会伤害你。相比之下更加性命攸关的还是这个歹徒没有明说的威胁:假如我们这个朋友不肯“借给”他20美元,他就一定会受到伤害。
正如这个故事暗示的那样,威胁与许诺的界限只取决于你怎样称呼当前的情形。老派的歹徒会威胁说,假如你不给他一点银子,他就要伤害你。假如你没有给,他就会动手“修理”你,从而造成一种新的情形,而在这种新的形势下,他又会许诺说只要你给他一点银子,他马上就会住手。随着形势转变,一个强迫性的威胁会变得和一个阻吓性的许诺差不多;同样,一个阻吓性的威胁与一个强迫性的许诺的区别也只在于当时的情况。
3 .警告与保证
一切威胁与许诺的共同点在于:回应规则使你不会在没有回应规则的前提下采取行动。假如这个规则只是泛泛地指出,无论什么时候你都会采取最佳行动,那就跟没有规则差不多。由于别人对你以后的行动的预期毫无变化,这个规则也就产生不了任何影响。不过,说明什么事情会在没有规则的情况下发生,仍然具有一种公告天下的作用,这些说明称为警告与保证。
如果实践一个“威胁”对你有利,我们称之为警告。比如,假设总统警告说他会否决一个他不喜欢的法案,这只不过是表明了他自己的意图。假设他本来很愿意签署这个法案,但是为了促使国会提出更好的方案,他决定策略地指出要行使否决权,这就是一种威胁。
返回书籍页