必读网 - 人生必读的书

TXT下载此书 | 书籍信息


(双击鼠标开启屏幕滚动,鼠标上下控制速度) 返回首页
选择背景色:
浏览字体:[ ]  
字体颜色: 双击鼠标滚屏: (1最慢,10最快)

思考,快与慢

_4 丹尼尔·卡尼曼 (美)
施瓦茨和他的同事观察到列举事件的任务可能会通过两种不同方式加强对特点的判断:能回想起的事例数量。事件在脑中呈现的轻松程度。
列举12个例子的要求使得两个决定因素相互排斥。一方面,你刚想起了几件自己做得很果断的事;另一方面,你想起前三四件果断的事可能很轻松,可说出12件就要挖空心思了,回忆起来也没有那么顺畅。哪个更重要呢,提取的数量还是提取的轻松感和顺畅性?
两个因素间的较量谁是赢家一目了然:那些列举了12件事的人认为和只列举了6件事的人相比,自己不够果断。而且,列举出自己表现不够果断的12件事的那些受试者最终却认为自己非常果断!如果无法轻松地想起懦弱的事例,你可能就会说自己一点也不懦弱。自我评估是由事件呈现在脑海中的轻松度来衡量的。轻松地想起某件事的体验比想起事情的数量更重要。
同一个小组的另外一些心理学家对顺畅性的作用作了一个更为直接的实证研究,实验中所有的受试者都按要求列出了6件果断(或不果断)行事的例子,同时还保持着特定的面部表情。“微笑者”要收缩颧肌,露出浅浅的微笑:“皱眉者”要皱着眉头。如你所知,皱眉通常伴有认知紧张,且其影响是对称的:执行任务时被要求皱眉的人付出的努力更多,体验到的认知紧张也更强烈。研究者预计皱眉者在提取果断行为时会有难度,因此会估计自己缺少果断性。结果也的确如此。
心理学家喜欢产生悖论的实验,他们怀着极大的兴趣运用了施瓦茨的发现。例如,人们:在回忆起自己多次骑自行车的经历后,依然相信他们自己不经常骑自行车。在被要求用更多的论据支撑自己的选择时自信心下降。在列出多个避免某种问题的方法后,却对避免此问题显得更加不自信。在列出某辆车的优点后,对该车变得没那么感兴趣了。
加州大学洛杉矶分校的一位教授发现了一个利用可得性偏见的巧妙方法。他让不同组的学生列出改进课程的方法,要求不同组列出不同数量的方法。正如他所预料,列出较多改进方法的学生对这一课程的评价也更高。贼吧Zei8。COM电子书下载
也许这个有悖论的实验中最有趣的发现就是悖论不一定会被发现:人们有时依照提取到的内容而非提取的轻松程度来作出判定。你真正了解行为模式的证据就是你知道如何让其发生逆转。施瓦茨和他的同事们接受了这一挑战,去探索在何种情况下会发生这种逆转。
受试者想到那些行事果断的例子的轻松程度在任务实施过程中是不断变化的。前几件事情提取时很容易,但很快就变得越来越难。当然,受试者的思考顺畅性也会慢慢下降,但在列举6~12件事中顺畅性的下降速度显然要超出受试者的预料。结果表明受试者作出了推理:如果我在回想能体现自己果断行事的例子时遇到了超乎想象的困难,那说明我根本就不是个果断行事的人。请注意,这个推理建立在受试者未曾料到的情况之上,顺畅性比预期的更糟糕。此例中受试者运用的可得性启发法被叫做“无法解释的不可得性”启发法才更合适吧。
施瓦茨和他的同事们论证道,他们为受试者解释其在回想相关经历的流畅性(发生变化的问题),由此可以干扰启发法。他们告诉受试者在回想事件时他们会听到背景音乐,而且音乐会对他们完成记忆任务产生影响。实验人员告诉一些受试者音乐能帮助他们回想起相关例子,却告知其他受试者听音乐其回忆会不那么顺畅。不出所料,那些对顺畅性有所认识的受试者没有将音乐看成是一种启发法;而那些得知音乐会使回忆更困难的受试者无论完成提取6件还是12件的任务,对自己果断程度的估测没什么两样。其他的主要实验也得到了同样的结论:若通过展示曲线或直线的文本框,或屏幕的背景颜色,又或其他与实验预期不相关的因素对体验到的顺畅性作出虚假解释的话,判断便不再受提取轻松程度的影响。
诚如我所述,用可得性来判断的过程包括了一个复杂的推理链。受试者会体验到,他们在提取事件时,顺畅性会逐渐降低。他们显然对顺畅性的下降率事先有过预计,但那些预计是不准确的:想起新事例的困难增速远远超出了他们的预计。正是这种超出预期的低顺畅性使那些被要求列举12个事例的人将自己描述成优柔寡断之人。了解个中缘由,低顺畅性也就不会再影响判断了。这个过程看似由一套复杂的推理组成。自主的系统1能胜任这项任务吗?
回答时其实根本就不需要复杂的推理。在系统1的基本特征中,其中一点就是这一系统具有设定预期的能力,当现实与预期相悖时它就会感到惊讶。该系统还会提取造成惊讶情绪的可能原因,通常是在近期所经历的各种惊讶体验中找到一个可能的原因。此外,系统2在运行中会重塑系统1的预期,因此一件本该令人惊讶的事就变得正常了。假设有人事先告诉过你那个住在隔壁的3岁大的小男孩经常戴着一顶礼帽坐在小推车里,那么当你真的看到他戴着礼帽时就不会像事先并不知道(这件事)那么惊讶了。在施瓦茨的实验中,受试者事先知道背景音乐可能是影响他们回想具体事例的一个原因,因此他们对提取12件事的难度也就不再那么吃惊了,这种难度也就不大可能影响他们对自己果断行事程度的判断。
施瓦茨及其同事发现,判断涉及自身情况的人往往更有可能关注他们从记忆中提取的事件数量,对顺畅度则不大关注。他们请两组同学参加对心脏健康风险的研究,其中一半学生有心脏病家族史,他们应该比其他没有这种家族病史的人更注重这个研究。所有的学生都要回想自己日常生活中可能会影响心脏健康的3种或8种行为(按照要求,有些学生需要回想的是危险行为,其他学生需要回想的是保护性行为)。没有心脏病家族史的学生对这项任务较随意,遵循的是可得性启发法。觉得想起8件危险行为很难的学生觉得他们相对安全,而那些努力回想安全做法的学生却感觉自己处于危险中。有心脏病家族史的学生则表现出相反的模式,他们在想起很多安全做法时觉得很安全,在想起很多危险行为时感到很危险。他们还更有可能觉得自己将来的行为会受到自己对危险做法评估的影响。
由此可见,事件在脑海中呈现的轻松程度体现出系统1的启发作用,然而当系统2越来越多地参与其中时,受试者关注的就不再是提取记忆的轻松度,而是回忆起来的若干事例的内容了。各种各样的证据都指向统一结论,即那些跟着系统1走的人更容易受可得性偏见的影响,比那些警惕性更高的人受影响的程度更大。在下面这些情况中,人们都在“跟着感觉走”,提取轻松度对他们的影响要大于其回想事例内容带给他们的影响:当他们同时忙于另一件需要付出努力的任务时。因他们刚刚想起生命中的一个快乐片段而心情大好时。如果他们在抑郁量表中得分很低的话。尽管对这项任务所给话题的了解达不到专家级水准,但他们也算是对此领域了解颇多的新手了。他们跟着感觉走却拿了高分时。如果他们(或别人令他们感到)很强大时。
我认为最后一个发现尤其有趣。几位作者引用一句名言来介绍自己的文章“我没有满世界做民意调查来告诉自己怎样做才对,知道自己的感受就够了。”他们进一步表明,对直觉的依赖只是个人品行特征的一部分。他们只想提醒人们,能力可以提升我们对自己直觉的信任。
示例:可得性
“因为上个月发生了两架飞机相撞事件,她现在更愿意坐火车。这真是愚蠢,风险其实并没有真正降低,这就是可得性偏见。”
“他低估了室内污染的风险,因为媒体对此报道极少。这是可得性的影响。”
他应该看些统计数据。
“她最近看的间谍电影太多了,因此她看什么都觉得有阴谋。”
“这位执行总裁连续多次成功,因此失败不会轻易在她的脑海中出现。可得性偏见使得她过于自信。”
第13章 焦虑情绪与风险政策的设计
有风险意识的学生可以迅速发现可得性效应与自己的担忧不无关联。在我们的作品发表前,经济学家霍华德·昆路德(Howard Kunreuther)就已经注意到,可得性效应能够对买保险的行为模式和灾后的保护性行为模式作出解释。当时,昆路德对风险和保险的研究正处于起步阶段。受害者和近似受害者在灾后往往心存焦虑。
每次影响巨大的地震发生之后,加利福尼亚的居民都会去买保险,采取充分的自我保护和减少损失的措施。他们固定好暖壶以防止其在地震中破碎,将地下室的门封死以抵抗洪水,还要确保紧急备用电源能正常工作。但是,随着时间的推移,对灾难的记忆就会变得模糊,担忧和防备的努力程度也会减弱。记忆的动态变化为灾难、担忧和越来越松懈的心理这一循环作出了解释。昆路德还观察到,不论是个人的还是政府的保护性行为,都能应对最糟糕的灾难。早在法老时代的埃及,人们就为周期泛滥的河水的最高水位作出标记,找出相应的治水对策,当时的人们显然认为河水不会比标记的最高水位更高,因此他们很难想到还会有更大的洪灾。
被闪电击中与食物中毒,哪种意外致死率更高?
对可得性偏见最具影响力的几项研究,是由我们那些身在尤金的朋友完成的,保罗·斯洛维克和他的长期合作者萨拉·利希滕斯坦(Sarah Lichtenstein)以及我们以前的学生巴鲁克·费斯科霍夫(Baruch Fischhoff)等人共同完成了这些研究。他们关于公众对风险看法的研究具有奠基意义,包括一项如今已成为可得性偏见的标准案例的调查。他们让受试者思考两组死亡原因:糖尿病和哮喘,中风和意外事故。
每组原因中,受试者要指出更常出现的原因并估测两种可能性的比率,然后将作出的判断与当时的健康统计数据进行比较。以下是他们发现的一个样例:中风致死的数量几乎是所有意外事故致死总数的2倍,但80%的受试者却判断意外事故致死的可能性更大。人们认为龙卷风比哮喘更容易致死,尽管后者的致死率是前者的20倍。人们认为被闪电击中致死的概率比食物中毒要小,不过,前者致死率却是后者的52倍。得病致死是意外死亡的18倍,但两者却被认为概率相等。意外死亡被认为是糖尿病致死率的300倍,但真正的比率却是1:4。
这其中的道理很明显:对死亡原因的估测因媒体报道而有所改变。报道往往偏向新鲜和尖锐的事。媒体不仅影响了公众的兴趣,也受到公众兴趣的影响。编辑不可能忽略公众的需求,就对某些话题和观点进行大量报道。不同寻常的事件(比如腐肉中毒)会格外引人注意,人们常会低估此类事件的发生概率。我们脑海中的世界并不是真实世界的准确反映;我们对事件发生频率的估测也会受到自己接触这些信息和频率与个人情感强烈程度等因素的影响。
对致死原因的估测几乎是联想记忆中观点激发的直接反应,也是替代效应的极佳例子。但斯洛维克和他的同事们有了更深层次的发现。他们发现,人们想到不同风险的轻松程度与其对这些风险的情感反应是紧密相连的。我们总是特别容易想起那些骇人的想法和画面,而那些流畅生动的骇人印象又会加深我们的恐惧。
如前所述,斯洛维克最后对情绪启发式的概念作了详细探究,认为人们在作判断和决策时会受情绪的影响:我喜欢它吗?我恨它吗?我对它的感觉有多强烈?斯洛维克说,在生活的很多领域中,人们形成的观点和作出的选择直接表达出其情感和取舍的基本倾向,而这些行为完全是在毫无意识的情况下作出的。情绪启发是替代的一种,即将简单问题(我对它感觉如何)的答案当做较难问题(我对它评价如何)的答案。斯洛维克及其同事将他们的观点与神经学家安东尼奥·达马西奥(Antonio Damasio)的研究成果联系起来。达马西奥曾指出人们对结果的情感反应、身体状态,以及与之对应的取舍抉择在决策制定中都发挥了重要作用。达马西奥和他的几位同事发现,在做决策前没有表现出适当情感的人可能是因为他的大脑有损伤,也可能是因为他对做出较好决策存有障碍。无法接受糟糕结果的“健康畏惧”导向是个灾难性缺陷。
关于情绪启发式的运作问题有一项十分令人信服的实证研究,斯洛维克的研究小组对人们对各种技术的看法进行了调查,其领域涉及饮用水氟化、化工厂、食品防腐剂和汽车等,要求受试者列举每项技术的优缺点。他们发现受试者对该技术的优势和风险的估测值存在非常大的负相关性。当人们更青睐于某项技术时,他们就会认为此项技术更有优势、风险更小;如果他们不喜欢某项技术,则只会想到其缺点和寥寥几个优点。因为几项技术刚好是从好到次排列起来的,因此无须作艰难的权衡。当研究人员要求受试者在规定时间内对风险和优点作出估测时,这两项估值会更接近。值得注意的是,英国毒物学会几位会员的反应是相似的:他们在自认为危险的物质和技术中发现的优点很少,反之亦如此。一致影响是我所提到的联想一致性的一项基本要素。
接下来是该实验最精彩的部分。完成最初的调查后,受试者读了几篇支持不同技术的小短文。有些短文关注的是某项技术的众多优点,其他短文则强调其风险低。这些短文有效地改变了受试者对这些技术的感性认识。实验结果令人关注,那些读到对某项技术多有褒奖的短文的人,对此项技术存在的风险也有了不同认识。尽管没有佐证,但他们现在却认为自己更喜欢这项技术了,感觉其风险没那么大。同样,那些只知道某项技术风险较小的受试者也会对其优点越发青睐。其中的道理很明显:正如心理学家乔纳森·海特(Jonathan Haidt)在另一篇文章中所说的那样:“感性细节掌控理性大局。”情绪启发式通过创造一个比现实更明了的世界来简化我们的生活。好的技术在我们的虚拟世界中成本较小,不好的技术没有利益,所有的决策在这里都变得很简单。当然,在现实世界中我们常要在利益和成本中作出权衡。
如何避免小概率的风险事件演变成公共危机?
保罗·斯洛维克可能比其他人更加了解人类作出风险判断的特性。他的著作描述了不卑不亢的普通人形象:感性而非理性,易被琐碎细节左右,并且对较小的可能性和极微小的可能性之间差别的感知力不够敏锐。斯洛维克还对专家进行了研究,显然专家在处理数字和数量的问题时更权威。专家同普通人一样,也以衰减的形式表现出同样的偏见,但他们对风险的判断和偏见往往与普通人有所不同。
非专业性判断中存在的偏见可以对专家和公众之间的不同之处作出一定的解释,但斯洛维克提请人们注意能反映不同价值间真实矛盾的情况。他指出专家经常通过判断死亡人数(或寿命)来测定风险,而公众的区分则更加细致,例如,“善终”和“非善终”,是意外死亡还是在类似滑雪这样的自愿活动中死亡等。这些合理的区别经常被只计数事件的统计学所忽略。斯洛维克通过这些观察报告得出结论:公众对风险的认识比专家更深刻。因此,他强烈反对专家或权威的观点,若专家与其他公民的观点和希冀相矛盾时,人们就不应该完全接受专家的观点。他说,当专家和公众对各自的优先权意见分歧时,“双方必须尊重对方的见解和智慧”。
斯洛维克想摆脱专家对风险判断的绝对控制,因此他对专家的理论根据,风险是客观的,发起了挑战。
“风险”并不是脱离我们的思想和文化而独立存在的,不会老老实实等着我们去测量。人类发明“风险”这个概念是为了帮助自己理解和应对生活中的危险和不确定情况。尽管这些危险是真实存在的,但却没有“真正风险”或“客观风险”这回事。
为了阐述自己的观点,斯洛维克列举了9种界定死亡风险的方式,从“每100万人的死亡”到“每生产价值100万美元的产品造成的死亡”,这种死亡风险与向空气中释放有毒物质的做法相关联。他的观点是:风险评估依赖测试方法的选择,这种选择极有可能是在人们心中期望得到这样或那样结果的情况下作出的。他进一步总结道,“因此,风险界定是一种权利运作”。也许你从未想过竟然会有人将判断心理的实验研究与棘手的政策问题联系起来!但是,政策最终还是与人相关的,它关乎人们想要什么和什么对他们是最有利的问题。每个政策问题都包括对人性的假设,尤其是人们可能作出的抉择和他们为自己和社会作出抉择所带来的后果。
我特别敬仰的另外一位学者兼好友卡斯·桑斯坦(Cass Sunstein)对专家和公众的看法与斯洛维克截然不同,他认为专家就是抵制“平民”越轨的壁垒。桑斯坦是美国最知名的法学家之一,与同领域的其他领军人物一样,他身上具有一种大无畏的精神。他知道自己能快速且完整地掌握任何知识体系,而且他已经掌握了很多知识体系,包括判断和决策心理学、管理问题、风险政策等。他认为美国现行的监管体系暴露出优先处理事件不明确的糟糕状况,这一体系更多的是对公众施压做出反应,而不是谨慎客观地分析具体情况。桑斯坦认为,为降低风险而采取的风险监管和政府干预手段,应该以成本和利益间的理性权衡为指导。对具体情况的谨慎而客观的分析,其自然单位是拯救生命的数量(或者是寿命,用寿命做自然单位可能会更注重对年轻人的拯救)和钱财的数量。监管不力会造成生命和金钱的浪费,两者都可以进行客观测量。斯洛维克认为风险及其测量都是主观的,桑斯坦对此并不信服。风险评估的许多方面都还有待商榷,但他对风险的客观性抱有信心,也许通过科学、专业知识和审慎的思考可以拥有这样的信心吧。
桑斯坦越来越相信,对风险带有偏见的反应是导致公共政策中优先处理权不稳定和错位的重要原因。立法者和监管人员对民众的无理要求可能会反应过度,因为他们有着很强的政治敏感性,也因为他们和其他民众一样容易抱有同样的认知偏见。
桑斯坦和一位合作者,法学家蒂默尔·库兰(Timur Kuran)为偏见植入政策这一机制起了个名字“效用层叠”(availability cascade)。他们评论道,在社会大背景下:“所有的启发式都是平等的,但可得性相比而言更平等。”他们了解广义的启发式概念,在这个概念中,可得性为判断(而不是概率)提供了启发,尤其是我们通过想到某个概念的轻松程度(和情感的释放)来判断其重要性时,这种启发的作用就体现出来了。
效用层叠是一连串自持事件,它可能开始于对相对次要的事件的媒体报道,然后会引起公众恐慌和大规模的政府行动。有些情况下,关于某一风险的媒体报道能抓住部分公众的注意力,这部分注意力进而会变成激愤和焦虑。这种情感反应本身就是一种宣扬,会推动媒体跟进报道,继而会令人产生更大的焦虑,波及面也更大。通过“可得性倡导者”,这个循环有时候会因为那些“可得性专业户”,专门负责连续不断地散布扰乱民心消息的个人或组织,的刻意操纵而加速运行。媒体竞相制造吸引人眼球的头条新闻,危险也随之升级。一些科学家和其他领域的人士试图抑制这种日益增长的恐惧和厌恶情绪,然而收效甚微,非但没有达成初衷,反而激起了不少敌意:所有宣称危险有些夸大其词的人都有“欲盖弥彰”的嫌疑。这是一个重要的政治问题,因为每个人对此都很上心,政治体系的回应也会受公众情感强烈程度的影响。此时效用层叠就要重新设定优先考虑的事件。其他风险和关乎公众利益的资源利用方式也都显得不那么重要了。
库兰和桑斯坦曾经关注过两个案例,这两个案例直至今日仍备受争议:(纽约州)拉夫运河事件和所谓的艾拉恐慌(Alar scare)。拉夫运河中掩埋的有毒垃圾在1979年的雨季中显露出来,引起了水井污染超标,还散发出恶臭。当地居民当时既气愤又害怕,他们中的洛伊丝·吉布斯(Lois Gibbs)对这个问题的反应尤为活跃,一心想要维护自身利益。官方消息触发了效用层叠。在这一事件最受关注的时候,每天都会有很多拉夫运河的相关报道,当时一些科学家试图告诉公众他们夸大了危险的程度,但是这一论调不是被人们忽略就是被相反的声音淹没了。当时美国广播公司新闻档播出了一个名为“杀戮场”的节目,视频中的人们抬着婴儿用的空棺材行经立法机关门前。众多居民由政府出资迁往外地。对有毒垃圾的治理成了当地20世纪80年代的重大环境问题,当地政府出台了《环境保护赔偿责任法》,要求清理有毒地点,设立超级基金,这项立法被视为环境立法史上的重大成就。这些措施花费自然不菲,有人还说同样数额的钱如果用在其他重要的事情上可以拯救更多的生命。拉夫运河事件的真相究竟是怎样的,直至今日人们仍旧各执一词,没有人能拿出实实在在的证据证实这一事件对健康造成了实质性的损害。库兰和桑斯坦对拉夫运河事件的报道像是条假新闻,不过环保人士今天仍旧会一再提到“拉夫运河灾难”。
关于库兰和桑斯坦用来说明效用层叠概念的第二个例子,人们的观点至今仍然存有分歧。这个例子就是1989年的艾拉事件,也就是环境问题批评者口中的“艾拉恐慌”。艾拉是种化学品,喷洒到苹果上用以调节苹果的生长周期并改善其外观。有报道称该化学品用量大,可导致大老鼠和家鼠得癌症,恐慌便由此引发。报道自然可以吓到众人,而且这些恐慌情绪也促使媒体争相报道,这就是效用层叠的基本机制。这一主题对新闻形成引导作用,进而引发了重大的媒体事件,例如梅丽尔·斯特里普(Meryl Streep)在国会前的证词。由于苹果和苹果产品引起人们的恐慌,苹果产业损失巨大。库兰和桑斯坦引用了一位打来电话的居民的话,此人问道:“是把苹果汁倒进下水道更安全,还是扔到有毒废物垃圾场更安全?”生产商回收了苹果杀虫剂产品,美国食品药品管理局也对此产品颁布禁令。此后的研究证实这种物质致癌的可能性很小,艾拉事件显然是对一个小问题做出的过激反应。这件事对公众健康的最终影响可能是致命的,因为人们吃到的好苹果越来越少了。
艾拉事件说明,我们的大脑解决小风险的能力有一个基本限度:我们要么完全忽视风险,要么过于重视风险,没有中间地带。每位等待晚归女儿的家长都能体验到这种感觉。你也许知道真的是(几乎是)没有什么可担心的,但你的大脑会不自觉地闪现危险的景象。正如斯洛维克所言,焦虑对伤害的可能性还不够敏感。你想到了分子(即你在新闻中看到的悲惨新闻),却没有想到分母。桑斯坦发明了“概率忽视”这一短语来描述这一模式。概率忽视和效用层叠两种社会机制的组合必然会导致对小威胁的夸大,有时还会引发严重后果。
当今世界,将效用层叠发挥到极致的人最有可能是那些恐怖分子。除了几次可怕的事件,比如“9·11”事件,恐怖袭击导致的死亡人数与其他死亡原因相比是非常小的。即使在恐怖活动猖獗的国家,比如以色列,每周的死亡人数也远不及交通事故死亡的人数多。概率忽视和效用层叠间的不同在于两种发现的可得性和呈现到脑中的轻松度和概率。媒体不断重复的可怕画面可使每个人都处于崩溃的边缘。我们都有这样的体验:想要劝自己完全冷静下来是非常难的。恐怖主义是直接和系统1对话的。
在和朋友辩论的过程中,我是从何时开始处于下风的呢?效用层叠是真实的,它无疑扰乱了公共资源分配的重点。卡斯。桑斯坦会探索将决策制定者从公众压力中隔离开来的机制,让资源的分配由公正的专家来决定,这些人对所有风险都了如指掌,还知道可利用哪些资源来降低风险。公众比桑斯坦更相信专家,但保罗。斯洛维克却不怎么相信这些专家,他指出,将专家从公众情感中隔离出来会产生公众排斥的政策,这种情形不可能发生在民主制的国家中。两人的观点都非常有见地,他们的说法我都赞同。
我同桑斯坦一样,对非理性的恐惧和应对风险的公共政策的效用层叠都感到不适。不过,我也认同斯洛维克的观点,即政策制定者不应该忽略普遍存在的恐惧情绪,即使这些情绪是毫无缘由的也不该忽略。不管理性与否,恐惧都是令人痛苦且身心俱疲的。政策制定者必须努力保护公众不受恐惧情绪的影响,而不是只保护其不受真实存在的危险的伤害。
斯洛维克强调公众对那些不代表民意的不靠谱专家做出的决策心存抵制情绪,这一点的确不错。此外,效用层叠也会通过呼吁人们关注风险和增加降低风险预算总额的措施来创造长期效益。拉夫运河事件可能会使过剩资源分配到有毒垃圾的治理上,但这一事件在提升公众对环境问题的关注程度方面发挥了更大作用。民主难免无秩序,其中部分原因是引导民众信仰和态度的可得性及情绪启发式难免有失偏颇,即使这些因素都指向正确的方向也难以达成完美结局。心理学应该助风险政策的设计一臂之力,使之集专家知识、公众情感及直觉于一身。
示例:效用层叠
“她对一项创意大为赞赏,说它收益大,无成本。我认为这就是种情绪启发式。”
“这是一个效用层叠的例子:被媒体和公众大肆宣扬的事还没发生,电视上就满是关于此事的报道,每个人都在谈论这件事。”
第14章 猜一下,汤姆的专业是什么
请看下面这个简单的问题:
汤姆是你们国家一所著名院校的研究生。请预测汤姆就读于以下9个专业的概率,并对专业进行排序。用1表示最有可能就读的专业,9表示最无可能的。
工商管理
计算机科学
工程学
人文与教育
法学
医学
图书馆学
自然科学与生命科学
社会科学和社会工作
这个问题很简单,你马上就知道不同专业的招生规模是解决问题的关键。就你所知,汤姆是从这所大学里随机挑选出来的一名研究生,好比从罐子里随意拿出来的一个弹球一样。想要知道这个弹球是红色的还是绿色的,你必须清楚罐子里两种颜色的弹球各有多少。某一特定种类的弹球所占比率被称为基础比率。同样,在这个问题中,人文与教育专业的基础比率指的就是这个专业的学生人数占全体学生总数的比率。在缺乏与汤姆相关的具体资料的情况下,你可能会根据基础比率进行猜测,相比计算机科学和图书馆学,汤姆更有可能被人文与教育专业录取,因为人文与教育专业的招生规模比另外两个专业的招生规模大。在没有其他信息可供参考时,采取基础比率的方法最容易。
接下来的这个任务与基础比率并无关联。
一位心理学家在汤姆高三时对他进行了一系列不定效果的心理测试,大体推断出他的个性,其描述如下:
尽管缺乏创造力,但汤姆智商很高。他喜欢按部就班的简单生活,喜欢干净整洁的环境,屋子里的物件要摆放得规规矩矩。他写的文章枯燥,偶尔会写一些老掉牙的双关语,或者迸发出类似科幻小说的火花,文章还显得有那么点生动。他颇具竞争意识。此外,汤姆待人冷淡,缺乏同情心,也不愿与他人接触。尽管他总是以自我为中心,但却有强烈的道德观念。
现在,请拿出一张纸来,按照上文对汤姆的性格描述,预测他与某个专业典型学生的相似度并进行排序。用1表示最相像的专业,9表示最不像的。
如果能够很快完成这个任务的话,你就会从本章学到更多东西。很有必要读读汤姆的相关报告,这会帮助你对不同专业的研究生特质作出判断。
下面这个问题同样很直接。它需要你重新获得或构建一个不同专业领域的研究生的典型形象。在20世纪70年代早期,实验刚开始进行时,平均结果所呈现的专业顺序如下所示。这与你的排序可能并没有多大不同:
1.计算机科学
2.工程学
3.工商管理
4.自然科学与生命科学
5.图书馆学
6.法学
7.医学
8.人文与教育
9.社会科学和社会工作
由于会想到书呆子(因为描述中有“老掉牙的双关语”这一条),你有可能将计算机科学排在首位。实际上,汤姆的性格特征就是按照计算机科学专业学生的典型形象来描述的。另一个大多数人都排在前面的专业是工程学(描述中有“规规矩矩”这一条)。你可能认为汤姆并不适合社会科学和社会工作专业(因为他“待人冷淡,缺乏同情心”)。但该专业人员的典型形象似乎在我设计描述汤姆实验后的40年内发生了少许变化。
给这9个专业排序是一项复杂的任务,肯定需要系统2有规则、有秩序地组织,只有这一系统才能完成这项任务。然而,描述所给的提示(老掉牙的双关语及其他一些提示)很容易激活关于典型形象的联想,这是系统1控制下的自主活动。
这项寻找相似点的任务要求我们对汤姆的描述和不同专业学生的典型形象进行比较。描述的准确性,无论这是不是对汤姆的真实写照,与任务的目的没有关系。另外,你对每个专业基础比率的了解也与任务无关,因为某个个体与某个组织典型人员的相似性并不受这个组织大小的影响,甚至在大学里根本没有图书馆系的情况下,你都可能会将汤姆的性格描述与图书馆学专业的研究生形象进行比较。
如果你再次审视汤姆,会发现他很适合人数少的专业(计算机科学、图书馆学、工程学),并不适合人数多的专业(人文与教育、社会科学与社会工作)。的确,受试者也几乎都将人数多的两大专业排在了最后。->小说下栽+贼吧Zei8。COM电子书<-汤姆被刻意设计成了“反基础比率”的角色,适合于人数少的专业,不适合人数多的专业。
依据典型性作出预测是下意识的行为
第三个排序的任务是由心理学专业的研究生完成的。这项任务尤其重要,同样是根据汤姆就读专业的概率对9个专业进行排序。不过进行这次预测的人了解相关的统计学事实:他们对不同领域的基础比率都很熟悉,也知道对汤姆的性格描述并不十分可信。然而,我们希望他们只关注描述与典型特征的相似性(我们将其称为典型性),而忽略掉基础比率以及对描述的准确性的怀疑。他们将人数少的计算机科学专业排在了最前面,因为这个专业最典型。
在尤金工作的那一年,我与阿莫斯十分卖力,我有时还会在办公室里通宵达旦地工作。彻夜工作的任务之一就是将典型性和基础比率之间的冲突描述出来。汤姆的形象就是我努力的结果,我是在清晨时分完成了对他的描述。那天早晨第一个来上班的是我的同事兼好友罗宾·道斯(Robyn Dawes)。他是一个富有经验的统计学家,也是直觉判断有效性的怀疑者。如果说有人能意识到基础比率的话,这个人一定是罗宾。我将罗宾叫过来,给他看了我刚打出来的问题,并让他猜测汤姆的专业。我至今仍然记得他试着回答时露出的狡黠笑容,他说道:“计算机科学吗?”那是一个令人开心不已的时刻,我心想:你也有失算的时候啊。当然,我一提到“基础比率”,罗宾很快就更正了他的错误,但他开始并没有自主地想到这一点。尽管他比任何人都清楚基础比率在预测中的作用,但当他看到某个人的性格描述时,就会忽略掉这些比率。不出所料,他用对典型性的判断替代了对概率的评估。
随后,我和阿莫斯搜集了3所重点院校里114名心理学研究生对这个问题的答案。这些学生都上过几门统计学课程。结果确实没让我们失望。他们对9个专业概率的排序与和典型形象相似程度的排序并无太大差别。在这个实例中,替换起了很大作用:并无迹象表明除了判断典型性以外,受试者还用了别的方法。因为关于概率的问题较难回答,而关于相似性的问题就比较简单,所以在回答时受试者就置换了问题。这是一个严重的错误,因为对相似性和概率的判断所遵守的并不是同一个逻辑规律。我们对相似性的判断可以完全不受基础比率的影响,不受可能会出现的不当描述的影响,但是在判断概率时,如果忽略基础比率和证据的可靠性的话,就注定会犯错误。
“汤姆是学计算机科学的概率”并不是一个简单的概念,逻辑学家和统计学家对它的意义各执己见,还有一些人认为它根本就没有意义。对于很多专家而言,概率是信念主观程度的评估手段。有些事你确信无疑,例如今天早晨出太阳了;而另外一些事是你认为根本不可能的,例如太平洋突然结冰了。还有许多事会令你半信半疑,例如你隔壁的邻居是一个计算机科学家,这便是此事在你眼中的概率。
逻辑学家和统计学家相互争论,提出了多个关于概率的定义,全都非常精确。然而,对于外行人来说,概率(在日常生活中和“可能性”是同义词)是一个相对含糊的概念,与不确定性、倾向性、貌似正确以及出乎意料等词紧密相关。模糊性和令人不爽的感觉不都是这个概念所特有的特性。当我们使用“民主”或“美丽”这样的词时,我们或多或少明白自己究竟要表达什么意思,我们的谈话对象也或多或少能明白我们究竟想要说什么。在我潜心研究事件的概率问题的这些年来,从来没有人举手问过我:“先生,请问概率指的是什么?”如果我问他们的是一个奇怪的概念,例如适应全球化的能力,他们肯定就会举手问问题了。尽管每一个人都表现出他们知道该怎样回答我的问题,但我们都明白要求他们去解释这个词的含义有些难。
被要求作概率评估的人并不会感到很困惑,因为他们对概率的判断与统计学家或是哲学家的判断不同。关于概率或可能性的问题引起了思维的发散性,让人想起比较简单的问题的答案。其中一个简单的答案就是对典型(代表性)的自动评估,在我们理解语言时这种现象很常见。“猫王埃尔维斯·普雷斯利(Elvis Presley)的父母曾希望他成为一名牙医”,这一(错误的)陈述听起来有些好笑,因为我们会自动把猫王的形象与牙医联系在一起,然而这两者的形象实在相差太大。系统1能使人产生相似的印象,虽然它并没有刻意这样做。“她会赢得竞选,你明白她肯定会赢”,“他学习成绩好不了,看那一身文身吧”,听到有人这样说时,他们一定是受到了典型性启发式的影响。如果我们通过某个下巴的轮廓或铿锵有力的演讲来判断这个职位候选人是否具有领导才能,此时我们依赖的就是典型性。
尽管通过典型性作出预测的做法很普遍,但是在统计学上这一做法并不是最优选择。迈克尔·刘易斯(Michael Lewis)的畅销作品《魔球》(Moneyball)说的就是这种预测方式的低效性。职业棒球球探在预测某个选手是否会成功时,他们大体上看的是球员的体格和相貌。这本书的主角是奥克兰“运动家棒球队”的经理比利·比恩(Billy Beane)。他作出了一个大家都不愿接受的决定:否决球探们的建议,通过选手过去表现的统计数据来挑选球员。“运动家棒球队”挑选出来的选手都以低会费入队,因为其他球队都因为没有想到用数据来判断,因而拒绝了这些选手。“运动家棒球队”很快就以低成本达成了最佳结果。
典型性启发的两宗罪
用典型性来判断概率有一些重要的优点,它所带来的初始印象通常比乱猜一气更为精确。在大多数情况下,表现得很友好的人实际上也很友好。又高又瘦的职业运动员很有可能是打篮球的而不是踢足球的。获得哲学博士学位的人比只读完高中的人更有可能订阅《纽约时报》。年轻的男性会比年老的女性更不要命地踩油门。
在这些例子及其他更多例子中,典型的形象特征左右着我们对典型性的判断,受这种典型性启发得到的预测有可能是对的,这样的说法在某种程度上就是事实。然而在其他情况下这种典型形象却是错误的,因而典型性的启发也会造成误导,尤其会使人们忽略基础比率信息、找错预测方向。即使启发性具有一定的真实性,但绝对依赖启发效应就是违背统计学逻辑,是有严重“罪过”的。
典型性的第一宗罪就是,它过于喜爱预测不可能发生的(低基础比率的)事件。
下面就是一个例子:如果你看见一个人在纽约地铁里阅读《纽约时报》,下面哪种情况与读报者更吻合?
她有博士学位。
她没有大学文凭。
典型性会告诉你应该选有博士学位那位,但这样做并不一定是明智的。你应该充分考虑第二个选项,因为纽约地铁里更多的是没有大学文凭的人,而不是有博士学位的人。如果猜测一个被描述为“羞涩的诗歌爱好者”的女士学的是中国文学还是工商管理,你也应该选择第二个答案。因为虽然学习中国文学的女学生都害羞且爱好诗歌,但几乎可以肯定的是有更多工商管理专业的学生同样也是害羞的诗歌爱好者。
在某些情况下,没有受过统计学训练的人也会使用基础比率来进行预测。在本章开头关于汤姆的第一个问题中,我们没有提供关于他的细节,对于每一个人来说,汤姆读某个专业的概率就是那个专业招生规模的基础比率。然而,得知汤姆的个性特征后,人们再也不会将基础比率纳入考虑范围了。
在前期证据的基础上,我和阿莫斯原本以为在了解了具体信息后,基础比率的信息“总会”被忽略,但是这样的结论太过绝对了。心理学家做过许多实验,在这些实验中,所给问题都明确地提供了基础比率信息,尽管关于个人特征的信息比单纯的数据分量更重,许多受试者还是受到了这些特征信息的影响。诺伯特。施瓦茨和他的同事表示,引导人们“像统计学家那样思考”就能够促使他们使用基础比率信息,引导人们“像临床医生”那样思考则会起到相反的效果。
几年前,我和哈佛大学的学生做了一项实验,让我有了一个令我十分惊讶的发现:增强系统2的激活状态能有效提高回答汤姆问题的准确率。这项实验将旧问题与认知顺畅性的现有形式结合了起来。在实验过程中,我们要求一半学生鼓腮帮,另一半学生皱眉头。前文中已经提过,皱眉通常可以增强系统2的警觉性,降低对直觉的过分相信和依赖。鼓起腮帮(与感情无关的表情)的学生的预测结果与原实验结果一样:他们只依赖于典型性,而忽略了基础比率。然而不出作者所料,那些皱眉头的同学的确对基础比率表现得很敏感。这是一个具有启发性的发现。
一旦人们作出一个错误的直觉判断,系统1和系统2都脱不了干系。系统1引起了错误的直觉,系统2采纳了这个直觉,并将其运用在判断当中。然而,造成系统2犯下此类错误的原因有两个,忽视与懒惰。许多人忽视了基础比率,因为在有个人信息的情况下他们认为基础比率与问题并无关联。另一些人犯下同样的错误则是因为他们没有将注意力集中在任务上。如果皱眉能带来不同结果的话,这说明懒惰也许是人们忽视基础比率的合理解释,至少对于哈佛大学的学生来说是这样。当具体信息缺失时,他们的系统2“知道”基础比率与问题相关,但是只有在任务中付出特别努力时,才能将基础比率的知识应用于其中。
典型性的第二宗罪是它对证据质量不够敏感。请回想系统1的眼见即为事实的原则。在汤姆的问题中,激活你联想机制的是对汤姆的描述,且这个描述不一定是真实的。对汤姆“对人冷淡,缺乏同情心”的表述也许能让你(以及许多其他读者)相信他不太可能是社会科学与社会工作专业的学生。然而,彼时你已经清楚地知道这样的描述是不可信的。
原则上讲,你当然知道不值得信任的信息就相当于没有信息,但是眼见即为事实使你难以遵循那条原则。除非你决定立刻否定证据(例如,你坚信的信息是从一个骗子口中得来的),否则你的系统1会自动将这一信息视为真实的。当你怀疑信息的可靠性时,可以做一件事:作概率判断时,往基础比率那方面想。别期望遵循这条原则会很容易,它需要在付出很多努力的情况下,才能实现自我监督和自我控制。
想要得出汤姆问题的正确答案,你应该遵从最先出现在自己脑海中的想法,若认为某招生人数多的专业(人文与教育、社会科学与社会工作)被选中的概率高,则稍微降低其概率;若认为某招生人数少的专业(图书馆学、计算机科学)被选中的概率低,则稍微提高其概率。如果你对汤姆一无所知,你作出的抉择就不是你的初衷了,你手头上的那点信息也不能相信了。所以,你应该让基础比率在预测时起主导作用。
用贝叶斯定理来约束直觉
你认为明天会下雨的概率只不过是你的臆测,你不应该相信头脑里出现的所有想法。你的信念必须受限于概率逻辑。所以,如果你相信明天某个时候会下雨的概率是40%,就该相信不会下雨的概率是60%,那么明天早晨下雨的概率就一定不会是50%。如果你相信某个候选人当选总统的概率是30%,并且相信他在首次竞选成功后再次当选的概率是80%,你就必须相信他连任的概率是24%。
贝式统计学(Bayesian statistics)提供了类似汤姆等相关问题的“定理”。这个研究统计学的定理影响深远,是以18世纪英国一位名为瑞福伦德。托马斯。贝叶斯神甫的名字命名的,因为人们认为他是为一个重大问题作出重要贡献的第一人,这个问题就是:如何推断人们是怎样根据证据改变自己的想法的。贝叶斯定理详细说明了最强烈的信念(在本章的实例中指的是基础比率)应该与证据分析相结合,这样才能更接近假设而不是偏离到其他方向上。例如,如果你相信有3%的研究生是被计算机科学专业录取的(基础比率),你还相信汤姆是该领域研究生的可能性是其他领域的4倍,贝叶斯定理就会认为,你必须相信汤姆是计算机科学家的概率是11%。此外,如果基础比率是80%,那你眼中的新概率就应该是94.1%,以此类推。
数学问题与本书并无关联。关于贝叶斯定理,有两点我们要铭记在心,要知道我们总是喜欢把事情搞得一团糟。第一,基础比率十分重要,即便是在手头的案例已有证据的情况下依然如此;第二,通过分析证据得到的直观印象通常都会被夸大。
眼见即为事实与联想一致性的结合易使我们相信自己编纂的故事。以下是对贝叶斯定理关键点的总结:以相对合理的基础比率对结果的可能性作出判断。质疑你对证据的分析。
这两个理念都是直接明了的。当我意识到自己从未学习过怎样运用它们时,我感到非常震惊,即使是现在,我仍旧觉得自己在践行这两个理念时总有些不自然。
示例:典型性与基础比率
“草坪修整得很好,接待员看起来很能干,家具也十分抢眼,但这并不意味着这是一家经营状况良好的公司。我希望董事会不要依照典型性启示作出判断。”
“这家新成立的企业看起来好像不会倒闭,但是这个行业的成功基础比率非常之低。我们又怎么能知道这家企业就是个特例(一定能成功)呢?”
“他们一直在重复犯同样的错误:用并不充分的证据来预测罕见的事件。当证据不充分时,我们应该以基础比率作为判断依据。”
“我知道这份报告绝对是具有毁灭性意义的,也许它的证据十分确凿,但我们凭什么相信呢?我们必须在做计划时保持一定的怀疑态度才行。”
第15章 琳达问题的社会效应
我们的实验中最著名也最受争议的地方是设计了一位虚拟的女士,名叫琳达·阿莫斯和我拟造了琳达问题,用以说明启发式在判断中的作用以及它与逻辑相悖的地方。以下是我们对琳达的描述:
琳达,31岁,单身,一位直率又聪明的女士,主修哲学。在学生时代,她就对歧视问题和社会公正问题较为关心,还参加了反核示威游行。
20世纪80年代听到这个描述的人常常会笑出声来,因为他们马上就知道琳达曾在加州大学伯克利分校上过学,因为这个学校以有一批热衷政治的激进学生而著称。
在一项实验中,我们给受试者看了一张单子,上面列有琳达可能会出现的8种情况。
在汤姆问题中,有些人通过典型性对汤姆的专业进行排序,而其他人则通过概率做出排序。琳达问题也是如此,但有些新的变化。
琳达是小学老师。
琳达在书店工作,她还在学瑜伽。
琳达积极参与女权运动。
琳达是妇女选民联盟成员。
琳达是银行出纳。
琳达是保险推销员。
琳达是银行出纳,还积极参与女权运动。
这个问题从几个方面透露出年代的信息。“妇女选民联盟”如今的地位已经不再像从前那样突出了,“女权运动”虽说见证了过去30年里女性地位的变化,但这种说法今天听来也已经很陌生了。然而即使在当今这个“脸谱”时代,我们仍然很容易猜到人们会对这位女士作出高度一致的判断:琳达非常适合当一个激进的女权主义者,也相当符合在书店工作且学习瑜伽的身份特征,不过却不怎么适合做银行出纳或是保险推销员。
琳达不可能只是一名普通的银行出纳吧?
现在请注意这张单子上有一点很重要:琳达更像一名(普通的)银行出纳,还是更像一名积极参与女权运动的银行出纳?所有人都认为琳达更像是“主张女权主义的银行出纳”,而不是普通的银行出纳。普通的银行出纳不会热衷女权主义,加上这个细节,整个描述便更像是一个有条理的故事了。
但是在判断概率的过程中会让人有些纠结,因为上述两种情况之间存在一种逻辑关联。按照维恩图解来说,积极[‘文]参与女权主义[‘人]的银行出纳的[‘书]集合包含在[‘屋]银行出纳的集合之中,因为每个持女权主义理念的银行出纳本身还是银行出纳。因此,琳达是位积极参与女权主义的银行出纳的概率,就一定比她只是个(普通的)银行出纳的概率低。当你想更加详尽地说明某个可能的事件时,只能降低其概率。因此这个问题使典型性直觉和概率逻辑两者对立起来。
我们的首次实验是一次受试者组间实验(between,subjects)。每位受试者都看到一组列有7个结果的单子,其中只包括几个重要结果中的一个(“银行出纳”或“积极参与女权主义的银行出纳”)。有些人通过相似度来排序,而其他人则通过概率排序。就像汤姆问题出现的结果那样,通过相似度和概率得出的平均排序结果是相同的。在两种情况下,“积极参与女权主义的银行出纳”都比“银行出纳”的排序要靠前。
然后我们运用受试者组内设计(within,subject)对此项实验作了更深入的研究。我们设计了你此前看到的那份调查问卷,其中“银行出纳”排在第六位,“女权主义银行出纳”位于最末。我们相信受试者会注意到两个结果之间的关系,而且他们的排列也应该会符合逻辑。事实上,我们对此非常有把握,不必再专门做个实验来证实这个想法。我的助手当时正在实验室里做另一项实验,她让受试者一边在报酬表上签名(临走前要领报酬),一边完成这项关于琳达的问卷。
后来我随意一瞥,看到助手书桌上的文件盒里已经放了10份调查问卷了,而且所有的受试者都认为(琳达是)“积极参与女权主义的银行出纳”比“银行出纳”的可能性更大。当时我太惊讶了,因为自己有了一个重大发现,因此我至今对那张灰色金属质地的书桌以及当时每张表的位置仍记忆犹新。当时我兴奋极了,赶紧给阿莫斯打电话,告诉他我们有了重大发现:我们让逻辑与典型性互相竞争,结果典型性赢了!
我们还观察到系统2的一个缺点:既然两种结果都包含在同一列表中,受试者就有很大机会发现逻辑规则中的关联性,但他们却没有把握好这次机会。当我们把实验的规模扩大时,发现样本中89%的研究生都违背了概率的逻辑。我们相信,从统计学角度作出复杂应答的受试者表现会更好些,因此我们给斯坦福大学商学院决策科学项目的博士生发了同样的调查问卷,所有的博士生都学过概率论、统计学和决策论等学科的高级课程。我们又一次惊奇地发现:85%的博士生也认为(琳达是)“积极参与女权主义的银行出纳”比“银行出纳”的可能性更大。
为了消除这个错误,后来我们认为“这个希望越来越渺茫”,我们让很多人了解琳达,并且问了他们下面这个简单的问题:
下面两种情况哪种可能性更大?
琳达是银行出纳。
琳达是银行出纳,同时她还积极参与女权运动。
这个直截了当的问题使琳达这个人物在某些领域中小有名气,也引起了数年的争议。几所重点大学中85%~90%的大学生选择了第二个选项,这一选择有悖逻辑,但却没有人因此感到羞耻。我曾经有些愤怒地问自己教的那些大学本科生:“难道你们没有注意到自己违背了基本的逻辑原则吗?”当时后排有些学生大喊:“那又怎样?”还有个犯了同样错误的毕业生解释道:“我还以为你只不过是问问我的看法罢了。”
通常,当人们没能运用明显相关的逻辑原则时,就会出现“谬误”。阿莫斯和我引入了“合取谬误”(conjunction fallaly)这个想法,通过直接比较,人们总会认为两个事件(在此即为银行出纳和女权主义者)的联合出现比只出现其中一件事(银行出纳)的可能性要大,此时就出现了合取谬误。
正如缪勒·里亚的错觉图所示,即使你对谬误有了真切的了解,也仍然难以避免这种错误。生物学家斯蒂芬·杰·古尔德(Stephen Jay Gould)曾描述他自己在琳达问题上的纠结反应。他当然知道这个问题的正确答案,然而他还是写道:“我脑中有个小人,跳上跳下的,还对着我喊:”她不可能只是个银行出纳,看看那描述就知道了。“这个喋喋不休的小人当然就是古尔德的系统1了。”(在他写这些文字时还没有引入两个系统的说法。)
琳达问题简短版本的正确答案只是对我们众多研究中的一项的多数回应:斯坦福大学和伯克利大学的社会科学专业大学生组中有64%的学生正确地判断出(琳达是)“女权主义的银行出纳”比“银行出纳”的可能性更小。起初列有8个结果的版本中,相似的大学生组中只有15%的人作出了正确选择,其区别颇具启发性。问题的较长版本通过在不同结果中穿插其他结果(保险推销员)来区别开两个重要结果,读者要分别判断每个结果,因此不会对所有结果进行比较。相反,(琳达)问题的较短版需要有能启动系统2的明确对比,允许多数有统计学知识的学生避免谬误。不过遗憾的是,我们没有对这组知识渊博的受试者中选择错误的少数人(36%)的推论进行探究。
我们的受试者在汤姆问题和琳达问题中提供的概率判断与典型性判断(与原型判断类似)正相吻合。典型性属于一连串可能同时发生且联系紧密的基本评估,最具典型性的结果与特性描述结合在一起就会生成最有条理的信息。而这些最具条理的信息却不一定就是可能性最大的,但它们“貌似正确”,稍有疏忽,我们就很容易混淆有条理、貌似正确和概率这三者的概念。
如果我们将具体描述用做预测的工具,那么不加批判地用貌似合理的判断来替代概率就会严重影响我们的判断结果。请思考下列一组问题中的两个描述,并对其可能性作出评估。
明年北美某地将有一次洪灾,1000多人将被淹死。
明年加利福尼亚某时将有一次地震,此次地震将导致洪水,1000多人将被淹死。
加利福尼亚地震的情节要比北美洪灾的情节更合乎情理,尽管加利福尼亚地震的概率非常小。不出所料,人们对更详细、更丰富的描述作出的概率判断更高,这一点有违逻辑。预言家总会给其客户设下陷阱:对情节加以详述会使其更可信,却更不可能成为现实。
为了体会“貌似合理”的作用,请看下面的问题:
下面两个论述哪个可能性更大?
马克长有头发。
马克长有金色的头发。
以及下面两个论述哪个可能性更大?
简是位老师。
简是位老师,她走路去上班。
这两个问题与琳达问题一样,有相同的逻辑结构,但它们却没有引起谬误,因为更详细的结果只是更详细而已,不会更让人信服,或更有连贯性,或更讲得通。对貌似合理和连贯性的评估不会产生概率问题的答案。在与之相矛盾的直觉缺位时,逻辑就会起作用。
少即是多的逻辑悖论
芝加哥大学的奚恺元(Christopher Hsee)让人们在当地一家商店清仓大甩卖时为几套餐具标价,当地餐具的价位一般在30~60美元。他将受试者分成三个小组,其中一个组看了下面的标价,奚恺元将这组标价标注为“综合评估”,因为受试者可以对两套餐具进行对比。另外两组只看了其中一组的标价,此谓“单一评估”。综合评估是组内实验,而单个评估则是组间评估。
假设A、B两套餐具质量相当,那么哪套更值钱呢?这个问题很简单。你可以看到A套包括B套所有的餐具,另外还多出7件完好无损的餐具,所以A套“必然”更值钱。的确,综合评估组的受试者宁愿多花点钱买A套餐具也不愿买B套,A套标价为32美元,B家标价为30美元。
在单一评估组中则出现了完全相反的结果,其中B套标价(33美元)比A套(23美元)高很多,我们都知道为何会出现这一结果。用具组合(包括餐具)通过标准和原型展示出来,因为没有人想买破损的餐具,于是你立即感觉到A套组合的平均价值比B套组合的平均价值低。如果以平均价值引导估测,人们认为B套更值钱也就不足为奇了。奚恺元将这样的结果模式称为“少即是多”。从A套中拿走16件餐具(有7件是完好无损的),它的价值就会提升了。
实验经济学家约翰·李斯特(John List)对奚恺元的发现进行了复制,他在真正的市场上拍卖两套相同的高价值棒球卡片,每套各为10张,但其中一套附赠3张普通价值的卡片。就像餐具的例子一样,在综合评估中,数量多的组合会比少的更有价值,但在单一评估中则正好相反。从经济理论的角度来看,一套餐具或一套棒球卡片的经济价值是一种总体变量,给任何一套加上一个有价值的物件只能提升它的价值。如果是这样,这个结果就有些令人烦恼了。
琳达问题和餐具问题的结构完全相同。概率就像是经济价值,是一种总体变量,我可以通过以下这个例子加以说明:
概率(琳达是个出纳)等于概率(琳达是个女权主义出纳)加概率(琳达是个非女权主义出纳)
这就是为什么琳达问题的单一评估产生了一种“少即是多”的模式,这一点与奚恺元的餐具实验一样。系统1会取价值的平均值而不是累加值,因此,当我们将非女权主义的银行出纳从银行出纳的大集合中移除后,主观(判定)的概率就会加大。然而,变量的总体性对概率判断的影响要小于其对金钱的影响。因此,综合评估只是消除了奚恺元的实验中出现的错误,却无法消除琳达实验中出现的错误。
琳达不是唯一一个在综合评估中得以存在的合取谬误,我们在其他许多判断中也发现了有悖逻辑的类似情况,其中一项研究的受试者被要求从高到低排列下一届温布尔登网球赛的4个可能结果,比约·伯格(Bj·rn Borg)是研究进行当日的主要网球比赛运动员。以下即为结果:
A.伯格会赢得比赛。
B.伯格会输掉首局。
C.伯格会输掉首局,但会赢得比赛。
D.伯格会赢得首局,但会输掉比赛。
上述结果中B和C两项比较重要。B囊括的内容更多,其概率“一定”比自身所包含的一个事件发生的概率大。受试者给出的答案与逻辑相悖,却顺应了典型性和貌似合理性,72%的人认为B选项比C选项的可能性更小,又一个通过直接比较得出“少即是多”的例子。这一次受试者选出的可能性最大的描述无疑貌似更合理,更符合当今世界一流网球运动员身上所具有的所有公认的特质。
合取谬误是因为对概率的误解,为阻止可能会出现的异议,我们设计了一个需要作出概率判断的问题,但在这个问题中,事件不是用文字来描述的,而且“概率”这个词一次也没有出现过。我们告诉受试者有一个标准的六面骰子,其中四面是绿色的,两面是红色的,此骰子可被投掷20次。我们给他们看了三组预设的结果,都是绿色(G)和红色(R)的任意排列,并让他们选一组。如果他们选择的那组正好出现,他们会(假想)得到25美元。这三组是:
1.RGRRR
2.GRGRRR
3.GRRRRR
因为这个骰子绿色面的数量是红色的2倍,第一组就很不具代表性,就像琳达是个银行出纳这一选项一样。第二组包括6次投掷结果,与预期投骰子结果更为符合,因为它有两个G。但是这个结果在设计时只是在第一种序列的开头加了个G,所以它比第一组更不可能,只是相当于“琳达是个积极参与女权主义的银行出纳”的非言语表达。与琳达的研究一样,典型性主导着上例的结果。几乎三分之二的受试者更愿意在第二组上下注,而不愿赌第一组。然而,当人们看到支持两种选择的理由时,大多数人发现正确的理由(偏向第一组的)更可信。
下一个问题是个突破,因为我们终于找到了可以降低合取谬误的条件。两组受试者看到同一个问题,但其变量稍显不同:
不列颠的哥伦比亚省针对成年男子样本作了一个健康调查,这些男子年龄不同,职业也不同。请对以下价值给出最佳评估:
在被调查的男子中,有几成人有过一次甚至多次心脏病发作的经历?
在被调查的男子中,有几成人既超过了55岁又有过一次甚至多次心脏病发作的经历?
不列颠的哥伦比亚省对一个由100名成年男性构成的样本进行了调查,这些男性年龄不同,职业也不同。请对以下价值给出最佳评估:
100名受试者中有多少位有过一次甚至多次心脏病发作的经历?
100名受试者中有多少超过55岁又有过一次甚至多次心脏病发作的经历?
看左栏问题的小组的错误率为65%,而看右栏的小组的错误率仅为25%。
为什么“在100名受试者中有多少……”的问题比“有几成人……”更容易回答?有一个可能的解释是“100名”这个参考值给大脑一种空间上的暗示。假使有很多人按照指示把自己归到一间屋子里的不同小组中去:“名字首字母是A到L之间的人到房间的左前方角落去。”然后这个小组中的人再按照指示进一步分组。这种包含的关系现在已经很明显了,你会看到名字以C字母开头的人是左前方角落中那群人的一分子。在这个医学调查问题中,心脏病患者最终会走到屋子的某个角落,他们中有些人不足55岁。不是每个人都能想象出这一场景的,但很多后续实验显示,人们所熟知的典型频率会使人们更容易理解一个组完全被另一个组包含的概念。上述问题中的“多少”使你想到了个体,但“几成”就不会使你有这种联想,从这点来看,这个难题的答案就不难理解了。
关于系统2的工作机制,我们从这些研究中能窥见多少?有一个已经不算新鲜的说法是,系统2并非时刻处于警惕状态。参与我们那些合取谬误实验的大学生和研究生当然都“知道”维恩图解中的逻辑,但即使所有的相关信息都摆在面前,他们也没有对此加以运用。“少即是多”模式的荒谬在奚恺元的餐具实验中表现得淋漓尽致,在“多少”的事例中也非常容易识别出来,但对那些在最初的琳达问题以及其他相似问题中也犯了合取谬误的数千人来说,这一模式还不够明显。在所有这些例子中,合取谬误显得貌似合理,而且也获得了系统2的认可。
系统2的惰性也是导致判断失误的部分原因。如果这些受试者的下一次休假要根据此次调查结果来决定,而他们又有足够的时间,被告知要遵循逻辑,直到确定答案正确才能说出来,我相信大多数受试者都是可以避开合取谬误的。然而,(事实是)他们的休假并不取决于一个正确的答案,他们几乎没费什么时间就得出了答案,而且他们也愿意用随意的方式来回答这个问题。系统2的惰性是生活中存在的一个重要事实,而对典型性会阻碍明显的逻辑原则运用的相关观察也至关重要。
琳达问题值得注意的一个方面是:它与餐具实验的结果形成了对比。这两个问题有着相同的构造,但却产生了不同的结果。那些看到成套餐具中有破损餐具的人会给这套餐具标低价,他们的行为是直觉反应。其他能看到两套餐具并进行对比的人则能运用逻辑原则,得出多出来的餐具只是为了增加价值的结论。在组间研究情况下作判断时,直觉就会起作用,逻辑原则则在综合评估中起作用。而在琳达问题中却不是这样,直觉常会推翻逻辑,即使在综合评估中也会如此,虽然我们确定有些场合下逻辑会占主导地位,但大胆的直觉也会将其推翻。
我们在一些明确的问题中观察到了概率公然违背逻辑的现象,阿莫斯和我都认为这种有悖逻辑的现象非常有意思,值得和同事们分享。我们还相信这些结果能进一步加强我们关于判断启发式强大作用的论证,这会让怀疑者哑口无言。然而在这一点上,我们是大错特错了,琳达问题竟然成了争论规范的研究案例。
琳达问题引起了广泛的关注,它也引发了众人对我和阿莫斯关于判断的研究方法的批评。一些研究人员发现将指示和提示结合起来可以减少谬误的发生,这跟我们已有的发现没什么两样。有些人争论道,在琳达问题中,受试者将“概率”理解为“貌似合理”完全是合情合理的。这些争论有时波及我们的整个研究,说我们的所有结论都在误导公众:如果一种显著的认知错觉能被削弱或解释清楚,其他的系统功能也会如此。这个理论忽视了合取谬误是直觉和逻辑间的矛盾冲突这一特殊性。我们通过设计组间实验对启发式进行论证的论据没有受到质疑,简单地说就是没有被讨论过,而且因为过于重视合取谬误,这个证据的突出性也被掩盖了。琳达问题的净效应是我们的工作对于普通民众来说更透明了,而在此领域的学者中,我们的研究方法的可信度有了一点欠缺。当然我们绝不会料到事情会这样。
如果你去法庭就会看到律师们往往采用两种批评风格:要想推翻某个案件,他们往往会去质疑支持此案的最有力证据,他们会找准证词中最薄弱的地方,让目击证人变得不值得相信。关注弱点在政治辩论中也很常见。我认为在科学争论中这是不恰当的,但我越来越相信一个事实,那就是社会科学中的辩论规则无法阻止政治辩论的风格,尤其在紧要关头的重大问题的讨论上,人类判断中普遍存在的偏见就是个重大问题。
几年前,我和拉尔夫·赫特维格(Ralph Hertwig)有过一次友好的交流。他对琳达问题一直都持批评态度,而我想通过琳达问题解决我们之间的分歧,不过结果证明这只是徒劳之举。我问他为什么和其他人只关注合取谬误,而不关注其他可支持我们立场的更强有力的发现。他笑着说:“这个问题更有意思啊。”他说琳达问题引来了众多关注,我们没有理由抱怨什么。
示例:少即是多
“他们构建了一个非常复杂的情节,还坚持说这个情节出现的可能性很大。这不是真的,这只是个貌似合理的故事而已。”
“对于贵重的产品他们还附赠一个便宜的小礼物,这样的话,整套产品就不那么吸引人了。少即是多就是这个意思。”
“很多情况下,直接的比较使得人们更谨慎也更有逻辑性。不过,也不常是这样。有时即使正确的答案就在眼前,直觉也会打败逻辑。”
第16章 因果关系比统计学信息更具说服力
请考虑下列情境,凭直觉写出答案。
返回书籍页