必读网 - 人生必读的书

TXT下载此书 | 书籍信息


(双击鼠标开启屏幕滚动,鼠标上下控制速度) 返回首页
选择背景色:
浏览字体:[ ]  
字体颜色: 双击鼠标滚屏: (1最慢,10最快)

黑客与画家

_6 Paul Graham (美)
用户数量
  我认为,如果你的公司有机会被收购,那将是不错的选择。管理一家公司与创立一家公司是不同的两件事。当情况基本稳定下来以后,不妨让大公司来接手。这在财务上也是明智的选择,卖掉公司你的风险就分散了,这就好像有一个理财师建议你用所有钱投资一支波动性很高的股票,你会怎么想?
  那么,怎样才能把公司卖掉呢?基本上,不管是否想出售公司,你要做的事情都是一样的(比如多赚钱)。但是,被收购本身就是一门学问,我们在Viaweb花了很多时间研究它。
  潜在的买家会尽可能地拖延收购。收购这件事最难的地方就是让买方真正拿出钱。大多数时候,促成买方掏钱的最好办法不是让买家看到有获利的可能,而是让他们感到失去机会的恐惧。对于买家来说,最强的收购动机就是看到竞争对手可能收购你。我们发现这会使得CEO们连夜行动。次强的动机则是让他们担心如果现在不买你,你的高速成长将使得未来的收购耗资巨大,甚至你本身可能变成一个他们的竞争对手。
  在这两种收购动机中,归根结底的因素都是用户数量。你以为买家在收购前会做很多研究,搞清楚你的公司到底值多少钱,其实根本不是这么回事。他们真正在意的只是你拥有的用户数量。
  事实上,买家假定用户知道谁有最好的技术。虽然这听上去很蠢,但是用户是你证明自己创造了财富的唯一证据。财富就是人们需要的东西,如果没人使用你的软件,可能不是因为你的推广活动很失败,而是因为你没有做出人们需要的东西。
  风险投资商有一张清单,上面写满了各种表示不应该收购的危险信号。排在榜首的信号中有一个就是公司由技术顽童掌控,只想解决有趣的技术问题,不考虑用户的需要。你开办创业公司不是单纯地为了解决问题,而是为了解决那些用户关心的问题。
  所以,我认为你应该和买家一样,也把用户数量当作一个测试指标。像优化软件一样优化公司,用户数量就是判断公司表现好坏的指标。做过软件优化的人都知道,优化难点就是如何测出系统的表现。如果凭空猜测软件最慢的是哪一部分以及怎样让它快起来,那估计百分百会猜错。用户数量也许不是最好的测量指标,但应该也相差不远了。买家关心它,收入依赖它,竞争对手恐惧它,记者和潜在用户则是被它打动。无论你的技术水平有多高,用户数量都比你自己的判断更能准确反映哪些问题应该优先解决。
  此外,将公司管理视同软件优化还能帮助你避免VC担心的另一个陷阱——开发某种产品的时间过长。现在,黑客都已经熟知这一点,并总结出一个术语“过早优化”(premature optimization)。尽快拿出1.0版,然后根据用户的反映而不是自己的猜测进行软件优化。
  你必须时刻牢记的最基本的原则就是,创造人们需要的东西,也就是创造财富。如果你想通过创造财富使得自己致富,那么你必须知道人们需要什么。很少有公司真的关注如何使顾客更满意。有多少次,你走进一家商店,或者打电话给某个公司,你的心中怀着担忧和恐惧?当你听到“你的意见对我们很重要,请不要挂断”,你真的觉得事情会得到圆满解决吗?
  餐馆有一道菜烧糊了,它还赔得起,因为只影响到一桌顾客。但是在科技行业中,你开发的新技术是供所有人使用的,一旦你的技术与使用者的需要有差距,影响就会被成倍放大。你要么令大量顾客满意,要么令大量顾客不满。你越能满足他们的需要,你创造的财富也就越多。
财富和权力
  创造财富不是致富的唯一方法。在人类的历史长河中,它甚至不是最常见的方法。就在几个世纪前,财富的主要来源还是矿石、奴隶、农奴、土地、牲畜,而快速获得财富的方法只有继承、婚姻、征服、没收。所以,很自然地,财富的名声不好。
  从那时到现在,两件事情出现了变化。第一个变化是法律。在相当长的历史时期内,你的财富得不到保护,统治者和他的手下可以设法将它占为己有。伹是,变化出现在中世纪的欧洲。新兴的商人和制造业者开始在城市中崛起^,他们团结起来对抗当地的封建领主。人类历史上第一次出现强盗无法夺走平民血汗钱的情况。这对第二个变化起到了巨大的推动作用,甚至可能是第二个变化发生的主要原因。这第二个变化就是工业化的来临。
^「资产阶级在历史上首先出现在意大利北部和荷兰,这可能不是偶然,因为那里没有强大的中央政府。这两个地区是那时最富裕的地方,后来变成了文艺复兴向外扩散的两大中心。它们后来没能继续扮演这样的角色,那是因为其他地区(比如美国)将它们开创的摸式发扬光大了。」
  关于工业革命的起因,已经有大量的文献论述过。但是,创造财富的人能够心安理得地享用自己的财富,这确实是工业革命的一个必要条件(可能不是充分条件)^。—个反面证据就是,试图违背这个条件的国家经济都出现了倒退,比如20世纪六七十年代的英国工党政府(它的后果相对不太严重)。没有财富的激励,技术革新就会逐渐停顿。
^「充分条件在这里可能也成立。但是如果成立的话,为什么工业革命没有早一点发生呢?两个可能的(但是互相排斥的)解释是:(a)变化其实早发生了,工业革命只是一系列革命中的一环,(b)中世纪的城镇存在垄断经营和行会制度,延缓了新生产方式的诞生。」
  还记得从经济学观点看什么是创业公司吗?简单说,就是可以让人更快速工作的地方。你不再是慢慢地积累50年的普通工资,而是要尽快地将这笔钱赚到手。所以,政府禁止个人积累财富实际上就是命令人民减慢工作的速度。他们同意让你在50年里赚到300万美元,但是不同意让你在2年里赚到这些钱,即使前提是你拼命努力工作。这样的政府就像一家大公司的老板,你无法对他说,我打算十倍努力地工作,请你把我的薪水也增加十倍吧!更严重的是,他永远是你的老板,即使你自己创业也避不开他。
  缓慢工作的后果并不仅仅是延迟了技术革新,而且很可能会扼杀技术革新。只有在快速获得巨大利益的激励下,你才会去挑战那些困难的问题,否则你根本不愿意去碰它们。开发新技术是非常痛苦的经历,正如爱迪生所说,百分之一的灵感加上百分之九十九的汗水。没有财富的激励,就不会有人愿意去做技术革新。工程师愿意接受普通薪水去做一些诱人的项目(比如战斗机和登月火箭),而与日常生活关系更密切的技术革新(比如电灯泡和半导体)只能由创业者来发明。
  创业公司并不只是过去二十年发生在硅谷的事情。如今,通过创造财富而致富已经成为了普遍的模式。每一个这样做的人差不多都应用了同样的诀窍:可测量性和可放大性。前者来自小团队的合作,后者来自开发新技术。无论是13世纪的佛罗伦萨,还是今天的加州,它们都是一样的。
  理解这些有助于回答一个重要的问题:为什么欧洲在历史上变得如此强大?是因为欧洲优越的地理位置,还是因为欧洲人天生就比较优秀,或者是宗教原因?答案(或者至少是近因)可能就是欧洲人接受了一个威力巨大的新观点:允许赚到大钱的人保住自己的财富。
  一旦自己的财产有了保证,那些想致富的人就会愿意去创造财富,而不是去偷窃。由此导致的新技术不仅被转化成财富,还被转化成军事力量。隐形飞机的理论是由前苏联数学家提出的,但是因为前苏联没有计算机工业,它就只能是一个理论,无法变成产品。前苏联没有足够快的硬件来完成设计飞机所需要的大量计算。
  冷战、第二次世界大战、近代的大多数战争都说明了这个道理。要鼓励大家去创业。只要懂得藏富于民,国家就会变得强大。让书呆子保住他们的血汗钱,你就会无敌于天下。
7.关注贫富分化
  当人们非常想把某件事做好的时候,有些人会做得比其他人好得多。达·芬奇的作品就比博格宁等同时代二流画家的作品优秀很多。同样的差距也存在于侦探小说家身上,雷蒙德·钱德勒的作品就比普通作家的作品好得多。顶级的国际象棋大师与普通的象棋俱乐部成员下一万盘棋,一盘都不会输。
  与下棋、画画、写小说一样,赚钱也是一种专门的技能。但是,出于某种原因,我们以完全不同的态度对待这种技能。如果某些人善于下棋或写小说,没有人会有意见;伹是,如果某些人善与赚钱,报纸上就会有社论出来说这是不对的。
  为什么?赚钱看上去与其他技能没有本质不同,为什么人们的反应如此强烈?
  我认为有三个原因使得我们对赚钱另眼相看。第一,我们从小被误导的对财富的看法;第二,历史上积累财富的方式大多名声不好;第三,担心收入差距拉大将对社会产生不利影响。就我所知,第一点是错的,第二点已经过时了,第三点通不过现实的检验。有没有可能,在现代社会中,收入差距拉大实际上是一种健康的信号?
财富的老爹模式
  五岁时,我不知道电力是电厂生产的,以为插座就是发电的地方。同样,很多孩子以为财富是直接从父母口袋里流出来的,不知道财富是创造出来的。
  由于孩子们接触到钱的方式就是这样的,他们往往会误解财富,把财富与钱混为一谈。他们认为财富的总量是不变的,某个权威负责分配财富(所以理应平均分配),没有意识到财富是创造出来(而且创造得不太均等)。
  事实上,财富与金钱是两个概念。金钱只是用来交易财富的一种手段,财富才是有价值的东西,我们购买的商品和服务都属于财富。你到海外旅行时,不用看当地人的银行账户就会知道你来到的是富国还是穷国。你只要看看他们的财富就行了:建筑、街道、服装、健康状况等。
  财富从何而来?人类创造出来的。回到农业时代,这个概念就更容易理解。那时大多数人都务农,许多东西都需要自己生产出来。房屋、牲畜、谷仓等都是每个家庭自己生产出来的。这就很明显地说明,财富总量不是固定不变的,不像大饼那样会被分光。如果你想要更多的财富,自己生产就可以了。
  这在今天的社会也成立,虽然已经很少有人直接创造财富供自己使用了(少量的家务活除外)。我们大多数人都在为其他人创造财富,然后用创造出来的财富交换金钱,再用金钱交换我们需要的另一种财富^。
^「为什么财富的分配问题引起这么多争论?部分原因是反对声最大的人当中,很多人都少有创造财富的经验:大学生、继承人、教授、政客、新闻记者。(如果你在酒吧里听过大家议论体育赛事,你一定很熟悉这种现象。)
大学生往往依靠父母的资助,还没有想过父母的钱是从哪里来的;继承人靠着他人遗产过活;教授与政客距离创造财富最远,不管是否努力工作,得到的报酬都差不多,新闻记者部分由于他们的专业守则,必须与本行业产生收入的那部分——广告销售部——保持隔离。所有这些人中,有许多人从来没有直面过这个事实,那就是他们拿到手的金钱,都来自别人先前创造出来的财富(新闻记者除外,他们的工作是创造财富的,但是不直接用财富交换金钱)。在这些人的世界中,收入是由某个外部权威根据某种看似公平的抽象原则(对于继承人来说则是随机原则)进行分配,不是来自与他人交换别人需要的东西。所以,在这些人看来,真实世界的其他部分不采用同样的分配方式就是不公平的事情。
(某些教授确实为社会创造了大量财富,但是他们拿到的工资却不是对此的回报,更像是对他们的投资。)」
  孩子没有能力创造财富,他们享有的一切都来自别人无偿的给予。既然得到财富不要求对应的付出,那么它当然应该平均分配^。大多数家庭都是这样,如果兄弟姐姝中有人多得到了一份,其他孩子就会喊:“不公平!”
^「如果你了解英国社会主义团体“费边社”(Fabian Society)的起源,你会觉得他们的想法好像是英王爱德华时代(1901~1910)的儿童读物《淘气鬼行善记》(The Wouldbegoods,作者Edith Nesbit)的小主人公想出来的,虽然看上去很无私高尚,但实际上非常天真幼稚。」
  进入社会以后,你不能总是靠父母养活。如果你需要什么东西,要么你自己做出来,要么做其他东西与需要的人交换金钱,再用金钱去买你想要的东西。在真实世界中,财富是你必须自己创造出来的东西(小偷和投机者除外),而不是等着老爹买给你。由于每个人创造财富的能力和欲望强烈程度都不一样,所以每个人创造财富的数量很不平等。
  你做别人需要的东西或事情,然后得到报酬。有些人报酬较高,原因很简单,因为他们做得更好。大明星要比普通演员多赚许多钱,普通演员可能也有大明星的实力,但是人们在电影院选择看什么电影时总是被大明星吸引过去。
  当然,做出人们需要的东西并不是赚钱的唯一方法。抢银行、索贿、垄断市场也能搞到钱,并且是某些富豪最大的财富来源,但是这些手段不能代表财富的全部,更不是贫富分化的主要原因。每个人的技能不同,导致收入不同,这才是贫富分化的主要原因,正如逻辑学的“奥卡姆剃刀”原则所说,简单的解释就是最好的解释。
  在美国,一些大型上市公司的CEO的收入大概是普通人的100倍^。职业棒球选手的年收入是普通人的72倍,职业篮球选手的年收入则是普通人的128倍。报纸的社论用恐怖的语调引用这样的统计数据。但是我觉得,想象一个人的产出是另一个人的100倍是一件毫无困难的事情。在古罗马时代,根据奴隶的技能不同,他们的价格会相差50倍^^。上述收入差距还没有考虑激励因素或者现代科技带给你的生产力放大效应。
^「根据Corporate Library的一项研究,2002年标准普尔500公司中,CEO总收入的中位数是365万美元(包括薪水、奖金、奖励的股票、执行后的股票期权)。根据《体育画报》的统计,2002至2003赛季NBA篮球选手的平均薪水是454万美元,2003赛季大联盟棒球选手的平均薪水是256万美元。根据劳工统计局的数据,2002年美国人的平均工资是35560美元。」
^^「在古罗马帝国的早期,一个普通成年男性奴隶的价格大约是2000赛斯特斯银币(参见Horace,S.7.43),一个女仆的价格是600银币(参见Martial vi.66),而一个熟练园丁的价格是8000银币(参见Columella iii.3.8〉。一位医生(P.Decimus Eros Merula)为了换取他的自由,付出了5万银币(参见Dessau,Inscriptiones 7812)。一位诗人(Calvisius Sabinus)出了10万银币购买懂得希腊文学的奴隶(参见Seneca,Evii.7)。普林尼报告,在他的时代,奴隶的最高价格是70万银币,这位奴隶是语言学家(可能也是教师)Daphnis(参见Pliny,Hist.Ni.39),但是这个价格后来被赎买自由的演员奴隶超越了。古希腊也出现了类似的价格分化。一个普通劳工的价格大约是125到150德拉克马银币,但是价格波动范围从50到6000银币(能够管理银矿的劳工)不等(参见Xeaophon M.5)。更多关于古代奴隶制的经济学研究参见Jones A.H.M.所著的“Slavery in the Ancient World”一文,发表于1956年的杂志的第185~199页。」
  那些专门把运动员和CEO的收入拿出来说事的社论让我想到了中世纪的基督教教士。他们宁愿高谈阔论地球是不是圆的,也不愿亲自研究一下现实中的证据^。一个人的工作具有多少价值不是由政府决定的,而是由市场决定的。
^「古希腊数学家埃拉托塞尼(Eratosthenes,公元前276——前195)通过測量不同地点建筑物的阴影长度,估算出了地球周长。他的结果只比正确值小了约2%。」
  “他一个人的价值真的等于我们100个人的价值吗?”社论作者这样问道。回答取决于你怎么定义“价值”。如果你同意“价值”可以定义为实现自身技能而得到的报酬,那么回答显然就是“对的”。
  确实有一些CEO的收入太高,不合理,但是有没有CEO的收入不足以体现他所创造的财富的呢?乔布斯就是这样的例子。他拯救了濒临崩溃的苹果公司,扭转了危机,削减了成本,成功决策了下一代产品,很少有人能做到这些事情。他的收入就低于他的工作所创造的价值。如果我们不考虑CEO的例子,只说职业篮球运动员的收入,那么应该不会有太大争论,大家都会同意,篮球运动员的身价反映了市场供需状况,并没有不合理的地方。
  第一眼看上去,你可能会觉得难以接受,人与人之间创造财富能力的差别真的会这么巨大吗?理解这一点的关键就在于重新思考我们上面提过的那个问题,他一个人的价值真的等于我们100个人的价值吗?你想一想,一个篮球队会同意用一个运动员交换100个普通人吗?如果苹果公司不是由乔布斯掌管,而是由一个100人组成的委员会掌管,那么这家公司的下一代产品会是什么样^?人与人之间的差别并不是那么稳定的线性关系。也许CEO和运动员的技能和决心只比普通人高出10倍(倍数不重要),但是人与人之间就是存在着重大差别。
^「我来告诉你这两个问题的答案。篮球队不会同意用运动员交换普通人,而苹果公司推出的产品就是Windows那个样。」
  当我们说一些工作报酬过高,另一些工作报酬过低,我们的真实想法到底是什么?在自由竞争的市场经济中,价格由买家的需求决定。如果人们喜欢棒球甚于喜欢诗歌,那么棒球运动员的收入就是要比诗人的收入高。如果说某种工作的报酬过低,那就相当于说人们的需求不正确。当然,人们确实会需求不正确的东西。这有什么好奇怪的呢?你不觉得声称某种工作报酬过低的说法更奇怪吗^?如果你觉得由于人们的需求不正确,导致某些工作的报酬过低而且不公平,那么这个世界一定会让你感到非常遗憾,人们就是喜欢看电视真人秀,而不是莎士比亚作品,人们就是喜欢吃玉米热狗,而不是水煮蔬菜,这是不是很不公平呀?要是你觉得不公平的话,那你就同把蓝颜色说成最漂亮的颜色、把方的说成圆的那样蛮不讲理。
^「我们把由父母供给收入的模式称为“老爹模式”。这个模式与真实世界的最大区别之一就是对勤奋工作的评价不同。在老爹模式中,勤奋工作本身就是值得的,老爹会感到很高兴。但是在现实中,财富是用工作成果衡量的,而不是用它花费的成本衡量的。如果我用牙刷油漆房屋,屋主也不会付给我额外工资的。
所以,对于那些仍然处于“老爹模式”的人来说,看到有人勤奋工作却没有得到很多报酬就会感到不公平。为了破除这种迷思,让我们假设有一个工人,他单独一人在荒岛上打猎和采集水果。如果他的能力不足,就常勤奋地工作,最后也不会得到很多食物。这是不公平吗?又是谁对他不公平呢?」
  “不公平”这三个字就是“老爹模式”的独门标志。为什么别的情况下人们不会想到这三个字?因为要是你现在还处于“老爹模式”,认为财富就是从某个口子流出来、被大家分享的东西,而不是来源于满足他人的需求的创造活动,那么当你注意到有些人赚钱比其他人多得多时,你就会不偏不倚地得出“不公平”这个结论。
  当我们讨论“收入分配不公平”时,我们还要问问收入从何而来,收入背后的财富到底是谁生产出来的^。如果收入完全根据个人创造的财富数量而分配,那么结果可能是不平均的,但是很难说是不公平的。
^「有那么多人相信“老爹模式”,部分原因是“分配”(distribution)这个词有双重含义。经济学家谈论“收入分配”(distribution of income)时,他们实际上指的是统计学上的收入分布。但是,如果你经常使用这个词,你会情不自禁将它与另一个意思联系起来(比如救济金的分配),因此下意识地就把财富看作从某个大水源流出来的东西。税收上,有一种税叫做“递减税”(regressive tax),其中“递减”(regressive)这个词也有类似的效果,至少我就是这样认为,一件东西是“递减”的,那么它怎么可能是好的呢?」
偷窃
  很多人对贫富分化不满意的第二个原因就是,在大部分的人类历史中,积累财富最常见的方法其实是偷窃。游牧社会是偷别人的牲口,农业社会是征税(和平时期)和直接掠夺(战争时期)。
  在战争中,胜利的一方将失败的一方的财产全部占为己有。1060年,征服者威廉占领英格兰,将当地贵族的财产全部分给他的随从,这是战争导致财富分配变化的一个例子。1530年,亨利八世将修道院的财产分给大臣^,这是政治斗争导致财富分配变化的一个例子。不管是战争还是政治斗争,本质上都属于偷窃。
^「根据历史记载,“自从年轻的亨利八世登基,鲁斯勋爵(Thomas Lord Roos)就忠心耿耿地服侍左右,很快得到了回报。1525年,他被册封为嘉德骑士(Knight of the Garter),拉特兰(Rutland)成为他的领地。1530年后,他支持与罗马教廷对杭,积极镇压民间的宗教反抗,并且投票支持亨利八世以通奸罪审判皇后,将其处以死刑,这使得他成为接管修道院财产的有力候选人。”参见Lawrence Stone所著的Famliy and Fortune: Studies in Aristocratic Finance in the Sixteenth and Seventeenth Centuries一书第166页(1973年由牛津大学出版社出版)。」
  在控制程度更高的社会,统治者和官僚阶层用税收代替直接充公。但是,根本的一点并没有变,那就是致富的方法不是创造财富,而是以统治者的强权进行搜刮掠夺。
  随着欧洲中产阶级的崛起,这一切开始发生变化。按照我们现在的理解,中产阶级就是既不富裕也不贫穷的那部分人,但是在中世纪,中产阶级其实是一个独立的团体。封建社会只有两个阶级:贵族与农奴(为贵族服务的人)。中产阶级是一个新的第三类团体,他们出现在城镇中,以制造业和贸易为生。
  从公元10世纪和11世纪开始,小贵族和获得自由的农奴聚集在城镇中,遂渐形成了与封建领主对抗的强大力量^。中产阶级主要通过创造财富谋生,这一点与农奴相同。(在热那亚和比萨这样的港口城市,中产阶级也会包括海盗。)伹是,与农奴不同的是,中产阶级有强烈动机大量创造财富。农奴创造的所有财富都属于他的主人,所以大量创造财富对农奴来说意义不大。城镇的出现使得那里的人们可以独立生活,保住自己创造出来的财富。
^「考古学证明确实存在大型的聚居地,但是当时的日常生活情况还是很难判断。参见Richard Hodges和Whitehouse David所著的Mohammed,Charlemagne and the Origins of Europe—书(1983年由康奈尔大学出版社出版)。」
  一且通过创造财富而使致富成为可能,社会从整体上就会快速地变得更富有。中世纪人们所需要的一切东西几乎都是由中产阶级生产出来的。工业革命后,其他两个阶级实际上消失了,他们的名称被用来指中产阶级的两端。(根据原始定义,比尔·盖茨不是富豪阶层,而是中产阶级。)
  但是,创造财富真正取代掠夺和贪污成为致富的最佳方式,并不是发生在中世纪,而是发生在工业革命时代。至少在英国,当更快的致富方式出现后,贪污才逐渐不流行了(事实上,贪污从那时开始才被叫做“堕落”^)。
^「“贪污”和“堕落”在英语中是同一个词:corruption。——译者注」
  17世纪的英国很像今天的第三世界,当官是公认的发财职业。那个年代要赚大钱仍然主要通过贪污,而不是经商^。到了19世纪,情况就变了,虽然存在大量贪污受贿(今天依然如此),但是政府遂渐被一些将良心和名誉看得比金钱更重要的人所控制。技术的发展使得通过创造而积累财富的速度第一次有可能超过通过偷窃而积累财富的速度。19世纪典型的富人不是宫廷朝臣,而是实业家。
^「16世纪的英国,权力最大的大臣分别是William Cecil和他儿子Robert Cecil。两人都利用职权获取了大财富,成为当时最富有的人。Robert Cecil收受贿赂都到了叛国的地步。“身为国务卿和詹姆斯一世主要的外交政策顾问,他收受了很多好处。荷兰人向他大量行贿,要求英国不要与西班牙媾和,而西班牙人也向他大量行賄,要求英国与其签订和约。”」
  中产阶级的出现使得财富总量不再是一个固定不变的值,财富的分配也不再是一种零和游戏。苹果公司的两个创始人乔布斯和沃兹尼亚克没有使得他人变得更贫穷就赚到了钱。事实上,他们创造出来的东西使得人类的物质生活变得更富有。他们只能这样做,否则不会有人付钱给他们的。
  即使情况已经发生变化,但是由于人类历史上主要的致富方式长期以来都是偷窃,所以我们依然对有钱人抱有一种怀疑态度。理想主义的大学生从小受到历史上知名作家的影响,长大后不知不觉保留了孩提时对财富的看法。这是一个双重误解的例子,就是对一个已经过时的情况持有错误的看法。
  巴尔扎克说过:“每一笔巨大财富的背后,都隐藏着罪行。”这句话被广泛引用,但是他其实说的是另一个意思,如果巨大财富没有明显的来源,那可能就来源于精心安排的犯罪活动,由于掩盖得太好,使得罪行被人遗忘了。如果我们正在谈论11世纪的欧洲,那么这样的误读反而是正确的。但是,巴尔扎克生活在19世纪的法国,那里的工业革命当时已经很发达了。巴尔扎克很清楚,你不用偷窃也可以发财。起码他自己就是这样做的,他写出受欢迎的小说,从而赚到了钱^。
^「虽然巴尔扎克从写作上赚到了很多钱,但他是出了名的挥霍无度,终生都受到债务困扰。」
技术的杠杆效应
  技术的发展是否加剧了贫富分化?首先,技术肯定加剧了有技术者与无技术者之间的生产效率差异,毕竟这就是技术进步的目的。一个勤劳的农民使用拖拉机比使用马可以多耕六倍的田。但是,前提条件是他必须掌握如何使用新技术。
  我自己就亲眼目睹过技术的这种杠杆效应不断扩大。高中时,我通过割草和在冰激淋店当服务员赚钱,它们是我能找到的仅有的工作。现在的高中生可以通过开发软件或制作网站赚钱。不过,只有少数高中生具备这种能力,其余的人还是只能去冰激淋店当服务员。
  我清楚地记得,技术的进步使得我在1985年终于可以拥有一台自己的电脑了。只过了几个月,我就开始接一些编程的零活赚钱了。1985年之前我就做不到这一点,那时也没有自由程序员这种工作。但是,苹果公司推出了强大而且便宜的个人电脑,使得一切成为可能,这本身就是在创造财富。程序员马上接了上去,使用苹果公司的产品,再去创造更多的财富。
  正如这个例子所反映的,技术对生产效率的提高不是线性的,而可能是多项式形态(polynomial)的。所以,随着时间推移,我们应该会看到个人生产效率总是保持增长。这种增长会使得贫富差距不断扩大吗?这取决于你指的是什么“差距”。
  技术应该会引起收入差距的扩大,但是似乎能缩小其他差距。一百年前,富人过着与普通人截然不同的生活。他们住在大房子里,有许多仆人服侍,穿着华丽但是不舒适的服装,乘着马车旅行(因此还有马厩和马夫)。现在,由于技术的发展,富人的生活与普通人的差距缩小了。
  汽车就是一个很好的例子。如果富人不购买普通汽车,而是购买全手工制作、售价高达几十万美元一辆的豪华车,对他反而不利。因为对于汽车公司来说,生产那些销量很大的普通汽车要比生产那些销量很小的豪华车更有利可图,所以汽车公司会在普通车辆上投入更大的精力和资金,进行设计和制造。如果你购买专为你一个人定制的汽车,质量反而不可靠,某个部件肯定会出问题。这样做的唯一意义就是告诉别人你有能力这样做。
  再来看手表的例子。50年前,花巨资购买一块名表真的是很有面子的事情。那时的手表都是机械表,价格越贵,走时越准。现在不是这样了,石英表发明了,一块普通的石英表反而比几十万美元的名牌机械表走时更准^。说实话,就像汽车的例子一样,如果你一定要把钱花在手表上,结果只能给你带来更多麻烦:除了时间精度下降以外,机械表还必须上发条。
^「一块普通的石英表,每天的误差大约是0.5秒。走时最准的百达斐丽牌机械表,每天的误差是-1.5秒到+2秒,零售价是22万美元。」
  技术无法使其变得更便宜的唯一东西,就是品牌。这正是为什么我们现在越来越多地听到品牌的原因。富人与穷人之间生活差异的鸿沟正在缩小,品牌是这种差距的遗留物。但是,品牌只是商品的标签,即使买不起名牌,至少你还可以买普通牌子,这总比根本无法消费这一种商品要好得多。1900年,只要你有一辆马车,你就是富人,根本没人问你马车的牌子。没有马车的人就是穷人,只能挤公共交通或者步行。今天,即使最穷的美国人也有自己的汽车,那么厂商只好通过广告训练我们识别品牌,以便我们能够识别哪些汽车特别昂贵^。
^「产于1989年、保存状况良好的林肯牌加长型礼车,现价大约是5000美元。产于2004年的奔驰S600轿车的价格是12.2万美元。如果要一个生活在20世纪初的普通人分辨哪一辆车价格更贵,他大概会猜错。」
  这种变化模式不断在一个又一个的行业重现。只要存在对某种商品的需求,技术就会发挥作用,将这种商品的价格变得很低,从而可以大量销售^。一旦产品能够流水线生产,即使质量没有改进,至少也会更便于使用。富人最喜欢的就是那些方便易用的产品。我认识的富人朋友,与其他朋友相比,开着同样的车,穿着同样的衣服,使用同样的家具,吃着同样的食品。虽然他们的房子是在不一样的地方,或者即使与普通人在同一个社区,面积也要大得多,但是他们的生活确实与普通人是一样的。房子的建造方法也是一样,屋里的东西也基本接近。拥有定制的昂贵商品反而不方便。
^「如果想要真正地对收入加以考察,你必须使用“真实收入”的概念(以购买力衡量的收入),而不是使用“名义收入”的概念(以货币衡量的收入)。但是,计算“真实收入”的常用方法忽略了大部分随着时间增长的财富,因为“真实收入”要用消费者物价指数才能算出来,但是消费者物价指数是根据一系列祥本商品的价格计算的,本身就不具有全面的精确性,而且新发明产品的价格没有计算在内。(只有当新发明产品成为价格稳定的常用物品后,才会计算在内。)
所以,就算我们认定有了抗生素、飞机旅行、电力系统以后,人类的生活大大改善,真实收入的计算方法却说我们的生活只有轻微的改善。
衡量收入变化的另一种方法就是,问如果你乘坐时间机器回到过去,你需要花多少钱购买同样的东西。举例来说,假定你回到1970年,你会发现今天价格不到500美元的CPU处理能力在那时至少价值1.5亿美元。这种价格的衰变随着时间流逝很快就会接近于零,因为一百年后,你今天需要的所有东西后人都不会想要。相反,如果你把今天可乐饮料的宝特瓶拿回到1800年,它会被认为是精美的工艺品。」
  富人日常做的事情也和普通人差不多。无所事事的闲适生活早就成为罕见情况了。如今,确实有很多人非常有钱,完全不必再去工作,他们之所以还在工作,不是因为感到社会压力,而是因为无所事事使人感到孤独和消沉。
  今天的社会身份(social distinction)差异也要比100年前来得小。
  那时的小说和讲解礼仪的手册在今天读起来好像是在说陌生的部落社会。Beeton夫人出版于1880年的《家务手册》(Book of Household Management)这样写道:“至于说到朋友之间的友谊……在某些情况下,为了承担家庭生活的责任,女主人可能必须放弃一些她早年认识的朋友。”一个女人嫁给了有钱人,就被认为应该放弃那些没钱的朋友。要是你今天这样做的话,别人会觉得你的行为很野蛮,而且你也会让自己过上一种乏味无趣的生活。今天的人们多多少少还是有一些互相隔离的趋势,但主要是因为教育层次的差别,而不是财富的差别^。
^「有人会说,教育程度的差别与财富的差别是一回事,因为富人得到高等教育的机会更大。这个论点是成立的、某种程度上可以做到用钱把孩子送进顶尖的大学。你只要把孩子送进昂贵的私立学校,就等于敲开了大学的门。
根据2002年美国国家教育统计中心的一份报告,大约1.7%的美国儿童就读于私立的非教会学校,而普林斯顿大学2007级新生中,大约有36%的人来自于这样的学校。(有趣的是,哈佛大学的这个比例要低不少,只有大约28%。)很显然,这是教育制度的一个大漏洞,但是它正在缩小,而不是扩大。
也许,大学入学申请制度的设计者应该参考计算机安全行业的做法,不要假设你的系统毫无漏洞,而是搞清楚多大程度上漏洞无法被利用。」
  无论在物质上,还是在社会地位上,技术好像都缩小了富人与穷人之间的差距,而不是让这种差距扩大了。如果参观雅虎、英特尔、思科的办公室,会看到每个人都穿着差不多的衣服,有着同样的办公室(或者小隔间)、同样的家具,彼此直呼对方的名字,不加任何头衔或敬语。表面看大家没什么差距,但如果看到每个人银行户头上的余额差别如此之大,一定会感到震惊不已。
  技术的发展加大了贫富差距,这是不是一个社会问题?好像没有那么严重。技术在加大收入差距的同时,缩小了大部分的其他差距。
公理的不同意见
  你经常可以听到有人批评某种政策会加剧贫富分化。隐藏的意思就是,贫富分化的加剧一定是坏事,这好像已经成了公理。收入差距的扩大可能确实不好,可是我不觉得这可以被看成公理。
  实际情况是,在工业化的民主国家,这种观点更可能是错误的。在农奴和贵族组成的社会,收入差距的加大肯定是社会问题加剧的信号,收入更多地从农奴流向了贵族。但是,抢夺他人的财富已经不再是收入的唯一来源了。波音747飞机驾驶员的收入大概是商场收银员的40倍,但是前者不是贵族,后者也不是奴隶,这种收入差距只是因为前者的技能比后者的要值钱得多。
  我想提出一种相反的观点:现代社会的收入差距扩大是一种健康的信号。技术使得生产率的差异加速扩大,如果这种扩大没有反映在收入上面,只有三种可能的解释:(a)技术革新停顿了;(b)那些创造大部分财富的人停止工作了;(c)创造财富的人没有获得报酬。
  我觉得可以很有把握地说,(a)和(b)都不是好事。如果你有不同意见,那不妨试试去过公元九世纪法兰克王国的贵族生活,一年后再来告诉我们你的感受。(我很仁慈地没有建议你去过石器时代的那种生活。)
  如果你想让社会保持繁荣,同时收入差距不扩大,那么就只剩下(c)这一种可能了,即创造大量财富的人不获取报酬。举例来说,苹果公司的两位创始人将欢欣鼓舞地每天工作20个小时,为社会提供苹果电脑,然后只领取一份相当于大公司里朝九晚五的上班族领取的税后工资。
  如果得不到报酬,人们是否愿意创造财富?唯一的可能就是,工作必须能提供乐趣。会有人愿意免费写一个操作系统,但是他们不愿意免费为你安装、提供电话支持、进行客户培训等。即使是最先进的高科技公司,也有至少90%的工作没有乐趣、令人生厌。
  在一个剥夺个人财产的社会,财富创造活动中所有那些没有乐趣的事情都会急剧地放慢,乃至停顿。对历史进行实证检验,我们就可以得出这个结论。假设你听到一种噪音,你觉得是身边的电扇发出的。你关了电扇,噪音停止;打开电扇,噪音又出现。关了就安静,打开就嘈杂,就是这样一种情况。如果没有其他信息,看上去噪音就是由电扇发出的。在历史的不同时点,你是否能够通过创造财富而致富就是这样一种打开/关闭的循环过程。公元800年的意大利北部,关闭(贵族偷窃平民的财产);公元1100年的意大利北部,打开;公元1100年的法国中部,关闭(仍然是封建社会);公元1800年的英国,打开;1974年的英国,关闭(投资所得税高达98%);1974年的美国,打开。以上每一种情况,打开时,财产创造活动就出现了,关闭时,财富创造活动就消失了,这就好像电扇和噪音的那种相伴关系。
  社会的变化涉及很多因素,并不仅仅是由于创造财富的原因。有很多因素发挥作用。如果研究对象只是一台电扇,那么不用考虑太多别的因素就能断定噪音是由电扇发出的,但是研究财富问题就没有这么简单了,必须要考虑很多别的因素。
  但是,只要你压制收入差距的扩大,不管是用偷窃私人财产的做法(封建社会),还是用高额税收的做法(某些现代政府),最终结果看来都是一样的,那就是社会作为一个整体变得更贫穷了。
  如果我可以做选择,到底是生活在一个整体上非常富裕但是我个人相对贫穷的社会,还是生活在一个我个人相对非常富裕但是整体上非常贫穷的社会呢?我会选择第一个选项。如果我有小孩的话,可能哪一个选项更好还值得争论。但是,总的来说,你要避免的是绝对贫穷,而不是相对贫穷。如果必须在这两种社会之间做选择,根据目前的证据,我选择个人相对贫穷、但是整体上更富裕的社会。
  一个社会需要有富人,这主要不是因为你需要富人的支出创造就业机会,而是因为他们在致富过程做出的事情。我在这里谈的不是财富从富人流向穷人的那种扩散效应(trickle-down effect),也不是说如果你让亨利·福特致富,他就会在下一场宴会雇用你当服务员,而是说如果你让他致富,他就会造出一台拖拉机,使你不再需要使用马匹耕田了。
8.防止垃圾邮件的一种方法
  我认为过滤垃圾邮件是可以做到的,基于内容的过滤器将发挥作用。发送垃圾邮件的人有一个致命伤,那就是他们发送的邮件本身。他们有办法逃脱你搭建的其他壁垒(至少目前是这样),但是不管怎样,他们都必须把垃圾邮件发出去。如果我们能够写出可以从内容上识别出垃圾邮件的软件,那么他们就无法逃脱了^。
^「出版时,本文的一些内容经过改写,但是从Lisp代码翻译过来的、计算垃圾邮件概率的数学公式没有变。所以,公式里有些地方可能过时了,比如现在很少有垃圾邮件还含有click这个词。但是,算法仍然是有效的。一个略加修改的版本可以过滤99.6%的垃圾邮件,更多信息参见m。」
  收信人很容易识别哪些是垃圾邮件,哪些是正常邮件。如果你雇人用肉眼帮你清除垃圾邮件,这事情应该没有太大难度。那么我们怎么用软件自动模拟这个过程(假定不使用复杂的人工智能)?
  我觉得只用一些很简单的算法就可以做到这一点。事实上,我发现只要对单个词语进行贝叶斯判断,就能很好地过滤大部分垃圾邮件。设置好贝叶斯过滤器(详见后文),1000封垃圾邮件能够被过滤掉995封,并且没有一个误判。
  开发垃圾邮件过滤器时,统计学方法往往不是程序员首先想到的方法。大多数黑客的直觉是写出一个能够识别垃圾邮件某种特征的软件。你看着那些垃圾邮件,心想这些可恶至极的家伙胆敢向我发送以“亲爱的朋友”开头的邮件,或者主题行都是大写字母且以八个惊叹号作为结尾的邮件,我用一行代码就能把它们全过滤掉。
  你这样做了以后,一开始效果还不错。几条简单的规则就能拦截大部分垃圾邮件。仅仅搜索单词Click就会捕捉到79.7%的垃圾邮件(以我的情况为例),其中只有1.2%是误判。
  在转向统计学方法之前,大约整整有六个月,我一直使用这种特征过滤法,自己编写软件,识别垃圾邮件的特钲。我发现,到后来要想把识别精度提高几个百分点非常困难,如果我把过滤条件设置得很严格,误判率就会上升。
  所谓误判,指的是正常的邮件被错误认定为垃圾邮件。对于大多数用户来说,错过一封正常的邮件后果要比收到垃圾邮件严重得多。所以,如果过滤器有误判,就好像治疗粉刺的药物却有致人死亡的危险一样。
  用户收到的垃圾邮件越多,他就越不可能注意到被过滤掉的垃圾邮件中包含着一封正常邮件。这就导致了一个很奇怪的后果,如果你的过滤器效果越好,就越不能出现误判,一旦误判,后果就会变得很严重,因为过滤器工作得非常良好,所以用户相信它,就不太可能去检查被它过滤掉的邮件。
  我不知道为什么我没有早一点尝试统计学方法。原因可能是我太过迷恋于发现垃圾邮件的特征,有一种与发送者斗智斗勇的感觉。(大多数黑客都是好胜心很强的人,一般人往往意识不到这点。)当我尝试统计学方法以后,我立刻发现这是更聪明的选择。它不仅能发现普通的垃圾邮件标志(比如,木马和广告性词语),还能发现像 per、FL、ff0000 这种不太明显的标志。事实上,ff0000 (HTML语言中表示鲜红色的代码)被证明效果显著,能很有效地识别垃圾邮件,就像色情词汇一样容易辨别。
  下面我就简单介绍一下我是如何开发统计学过滤器的。开始前,我先准备好一组垃圾邮件和一组非垃圾邮件,每组各有4000个样本。我对每一封邮件的全部内容进行了扫描,包括邮件头、内嵌的HTML代码和JavaScript代码。我把字母、阿拉伯数字、破折号、撇号、美元符号作为“实义标识”(token),所有其他字符则是“实义标识”的分隔符。(这个处理可能还可以进一步改善。)我忽略了完全由数字组成的字符串以及HTML注释,也不把它们当作“实义标识”的分隔符看待。
  我计算了每个实义标识在两个邮件组出现的次数(忽略大小写)。完成这步以后,我就得到了两大张散列表,一个邮件组一张,表中每一栏就是一个键值对,“键”栏对应每一个实义标识,“值”栏则是这个标识出现的次数。
  接着,我创建了第三张散列表,“键”栏还是每一个实义标识,“值”栏则是包含该标识的邮件是垃圾邮件的概率。我把这个概率记作Pspam|w,计算公式如下:
  公式中的w就是我用来计算概率的那个实义标识,good和bad表示我在第一步创建的两张散列表,G和B分别表示正常邮件和垃圾邮件的数量。
  为了避免误判,我稍微加大了某个实义标识不是垃圾邮件的概率。经过反复试错,我发现将good表的次数值全部增大一倍可以很好地达到这个目的。这有助于区分那些偶尔出现在正常邮件中的词以及那些几乎从不出现的词。我只把出现总次数超过5次的词列入计算范围(实际上,由于正常邮件会反复使用同样的词,所以出现总次数超过3次应该就够了)。下一个问题就是,如果一个词只出现在一组邮件中,它的概率应该怎么分配。我又通过试错法选择了0.01和0.99。这里可能还有改善的余地,但是随着邮件数量的增加,计算结果应该会自动调整的。
  那些善于观察的人会注意到为了计算每个词出现的次数,我把每一组邮件看成一整串文本流,但却还是使用电子邮件的数量而不是文本流的总长度作为计算概率时的分母。这样做也是为了加大不是垃圾邮件的概率,防止出现误判。
  当收到新邮件的时候,程序会自动扫描,读出邮件中所有的实义标识,再找出其中15个最醒目标识(所谓“最醒目标识”,就是指概率偏离中性值0.5最远的标识),用它们判断整封邮件是垃圾邮件的概率。如果用w1, …, w15分别表示15个最醒目标识,那么计算整封邮件概率的公式如下:
  实践中遇到的问题是,如果出现一个以前从来没见过的词(即两张散列表里都找不到这个词),它的概率应该怎么计算。我发现(还是通过试错法)将概率设为0.4效果很好。如果你从来没见过这个词,它多半是一个正常的词,垃圾邮件用的词都是很常见的。
  如果上面的公式计算出来的概率大于0.9,我就把这封邮件当作垃圾邮件。但是在实践中,把这个门槛值设为多少并不是很重要,因为计算出来的概率值大多数都分布在两端,很少落在中间。
  统计学方法的一大优点就是,你不需要一封封去看垃圾邮件。在使用它之前的六个月,我大概看了足足几千封垃圾邮件,这真是很苦恼的一件事。数学家Norbert Wiener说,如果你与奴隶比赛,你也会变成一个奴隶。与垃圾邮件搏斗就有这种令人退化的效果。为了识别垃圾邮件的每一个特征,你不得不钻进发送者的脑袋,搞清楚他们怎么想。说实话,我一刻都不想待在那里。
  但是,贝叶斯方法的真正优点在于你知道你正在计算的是什么东西。识别垃圾邮件特征的过滤器(比如SpamAssassin)为每封邮件计算一个“得分”,而贝叶斯方法为每封邮件算出一个概率。“得分”方法的缺点在于没人知道这个分数到底是什么意思,用户不知道,更糟的是,就连过滤器的开发者也不知道。如果邮件中有sex(性)这个词,请问得分是多少?计算概率当然也会出错,但是至少意义上很清楚,一点也不模糊,而且用来计算它的那些依据也很清楚。根据我的邮件库,一封邮件中含有sex这个词,那么它有0.97的概率是一封垃圾邮件;要是含有sexy这个词,垃圾邮件的概率更是上升到0.99。贝叶斯规则同样毫不含糊地表明,如果一封邮件同时含有这两个词,即使没有其他证据(事实上,这是不可能的),垃圾邮件的概率也将达到99.97%。
  因为贝叶斯方法计算的是概率,所以它必须考虑邮件中所有的线索,不管是肯定性线索还是否定性线索。有些词(比如though、tonight、apparently)极少出现在垃圾邮件中,所以它们会大大降低这封邮件属于垃圾邮件的概率;同样,还有一些词(比如unsubscribe、opt-in)几乎是垃圾邮件专用,它们会大大增加概率。因此,如果一封邮件的其他方面都合格,只是碰巧包含了sex这个词,这封邮件是不会被归入垃圾邮件的。
  理想情况下,每个收信人应该都有自己单独的概率分布表。以我为例,我收到的许多邮件中都含有Lisp这个词,而迄今还没有垃圾邮件包含这个词。所以,一个这样的词实际上就像许可证一样,保证了这封信是发送给我的正常邮件。在我以前写的垃圾邮件过滤器中,用户可以自己开出一张清单,列出一系列这样的词。然后,收到的邮件之中如果包含这些词,就将自动通过过滤器。我自已的清单上除了Lisp这个词,还有我的邮政编码,所以网上购物的确认邮件就能安然通过过滤器(否则它们看上去很像垃圾邮件)。我当时觉得自己真是聪明绝顶,但是后来发现贝叶斯方法能够自动做到这一点,而且它还能发现许多我以前根本没意识到的这一类词语。
  我在文章的开头说,我的过滤器现在可以在1000封垃圾邮件中正确识别出995封,并且没有一个误判。做到这一点的前提是必须有一个很大的邮件库作为判断依据。但是,我不想用这些数字误导读者,如果你想同样做到这个水平,最好采用我提倡的方法,就是把自己收到的所有邮件分成垃圾邮件和非垃圾邮件两大类。按照我的想法,每个用户应该有两个“删除”按钮,一个是“正常刪除”,还有一个是“垃圾邮件删除”。任何被后一个按钮删除的邮件都进入垃圾邮件库,而其他的所有邮件进入非垃圾邮件库。
  刚开始的时候可以有一个所有人共享的基本概率分布表,但是到了最后,每个用户应该都分别有自己的概率分布表,这是根据他收到的邮件对每一个词进行统计后得出的。这样做可以:(a)使得过滤器更有效;(b)让每个用户自己定义,什么是他眼中的垃圾邮件;(c)使得垃圾邮件的发送者无法针对过滤器做出调整(这可能是最大的好处)。如果每个用户的过滤器大部分都是基于独立的数据库,那么每个过滤器的过滤条件都不一样,而且会更加富有成效。要是垃圾邮件的发送者仅仅针对基本概率分布表做出调整,并不能保证这封邮件会通过拦截。
  统计学过滤器除了基于内容做出判断以外,还可以有一张白名单,上面列出值得信任的、不会发送垃圾邮件的发信人,让他们的邮件直接通过过滤器。建立这样一张白名单有一个容易的方法,就是将所有你曾经去信的地址都保留下来。另外,凡是你使用“正常删除”按钮删除的邮件(前提是邮箱软件必须同时具备“Spam删除”按钮),它们的地址也可以加入白名单。
  我提倡使用白名单,主要是为了节约计算,而不是认为这样可以改进过滤器的效果。我曾经认为白名单会让过滤器运作得更顺利,因为你从此只需要扫描那些陌生人的邮件就行了。试想一下,如果某人是第一次发邮件给你,他一般囿于常规,只会说一些需要对你说的内容,不会一上来就跟你讨论sex。相反,倒是你已经认识的熟人可能会这样做。所以,白名单有助于避免这些邮件的误判。但是问题是,人们一般都有好几个Email地址,一封从陌生地址发来的邮件并不必然意味着来自一个你不认识的陌生人。一个老朋友突然用一个全新的地址写信给你可不是罕见情况,对于黑客尤其如此。所以,白名单并不会降低误判的风险。
  不过,某种意义上,统计学过滤器其实内嵌了白名单(还有黑名单)。因为整封邮件都会被扫描,包括邮件头在内,所以经过这一步,过滤器自己“知道”哪些邮箱地址可以信赖(甚至还知道哪些中转的服务器可以信赖)。对于垃圾邮件,它也会“知道”得一清二楚,包括服务器名称、发送邮件的软件版本和邮件协议。
  如果现在的过滤水平(1000封垃圾邮件识别出995封)可以保持下去,我会觉得问题已经解决了。但是,垃圾邮件永远在进化,现在能够过滤它们不等于永远能够过滤它们。说实话,如今的大多数垃圾邮件过滤器就像杀虫剂一样,唯一作用就是创造出杀不死的新品种害虫。
  我对贝叶斯方法寄予厚望,因为它的过滤能力可以随着垃圾邮件一起进化。所以,假定垃圾邮件发送者开始用vlagra替代viagra^,以此逃避某些机械的、基于单个词汇的过滤器的栏截,贝叶斯过滤器却能够自动注意到这种变化。实际上,vlagra是比viagra确定性高得多的线索,可以证实这封邮件为垃圾邮件,至于概率到底高出多少,贝叶斯过滤器将准确告诉我们。
^「中文名“万艾可”(伟哥),一种治疗阳瘘的药物。——译者注」
  到目前为止还存在一个问题,所有垃圾邮件过滤器的开发者必须回答:如果发送人准确知道你的过滤机制,他们逃避拦截的可能性有多大?比如我猜想,如果“校验码”(checksum)方法^对垃圾邮件构成重大威胁,那么发送人就会耍花招,使用同义词替代的技巧让每一封邮件内容完全不同,从而逃避拦截。
^「“校验码”方法的原理是,一般来说,垃圾邮件都是大量群发的,除了个别词语不同以外,信件的主体内容完全一样,所以,只要去除那些不同的部分,对信件主体计算一个校验码,然后与数据库中已经确认的垃圾邮件校验码进行比较,如果两者相同,就可以认定是垃圾邮件了。——译者注」
  但是,要想骗过贝叶斯过滤器就没那么容易了。你把每一封垃圾邮件都写得独一无二或者不使用某些特定的标志性词汇,都不足以达到目的。只有让垃圾邮件看上去与正常邮件毫无区别才能够实现。我觉得要做到这一点真是够难为他们的。垃圾邮件主要用于销售目的,那么除非你正常往来的邮件都是销售类邮件,否则垃圾邮件不可避免地将与其他邮件不一样。此外,发送人还必须改变(并且不断改变)他的邮件系统架构,否则贝叶斯过滤器会识别出他的邮件头,而根本不用看邮件内容到底写的是什么。我对邮件系统架构知道得不多,不太清楚让邮件头逃过拦截的难度有多高,但是我猜想它的难度要超过让邮件正文逃过拦截的难度。
  假定那些人连邮件头的难题也解决了,那么未来的垃圾邮件可能就是下面这个样子:
  嗨,你好。请查看链接:
  m/foo
  这差不多就是统计学过滤器能够允许通过的销售类邮件的样子,最多就到这样了。(可是实际上,这段话更难逃过拦截,因为邮件的其他内容全部都是中性词语,垃圾邮件可能不得不在URL上做文章,但是要让一个URL看上去没有可疑之处还是很伤脑筋的。)
  发送垃圾邮件的人形形色色。有的是公司,经营着一个所谓的邮件列表,表面上说你可以选择订阅,但是实际上根本无法退订,他们肆无忌惮地向你发送广告,有的是个人,专门劫持邮件服务器,推广色情网站。如果我们的过滤器迫使他们只能把垃圾邮件写成上面那样,应该会使得垃圾邮件业中合法经营的那部分人退出这个行业。因为他们很乐于遵守各州的法律规定,在邮件中附上正式声明,解释为什么自己不是垃圾邮件以及如何才能取消订阅。这一类文字反而使得识别他们变得更容易了。
  (我以前曾经认为,那些相信更严格的法律会遏制垃圾邮件的人真是太天真了。我现在认为,更严格的法律或许无法减少我们收到的垃圾邮件的数量,但是肯定有助于减少逃过过滤器拦截的垃圾邮件的数量。)
返回书籍页