必读网 - 人生必读的书

TXT下载此书 | 书籍信息


(双击鼠标开启屏幕滚动,鼠标上下控制速度) 返回首页
选择背景色:
浏览字体:[ ]  
字体颜色: 双击鼠标滚屏: (1最慢,10最快)

古海荒漠

_15 许靖华(中国)
塞缪尔谈及跳棋时洞察到的。预测正如其词意所示:想于事先。荷兰德仍然
记得塞缪尔一再重复这一点。“玩好一局跳棋或象棋的本质就是将宝押在不
那么明显的布局上。”也就是走出的棋路要能够使你在后来处于有利的地位。
预测能够助使你抓住机会或避免堕入陷阱。一个能够想于事先的作用者显然
比不能想于事先的作用者要更具有优势。
但预测的概念简直就像建设砖块的概念一样微妙。比如说,我们通常将
预测当作人类有意识的、基于对世界的大致模拟之上的思考。当然有许多这
类通过模拟做出的预测。超级计算机对气候的模拟就是一个例子,某公司开
始一项商业计划又是一例,美国联邦储备局所做的经济规划也是一例,就连
英格兰的巨石柱也是一个模拟的模型:巨石的环绕设计能让占卜牧师像用一
个粗糙但有效的计算机一样来预测春分和秋分的来临。而且,各种各样模拟
的模型经常就在我们的头脑里。逛商店的人极力想象新沙发摆在自家客厅里
的情形,或一个胆小的雇员力图想象冒犯老板的后果。我们经常在使用这些
“脑中模型”。事实上,许多心理学家都相信,有意识的思维都是基于“脑
中模型”的思维。
但对荷兰德来说,预测和模拟模型的概念实际上要比有意识的思维深奥
得多。从这点来说,也远比大脑的存在要深奥得多。他宣称:“所有复杂的
适应性系统——经济、心智、生物体等,都能建立能让自己预测世界的模型。”
就连细菌也如此。很多细菌都有特殊的诱导酶系统,这种诱导酶使它们游向
葡萄糖浓度更强的方向。毫无疑问,这些诱导酶模拟了细菌世界的一个关键
的方面:化学物质总是从源头向外扩散,随着离源头越来越远而浓度越来越
小。诱导酶自然而然地就把这样一个明确的预测编入了基因码:如果你向浓
度较高的方向游去,就可能找到有营养的东西。“这不是有意形成的模式,”
荷兰德说。“但遵循这个模式的生物要比不遵循这个模式的生物更具优势。”
荷兰德说,这对美洲繁色瑞蝴蝶(viceroy butterfly)也同样。这种蝴
蝶是有着醒目的橘黄色和黑色的昆虫。如果鸟类尝过它的味道的话,无疑会

对它垂涎三尺。但鸟类很少捕食这种蝴蝶,因为它们的翅膀的花纹演变得很
像所有幼鸟都避之不及的味道难吃的王蝶(monarch butterfly)。因此就发
生了这样的情况:繁色瑞蝴蝶的.. DNA上编码了一个模型,这个模型模拟的世
界中有鸟类、有王蝶、以及王蝶味道难吃。每天繁色瑞蝴蝶在花丛中飞来飞
去,无疑是在拿自己的生命做赌注,打赌它假设自己对外部世界的模拟是对
的。
对它垂涎三尺。但鸟类很少捕食这种蝴蝶,因为它们的翅膀的花纹演变得很
像所有幼鸟都避之不及的味道难吃的王蝶(monarch butterfly)。因此就发
生了这样的情况:繁色瑞蝴蝶的.. DNA上编码了一个模型,这个模型模拟的世
界中有鸟类、有王蝶、以及王蝶味道难吃。每天繁色瑞蝴蝶在花丛中飞来飞
去,无疑是在拿自己的生命做赌注,打赌它假设自己对外部世界的模拟是对
的。
荷兰德说,在认知领域,任何我们称为“技术”或“专业知识”的,都
是一种内含的模型,或说得更精确些,是一组长期经验积累和凝练而成的,
即铭刻在神经系统的巨大而相互环扣的常规操作程序。让一位有经验的物理
教师看课本练习题,他不会像个新手似的把时间浪费在抄录眼所能及的所有
公式。他脑中的程序总是会立刻就告诉他解题的方案:“啊哈,这是一道能
量题。”发个球给网球名将艾芙特,她不会浪费任何时间争辩这球该怎么接,
她头脑中的程序会立刻就让她本能地回手接球,打你个无从招架。
荷兰德喜欢在谈到内含的专业知识时举中世纪创建了哥特式大教堂的建
筑师的技术为例。他们当时无法计算强度和承载力,或任何一个现代建筑师
能够计算的事。十二世纪没有当代物理学和结构分析。那些中世纪建筑师建
造那些高耸的拱形天花板和巨大的扶壁,靠的是师徒相传的标准操作程序,
是实际经验给了他们哪种结构能够支撑、哪种结构会坍塌的常识。在他们那
里,物理学的模型完全是内含的和直觉的。然而这些中世纪的工匠们发明的
建筑结构一千多年后仍然耸立于世。
荷兰德说,这样的例子不尽其数。DNA本身就是一个内含的模型,基因
说:“在这种条件下,我们期望我们特意选中的生物能有机会得到很好的发
展。”人类文化是一个内含的模型,丰富而复杂的神话故事和象征隐含着人
们对他们所处的世界的信念和对他们的行为规则的正确性的信念。就这点而
言,塞缪尔的计算机跳棋手也包含了内在的模式,随着它对对方下棋风格越
来越熟悉,它会不断改变对各种棋路选择赋予的期望值,从而形成自己内在
的模式。
确实,模式和预测随处可见。但模式从何而来?所有自然的或人工的系
统是如何对这个宇宙形成足够的了解,从而对将来的事件做出预测的呢?他
说,光是谈论“意识”没有用。大多数模型显然并没有意识:比如寻找营养
的细菌,它甚至都没有大脑。谈论意识在任何情况下也是个用未经证明的假
定来做的辩论。意识又是从哪里来的?是谁设计了编程员的程序?
荷兰德说,最终的答案只能是“没人操纵这一切。”因为如果真由一个

编程员潜伏在幕后,就像“有鬼魂附于机器”,那么你等于什么都没有解释。
你只是把这团谜推到别的地方去了。但幸运的是,还有一个选择:从环境而
来的反馈,这是达尔文的伟大洞见。一个作用者能够改善自己的内在模式,
并不需要任何超自然的指引。它只是不断测试自己的模型,看看这些模型对
真实世界的预测有多么准确。如果它能够在实践中存活下来,它就调整自己
的这些模型,以使自己下次做得更好。当然,在生物学上,作用者是独个的
生物体,反馈是由自然选择提供的,模型的不断改良被称为进化。在认知学
上,这个过程基本上是一样的:作用者是独立的心智,反馈自老师和直接经
验而来,改善被称为学习。确实,这正是塞缪尔电脑跳棋手的运作机制。不
管就生物学而言还是就认知学而言,一个适应性作用者都必须要利用这个世
界告诉你的信息。
编程员潜伏在幕后,就像“有鬼魂附于机器”,那么你等于什么都没有解释。
你只是把这团谜推到别的地方去了。但幸运的是,还有一个选择:从环境而
来的反馈,这是达尔文的伟大洞见。一个作用者能够改善自己的内在模式,
并不需要任何超自然的指引。它只是不断测试自己的模型,看看这些模型对
真实世界的预测有多么准确。如果它能够在实践中存活下来,它就调整自己
的这些模型,以使自己下次做得更好。当然,在生物学上,作用者是独个的
生物体,反馈是由自然选择提供的,模型的不断改良被称为进化。在认知学
上,这个过程基本上是一样的:作用者是独立的心智,反馈自老师和直接经
验而来,改善被称为学习。确实,这正是塞缪尔电脑跳棋手的运作机制。不
管就生物学而言还是就认知学而言,一个适应性作用者都必须要利用这个世
界告诉你的信息。

BACH小组和伙伴们长
时间地讨论这个基本概念。但到最后只得出,有一个办法能确定这个概念:
必须建立一个计算机模拟的适应性作用者,就像他十五年前研究基因算法一
样。
但不幸的是,他发现,到了
1977年,人工智能主流知识已经不如
1962
年那么有助于他了。到了
1977年,人工智能的研究领域无疑已经取得了很大
的进展。比如在斯坦福大学,人工智能小组正在研制一系列被称为专家系统
的极富成效的程序。专家系统能够模拟专业知识,比如可以通过运作成百条
规则来模拟一个医生:“如果病人患的是细菌感染性脑膜炎,正在发高烧,
那么也许是某种细菌感染。”该项研究已经引起了投资者的兴趣和注意。
但荷兰德对于应用性研究并不感兴趣。他想要的是一个关于适应性作用
者的基本理论。从他的角度来看,这二十年来人类在人工智能领域取得进展
的代价就是忽略了所有重要的方面,从对学习的研究到对来自环境的反馈的
研究都受到了忽略,在荷兰德看来,反馈是最根本的问题。但除了像塞缪尔
这样个别的人物之外,人工智能领域的人似乎都认为,学习是可以放置一边,
不忙应付的。他们以为可以待他们将对语言的理解、人类问题解决法弄明白
以后,或把对其他抽象推理问题的程序编完美后再来研究学习的问题。专家
系统的设计者们甚至还为此而感到骄傲。他们谈论“知识工程”,也就是和
相关的专家交谈几个月后,为新的专家系统制定出成百条规则,来回答:“在
这种情况下你该怎么办?在那种情况下你该怎么办?”这类的问题。
公平地说,就是知识工程师都不得不承认,如果程序真能够像人一样通
过传授和经验学到他们的专业知识,如果有人能想出来如何在应用这些软件
时不至于像现在这么复杂和麻烦的话,事情就会顺利得多了。但对荷兰德来
说,这正是问题之所在。拿现存的“学习模型”草草拼凑成一个软件解决不
了任何问题。学习是认知的最根本的问题,正如进化是生物学的最根本的问
题一样。这意味着,学习的机制必须在一开始就投入到认知建筑图纸中去,
而不是到最后才被草率加入。荷兰德的理想模式仍然是赫伯式的神经网络,
其最重要的一点是,每一次思维的神经冲动都强化了其神经连接,从而使思
考成为可能。荷兰德确信,思考和学习只是大脑中同件事物的两个方面。他
希望在他的适应性作用者的研究中能抓住这个根本的问题。
但尽管如此,荷兰德却并不想再回过头去重做神经网络模拟。虽然从
IBM701开始至今已有二十五年了,但计算机的功能仍然没有强到能够按他想
达到的规模做完整的赫伯式的计算机模拟。在六十年代,神经网络研究在“视

感控制”这个标题下确实有过一阵短暂的小高潮。视感控制是视觉研究中专
门用来识别特征的神经网络。但视感控制在赫伯实际所言的细胞集合中是一
个极其简化的版式。(即使在识别视觉特征上,视感控制的功能也不强,这
就是为什么视感控制已经不再受人重视的原因。)荷兰德对新一代的神经网
络系统也并不十分欣赏。新一代的神经网络系统于七十年代末期开始流行,
而且自此受到了很大关注。荷兰德说,这些系统比视感控制系统要先进些,
但却仍然不能支持细胞集合的研究。确实,大多数版本根本就没有共鸣。通
过网络的信号瀑布只有从前到后的单一走向。他说:“这些关联主义的网络
在刺激/反馈行为方面和模型识别方面的功能很强,但从总体上来说却忽略了
内部反馈的需要。而内部反馈正是赫伯认为细胞集合所不可或缺的。除了少
数情况以外,神经网络研究人员基本上不在这个方面下功夫。”
感控制”这个标题下确实有过一阵短暂的小高潮。视感控制是视觉研究中专
门用来识别特征的神经网络。但视感控制在赫伯实际所言的细胞集合中是一
个极其简化的版式。(即使在识别视觉特征上,视感控制的功能也不强,这
就是为什么视感控制已经不再受人重视的原因。)荷兰德对新一代的神经网
络系统也并不十分欣赏。新一代的神经网络系统于七十年代末期开始流行,
而且自此受到了很大关注。荷兰德说,这些系统比视感控制系统要先进些,
但却仍然不能支持细胞集合的研究。确实,大多数版本根本就没有共鸣。通
过网络的信号瀑布只有从前到后的单一走向。他说:“这些关联主义的网络
在刺激/反馈行为方面和模型识别方面的功能很强,但从总体上来说却忽略了
内部反馈的需要。而内部反馈正是赫伯认为细胞集合所不可或缺的。除了少
数情况以外,神经网络研究人员基本上不在这个方面下功夫。”
荷兰德说,事实上,在任何情况下都会有类似“如果..则”的规则。
六十年代末,在人们远还没听说过专家系统以前,基于规则的系统就已经作
为人类用于认知的普通功能的计算机而被卡内奇—麦伦一派的爱伦·奈威尔
和赫伯特·西蒙介绍进计算机编程里来了。奈威尔和西蒙把每一条规则都当
作一个单一的知识包,或一个单一的技术组合。比如“如果吱吱的叫声是来
自一只鸟,那么吱吱叫的东西就有翅膀”、或“如果在扣留你的反对者的人
质还是扣留反对者的夫人之间选择,那就扣留反对者的夫人。”而且,这些
规则指出,当程序员用这种方式来表达知识时,这个规则就自动获得了认知
的某种绝妙的灵活性。根据条件采取行动的规则,即“如果情况是这样的,
那就采取那种办法”,意味着这样的系统不在一个固定的系列,比如
FORTRAN

PASCAL的某些子程序中运行。一条特定的规则只有在它的条件被满足后才
会被激活,这样,它的反应对它所对应的情况而言就是恰如其分的。确实,
当一条规则被激活后,它很可能会引起全部规则的连锁反应:“如果情况是
A,就采取
B措施”、“如果情况是
B,就采取
C措施”、“如果情况是
C,
就采取
D措施”,等等。大体上说,整个新的程序随着这一系列的连锁反应
而产生,并会按照所提出的问题给出完善的答案,与让人兴奋的游戏式的盲
目而僵硬的计算机行为相比,这才真的是智能系统所需要的机制。
另外,基于规则的系统对大脑的神经分布来说具有很大的意义。比如说,
一条规则就相当于计算机中赫伯式的细胞集合之一。他说:“用赫伯的理论
来看,一个细胞集合就是一个简单的声明:如果事件如此这般地发生,那么
我就会被高速激发一阵子。”规则的相互作用,伴随着一条规则激活后引起
的对其他规则的整个连动,就像神经稠密相关联的大脑的一个自然结果。“赫
伯的每一个细胞集合都包含了大约一千个到一万个神经元。”荷兰德说。“每
一个神经元又有一千到一万个与其它神经元相连的突触。所以每一个细胞集
合就与其它许多细胞集合相互关联。”大体上说,激活一个细胞集合,就等
于在某种内部布告栏上张贴了一个布告,就会被大脑中大多数、或所有其他
细胞集合看到。“细胞集合
295834108现在正在行动!”当这个布告一出现,
那些与这个细胞集合有适当关联的细胞集合就会被激发起来,并把自己的布
告贴到布告栏上,这就引起了不断重复的循环。
荷兰德说,奈威尔—西蒙式的基于规则的系统的内部组织与这个布告栏

的比喻非常接近。这个系统的内部数据结构就相当于这种布告栏,其中包含
了一系列数字布告。然后还有大量的规则,也就是计算机把上百、甚至上千
的数字编码成自身的部分。当整个系统处于运作状态时,每一条规则都经常
扫描布告栏,搜寻符合自己“如果”条件的布告。每当其中一条规则发现了
符合自己条件的布告,它立刻就会张贴一条数据信息,来续接“则”这部分。
的比喻非常接近。这个系统的内部数据结构就相当于这种布告栏,其中包含
了一系列数字布告。然后还有大量的规则,也就是计算机把上百、甚至上千
的数字编码成自身的部分。当整个系统处于运作状态时,每一条规则都经常
扫描布告栏,搜寻符合自己“如果”条件的布告。每当其中一条规则发现了
符合自己条件的布告,它立刻就会张贴一条数据信息,来续接“则”这部分。
所以荷兰德就把这个相似的布告栏比喻用于他的适应性作用者的设计之
中,但同时他又在细节设计上返回到对传统观念的反抗。
比如,从标准的奈威尔—西蒙的角度来说,张贴在布告栏上的规则和备
忘录都应该用“鸟类”或“黄色”这样的象征性语言来编写,这样做是因为
我们特意要使之接近于人类头脑中的概念。对人工智能领域里的绝大多数人
来说,用这样的象征来代表人类头脑中的概念,其正确性已毋庸争论,这是
几十年来的金科玉律,奈威尔和西蒙是这派观点的最雄辩的代表人物。而且,
这也确实抓住了我们的头脑进行实际思考的很大特点。计算机中的象征可以
被结合到繁冗的数据结构中,来表现复杂的情况,就像概念是与心理学家头
脑中的各种模式相联系的,是从中产生的一样。反过来,这些数据结构也能
够被程序用来与推理和问题解决这类的大脑活动竞争,就像我们头脑中模拟
的类型会在思考的过程中被重建和改变一样。确实,如果你和许多研究人员
一样,从字面上去理解奈威尔—西蒙的观点,就会看到,这种象征处理就是
思考。
但荷兰德就是不买帐。他说:“象征处理是一个很好的开端,而且确实
在理解有意识的思想过程上前进了一大步。”但就象征本身而言却太呆板了,
遗留下的内容也太多了。一个包含
B-I-R-D(鸟的英文拼写)数据的每个字
母怎么能够真正抓住所有微妙而游移不定的细微差别呢?如果这些字母与外
部世界的真正鸟类无法沟通的话,对这个程序来说又怎么能具有任何真正的
含义?就算撇开这个问题不谈,首先这些象征概念从何而来?它们是如何进
化和发展的?又是如何通过外界的反馈而形成的?
对荷兰德来说,这正是人工智能的主流方向缺乏对学习问题的研究兴趣
所导致的缺憾。“我们陷入的困境,与我们在不懂物种如何进化之前就对物
种进行分类时所陷入的困境是同样的。”荷兰德说。“你可以从这类相似的
系统中学到不少东西,但最终,这条道路是走不远的。”他仍然坚信,必须
用赫伯的角度来理解概念:实现的结构是从某种更深层的、不断在环境反馈
中调整的神经基质中发展而来的。正如云彩形成于水蒸气的物理和化学变
化,概念是模糊的、游移不定的、具有动力的。它们经常在重组和改变形状。
“在理解复杂的适应性系统上,最关键的是要弄清楚层次是怎么出现的?”

他说;“如果你忽略了下一个层次的规律,你就永远不可能理解这个层次的
问题。”
他说;“如果你忽略了下一个层次的规律,你就永远不可能理解这个层次的
问题。”

1和
0的二进
制的任意序列。一个布告也许就是像
10010100这样的序列,与他的基因算法
中的染色体很类似。而一条规则,用英文来说,也许就像:“如果布告栏上
有一个布告不
1###0#00的话,其中#表示‘无所谓’,那就贴上
01110101
这个布告。”
这种表示法很不符合常规,荷兰德只得给他的这些规则取一个新名称,
“分类器”,因为它们的办法是根据布告的特殊类型来分别不同的布告。他
认为这个抽象的表示法至关重要。因为他看到太多人工智能研究人员自己愚
弄自己,假装他们基于象征的程序“知道”。在他的分类器系统中,布告的
意义必须来自于它导致一条分类器规则激活了另一条分类器规则这种方式,
或它具有意义是因为它的某一部分是直接被探测真实世界的感应器所编写
的。概念和头脑中的模型就会作为自我支持的一群分类器突现出来,它们应
该能够像自动催化组那样自组和自我重组。
同时、荷兰德还从基于规则的系统的中央控制的常规概念中找出了例
外。根据常识,基于规则的系统过于灵活了。所以不得不设计某种形式的中
央控制来避免无政府状态。因为有成百上千条规则在争看充斥着布告的布告
栏,所以总会有好几条规则突然蹿起来,相互争执谁来张贴下一条布告。假
设认为,不可能所有的规则都张贴下一条布告,因为它们的布告可能完全不
能连贯一致(“扣留人质”或”扣留其妻”),或者它们的布告也许会引起
完全不同的规则瀑布,这样就会导致整个系统完全不同的表现。所以,为了
防止计算机的精神分裂症,大多数系统都实行了繁冗的“争议解决”战略,
以保障每次只有一条规则能采取行动。
但荷兰德却认为,这种自上而来的争议解决法恰恰是错误之所在。难道
这个世界是如此简单、如此可以预测,以致于你总是能够在事先就知道什么
是最好的规则吗?几乎不可能。而如果这个系统被事先告知如何行动,那将
之称为人工智能就是一个骗局:智能并不在程序之中,而是在程序员的脑子
里。不,荷兰德要的是,让控制由学习而来。他要控制从最底层突现而出,
就像大脑的神经基质中的突现一样。让连续一贯性见鬼去吧。如果两个分类
器规则相互意见不能统一,那就让它们在自己的表现的基础上去竞争出一个
结果来,这个结果就是被证实了的对完成任务的贡献,而不是有一个软件设
计人员事先编好的程序的选择。
“与主流人工智能研究正相反,我认为竞争比连贯一致性更为本质。”
连贯一致性是个幻想,因为在一个复杂的世界里,经验的连贯一致性是没有
保障的。但对于与自己所处的环境玩游戏的作用者来说,竞争是永恒的。“另
外,除了经济学和生物学对竞争有所研究之外,我们还没有提炼出何为竞争
之中心特质来。”对于竞争的丰富多采性,我们只刚刚开始认识。想一想神
奇的竞争能够产生出合作的巨大的推动力,某些作用者为获得相互支持而自
发结为联盟,相互形成象征性的关系。这种情形发生在所有复杂的适应性系
统的每一个层次,从生物、经济到政治。“竞争和合作看上去也许是对立面,
但在某种深层次上,它们是相同事物的两个方面。”
为实现竞争的机制,荷兰德决定把张贴布告变成某种拍卖活动。他的基

本想法是,不要把分类器当作是计算机指令,而当作对在特定情况下张贴什
么布告最好的假设和推测。通过每一条假设的数值来衡量其道理和力量,这
样就有了一个叫价的基础。在荷兰德的布告张贴观念中,每一个循环开始时
就像以往一样,所有的分类器都在扫描布告栏,寻找与自己相关的布告。它
们就像以往一样,一发现与自己相关的分类器会站起来,准备张贴自己的布
告。但与以往立即张贴自己的布告不同的是,每一个分类器都会先量力叫价。
一个对“明天太阳会从东边升起来”的经验确信不疑的分类器也许出价一千,
而一个确信“猫王还活着,晚上出现在华拉华拉汽车旅店
6号”的分类器也
许出价一。然后这个系统就会收集所有的出价,用抽彩给奖法选择一组赢家,
叫价最高的最有可能赢。中选的分类器就会张贴它们的布告,就这样循环往
复。
复杂吗?荷兰德不予否认。而且,这种拍卖就是以任意可信值取代任意
争议解决战略。但现在让我们假设这个系统能够从这些可信值中吸取经验,
那么这种拍卖就会排除中央仲裁人,从而让荷兰德获得他正想要的东西。并
不是每一个分类器都能够赢:布告栏非常大,但却并非无限大。也并不是跑
得最快的就一定能赢。如果时来运转的话,即使“猫王还活着”也能得到张
贴自己的布告的机会。但一般来说,总是那些最强健的和可信值最高的假设
获得系统表现的控制权,而那些离谱的假设时不时出现只增加了这个系统的
一点儿自发性。而且如果有一些假设相互矛盾,那也不应该成为危机,而应
该是一个机会,一个让系统决定谁的可信度更大,从而吸取经验的机会。
所以,我们又返回到学习这个问题上来了:分类器怎么来证明自己的价
值,又怎么为自己获取可信值呢?
对荷兰德来说,最显在的答案就是采用一种赫伯式的强化作用。每当一
个作用者做对了什么事,从环境中得到了一个正反馈,它就应该强化那些与
此相关的分类器。而每当它做错了什么事,它就同样应该削弱相关的分类器。
无论采取强化的方法,还是采取削弱的方法,它同时应该不去理会那些不相
干的分类器。
当然,关键是要弄明白这些分类器所起的作用。作用者不能奖赏那些在
颁奖的时候正巧表现活跃的分类器。那就会像把得分的一切功劳都归于那个
凑巧带球冲过底线的队员,而对操纵全局、把球传给他的四分卫,对拦截了
对方进攻、为他开路的前锋,或任何替他传球的队员的功劳一笔勾销了。这
也像把赢得一盘国际象棋的全部功劳都归于将住了对手的国王的最后一步
棋,而无视为获得全局胜利而布局中的许多关键的棋步。但还有其它替代办
法吗?如果作用者为了奖赏正确的分类器而必须预期回报,在没有被编入程
序的情况下它该怎么做呢?在事先一无所知的情况下,作用者如何得知这些
布局的价值呢?
这确实是一个问题。不幸的是,赫伯式的强化作用是一个过于广泛的一
般性概念,无法提供解答。荷兰德感到非常困惑,一直到有一天他偶然回想
起他在麻省理工学院上的基本经济学课程,那是著名的经济学教科书撰写人
保尔·塞缪尔森上的课,他才意识到他几乎已经解决了这个问题。他的布告
栏前的拍卖已经为他在系统中建立了某种市场机制,通过允许分类器量力叫
价的办法,他已经创造出了通货。所以,为什么不采取下一步行动?为什么
不创造一个完整的自由市场经济,让强化能够在利益驱动下发生作用呢?
确实,为什么不呢?当他终于看到了这一点,就发现这与经济非常相似。

荷兰德认识到,如果把张贴在布告栏上的布告当作是上市叫卖的货物和市场
上提供的服务,那么就能把分类器想成是生产这些产品和提供这些服务的公
司和厂家。当一个分类器看到有一个布告满足了它的“如果条件”,它就会
叫一个价,那么就可以把它想成是一个正在求购生产所需供应的厂家。为使
这一相似性更加完善,他要做的是,必须要使每一个分类器对自己消耗的供
应付出报酬。他决定,当一个分类器赢得了张贴自己的布告的权力,它就得
将自己的一部分力量转给供应商,也就是那些触发其张贴布告的分类器。在
这个过程中,这些分类器就会被削弱。但在下一轮拍卖中,一旦它的布告上
市,它会有重新聚集力量的机会,甚至能够获利。
荷兰德认识到,如果把张贴在布告栏上的布告当作是上市叫卖的货物和市场
上提供的服务,那么就能把分类器想成是生产这些产品和提供这些服务的公
司和厂家。当一个分类器看到有一个布告满足了它的“如果条件”,它就会
叫一个价,那么就可以把它想成是一个正在求购生产所需供应的厂家。为使
这一相似性更加完善,他要做的是,必须要使每一个分类器对自己消耗的供
应付出报酬。他决定,当一个分类器赢得了张贴自己的布告的权力,它就得
将自己的一部分力量转给供应商,也就是那些触发其张贴布告的分类器。在
这个过程中,这些分类器就会被削弱。但在下一轮拍卖中,一旦它的布告上
市,它会有重新聚集力量的机会,甚至能够获利。
荷兰德将适应性作用者的这部分称为“水桶大队”算法,因为其方法是
将奖赏从一个分类者传到前一个分类者。这有如希伯的强化神经突触的大脑
理论的直接翻版。或者,从这个意义上来说,与在计算机上调训模拟的神经
网络也如出一辙。当想到这些时,荷兰德知道他快要触及到问题的实质了。
以利益为驱力的经济强化是一个极为强大的组织力量,就如亚当·斯密的那
只看不见的手在现实经济中具有强大的力量一样。荷兰德认识到,从原则上
说,你可以用一组完全随意的分类器来启动系统,这样,作用者这个软件就
会像新生婴儿一样手舞足蹈地乱蹬乱踹。然后,随着环境不断强化某些行为,
随着水桶大队发生作用,你可以看到分类器将自己组织为前后连贯的序列,
从而产生预期的行为表现。一句话,学习从头开始就被设入于系统之中了。
这么说,荷兰德几乎就摸到门了,但还不尽然。荷兰德把水桶大队算法
返回书籍页