必读网 - 人生必读的书

TXT下载此书 | 书籍信息


(双击鼠标开启屏幕滚动,鼠标上下控制速度) 返回首页
选择背景色:
浏览字体:[ ]  
字体颜色: 双击鼠标滚屏: (1最慢,10最快)

GEB_—_一条永恒的金带

_5 乐秀成(当代)
9.奥:桌子能捡起木块吗?
博:SHRDLU的语义学规则应该包括“捡起”的知识。只有动物才能做到达一点,而桌子并不是动物。
机,不能。
10.奥:方木块能支撑锥体吗?
机:能。
博:SHRDLU的推理系统发现了这样的实例,因而知道这是可能的。
11.奥:锥体能支撑锥体吗?
机:不知道。
博:计算机找不到这样的实例,也无法在程序中找到,虽然它最终能够改进这种能力。
12.奥:把两个锥体叠起来。
机:我做不到。
博:它作了尝试,但是失败了。
13.奥:那个蓝锥体是属于我的。
机:我明白了。
博:所有关于颜色、形状、大小和位置的信,计算机原来都知道。但是“属于”这种性质原来是不知道的。现在才贮存进去。
14.奥:所有不是红色的方木块都属于我,但锥体下的东西不属于我。
机:我明白了。
15.奥:盒子属于我吗?
机:不。
16.奥:盒子里有什么东西属于我吗?
机:蓝色方木块和蓝色锥体。
17.奥:请你堆起两块红色方木块,另外再加上一个绿色的立方体或者一个锥体。
机:好的。
博:这些逻辑连词“相”、“或”等,既要从语法上去把握又要从语义上去把握。
18.奥:把最小的锥体放到顶上去。
博:在它的词典里并没有“最小”这个词,但是可以通过小来理解。计算机在比较它们的大小之后完成了这一步。
机:好的。
19.奥:在绿色立方体顶上有多少块?
机:我不敢肯定“在项上”指的是什么。
博:这和放到顶上不同,因为放到顶上只有一种可能性,否则都做不到。“在顶上”也许指的是正前方,也许指的是上面的任何地方。
20.奥:做一个尖塔。
机:我不懂“尖塔”这个词。
博:当计算机碰到一个它还不懂的词时,立刻就中断了。
21.奥:两个绿色立方体和一个锥体组成一个“尖塔”。
机:我明白了。
22.奥:做一个。
机:好的。
23.奥:谢谢称。
机:欢迎你以后再来。
通过这段人——机的对话,我们可以清楚地看到,经过十多年的发展人工智能已经到了什么水平。机器变得多么聪明。它会运用已有的知识进行推理,也会接受新的概念,学习新的知识。
7.3 概念框架与模式识别
人们的思维中常常有稍稍改变某种条件的倾向,并设想这种变动会导致的后果。
如果我们借用数学中的术语:常量、参量和变量,就可以用来描述稳定性的不同层次。一个事件可以看成是发生在某个关系的网络中。最底层的是相互关系最深的方面,有时是完全不能变的。例如,我们中的大多数人从未想到过要改变我们世界的三维空间结构。还有一些层次是暂时建立起来的,并不是永久性的。它们固定了某些条件。我们不妨称之为基本假设。这是我们思维的基础。虽然我们知道这是可以改变的,但是一般来讲,我们宁可把它们看成是不变的。这些我们仍然可以称之为常量。例如一场球赛的规则就是这类常量。还有一些“参量”可以认为更容易变化,但是暂时让它们保持不变。对于一场球赛来讲,参量包括天气、竞赛的球队等等。参量的层次可能有好几层。最后则是最容易变化的变量。
在人工智能中要用到框架的概念。框架里面还套有子框架。这样就可以按照你所需要的精细程度选择合适的框架。这种套在一起的框架结构就像是一组关于美国公路的地图册。最上面是全国的地图,里面则是分州的地图。如果你要更详细的,甚至还有某些较大城市的市区地图。你还可以设想任意精细的地图册,乃至于一个街道、一幢楼房、一间屋子的平面图。也就是说,像是通过具有焦距可变镜头的望远镜来观察,其中每个镜头都有各自的用处。每一个框架又有自己的可变层次。因此,当我们把一个框架塞到另一个框架里去时,就有可能产生冲突。作为例子我们来看看所谓的“蓬加特问题”。
“蓬加特问题”就是模式识别问题。解决这种问题的程序可以分为几步,它们逐渐将原始的数据变成描述。最初的几步是固定的,以后的几步就逐渐变得灵活了。最后一步则具有试验的性质了。
对原始的数据进行预处理就意味着测出它的一些突出性质。而这些性质的名称就构成了这一问题的“最小词汇表”。主要性质词汇表的典型术语如下:
线段、曲线、水平、垂直、黑、白、大、小、尖、圆……
而在预加工的第二阶段就使用了有关基本形状的知识,这种术语有:
三角形、圆、正方形、锯齿形、隆起状、角、顶点、歧点、箭头……
试验性的描述则可以用这样一些术语:
在上面、在下面、在右面、在左面,在里面、在外面、接近于、远离、平行于、垂直于、在一条线上、分散的、平均分布、不规则分布的等等。
值得指出的是,这种描述虽然可以使一个人识别某种图形,但是并不能使他将原因重构出来。这有点像音乐的风格。你可以确定无误地认出莫扎特的作品,但是却无法写出任何东西可以欺骗别人,使人认为这是莫扎特的作品。
有一种很好的策略就是尝试描述彼此在结构上的相似性。从某种意义上讲,这是有可能的。这里有两点很重要。第一是关于“描述图式”的思想,或者说是图样;另外一点就是关于“同样性检验器”的思想。
检验同样性可以在一个描述层次中进行,也可以同时在多种描述的层次中进行。而描述图式或图样最重要的是选择一种方法,将有关的描述分解成各部分,使它们能反映比所有图中的共同性。
要解决“蓬加特”问题还需要概念的网络,在这样的网络中我们可以看到,
“高”和“低”是相反的。
“上”和“下”是相反的。
“高”和“上”是类似的。
“低”和“下”是类似的。
“左——右”的差别类似于“高——低”的差别。
“相反”与“类似”是相反的。
此外我们还可以看到,
正方形是多边形。
多边形是闭曲线。
闭曲线有内部和外部。
“内部”与“外部”是相反的。
概念网络的一个主要作用就是使最初的一些错误概念能逐步得到改进。
在识别过程中,另一个重要的部分就是抽象的层次与元描述。这就是说存在着比几何描述层次更高的抽象。这就是关于描述的描述。
现在让我们来考虑另一个问题。究竟怎样去掉一部分信息呢?这里涉及到两个概念,我称之为“聚焦”和“滤波”。所谓“聚焦”就是集中描述图中的某些部分而把其他部分抛弃掉。所谓“滤波”是采用某种特定的观察方法看待图中的内容,而置其他方面不顾。这样它们就起到互补的作用,聚焦与观察对象有关,而滤波则和概念有关。
为了识别图像就需要有概念网络。概念网络则和符号系统有关。这就涉及到符号的创造、操作和比较的问题。
说到创造就不是一种机械的话动。有一种普遍的观念认为,随意性是创造的必要组成部分。事实上,偶然性确实是思维固有的特征。
从对“蓬加特”问题的研究,我们可以看到,人类通过遗传获得的对于模式的难以捉摸的理解包括表达知识的所有机制,如交锗的相互关系,概念框架、概念的映射、可以变动的描述和元描述以及它们之间的相互作用,符号的融合和裂解、多重的表达、有欠缺的预测等等。
总之,人类的智能是如此缺乏规则。许多人工智能的专家风趣地说,他们自己也不明白当初怎么就糊里糊涂地闯到这个领域里来了。人工智能确实是一个大大有待于进一步开发的领域。
8.1 遗传机制的形式化
哥德尔定理的证明离不开自我相关。如果我们把产生自我相关的机制与生物体进行自我复制的遗传机制进行一番比较,就会发现两种机制之间有着优美的同构关系。
我们先来看比较熟悉的自我相关的结构,以下面这些句子为例。
(1)这个句子中有9个字。
(2)这个句子是没有意义的,因为它自我相关。
(3)这个句子中没有副词。
(4)这个句子是错的。(爱皮梅尼特悖论)
(5)我现在写的这个句子是你现在读的。
这些句子的自我相关是很明显的。每个句子都在描述本身的性质。做到自我相关最一般的方法就是前面提到的奎因法。它是通过描述句子的另一部分来实现自我相关。而被描述的部分与奎因句子本身又是同构的。
我们知道,有一种计算机程序可以设计有同样能力的计算机程序。我们可以说这是一种自我复制。当然最典型的自我复制要数生物体的自我复制了。这种自我复制的机制并不是产生和原来一样的生物个体。因为在这种复制中保留的并不是某一个生物体的信息,而是同一物种的信息。
生物体的自我复制或者说生物的遗传机制是20世纪最迷人、最深刻的研究课题之一。我们并不想在这儿讨论有关遗传的生物学研究成果,而是要建立一种遗传模型。即用一套形式符号及其运算规则来描述遗传的机制,并把这种机制与自我相关的机制进行比较。我们用4种符号来表示遗传基因中的4种碱基:
A.腺嘌呤
G.鸟嘌呤
L.胞嘧啶
T.胸腺嘧啶
由这些符号组成的序列称为遗传模型中的串。
这些串可以进行各种运算,包括剪切,连接或者保持原有的长度。而能够执行这些运算的机制我们称为酶。酶有一个显著的特点就是它对4种碱基中的某一个有所偏爱。
还省一个新的术语是复制模式。这种模式不是用A复制A,而是用A复制A或者相反,用G复制C或者相反。我们把这两对称为互补的碱基对。因此所谓复制一个串并不是复制它的原样,而是复制与它互补的串。
酶所执行的指令可以分成15种:
cut——剪切串
del——从串上去掉碱基
swi——把酶转换到其他串上
mvr——向右移动一个单元
mvl——向左移动一个单元
cop——开始复制
off——停止复制
ina——把A插入这个单元的右边
ine——把C插入这个单元的右边
ing——把G插入这个单元的右边
int——把T插入这个单元的右边
rpy——向右寻找最近的嘧啶(T或C)
rpu——向右寻找最近的嘌呤(A或G)
1py——向左寻找最近的嘧啶
lpu一—向左寻找最近的嘌呤
我们可以把这些指令看成是氨基酸。每一种酶都是由这些氨基酸组成的序列。
例如这样的酶:
rpu-inc-cop-mvr-mvl-swi-lpu-int
作用于以下的串:
TAGATCCAGTCCATCGA
假设这种酶偏爱G,我们从中间的那个G开始。向右找到A在它的右边插入C,然后进行复制,右移,左移,然后转换到另一段串上得到:
GA
TAGATCCAGTCCACTCGA
为了清楚起见可以把它们例置一下,继续以下的程序得到最后的两个串:
ATG和TAGATCCAGTCCACATCGA
(注意:在进行int操作时,除插入T外还要在另—个串的相应位置插入互补的A)。
从这一例子我们可以看到,酶是怎样作用于那些串的。这就好像是MU系统中的规则,按照这些规则就可以产生新的定理。所不同的是在酶的作用下,原来的串永远消失了。
我们进一步确定这些氨基酸与碱基对的对应关系。这种关系可以列表如下:
 
A
C
G
T
A
 
cuts
dels
swir
C
mvrs
mvls
copr
offl
G
inas
incr
ingr
intl
T
rpyr
rpul
fpyl
lpul
按照这种关系,上面例子令的酶就可以从最后得到的长串“转译”过来。
在表中每一格的右下角还有一个字母。这些字母以一种特殊的方式决定了酶的第三层次的结构。s表示保持原来方向,r表示向右转,l则表示向左转。还是以我们刚才的酶为例子,可以得到如下所示的图:
cop

swi←cut←mvl←int

mvr

rpy→ina→rpu
根据这种结构中最初和最后的箭头方向则可确定这种酶偏爱哪一种碱基。
原始箭头 最终箭头 结合字母
→ → A
→ ↑ C
→ ↓ G
→ ← T
由此可见这种酶是偏爱C的。
不过上表中在AA这一格是空白的,它起标点符号的作用,表明一种酶的结束。这就是说,在一个串上可以记录几种酶。
到这儿为止,我们已经给出了遗传模型的所有规则。用这些规则去做一些符号游戏是非常有趣的,特别是那种可以自我复制的串。这就是说给定一个串,在核糖体的作用下就产生记录在串上的酶,这些酶作用于原来的串就生成子串。子串通过核独体的作用又生成第二代的酶,它作用于子串生成第三代的串。如此循环往复无穷。
因此这种遗传模型的核心是酶和串的相互变换。串通过核糖体译成酶,酶通过符号运算生成串。这样串就同时起了数据的作用这些数据的程序的作用。于是两种不同的层次就混在一起了。相比之下,在MIU系统中,推理规则在比定理更高的层次中,两者是分开的。TNT和其他形式系统也是这样。但是在TNT中不同层次在另一种意义上又混起来了,使语言和元语言的差别消除了。这就是关于系统的陈述可以在系统内部反映出来。
当然,实际的遗传机制要复杂得多,但是上述的遗传模型的“概念框架”有助于读者理解真实遗传的秘密。
DNA的原意是脱氧核糖核酸,它由一串比较简单的组分即核苷酸组成。每个核苷酸分子由三部分组成:(1)磷酸基,(2)去掉一个氧原子的核糖,(3)碱基。从碱基上可以将四种核苷酸区分开来。这四种碱基便是:A,腺嘌呤;G,鸟嘌呤;C,胞嘧啶;T,胸腺嘧啶。DNA通常那是双股的结构,两股上相应的碱基是互补的。在同一股上的核苷酸以共价健紧紧相连而形成骨架。而两股相应的核苷酸之间则是较弱的氢键。
DNA在细胞核中,但是细胞中的许多“动因”是在细胞质中,特别是那些酶,它们是由核糖体在细胞质中制造的。但是关于酶的结构的信息却贮存在DNA中。这种信息是通过信使核糖核酸mRNA传给细胞质中的核糖体,使它完成创造酶的工作。
酶是蛋白质的一种。蛋白质由一系列的氨基酸组成。氨基酸有20种,这和前面的符号稍有出入。氨基酸的复杂程度与核苷酸差不多。但是蛋白质的序列则要短得多。典型的蛋白质分子由三百来个氨基酸组成,而DNA的串则由几十万甚至几百万个核苷酸组成。
DNA的双股解开并复制mRNA的过程为转录。mRNA在细胞质中遇到了核糖体就发生转译的过程。如果我们把mRNA比作一条磁带,那么核糖体就是录音机的磁头。所奏出的音乐就是根据上面信息所生成的氨基酸构成的蛋白质。我们把这些信息称为遗传密码。
由核糠体生成的蛋自质可以越来越长。它们不仅具有氨基酸序列的一级结构,而且具有相缠绕的三级结构。正如前面已经指出的那样,三级结构是蕴涵在一级结构里的。
可以把蛋白质比作音乐。音乐并不只是一串音符。我们可以从更高的层次上感受到音乐的旋律和速率。同样,蛋白质也有不同的结构层次。除了—级结构和三级结构外,还存在着二级结构和四级结构。不过我们在这儿就不详细谈了。
8.2 遗传机制的支持系统
生物界在漫长的进化过程中发展了遗传机制。这是大自然最伟大的杰作之一。我们在上一节中建立了使遗传机制形式化的遗传模型。这使我们能够从一个全新的角度来认识生物遗传的过程,从而可以获得许多有益的启示。现在让我们来考虑这样—个问题,“究竟什么样的DNA能够指导自己的复制?”当然并不是任何DNA都能够做到这一点的。DNA能够进行自我复制就必须包含一组指指令,能够精确地把这样一些酶组装起来,而这些酶则能够完成这种任务。因而不能指望DNA的串能单独复制自己;要想从DNA中产生这些潜在的蛋白质不仅需要核糖体,而且需要DNA聚合酶。这就是说需要有一个系统来支持转录和转译的过程顺利地进行。我们把能够最低限度满足这种需要的系统称为“最小支持系统”。对于DNA的自我复制来讲,这样的“最小支持系统”必须包括:
(1)某些RNA的聚合酶,它们能从DNA制备mRNA;
(2)某些核糖体。
我们不难看出,所谓“足够强的支持系统”与“足够强的形式系统”在本质上是一样的。只是两种不同的表现形式而已。前者是产生自我复制的先决条件,后者是实现自我相关的先决条件。这两种系统之间存在着同构关系。
我们不妨把遗传模型中的一些概念和形式数论系统中的相应概念作一番比较:
DNA的串 <——>TNT的串
mDNA的串 <——>关于数的陈述
蛋白质 <——>关于元TNT的陈述
作用于蛋白质的蛋白质 <——>关于元TNT陈述的陈述
作用于(作用于蛋白质的蛋白质)的蛋白质 <——>关于(关于元TNT陈述的陈述)的陈述
转录 <——> 翻译
(DNA=>RNA) (TNT=>N)
转译 <——> 算术化
(RNA=>蛋白质) (N=>元TNT)
遗传编码 <——> 哥德尔编码
(任意的约定) (任意的约定)
氨基酸 <——> 在元TNT使用的引用TNT的符号
自我复制 <——> 自我相关
能使自我复制进行得足够强的细胞支持系统<——>能产生自我相关的足够强的算术形式系统
……
蛋白质对蛋白质的作用 <——> 关于陈述的陈述
等等 等等
我们可以看到,在这两种抽象结构之间有一种几乎是神秘的共同性。当然这种对照并不是两种理论一致性的严格证明,但是它明显地表示两者之间有一种极为密切的关系,它值得我们进一步加以探讨。
从上面的图中可以看到,两边都出现了任意复杂的圈,一边是蛋白质对蛋白质的作用可以无限地延续下去,另一边则关于陈述的陈述也可以无限地延续下去。这就有可能在较高的层次上出现怪圈并且循环下去。
我们在第2章给出了唱机唱片系统与形式系统之间的对应关系。在这里又给出了遗传机制与形式系统之间的对应关系。有兴趣的读者可以根据这两种对应关系去建立唱机唱片系统与遗传机制之间的对应关系。
当然在遗传机制中还有很多复杂的现象,如病毒的自我装配、细胞的分化、繁殖的方式等等。这些概念也和转录、转译一样有助于我们对极其复杂系统的理解。例如细胞一再复制的过程引起了大量有专门功能的细胞的形成。这就好像字母的序列,从一个人传递到另一个人,尽管要求每个人都下使它走样,然而却总会使它带上传递者个人的影响。我们还可以进一步想到,不但程序和数据是交织在一起的,而且程序的翻译机和数据的处理机,包括语言在内,也都密切地结合在一起。虽然可以在它们之间刻出界线、分出层次来,但是更重要的是要看到它们之间的交互作用。
我们可以用计算机的话言来描述分子生物学中的许多概念。因为DNA中包含了有关蛋白质构造的全部信息,而这些蛋白质是细胞中的主动因素。我们可以把DNA看成是用高层次语言写成的程序。它可以翻译成细脑的“机器语言”即蛋白质。另一方面DNA本身又是被动的分子,要受各种酶的控制。从这种意义上讲DNA完全像是一个数据。而且DNA还含有模板,可以复制出tRNA(转移核糖核酸)这就意味着DNA还含有比本身更高层次的语言。
再拿蛋白质来讲。蛋白质是有主动性的分子,可以执行细胞的所有功能,可以把它们看成是细胞(细胞本身是处理机)的“机器语言”的程序。但从另一方面来讲,蛋白质是一种硬件,而程序却是软件,因此把蛋白质看成处理机也许更为合适。此外蛋白质往往受到其他蛋白质的作用,因此也可以把它看成是被处理的数据,最后我们还可以把蛋白质看成翻译器。
我们也可以这样来分析核糖体和转移核糖核酸等。不过对于所有这些生化分子相互关系的分析仍然是很浅显的。我们只是想说明,我们认为截然不同的层次往往是交织在一起的。实际上计算机科学早就有一种明显的趋势把这些看来截然分开的各方面结合在一起。对于人工智能的研究来讲,这点就更为重要了。
8.3 没有结束的唱机之战
返回书籍页