　自动化学报
ACTA AUTOMATICA SINICA
1997年 第23卷 第3期 vol.23 No.3 1997



综合集成的构思在模式识别中的应用1）
戴汝为　郝红卫
　　摘　要　将从定性到定量的综合集成法(metasynthesis)的构思用于模式识别，即用基于监督学习的网络进行集成，把若干个由不同方法构成的识别系统所得到的结果进一步加工，经过由人指导的学习，综合了各个系统的优点，从而获得比单个系统性能更好的识别结果.对四个自由手写数字识别系统进行综合集成的实验，充分表明了该方法的有效性.更进一步，把基于监督学习的网络集成法，用于手写汉字识别中关于“模板”(templet)的建立，起到了模拟形象思维的作用，从而为识别自由手写汉字打下了基础.
　　关键词　综合集成，监督学习，模式识别，集成，模板.
METASYNTHESIS AND ITS APPLICATION TO PATTERN RECOGNITON
DAI RUWEI　HAO HONGWEI
(AI Lab.,Institute of Automation,Chinese Academy of Sciences,Beijing 100080)
　　Abstract In this paper, the idea of metasynthesis from the qualitative to the quantitative is applied to pattern recognition.The main point of metasynthesis is to combine computer system with human intelligence.Thus,in pattern recognition,it can be realized by supervised learning.So,a new integration method,named NISL(Network Integration on the basis of Supervised Learning) is proposed to combine multiple recognition systems.Obviously,NISL makes full use of human aids so that a better result can be achieved.The exciting result of an experiment which combined four unconstrained handwritten numeral recognition systems fully demonstrated the effectiveness of the proposed method.Furthermore,the idea of NISL can be developed to establish the templates of complex patterns,such as handwritten Chinese characters.Since the concept of template plays an important role in image thinking,NISL contributes greatly to both noetic science and pattern recognition,thus lays a foundation for the computer recognition of unconstrained handwritten Chinese characters.
　　Key words Metasynthesis,supervised learning,pattern recognition,integration.
　　1　引言
　　为了处理有关开放复杂巨系统的问题，90年代初期，国内提出了从定性到定量的综合集成法［1］.这一方法对我国人工智能的研究影响较大.但是，综合集成的构思在模式识别中的应用则刚刚开始.只要仔细分析就会发现，近年来在字符识别方面，对用各种不同的识别方法所构成的若干系统加以集成(integration)的研究，逐渐形成了一个字符识别研究的热点［2，3］.实际上，综合集成与集成是具有本质区别的，其区别就在于前者强调人的关键作用，以人机结合为指导，而后者则恰恰相反.本文针对模式识别问题，把处理开发复杂巨系统的综合集成法的构思具体化，形成基于监督学习的网络集成法(NISL――Network Integration on the basis of Supervised Learning).在监督学习的过程中，人与计算机有机地结合起来，充分发挥各自的优势，复杂的计算与信息处理由计算机完成，而输入的模式究竟应该归于哪一类别则由人来决定.对于发生严重畸变或变化多端的模式，如手写汉字龙飞风舞的形式，靠人来确定所属的类别，这就充分体现出人所起的关键作用.这里以人机结合的方式，把若干个(数目不限)识别系统所得到的结果，再进行一次处理，用基于监督学习的网络加以集成，综合各个系统的优点，进而获得比单个系统更好的结果.对四种用人工神经网络及有教师的学习进行识别自由手写阿拉伯数字的分类器加以综合集成，用5000个样本进行集成阶段的训练，用另外5000个样本进行测试，所得结果表明，识别率明显高于四个分类器中的任何一个，而且达到降低误识率并提高识别率的比较理想的结果.这表明教师起到了十分重要的作用.
　　值得注意的是，从定性到定量的综合集成方法，实际上是思维科学［4］的一项应用技术［5］.人们很自然地会想到如何把这一方法的构思用于形象思维的研究，而以“模板匹配”(templet matching)为基础的识别，其构思就是来源于人的模式识别［6］，但以往所用的办法过分工程化，太死板.本文把前面提到的基于监督学习的网络集成法用于建立汉字识别的“模板”，着眼于模拟人的模式识别，这就为解决自由手写汉字识别问题打下了基础.
　　2　基于监督学习的网络集成(NISL)
　　设有一个n类问题和m个分类器Ci(i=1,2,…,m)，各分类器的输出为Oij(i=1,2,…，m;j=1,2,…，n)，若将Oij作为网络的输入，模式的类别作为网络的输出，并采用监督学习方法对网络进行训练，即可以很方便地实现多种识别方法的网络集成.其结构如图1所示.

图1　对m个分类器的识别结果进行集成的示意图
　　3　NISL用于自由手写数字识别
　　下面给出一个试验及所得结果［7］.采用四个分类器(C1，C2，C3，C4)进行基于监督学习的网络集成，其中C1,C2,C3为MLP(multilayer perceptron)网络，C4采用函数型连接(functional link)网络.各分类器采用不同的特征，以期互补.集成网络采用MLP，共使用了20000个样本，其中10000个作为单个分类器的学习样本，5000个作为集成阶段的学习样本，另外的5000个作为测试样本.其结果见表1.
表1　NISL用于数字识别实验结果

分类器识别率(%)拒识率(%)错误率(%)
C178.0611.31.64
C285.929.944.14
C390.888.260.86
C486.947.225.84
表决＃193.94.81.3
表决#284.0415.660.3
网络集成95.14.060.84

　　从表中可见，集成的结果不仅提高了系统的可靠性，而且识别率也明显高于任何一个分类器，这正是基于监督学习的网络集成的特点所在，即它不是以牺牲识别率为代价来换取误识率的降低，而是在降低误识率的同时还提高了识别率.这正是其他的集成方法所难以做到的.
　　为便于比较，表中还给出了投票表决方法进行集成的结果，其中＃1的表决规则是，若有三个分类器的输出结果相同，则识别，反之拒识；#2的表决规则是，四个分类器的输出结果相同时，则识别，否则拒识.可见，采用这种集成方法，要想取得较高的可靠性(比如误识率小于0.1%)，则必须以牺牲识别率为代价.
　　4　记忆意象与手写汉字的模板
　　以往计算机进行模式识别的方法，与人进行模式识别的方法可以说没有什么联系，人们希望能借鉴人的模式识别方式，发展新的计算机的模式识别方法，这就需要对心理意象进行研究.
　　Arnheim R通过大量的证据表明［8］，在任何一个领域中，真正的创造性活动都是通过“意象”进行的，心灵在艺术中的活动与在科技等领域中的活动是相似的.这里提到两个假定：(1)思维是借助于“心理意象”进行的，在知觉中包含的思维成份和在思维活动中包含的感性成份之间是互补的，把思维与感觉统一起来的桥梁或媒介，就是“意象”；(2)意象所做的工作是在意识阈限之下进行的，思维意象任何时候都可以进入意识之中.
　　人和动物在进行观察时，在视网膜上映照着一个眼睛所观察到的虽小然而是十分完整的形象.但这不是知觉提供给认识能力的意象的物理等同物，也就是说，外部世界在心理中形成的意象与它在视网膜上的投影大不相同.这是由于意象是在眼睛完成自己的使命后，在大脑中进行信息加工形成的.真正适宜于思维活动的“心理意象”决不是对所观察到的事物的忠实、完整的逼真的复制.这种意象是由记忆机制提供的，记忆机制可以把事物从它们所在的环境中抽取出来，加以独立的展示.
　　到底什么是心理意象，它们具有什么样的性质?心理学中的意象可以概括为三种：第一种是知觉意象；第二种是记忆意象；第三种称为想象意象.由于意象是通过人的实践在大脑中形成，它说明了呈现在人类心灵中一切形象的最一般性质，都是大脑对客观事物的反映，都具有主观与客观相统一的特征.概念是一种知觉意象，思维活动就是把握和处理这样一些意象.意象必须合乎一个条件，即它们的结构必须等同或相似于(同型)思维所涉及的那些情景的相应的结构.关于心理意象所具有的性质大致可概括如下：
　　(1)不完整性.不完整的性质是一切心理意象所特有的，根据卡夫卡1912年的实验报告，人们对律师或法官扫视后，只能捕捉到其形象的一小部分，所得到的记忆意象是“胳膊上挎着一个公文包”.“手上挎公文包”这一形象不是解剖学意义上的片断，而是表达了律师或法官的最突出的方面，至于其它方面往往是无关紧要的.
　　(2)选择性.特征选择是心理意象具有的一个重要性质.由于直接知觉总是有整个视觉领域作为陪衬，所以表示它的特征往往很难觉察到.但对记忆意象来说，它已经从背景中分离出来了，没有整个背景作为陪衬，所以它那种局限于事物的几个突出部位的选择性特征，就非常地明显.这些突出部位与最初的视觉经验所突出的那些部位相一致，思维者可以集中于意象中最关紧要的特征与部位.
　　(3)模糊性与忽隐忽现.人们可以体会到，种种印象或心理意象是不清楚的，轮廓线、表面质地和色彩等都是模糊的，是忽隐忽现的.这并不说明人们对客观事物没有完全把握，也不是心灵对它进行了切割，其实模糊的、粗略而忽隐忽现的意象本身就代表着一种正面的或肯定的性质，是既具体又抽象的.正是这样一种性质，才把一个对象的心理意象同它的本体区别开来.在艺术的发展过程中，只有在印象派运动兴起后，人们才开始认识到一幅画所体现出来的是心灵的产物，而不是外部物理对象的复制，这才对客观存在的物理对象和心理意象的区别有清晰的认识.
　　(4)动态及弹性.心理意象具有的一个重要性质是能够以最大的准确性把它们想唤起的“力”的作用体现出来.在人的经验(或感受)中，一切形状都是“力”的作用式样，而且只有称其为力的或弹性的作用式样才比较贴切或中肯.在实际生活中，一堵墙不是被看成一个几何平面，而是一种用于隔离和掩蔽的边界.人总是在周围的事物中看到曾经产生这些事物的“活动”，或者看到这些事物能够从事的“活动”.人类具有这种“动态”的意象与人们认识到的这个世界的客观状态是一致的.人们认识到，一切物质的形状不是别的，而是人们看到“力”的作用效果的一种方式.
　　以上是根据Arnheim对视觉思维的研究，粗略地概括了心理意象所具有的一些性质.实际上人们不仅仅是通过眼睛，还通过其他的感官获取信息；人们通过反复实践，获得各种经验，再经过信息处理与加工所形成的意象，其性质比上面所说的要巧妙和灵活得多，但还需进行更深入的研究.但通过以上有关心理意象，可以粗略地论述人的模式识别、形象(直感)思维以及灵感思维.
　　关于形象(直感)思维，按Arnheim的说法，这种思维机制是对感性状态的重新组构，本质上是“场”力间的相互作用.这种说法与钱学森同志在1983年所指出的“形象思维不是线型的，是多路并行的；不是流水线加工，而是多网络加工”的说法是一致的.在科学领域中对问题的创造性解决同样要靠对感性状态的重新组构.但是，形象(直感)思维其精髓是把握全局，从整体上看待一个系统的整体性能，并不只限于象图形或绘画那样的“形象”.如科学中的启发性论据(heuristics)是以专家的经验为基础，是有关一个面对问题的一种局况与合适解之间的经验认识.这种经验知识十分重要但难以用语言讲清楚；还有中医里的“证”，就是从人体的整体状态考虑进行综合诊治，而不是头痛医头、脚痛医脚.
　　至于直感思维实际上是模式识别，即人通过不断的实践、学习及积累经验，在人脑中存贮了大量的“记忆意象”.这些意象是一种具有代表性的“模板”，这种模板的性质如前面所述，是一种极为灵活，并且具有可以伸缩的弹性.Shepard等认为，意象的实质就在于它是一种类比(analog)特征，意象与外部某客体有着同构关系(isomorphism)；但是意象并不是直接地从结构上来表征该客体，它与该外部客体在结构上并没有一对一的联系.这里所说的意象与外部客体的同构是指意象的机能联系与外部客体的同构联系是相似的.为区别于格式塔心理学所阐述的同构，Shepard等称这种同构为“二级同构”(second-order isomorphism).二级同构把意象与外部客体的关系比喻成锁和钥匙的关系.锁和钥匙是不同的实体，但在机能水平上却有一一对应的关系，一把钥匙开一把锁［9］.
　　考察了人的模式识别，很自然地会想到如何利用人机结合的方法来建立记忆意象，用模式识别中的术语来说，就是建立模板.这里针对手写汉字，把前面提到的基于监督学习的网络集成法，用于手写汉字的模板建立，其构思是，对于汉字识别，可以有若干种抽取特征的方法.对于某个类别中的汉字，如“民”字，可以用不同的识别方法进行识别，然后再把这些方法用监督学习的网络加以集成，从而形成模板，其示意图与前面的图1相同，但把图1中的“样本”用进行建模的汉字类样本代替.
　　很明显，这样形成的模板综合了各种识别方法的优点，起到了互补的作用，为汉字识别打下了基础.
　　5　NISL用于汉字识别
　　根据上述构思，用部分汉字进行了实验.不失一般性，我们选用了第一区94类汉字.实验中采用了四个单分类器，分别记为C7，C6，S6和S5.样本采用中国科学院自动化所收集的4M手写汉字样本库，其中50套用于训练集成网络，50套用于测试.为了便于比较，还采用了集成中常用的线性叠加方法作对比实验.实验结果见表2.
表2　NISL用于汉字识别实验结果

分类器C7C6S6S5线性叠加网络集成
识别率(%)94.8795.0292.2892.8796.3098.45

　　由于类别数较少，所以单分类器的识别率都比较高.即使是这样，网络集成法也比其中最好的高出3.43%；相比之下，线性叠加的结果仅比C6高出1.28%，比网络集成法低2.15%，这充分说明了网络集成的有效性.
　　6　结束语
　　从定性到定量的综合集成法是为处理开放的复杂巨系统而提出来的，这一方法强调了人与计算机相结合，从多方面来解决复杂问题，并充分利用各种信息与知识，达到互相补充.本文把综合集成的构思用于模式识别.文中所述的基于监督学习的网络集成法(NISL)，把字符识别推上了一个新的台阶.另外，由于综合集成技术实际上是思维科学的一项应用技术，把这项技术用于构建模式识别系统的“模板”，即可把以往处理模式识别的工程方法上升到模拟形象思维.这无论对模式识别的发展还是对形象思维的研究都有十分积极的意义.
1)　国家攀登计划和自然基金资助项目.
作者简介：戴汝为　简介见本刊第19卷第5期。
　　　　　郝红卫　生于1967年，1987年毕业于华北工学院计算机系，1996年在中国科学院自动化研究所获博士学位.主要研究方向为手写体字符识别和人工神经元网络.
作者单位：中国科学院自动化研究所人工智能实验室　北京　100080
参考文献
　［1］钱学森，于景元，戴汝为.一个科学新领域――开放的复杂巨系统及其方法论.自然杂志，1990，13(1)：3―10.
　［2］Xu L,Krzyzak A,Suen C Y.Methods of combining multiple classifiers and their applications to handwriting recognition.IEEE Trans.SMC,1992,22(3):418-435.
　［3］Suen C Y,Nadal C,Legault R,Mai T A,Lam L.Computer recogniton of unconstrained handwritten numerals.Proceedings of the IEEE.1992,80(7):1162-1180.
　［4］钱学森主编.思维科学,上海：上海人民出版社，1986.
　［5］钱学森.再谈开放的复杂巨系统.模式识别与人工智能,1991，4(3)：1―5.
　［6］戴汝为.形象(直感)思维与人机结合的模式识别.信息与控制，1994，23(2)：76―79.
　［7］郝红卫，戴汝为.人机结合的集成方法及其在字符识别中的应用.模式识别与人工智能，1996，9(1):10―20.
　［8］［美］鲁.阿恩海姆.视觉思维,上海：光明日报出版社，1987.
　［9］王，汪圣安.认知心理学,北京：北京大学出版社，1992.
收稿日期　1995-12-16
