信息与控制
INFORMATION AND CONTROL
1999年 第28卷 第3期 Vol.28 No.3 1999



中文信息自动分类系统及其神经网络优化算法
刁倩　王永成　张惠惠
　　摘要：对两种在我校曾用过的中文自动分类方法进行了介绍．在对这二种自动分类方法的改进基础上，提出了一种全新的基于神经网络的自动分类优化算法．这种方法运用人工神经网络理论，并结合专家的职业经验，模仿手工分类的思维过程，对过去已研制成的两个系统进行了改进和优化．这种方法的设计思想、体系结构、理论性优化在这里进行了重点介绍．
　　关键词：中文信息，自动分类，神经网络，竞争学习网络，优化算法
　　中图分类号：TP14　　　　　　文献标识码：B
NEURAL NETWORK OPTIMIZING ALGORITHM OF CHINESE
INFORMATION AUTO-CLASSIFICATION
DIAO Qian
(97300BA, Shanghai Jiaotong University, Shanghai 200030)
WANG Yongcheng
(Imtitute of Computer Application Technocogy, Shanghai Jiaotong University, Shanghai 200030)
ZHNAG Huihui
(Library of Shanghai Jiaotong University, Shanghai 200030)
　　Abstract　According to two old methods of auto-classification of Chinese document, we provide an optimizing method based on the neural network algorithm. This method uses the theory of neural network, combines with the professional experiences of experts, imitates the process of manual classification, and optimizes the last two classification methods. The theory, architecture, and optimization of the new method are showed in the paper.
　　Key words　chinese information, automatic classification, neural network, competitive learning network, optimizing algorithm
　　1　引言
　　文献的分类有利于文献的快速查找，如果一个文献集被分成n类，平均可提高n倍的查找速度．所以人们早就研究了分类，并给每篇文献标引相应的分类号．但手工分类是一项繁琐而又带有很强主观性、局限性的费时工作，于是，自本世纪60年代初西方就开始了自动分类的研究，我国则是近几年的事．
　　2　已开发的两个自动分类系统
　　我们从1986年就开始自动分类的研究，首先开发了一个中文科技文献（计算机类）的试验性自动分类系统．这个分类系统利用Bayes分类准则，基本做法是：对每一篇文献Di(ti1,ti2，…，tim)计算相应的条件概率，其中tim表示文献Di中的一个关键词，P(Cj|tik表示在Cj类文献样本中关键词tik出现的频率．当条件概率超过一定的阈值时，就将Di划归Cj类．设文献可分为n个类：{Ci}，则因为文献Di(t1,t2,…,tm)被划归为Ci类的概率为：
P(Ci|D)　　　　　　　　　　　　　　　　　　　　　　　　(根据条件概率公式有下面的等式)
=P(D|Ci)P(Ci)/P(D)　　　　　　　　　　　　　　(其中P(Ci)与P(D)分别为Ci与文献D的概率)
=P(1,t2,…,tm)|Ci)P(Ci)/P(D)　　　　　　　　　　　　　　　(设诸ti为独立变量，则有：)
=∑P(tj|Ci)P(Ci)/P(D)　　　　　　　　　　　　　　　　　　　　(利用概率完全可加性公式)
=∑P(Ci|tj)P(tj)/P(D)　　　　　　　　　　　　　　　　　　　(设诸P(ti)近似相等于P(t))
=P(t)/P(D)[∑P(Ci|tj)］　　　　　　　　　　　　　　　　　　　　　　　　(条件概率公式)
　　所以，若P(Ck/tj)=max[∑P(Ci|tj)]，则可把文献Di(t1,t2,…,tm)划归到Ck类，应是比较合理的．显然，当∑P(Ci|tj)大于或等于某一阈值时，将相应的文献D划归到Ci类也是合适的．这就是该系统进行自动分类的理论依据．这个系统是在缺乏全文，甚至没有摘要，以文献标题关键词代文献主题词的条件下开发的中文文献自动分类系统．该系统的核心在于由标题关键词来决定分类号的过程．此系统借助于大样本统计获得的所谓“类归属度表”及文献标题词的类归属度累加值来决定文献的分类号．其难点与薄弱环节在于“类归属度表”的获得．第一，需要样本足够大，其可靠度也受到了限制；第二，大量的统计及运算大大降低了它的分类速度；第三，因理论公式是在假定诸ti为独立变量，而且其出现概率都基本上相等的条件下获得的，但在实践中这二个假定都是难以满足的．另外，在该系统中，所有文献划归的类目都是事先确定好并存储于计算机中的，因而不可能赋予文献没有事先存储的类目号，分类结构会比较粗．对一般图书也许还可以适用，但对于专用文献来说，则往往分类不够细致，质量有待提高．
　　1995年，我们又与著名的分类学专家张琪玉教授为首的空军政治学院的师生和上海第二医学院的有关专家合作开发了一个以肿瘤学专业文献为例的自动分类系统．该系统分为两大模块．首先是自动抽取文献标题关键词，然后是自动赋予分类号．其中核心在于第二个模块．具体地，在得到文献的主题词或其代用品――类主题词后，再利用由有关专家编制的《自动分类用关键词分类归属表》，将其转换成对应词的分类归属号，然后按分类标引的有关规定，以具有最大权值的类主题词所对应的分类号作为首选分类号（当具有最大权值的类主题词所对应的分类号不止一个时，可同时赋予多个首选分类号），然后，再在此基础上，利用其它的类主题词并按《中图法》的有关类目标引规定形成最终分类号．该系统中的《自动分类用关键词分类归属表》是通过分面组配法来构造的．即由专家人为确定各分类用主题词的权值大小以及主次排列．以专家的职业经验作为评判的依据，将一系列分类用词分成若干方面，再给出一定的权值，从而构成了《自动分类用关键词分类归属表》．这个系统可以做到标引深度较大，更有利于满足查准，较适用于对专业文献的分类．但也存在一点的缺点，由于分类用主题词的权值大小以及主次排列均由人为确定，而各个专家的经验并非面面俱到，因而也存在一定的偏差，同时无法对该系统进行进一步优化．
　　3　基于神经网络优化算法的中文自动分类系统
　　针对以上两个自动分类系统的设计思想以及优、缺点，我们提出了一种新的、基于神经网络优化算法的中文自动分类系统．下面以一个具体例子来说明这个系统的原理．现在有两个大类，类主题词为工业（A1）和农业（A2），这两个大类可以人为限定，也可以通过聚类产生．又有五个小类，类主题词分别为机械（B1）、电子（B2）、化工（B3）、能源（B4）、水利（B5）．分别给这五个小类的每一类赋予两个初值，这两个初值表示每个小类归属于两个大类的归属度，记作Wij(j=1,…,M; i=1,…,N)．具体如图1所示.


图1　类间关系图
　　当从某一输入文献C中抽取到一组文献标题关键词{C1,C2，…,Cn}时，可通过图2所示一个模块，得到最终的文献分类号．
　　在图2模块中，不是象1995年我们所设计的肿瘤学文献自动分类系统那样权值完全由专家人为敲定．而是让专家确定初值，按照神经网络理论对权值初值进行优化，最终确定分类用词的权值及层次．


图2　处理模块图
　　在实际系统中，A、B可分为多个层次结构，而不只是大、小两个层次．而且可设置一个快捷分类用词库S．初使用该分类系统时，S内的快捷分类用词个数为零．当使用一段时间后，可通过计算使用频率，将一些常用分类用词添加入词库S，并附上这些分类用词的完整分类号（可以是多对1，也可以是1对多）．一旦文献标题关键词{C}中出现此类分类用词，则直接给文献赋予适当的分类号，达到快捷明了的目的．
　　针对图2所示模块，对类间归属度的具体优化过程如下．图1的网络是神经网络中的竞争学习网络．可变形为图3所示．


图3　竞争学习网络
　　网络分为输入层和竞争层．其中输入层为N个神经元，分别代表B1（机械）、B2（电子）、B3（化工）、B4（能源）、B5（水利）这五个小类．竞争层有M个神经元，分别代表A1（工业）、A2（农业）这两个大类．网络的连接权（类间归属度）为{ Wij}．在这里，i=1,2,…,N; j=1,2,…,M(N=5,M=2)
　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　(1)　　现在在一已具有现成分类号的文献样本集P中任选一个文献样本C输入这个网络，对网络权值进行优化．该输入样本的文献标题关键词集为{C}，通过扫描分类用词表，即{A}和{B}后，得知{C}中出现了B2、B3，即X=(0，1，1，0，0）．在这里，出现为1，不出现为0．也就是说文献标题中出现了电子、化工这两个词．现在设定的Wij初值为

　　这些初值并非随机设定，而是由有关专家根据经验，针对待分类文献集的整体特征来设定，之所以这样做是由于竞争学习网络的分类性能与网络连接权值的初始值有关．这些权值的初始值由专家凭职业经验设定，有利于网络对文献进行正确快速分类，同时提高网络学习和优化的性能．下面计算竞争层各神经元的输入值Sj：
　　　　　　　　　　　　　　(2)
　　　　　　　　　　　　　　　　　(3)
Xcj表示竞争层输出状态
　　∴Xc1=1, Xc2=0, 即A1=1, A2=0, A=(1,0).
　　以上按“胜者为王”原则，以Sj(j=1,…,M)中最大值所对应的神经元作为胜者，将其输出状态置为1，而其余神经元输出状态置为0．如果出现Sj=Si的现象，则二者对应的神经元都为胜者，其输出状态应都置1，其余置0．因为文献分类的特点之一就是同一文献可有不同分类号，也就是说，同一文献可以归属于两个或多个类，只要是合理地分类就可以了．
　　下面对与获胜神经元相连的各连接权值按式(4)进行修正，其余连接权值保持不变．
　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　(4)

在这里，m为X中元素值是1的个数，η为学习系数，可设为0.01（一般设为0.01～0.03，这与修正速率有关）.因为A1获胜（A1=1，A2=0），所以只修正与A1有关的权值．由式(4)可得

所以，修正后权值为

　　随后可选取文献样本集P中的其他文献样本，重复以上步骤，直至各连接权值的调整量变得很小为止．下面对以上学习过程做如下分析：
　　由式（4）可知，竞争层获胜神经元j与输入层神经元i之间的连接权，当Xi为1时，由于Wij在满足式（1）的约束条件下有Wij1，所以其调整量为正，即连接权值向增大的方向变化；当Xi为0时，调整量为负，即连接权值向减小的方向变化．所以连接权值始终将在（0，1）之间变化．如图4所示，上例中，由于输入模式X的第2、3元素为1，所以其与竞争层第j个神经元的连接权值向增大方向变化；而元素值为0的神经元的连接权值则向减小的方向变化．
　　当同一学习模式反复提供给网络学习后，这一模式前次所对应的竞争层获胜神经元的输入值S会逐渐增大，继续保持其胜者的地位．并且，当与这一学习模式非常近似的模式提供给网络时，也将促使同一神经元在竞争中获胜．这样，在网络回想时，就可以根据所记忆的学习模式按式（3）对输入模式作出最邻近分类，即以竞争层获胜神经元表示分类结果．具体的分析示意图如图(4)所示．另外，无论网络连接权值如何调整，终将满足约束条件式（1），证明如式(5)所示．
　　　　　　　　　　　　　　　　　　(5)
以上是由人为给定分类用词权值初值后，系统运用神经网络理论进行样本训练的经过分析．该权值修正过程的生物前提是神经网络中的突触修正假设，即学习所获得的信息分布存储在神经元的突触连接上．换言之，样本训练所获得的信息分布存储在小类归属于大类的类间归属度（权值）上．在这里，对于多层分类用词表（不仅只有二层）排布时，可进行逐层训练，由次层向主层，自下而上，直到达到令人满意的分类测验结果为止．

图4　学习过程分析示意图
　　4　结语
　　这两种中文信息分类系统适用于某一专门领域,对于综合信息库(如Internet上的中文信息)的分类则需要进一步聚类后再进行分类,才能达到预想的效果.这也正是我们将要进行的研究和改进.另外,随着当今科学知识的飞速发展，各学科的新技术、新名词的不断涌现，以及跨学科专业的发展，自动分类用词表、词库都需不断更新、完善．因此我们力争发挥这一新的自动分类系统的自学习、反馈等功能，使之在减少人为干预的情况下，实现系统的自我更新和完善，从而向较高的智能化水平发展．
作者简介：刁　倩，女，25岁，博士生．研究领域为中文信息处理、模式识别、神经网络等方面的研究．
作者单位：刁倩：上海交通大学97300BA　200030
　　　　　王永成：上海交通大学电脑应用技术研究所　200030
　　　　　张惠惠：上海交通大学图书馆　200030
参考文献
　1　王永成．中文信息处理技术及基础．上海：上海交通大学出版社，1990，191～193
　2　王永成，张　坤．中文文献的自动分类研究：[技术报告]．上海：上海交通大学OA室，1997
　3　王　伟．人工神经网络原理――入门与应用．北京：北京航空航天大学出版社，1995：133～136
1998-10-26收稿
