软件学报
JOURNAL OF SOFTWARE 
1999年 第10卷 第5期 Vol.10 No.5 1999



一个混合属性的实例检索模型
钟诗胜 王知行 何新贵
摘要　文章首先分析了传统的实例检索策略的不足,提出了一种基于模糊相似优先比的混合属性实例的检索模型.该模型用语义距离来刻画两实例对应属性之间的相似程度,允许实例的属性为模糊数的情形,能胜任定量、定性和混合属性实例的检索 问题.
关键词　 人工智能,基于实例的推理,模糊相似优先比,混合属性实例检索,语义距离.
中图法分类号　TP18
A Model for Mixed Attributions Cases Indexing
ZHONG Shi-sheng1 WANG Zhi-xing1 HE Xin-gui2 
1 (Mechanical and Electronic College Harbin Institute of Tech nology Harbin 150001)
2(Beijing System Engineering Institute Beijing 100101)
Abstract　 In this paper, the disadvantages of the existi ng cases indexing models are analyzed. A new kind of cases indexing model for mi xed attributions cases indexing based on fuzzy analogy preferred ratio is presen ted. This model uses fuzzy distance to describe the similar degree between the c orresponding attributions of two cases and is suitable for numerical, linguistic and mixed attributions cases indexing.
Key words　AI(artificial intelligent), CBR(case-ba sed reasoning), fuzzy analogy preferred ratio, mixed attribution cases indexing, fuzzy distance.
　　传统的基于实例的推理（case-based reasoning,简称CBR）系统主要使用最近相邻检索法 、归纳索引法和知识导引法这3种实例检索策略［1～3］.上述3种实例检索策略比较适 合定性属性的实例检索,而对数量型属性的实例检索,特别是模糊数量型属性的实例检索,则 显得无能为力.在实际应用中,还存在着大量的定量属性和混合属性的实例检索问题.本文则 引入语义距离来刻画相似实例中两对应属性之间的相似程度,采用模糊相似优先比来描述新 问题与各个实例之间的模糊相似顺序.该模型适用于定量属性、定性属性和混合属性的实例 检索,并且允许实例的定量属性为一模糊区间数和一模糊中心数的情形,有较强的适应性,且 使用方便.
1 模糊数及语义距离
在语义上,一个模糊区间数［a,b］／CF表示该模糊数落在［a,b］中的可能度为CF,当［a, b］取最大区间时,满足CF=1.一个模糊中心数(c,r)／CF表示该模糊数落在以c为中心,r为半 径的“超球”之中的可能度为CF,当r为最大偏差时,CF=1.
参见文献［4］,论域为实数域时,两模糊数=［a1,b1］／CF1,=［a 2,b2］／CF2之间的语义距离定义为

其中wa≥0,wb≥0,wCF≥0,且wa+wb+wCF=1;u≥1,取整数值.
当CF1=CF2=1时,若取u=1,有
SD(,)=wa*｜a1-a2｜+wb*｜b1-b2｜.
实际上,u的取值视具体问题而定.此处的模糊算子“*”可取普通的乘.
两模糊中心数之间语义距离的计算方法,请参见文献［4］.在下面的讨论中,均假设CF=1,u=1 ,当CF≠1及u≠1时,情况类似.
2 实例的描述
设实例库CB中有K个实例:
CB={C1,C2,...,Ck,...,CK} k=1,2,...,K.
不妨设一个实例有n个属性,不失一般性,设前面m个属性为定量属性,后面n-m个属性为定性属 性,则实例Ck可表达为
　　　　　　　　　　Ck=Ck1∪Ck2
　　　　　　　　　　　=(ak1,ak2,...,akj1,...,akm)∪(ak(m+1),ak (m+2),...,akj2,...,akn)
　　　　　　　　　　　=(ak1,ak2,...,akj,...,akn).
式中及以下各式中均有1≤j1≤m,m+1≤j2≤n,1≤j≤n,k=1,2,...,K,n个属性的权重分 配为
W=(w1,w2,...,wj,...,wn),
其中0≤wj≤1,且
又设需求解的新问题为C0,则有
C0=C01∪C02=(a01,a02,...,a0j,...,a0n).
3 模糊相似优先比矩阵及其截集
　　定义1. 设a0j为新问题C0的某一属性,a1j,a2j,.. .,aKj分别为实例库中与新问题相似的K个实例Ck同a0j所对应的属性,即有集 合Aj={a1j,a2j,...,aKj},apj,aqj设为集合Aj中的两 个元素,并和a0j进行相似程度比较,模糊影射关系S(j)为
S(j):Aj×Aj→［0,1］
S(j)=(Sjpq)K×K,Sjpq∈［0,1］,p,q=1,2,...,K,
定义2. 模糊相似优先比矩阵S(j)=(Sjpq)K×K的截集S(j )λ定义为
S(j)λ=(λjpq)K×K,

　　Sjpq可描述apj比aqj同a0j的相似优先程度,且Sjpq愈 大,说明apj比aqj与a0j就愈相似.同样地,通过S(j)的各λ-截集,可得a 1j,a2j,...,aKj与a0j的相似程度序列.
4 混合属性实例的检索模型
4.1 属性之间相似程度描述
4.1.1 定量属性之间相似程度描述
　　为了使讨论具有普遍性,下面假设实例的m个定量属性的取值均为模糊区间数的情形,并设模 糊区间均为最大的情形.属性值为一个点值的情况是属性值为一个模糊区间数的特例.
设C0的前m个定性属性为
C01=(［d01,b01］,［d02,b02］,...,［d0j1 ,b0j1］,...,［d0m,b0m］).
不妨设Cp,Cq∈CB,但Cp≠Cq,Cp,Cq的前m个定性属性有
　　　Cp=(ap1,ap2,...,apj1,...,apm)=(［dp1,b p1］,［dp2,bp2］,...,［dpj1,bpj1］,...,［dpm ,bpm］),
　Cq=(aq1,aq2,...,aqj1,...,aqm)=(［dq1,b q1］,［dq2,bq2］,...,［dqj1,bqj1］,...,［dqm ,bqm］).
Cp与C0的第j1个属性之间的语义距离为
SD(apj1,a0j1)=wa*｜dpj1-d0j1｜+wb*｜b pj1-b0j1｜　　(1)
同样地,Cq与C0的第j1个属性之间的语义距离为
SD(aqj1,a0j1)=wa*｜dqj1-d0j1｜+wb*｜b qj1-b0j1｜　　(2)
4.1.2 定性属性之间相似程度描述
　　定性属性只能用一个定性的概念来刻画.例如,在上述齿轮设计的例子中,平稳性即是一个定 性属性,常用平稳、微冲击、中等冲击、大冲击来描述,即有取值集:{平稳,微冲击,中等冲击 ,大冲击},并通常用一个［0,1］之间的实数来表达其在各定性概念上出现的程度.如,集合{0 .9,0.5,0.2,0.1}表明平稳属性的取值为0.9,微冲击属性的取值为0.5,中等冲击属性的取值 为0.2,大冲击属性的取值为0.1.
设第j2个定性属性aj2可用Lj2个定性概念来刻画,即有

在上式及下述各式中均有l=1,2,...,Lj2.
设实例库CB中的两实例Cp,Cq的第j2个定性属性aj2在Caj2的 各定性概念上取值组成的集合分别为

又设新C0的第J2个定性属性aj2在Caj2的各定性要领上取值组成的集合分别为

Cp,Cq与C0在第j2个定性属性aj2的第l个定性概念alj2上的语 义距离分别为
SD(alpj2,al0j2)=｜μp(alj2)-μ0(a lj2)｜,
SD(alqj2,al0j2)=｜μq(alj2)-μ0(al j2)｜.
4.2 定量属性模糊相似优先比矩阵的构造
　　定义3. 设实例Cp,Cq的第j1个定量属性apj1,aqj1 与C0的第j1个定量属性a0j1的语义距离分别为SD(apj1,a0j1 ),SD(aqj1,a0j1),则Cp的第j1个定量属性apj1比Cq的第 j1个定量属性aqj1与C0的第j1个定量属性a0j1的模糊相似优先比定 义为

　　显然,Sj1pq∈［0,1］.同样地,Sj1qp=1-S j 1pq∈［0,1］,并且Sj1pq愈大,Cp的第j1个定 量属性a pj1比Cq的第j1个定量属性aqj1同C0的第j1个定量属性a0j 1就愈相似.
　　对应于第j1个定量属性的模糊相似优先比矩阵构造步骤如下:
　　令p=1,q=2,3,...,K,可求得Sj112,Sj113, ...,S j11K,同样,再令p=2,q=1,3,...,K,可求得Sj121, Sj123,...,Sj12K.
　　一般地,令p=k,q=1,2,...,k-1,k+1,...,K,利用式(3)可求得Sj1k1 ,S j1k2,...,Sj1k(k-1),Sj1 k(k+1) ,...,Sj1kK.令p=q,有Sj1pq=0,p依次取 1, 2,...,K,求得所有的Sj1pq序列,利用这些序列可得矩阵:
　　(4)
　　这个矩阵就叫做对应于第j1个定量属性的模糊相似优先比矩阵,依次取j1=1,2,...,m,可 求得对应于m个定量属性的共m个模糊相似优先比矩阵:S(1),S(2),...,S(m).
4.3 求C0与各实例的相似程度序列
4.3.1 求C0与各实例就定量属性而言的相似程度序列
　　C0与各实例之间的相似程度是由各属性之间的相似程度综合得到的,对S(j1)取各λ-截 集S(j1)λ,得K个实例相应于第j1个定量属性与C0的相似程度序列,约定与C0最为 相似的排在序列的最前,序号为1,与C0最不相似的排在最后,序号为K,设tkj1为相 应于 第j1个定量属性实例Ck在所有实例与C0的相似程度序列中的顺序号(1≤tkj1 ≤K),则K个实例的顺序号可组成如下序号集:
Tj1={t1j1,t2j1,...,tkj1,...,tKj1},　　(5)
取j1=1,2,...,m,得到对应于m个定量属性的序列号集.
4.3.2 求C0与各实例就定性属性而言的相似程度序列
下面再求对应于n-m个定性属性的n-m个相似程度序列号集.
由上述讨论可知,有定性属性集:
A2={am+1,am+2,...,aj2,...,an},
而定性属性aj2的取值集为
Aaj2={a1j2,a2j2,...,alj2,...,a Lj2j2}.
先求对应于aj2的Lj2个取值的Lj2个相似程度序列集为
Tlj2={tl1j2,tl2j2tlKj2}.
设aj2的Lj2个取值的权重分配为
Wj2=(w1j2,w2j2,...,wLj2,...,j2),
求实例Ck在定性属性aj2的Lj2个取值上的序列值的加权和为
tkj2=Lj2)/(l=1wlj2*tlkj2,
将K个实例在aj2对应的序列值合在一起,得到对应于定性属性aj2的序列号 集为
.　　(6)
4.3.3 求C0与各实例相似程度序
将式(5)和式(6)合为一体,即得到K个实例与C0在n个属性上的相似程度总序列
Tj={t1j,t2j,...,tKj}, j=1,2,...,n.　　(7)
第k个实例Ck在所有实例中与C0相似程度序列中的顺序号为
　　(8)
取k=1,2,...,K,利用式(8)即得到K个实例的顺序号的大小.tk越小,Ck与C0就越相似, 它在相似程度序列中的位置就越靠前.
5 例 子
　　以齿轮设计为例来说明上述方法的应用.下面给出了新问题和4个设计实例,它们的功率、转 速、齿数比、工作寿命（以万小时为单位）和平稳性情况均在表1中列出.限于篇幅,这里只 讨论如何利用这些属性来对这些实例同新问题的相似程度进行排序,而每种实例对应的设计 方案就不作介绍了.此外,为了讨论简单,本例子的所有定性属性都是一个数值,而不是一个模 糊数.定量属性为一个模糊数时,方法和步骤与下例相同.
设功率、转速、齿数比、工作寿命和平稳性的权重分别为0.25,0.20,0.15,0.25和0.15,平稳 性中的4个定性概念的权重相等,即均为0.25.下面详细讨论就功率而言,4个实例同新问题的 相似程度的排序过程,而就其他属性而言,4个实例同新问题的相似程度排序过程与下面的相 同.
(1) 求语义距离
从表1中所给出的数据可知,
SD(a11,a01)=SD((功率)1,(功率)0)=｜6.3-6.0｜=0.3.
同理有
SD(a21,a01)=1.3, SD(a11,a01)=0.7, SD(a41 ,a01)=0.2.
表1 各实例及新问题的属性值

实 例C1C2C3C4C0
属 性
功率(KW)6.05.07.06.56.3
转速(r/min)9009501000850970
齿数比4.04.53.55.04.3
寿命(万小时)3.64.04.53.04.2
平稳性平稳0.90.6000.2
微冲击0.60.90.30.10.9
中等冲击0.10.20.90.30.2
大冲击00 0.30.90


(2) 构造模糊相似优先比矩阵及排序

同理可得S1pq,其中p,q=1,2,3,4,因而有对应于功率的模糊相似优先比矩阵:

因在S(1)0.6第4行元素中,除对角线上的元素为0外,其余均为1.因而,实例C4与新问 题C0最为相似,即它在相似程度序列中排第1.划去S(1)的第4行和第4列,得到如下矩阵:

同样地,利用S(1)′的各截集可知,实例C1,C3,C2在相似程度序列中分别排第2、第 3和第4.因而有T1={2,4,3,1}.
(3) 就其他属性排序
同样可以得到就转速、齿数比、工作寿命而言的各个实例同新问题的相似程度序列,分 别如下:T2={3,1,2,4},T3={2,1,4,3},T4={3,1,2,4}.同样,也可求得就平稳性的4个定 性属性而言,各实例与新问题的相似程度序列为

T51={4,3,1,1}, T52={2,1,3,4}, T53={2,1,4,2}, T54= {1,1,3,4},

因而有

T5={2.25,1.5,3.5,3.5},

还有


同样地,
t2=1.83, t3=2.78, t4=3.03.
　　根据上述的判别规则,4个实例与新总是的相似程度顺序为C1,C2,C3,C4.即实例C1与新问题C0最为相似,而实例C4与新C0最不相似.
　　找出最为相似的实例后,提取其对应的求解策略,然后对年得实例进行评价[5],如果其求解策略进行修改,直到满足设计要求为止,这部分内容将另文讨论.
　
本文研究得到国家自然科学基金和国家863高科技项目基金资助.
作者钟诗胜[ HT6SS],1964年生,博士后,教授,主要研究领域为人工智能,决策支持系统理论,CIMS. 
王知行,1935年生,教授，博士生导师,主要研究领域为机构学,机构CAD及仿真,CAI.[ HT6H]
何新贵,1938年生,教授,博士生导师,主要研究领域为人工智能,模糊理论和技 术.
本文通讯联系人:钟诗胜，哈尔滨 150001,哈尔滨工业大学机电学院801教研室
作者单位:钟诗胜 王知行 (哈尔滨工业大学机电学院 哈尔滨 150001)
　　　　　　何新贵（北京系统工程研究所 北京 100101）
参考文献
　[1] Tsatoulis C, Lashyap R L. Case-based reasoning and learning in manufa cture with the TOLTEC planner. IEEE Transactions on Systems, Man, and Cybernetic s, 1993,23(4):1010～1023
　[2] 徐明,胡守仁.基于事例推理的检索模型研究.计算机科学,1993,20(4):32～35
(Xu Ming, Hu Shou-ren. Study on indexing model based on case-base reasoning. C omputer Science, 1993,20(4):32～35)
　[3] 王铭阳,孙优贤,何钦铭.一个基于范例推理的专家系统ICMIX.计算机学报,1997,2 0(2):105～110
(Wang Ming-yang, Sun You-xian, He Qin-ming. ICMIX: an expert system with case -based reasoning. Chinese Journal of Computers, 1997,20(2):105～110)
　[4] 何新贵.模糊数据库系统.北京:清华大学出版社,1994
(He Xin-gui. Fuzzy Database System. Beijing: Tsinghua University Press, 1994)
　[5] 钟诗胜.智能化模糊决策信息处理的理论研究与实践［博士学位论文］.武汉:华 中理工大学,1995
(Zhong Shi-sheng. Research on the theory of knowledge-based fuzzy decision inf ormation processing and its practice ［Ph. D. Thesis］. Wuhan: Huazhong Universi ty of Science and Technology, 1995)
本文1997-12-08收到原稿,1998-06-02收到修改稿
