计算机研究与发展
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
1999　Vol.36　No.7　P.800-804



带Rough算子的决策规则及数据挖掘中的软计算
刘清　黄兆华　刘少辉　姚力文
摘　要：文中讨论决策规则及其与演绎推理中的假言推理规则之间的关系.通过数据挖掘中的软计算使决策表中的属性简化和属性值区间化，从而找到一种具有广泛表达能力的数据隐含格式，从中选择有代表性的、并删去冗余或过剩的规则，并保持决策表的原有用途和原有性能.我们通过开发一个中医诊疗专家系统的实例说明了这种软计算的过程，并分别用基于统计或专家经验方法计算带可信度因子的产生式规则和基于Rough集方法计算带Rough算子的决策规则两种不同方法开发同一个系统，可以看出用Rough集方法计算带Rough算子的决策规则较之1987年用统计或专家经验方法计算带可信度因子的产生式规则更加理论化和实用化.经临床试用已初步显示出其优越性.
关键词：Rough算子，决策规则，软计算，数据挖掘
分类号：TP18
DECISION RULES WITH ROUGH OPERATOR AND SOFT
COMPUTING OF DATA MINING
LIU Qing
(Department of Computer Science and Engineering, Nanchang University, Nanchang 330029)
HUANG Zhao-Hua
(Department of Computer Science and Engineering, Nanchang University, Nanchang 330029)
LIU Shao-Hui
(Department of Computer Science and Engineering, Nanchang University, Nanchang 330029)
YAO Li-Wen
(Department of Computer Science and Engineering, Nanchang University, Nanchang 330029)
Abstract：Decision rules based on rough sets and the relationship between the decision rule with modus ponens rule in the deductive reasoning are discussed in this paper. The attributes in decision table are reduced, and the values of attributes in decision table are made an interval via the soft computing of data mining, whereby finding a reducible implied pattern of the data, and choosing the representative, while deleting those redundant or superfluous decision rules in the decision table. And it can keep the original properties and functions of the decision table. The procedure of soft computing by developing an expert system for diagnosis and treatment in acupuncture and moxibustion in Chinese traditional medicine is also described. The system developed based on rough set approach is more theoretical and common applicable than that developed based on statistics and expert experience in 1987. It shows preliminary superiority via the clinical tests in the traditional Chinese medical science.
Key words：rough operator, decision rule, soft computing, data mining▲
1　引言
　　数据分析也称数据挖掘，无疑是一个很重要的、正在迅速发展和应用的研究课题. 近来机器智能和机器学习对这领域有着实质性贡献，特别是 Fuzzy 集、Rough 集、遗传算法、神经网络等都将被成为这一领域研究的基本工具.从分析的观点看，数据挖掘主要是寻找数据中隐含的数据格式，特别地，搜索那些数据间的相关性或关系的有效性等；从逻辑的观点看，数据挖掘被理解为演绎推理的一部分，是一种特殊的推理工具.
　　众所周知推理方法分为3类：演绎、归纳和常识推理.所谓演绎是基于公理和演绎规则进行的，归纳是基于从事例或统计的大量事实和归纳规则进行的，而常识推理则是从通常的大家公认的知识出发，推导出有普遍意义的知识.演绎方法多用于数学科学，如定理证明；归纳方法多用于自然科学，如物理、化学等方面的归纳结论；常识性推理多用于人文科学，如政治、医学、经济等，这种方法在每天的日常生活中都在进行，如争论、辩论和讨论等.
　　基于 Rough 集方法的决策规则可以覆盖以上3种推理［1］，因为决策规则是标准的或非标准逻辑中的隐含式形式，而这种隐含式是假言推理的一种演绎推理规则的扩充,它们有所区别，MP （modus ponens）是基于前提为真而推出结论为真，而决策规则则是数据库中总的或部分的数据之间的相关性.决策规则也是归纳方法的扩充，其条件部分被看成归纳的前提，决策部分被理解为归纳结论，不同的在于决策规则强调优化，而归纳则不必关心它的优化形式.Rough 集方法中的决策规则与常识推理之间的关系为:前者是从条件出发作出恰当的或近似的决策，后者是从区域专家共享的知识开始推导出区域中有趣的、公认的知识.
　　总之，基于 Rough 集方法的决策规则推理具有与演绎、归纳和常识等推理的原理，然而它也有其自身的推理特点.
2　决策表
　　数据通常用表组成，表1是一个简单例子.
表1　一个决策表的例子

Car No.FQPM
1多差适当不乐观
2较多好适当不乐观
3多好低不乐观
4中差适当乐观
5较多差低不乐观
6多好低乐观


　　其中F表示汽车消耗燃料，Q表示汽车外观质量，P表示销售价格，M表示市场销售情况.我们用{F,Q,P}表示条件属性，用{M}表示决策属性，也就是汽车的耗油量、外观质量和价格决定它在市场销售是否乐观.在表中能分离出条件和决策属性的称决策表，其中每行构成一条决策规则,如表1中条件（F,多）∧（Q,差）∧（P,适当）惟一确定决策（M,不乐观）.但也不完全如此,如表1中的决策规则(3)和(6)有相同条件，但有不同的决策，称如此的规则为不一致，否则表中规则为一致的.包含不一致决策规则的表称为不一致表，否则表是一致的［3］.
　　在决策表中，一致决策规则数目与其总数目之比称为决策表的Rough算子［2］，记成γ(C,D)，其中C和D分别是条件属性集和决策属性集.它描述了决策表的3种情况，也就是当γ(C,D)＝1时，决策表是完全一致的；当γ(C,D)=0时，决策表是完全不一致的；当0<γ(C,D)<1时，决策表是不完全一致的，如表1中，γ(C,D)＝2/3<1.
　　一般言，决策表用二元对表示S=(U,A)，其中U是非空个体全域，A是非空属性集合，对每个x∈U 和a∈A，都有a(x)∈Va，此处Va是a的值域.
3　带Rough算子的决策规则
　　决策规则常常表现为隐含式，记成 “…→…”，如表1中,其隐含式集表示为：
　　(1) （F,多）∧（Q,差）∧（P,适当）→（M,不乐观）；
　　(2) （F,较多）∧（Q,好）∧（P,适当）→（M,不乐观）；
　　(3) （F,多）∧（Q,好）∧（P,低）→（M,不乐观）；
　　(4) （F,中）∧（Q,差）∧（P,适当）→（M,乐观）；
　　(5) （F,较多）∧（Q,差）∧（P,低）→（M,不乐观）；
　　(6) （F,多）∧（Q,好）∧（P,低）→（M,乐观）.
　　一般说来，决策规则是隐含式，它是由基原子公式（属性，值）和命题联结词 ～，∨，∧，→ 和用通常的方法组合在一起得到前件Φ与后件Ψ必须是由“→”联结起来构成的.
　　设Φ和Ψ分别是表示条件和决策的逻辑公式，Φ→Ψ是决策规则.我们用|Φ|表示在S中满足公式Φ的个体的集合，因为我们可以在每一条决策规则中带一个数值，称此为规则的Rough算子，它被定义为
μ（Φ,Ψ）＝K(|Φ∧Ψ|)／K(|Φ|)，
其中K（S）表示集合S的基数，与数学中用|S|表示有相同意义，即集合S中的元素个数.显然 0≤μ（Φ,Ψ）≤1.如果这条规则 Φ→Ψ 是完全一致的，则μ（Φ,Ψ）＝1. 如表1中的决策规则 (2)，其Rough算子是 1；对于不完全一致规则，则有0<μ（Φ,Ψ）＜1，如表1中的规则 (3)，其Rough算子μ（Φ,Ψ）＝0.5.Rough算子被解释为在给定条件 Φ 的先验概率下，决策 Ψ 的条件概率.
　　古典逻辑中应用隐含式和数据挖掘中应用决策规则是显然不同的，前者是通过 MP 规则从前提推导出结论，而后者是被用来描述数据的格式；此外，MP 是全称有效的推理规则，而决策规则是严格被限定和特别的数据相关，不是全称有效的.然而它们在推理中的引用都是相似方法.
　　现在考虑下面公式：
p（Ψ）＝∑（p(Φ).μ(Φ,Ψ)）＝∑p（Φ∧Ψ）　　(1)
其中 ∑ 被取作所有与相对应的决策 Ψ 有关的条件 Φ的概率与Φ→Ψ的概率乘积之和，而 p（Φ）＝K(|Φ|)／K(|U|) 是Φ的先验概率.公式（1）说明先验概率、决策规则的Rough算子和决策的概率之间的关系.所以公式（1）被用来计算决策Ψ在S中被满足时的概率，即通过条件Φ的先验概率和决策规则 Φ→Ψ的Rough算子来计算Ψ的概率.决策规则从形式上是与MP相似的，但意义不一样，故我们称决策规则为Rough MP，简写成RMP.决策规则中的Rough算子被看成隶属函数的扩充或作为逻辑中隐含式取真的程度.
4　属性的相关性
　　在表1中，属性 M 与属性F ，Q和P之间是否存在函数相关，也就是说决策属性值是否唯一地由条件属性值确定?显然不是这样，如决策规则(3）和(6）的条件属性完全相同，但其决策不一样，所以γ(C,D)被解释为 C和D之间的相关程度.当γ(C,D)=1时，称C和D完全相关；当γ（C,D)=0时，称C和D完全不相关；当0<γ（C,D)<1，我们称D以程度γ（C,D) 相关于C.总起来，我们可以写成如下的带Rough算子k的形式　　
C→k D，
其中k=γ(C,D).在我们的例子中{F，Q，P}→{M}，其k=2/3，也就是{M}以程度2/3相关于{F，Q，P}.基于Rough集理论，我们可得到k的计算公式
k=γ(C,D)=K（POSC（D））／K（U），
其中POSC（D）=∪X∈U/DC*（X）被称做为关于C的划分U/D的正区域［3］ ，显然也可写成
k=γ(C,D)=∑X∈U/DK（C*（X））／K（U），
其中k表示X上那些能被真正分类成划分中类的所有元素数目与U上全体元素数目之比［2］.
5　数据挖掘中的软计算
　　数据简化是数据挖掘中的研究目标，也是一项软计算技术.它包括属性简化、属性值简化和决策规则简化，前者是决策表的列简化，中者是决策表上的元素值简化，后者属决策表的行简化［3］.设C，DA分别是条件和决策属性集，又设C′C，如果C′是C的最小子集，且使得γ(C,D)=γ(C′,D)，则称C′是C关于D的D-简化.简化(reduction)的意义在于能使我们对最小条件属性数目的情况下作出具有同样效果的决策.例如，在表1中，我们可以作出两个简化：{F，Q, M}和{F，P, M}. 它们的决策算法分别是
　　(1) （F,多）∧（Q,差）→（M,不乐观）；
　　(2) （F,较多）∧（Q,好）→（M,不乐观）；
　　(3) （F,多）∧（Q,好）→（M,不乐观）；
　　(4) （F,中）∧（Q,差）→（M,乐观）；
　　(5) （F,较多）∧（Q,差）→（M,不乐观）；
　　(6) （F,多）∧（Q,好）→（M,乐观）
和
　　(7) （F,多）∧（P,适当）→（M,不乐观）；
　　(8) （F,较多）∧（P,适当）→（M,不乐观）；
　　(9) （F,多）∧（P,低）→（M,不乐观）；
　　(10) （F,中）∧（P,适当）→（M,乐观）；
　　(11) （F, 较多）∧（P,低）→（M,不乐观）；
　　(12) （F,多）∧（P,低）→（M,乐观）.
　　显然，这一算法中每条决策规则的条件属性数目比表1中决策规则的条件属性数目要少，但它们作出的决策有相同的效果.所以，决策表中的属性简化是有意义的.上述软计算技术是通过检查相关性而计算出来的属性简化.1991年Skowron 提出利用分明矩阵计算属性简化［3，6］，这里提出了一种基于近似化的决策规则简化，也称行简化.它是通过属性值近似区间化，并施行区间运算使全体属性值都区间化的方法实现的［4，5］.从近似的观点我们可以从中选择典型的有代表性的决策规则，删去被认为是冗余的、过剩的决策规则，实现决策表的行简化.属性值简化可以参考文献［3］.下面通过实例来介绍计算决策规则简化的过程.
6　实例
　　设SS=(P,S,C,D) 表示中医诊疗专家系统，其中P={p1,p2,…,pm}是病人的集合；S={s1,s2,…，sn}是症状的集合，它被分成432个条件属性的集合C和38个决策属性的集合D.我们考虑该系统的一个子系统，如表2所示，其中S′={头痛，体烧，打喷嚏，流鼻涕，感冒}，C′={头痛，体烧，打喷嚏，流鼻涕}是条件属性的集合，D′={感冒}是决策属性的集合，从而表中的属性值被量化了.
表2　一个中医诊断系统

S′头痛体烧打喷嚏流鼻涕感冒
P′
p10.150.150.210.150.08
p20.080.080.150.210.15
p30.080.080.150.210.08
p40.070.070.210.210.15
p50.150.150.210.210.08


表3　属性简化决策表

S′头痛流鼻涕感冒
P′
p10.150.150.08
p20.080.210.15
p30.080.210.08
p40.070.210.15
p50.150.210.08


　　从表2中提取关于属性的逻辑公式［6］，并利用吸收律等逻辑运算，对公式施行约简，得到3个简化：{头痛，流鼻涕，感冒}、{体烧，流鼻涕，感冒}和{打喷嚏，流鼻涕，感冒}.不妨取其一，制成表3.
　　下面计算条件属性集合的正区域和相关的Rough算子.因为由DS的划分是P′/D′={{p1,p3,p5}，{p2,p4}}，其正区域是C′*1（{p1,p3,p5}）={p1}∪{p5}={p1,p5}，C′*2{p2,p4}= {p4}.所以，k=K（POSC（D′））/K（P′）=K（C′*1（{p1,p3,p5}）∪C′*2（{p2,p4}））/K（P′）=K（{ p1,p5,p4}）/K（P′）=3/5；
　　计算距离函数.任给两集合，我们可利用: d（X，Y）=K(（X∪Y）-（X∩Y））/K（X∪Y）来量度它们之间的距离.这里利用它来量度Rough集的下和上近似集之间的距离.于是有：
df1=d（C′*（{p1,p3,p5}），C′*（{p1,p3,p5}））=（K（C′*（{p1,p3,p5}）∪C′*（{p1,p3,p5}））-K（C′*（{p1,p3,p5}）∩C′*（{p1,p3,p5}）））/ K（C′*（{p1,p3,p5}）∪C′*（{p1,p3,p5}））=1-K（C′*（{p1,p3,p5}）∩C′*（{p1,p3,p5}））/ K（C′*（{p1,p3,p5}））=1-K（C′*（{p1,p3,p5}））/ K（C′*（{p1,p3,p5}））=1-1/2=0.5.
同理可计算
df2 =d（C′*{p2,p4}）），C′*（{p2,p4}）=0.67.
属性值近似区间化为（Vict-df/2,Vjct+df/2），其中Vict≤Vjct, t为属性序号，因为每个属性必须计算其区间值，故t可省略不写，由此写成（Vic-df/2,Vjc+df/2），i和j分别对应于个体的序号，c表示相应条件属性.本例由V1c和V3c推导的区间值是（-0.17,0.40）∧(-0.10,0.46)∧(-0.17,0.33)；由V3c和V5c推导出来的区间值是(-0.17,0.40)∧(-0.04,0.46)∧(-0.17,0.33).与前者比较有第2合取项不同.故分别对此二式中的区间进行合成运算处理［2,4,5］，得到由V1c，V3c和V5c导出的合一近似区间值(-0.17,0.40)∧(-0.07,0.46)∧(-0.17,0.33).同理也可以得到由V2c和V4c推导出来的近似区间值(-0.265,0.415)∧(-0.125,0.545)∧(-0.185,0.485).由此，生成如下的表4.
表4　简化属性区间值决策表

S′头痛流鼻涕感冒
P′
p1(-0.17，0.40)(-0.07，0.46)(-0.17，0.33)
p2(-0.265，0.415)(-0.125，0.545)(-0.185，0.485)


　　在表4中，得到两条决策规则：
r1: 头痛(-0.17,0.40)∧ 流鼻涕(-0.07,0.46)→0.6感冒（-0.17,0.33)；
r2: 头痛(-0.265,0.415)∧流鼻涕(-0.125,0.545)→0.6感冒（-0.185,0.485).
类似地可以处理其它两个简化.
　　在中医诊断中，每一决策属性对应于一种病症.根据中医辨证施治理论，每一病症又包含若干分型，不同的决策属性的区间值代表一种分型，如决策感冒（病症）有两个区间值，意味着有两种分型，也就是风热型和风寒型.而在西医中，不同的决策属性区间值可被理解成该病症的程度，如这里的r1规则推导出来的感冒，其值（-0.17,0.33)较小，被解释为一般感冒，而r2规则推导出来的感冒，取值（-0.185,0.485)较大，故被解释为重感冒.在这里不一致决策被理解为分型不明显.
　　上述例中病人的症状是条件属性，而P上的个体pi(i=1,…,5)是一部分病人；决策属性感冒自然是病症.决策属性中不同区间值被看成中医中病症的分型或西医中病症的程度.例中的属性也可以看成社会科学中企事业的发展指标.P上的个体pi可以看成企事业单位的不同部门；决策属性d∈D应是社会科学的发展水平或等级等等.本文采用从决策表中提取关于属性的逻辑公式的方法约简属性，避免了生成分明矩阵的过程,可以说是Skowron方法的改进.另采用Rough算子方法将属性的经验值或统计值变换成属性的近似区间值，使得边界线区域上的不一致元素能在近似的观点下，得到较合理的解释.■
基金项目：本课题得到国家自然科学基金(项目编号69773001)和江西省自然科学基金的资助.
作者简介：刘清，男，1938年6月生，教授，研究方向为人工智能及其应用、 Rough集理论及　　　　　　其推理.
　　　　　黄兆华，男，1966年1月生，副教授，研究方向为人工智能及其应用、Rough集及数　　　　　　据挖掘.
　　　　　刘少辉，男，1977年8月生，硕士研究生，研究方向为人工智能及其应用.
　　　　　姚力文，男，1945年1月生，教授，研究方向为数据库理论及其应用.
作者单位：刘清（南昌大学计算机科学工程系　南昌　330029）
　　　　　黄兆华（南昌大学计算机科学工程系　南昌　330029）
　　　　　刘少辉（南昌大学计算机科学工程系　南昌　330029）
　　　　　姚力文（南昌大学计算机科学工程系　南昌　330029）
参考文献：
［1］Pawlak Z. Reasoning about data――A rough set perspective. LNAI 1424, Proceeding of RSCTC' 98,Warsaw:Springer,1998, 6:25～34
［2］Liu Q. The OI-resolutions of operator rough logic. LNAI 1424, Proceeding of RSCTC' 98,Warsaw: Springer, 1998, 6: 432～435
［3］Pawlak Z. Rough Sets, Theoretical Aspects of Reasoning About Data. Warsaw: Klumer Academic Publisher, 1992
［4］刘清, 王黔英. 基于Rough集的Rough数和λ算子的逻辑价值.软件学报，1996, 增刊，455～461
　　　（Liu Qing, Wang Qianying. Rough number based on rough set and logical values of λ operator. Journal of Software(in Chinese), 1996, Supplement, 455～461）
［5］Liu Qing, Accuracy operator rough logic and its resolution reasoning. In: The Proceedings of RSFD ′96 International Conference on Artificial Intelligence, Tokyo: The University of Tokyo, 1996. 55～59
［6］Skowron A, Suraj Z. Discovery of concurrent data models from experimental data tables: A Rough set approach. Institute of Computer Science, Warsaw University of Technology, Research Report: 1995
收稿日期：1998-09-24
修稿日期：1999-02-01
