计算机应用研究
APPLICATION RESEARCH OF COMPUTERS
2000　Vol.17　No.2　P.90-92



基于知识的肺癌早期细胞诊断系统
花蕾　杨育彬　李宁　叶玉坤
摘 要 介绍了一个基于知识的肺癌早期细胞病理诊断系统，着重讨论了该系统中的知识表示形式及与之相配合的基于确定性理论模型的不确定性推理方法。该系统能自动从细胞图象中提取出必需的特征事实，并模仿病理专家的诊断逻辑，自动推理出最终诊断结果。
关键词 知识表示 不确定性推理 专家系统 图象处理
1 引言
　　近20多年来，人工智能和知识工程技术在医学诊断领域得到了广泛的应用，从1974年问世的诊断专家系统MYCIN，到现在被广泛使用的各种医疗诊断专家系统，成果层出不穷。专家系统在医疗领域的应用日趋广泛，迄今为止，已经有越来越多的医疗诊断专家系统投入了实际使用，效果很好。
　　国内外资料表明，肺癌正在快速上升为人体各部位恶性肿瘤疾病之首，中国的肺癌发病率增长速度及肺癌病人绝对数均为全世界的第一位，患病人数每年达130万。一般情况下，肺癌患者在确诊后，80%左右已属晚期，失去手术治疗的机会，因此，肺癌的早期诊断已成为攻克这一难关的关键性课题。日前，对肺癌细胞的诊断一般由病理专家实施。专家在显微镜下观察患者的病理切片，运用自己在长期实践中积累的专门经验和知识做出诊断结论，这不仅费时又费力，而且识别癌细胞的病理专家也非常缺乏。
　　基于上述的情况，南京大学计算机系与中国人民解放军八一医院肺癌研究中心联合研制开发了基于知识的肺癌早期细胞诊断系统。该系统通过一系列的图象处理过程，自动从肺癌穿刺标本的彩色显微图象中提取出有意义的特征事实，交给带有诊断知识库的专家系统进行推理，自动准确地诊断出患者是否染有肺癌。该系统经试用，已能实现肺癌细胞的自动诊断和分类，有效地弥补了人工识别的缺陷和不足，具有较高的准确性和效率。本文主要介绍系统的知识表示方法、推理策略和图象处理技术。
2 系统总体结构和功能
2.1 系统总体结构
　　肺癌早期细胞诊断系统主要组成部分有：诊断知识库、推理机、综合数据库、知识获取、图象处理、解释器和人机接口等模块。系统采用模块化结构设计，便于系统的扩充和修改，系统具有很好的灵活性和易用性。
　　系统的总体结构如图1所示，各模块的功能简述如下。

图1　系统总体结构
2.2 模块功能
　　●知识库
　　本系统的知识库用于存取和管理所获取的有关肺癌细胞诊断及分类的专家经验和知识，存储有产生式规则200多条，供推理机使用。
　　●推理机
　　推理机是专家系统的核心部分，系统的推理机采用默认的数据驱动、宽度优先的正向推理策略，将系统由图象处理获取的特征事实与知识库中规则的条件进行匹配，综合各条匹配规则的结论后推理出诊断结果。
　　●综合数据库
　　综合(全局)数据库用来存放与当前系统推理过程密切相关的各种事实和数据，主要包括：系统或用户给出的有关肺癌切片图象的特征事实，诊断推理过程中生成的中间结论，最终诊断结论以及推理路径等。
　　●知识获取模块
　　知识获取器是知识工程师与肺癌专家之间的交互界面。通过知识工程师与病理专家的交流，建立知识库，并具有对知识库的增、删、改等功能。
　　●解释模块
　　解释模块负责向用户解释系统的行为，推理结论进行解释，向用户输出推理的结论，系统作出结论的理由以及在推理过程中所匹配的规则的内容等。
　　●图象处理模块
　　图象处理部分的彩色摄影机与显微镜观察平台相连接，它实时地获取肺癌穿刺标本涂片的视频信号，该信号经图象采集卡处理后转化为RGB真彩图象，经图象预处理和图象分割处理后，得到细胞的各种特征参数。
3 图象特征集的获取
　　系统在进行诊断推理之前，首先通过对肺癌细胞原始图象进行处理和分割，提取肺癌细胞的各种有效的特征值，其处理步骤如下。
　　1)图象获取 通过图象采集，得到肺穿刺标本在显微镜下若干个不同视野中的图象；
　　2)图象预处理 对采集来的原始图象进行去噪、增强、平滑和锐化等一系列的预处理，清除中间环节对图象造成的不良影响，提高图象的质量；
　　3)图象分割 先通过双重自适应的阈值选取算法，将细胞核与图象背景分开；再通过基于区域边界的八链码表示提取出细胞核的形态学特征，通过提取处理得到细胞核的色度学特征。
　　系统通过上述处理将获得细胞图象有意义的特征，并将其作为事实存入专家系统的综合数据库中，供推理机使用。
　　通过对专家总结的原始诊断知识的分析，我们主要进行了与诊断推理密切相关的形态学和色度学两大类特征参数集，其具体的处理技术，因篇幅所限，这里不再赘述。
　　(1)形态学特征集
　　1)细胞区域的周长(即八链码所围区域的长度)
　　2)细胞区域的高度、宽度和面积
　　3)细胞区域的圆度：
　　
　　圆度用于描述细胞区域与圆形的偏离程度。在相同面积的条件下，细胞区域边界光滑且为圆形，则周长最短，其圆度为C=1。细胞区域的形状越偏离圆形，则C值越小。圆度对细胞异形性的判断尤为重要。
　　4)细胞区域的伸长度：
　　
　　细胞区域越呈细长形，E越小，当细胞区域为圆形时，E=1。
　　(2)色度学特征集
　　通过对常用的彩色空间的仔细比较和分所，系统采用了{R，G，B}和{H，S，I}彩色空间中的色彩分量作为色度学的特征参数。
　　1){R，G，B}彩色空间中的红色分量R
　　2){R，G，B}彩色空间中的绿色分量G
　　3){R，G，B}彩色空间中的蓝色分量B
　　4){H，S，I}彩色空间中的饱和度分量S
　　
　　5){H，S，I}彩色空间中的照明度分量I
　　
　　6){R，G，B}彩色空间中的蓝色分量的比重RB
　　
　　RB这个分量是结合本系统的实际情况引入的。由专家的经验知识我们可以归纳出，偏蓝紫色是肺癌细胞的一般特性之一，其中的蓝色分量B是应该加倍重视的；同时，由于RB分量本身是一个归一化的值，既便于系统的处理，也有利于知识的修改和维护。
　　通过上述处理得到的肺癌细胞特征集存入综合数据库中，供推理机使用。
4 知识表示
　　根据肺癌知识的特点，我们利用了产生式规则来表示肺癌知识。本系统的诊断知识库就是一个由许多产生式规则组成的集合。
　　系统中的每条规则都可抽象描述为规则前提及其相应结论的对偶。每条规则的形式为：
IF <Precondition> THEN <Conclusion> with Confidence <CF>
其中：

　　N为每条规则的前提数，P={P1, P2, ..., PN}为每条规则的前提集，CF为每条规则的可信度。
　　在本系统中，根据所处的推理层次和条件的不同，将规则分为以下两类：
　　1)间接规则
　　间接规则是指用于“图象特征参数→原始知识的条件(中间结果)”这一层次上的规则,推理机利用它从数值化的事实推理出描述性的事实
　　前提
　　在这类规则中：Vi为图象特征参数，[Th1, Th2]为该特征参数的阈值区间。
　　间接规则的实例如下：
Rule 013：
IF (绿色分量<90) AND (蓝色分量比重>0.55) AND (0.4<饱和度<0.65)
THEN 细胞染色偏蓝 with cf=0.3 (0.3)
　　2)直接规则
　　直接规则是指用于“原始知识的条件→结论”这一层次上的规则,它来源于病理专家知识,推理机利用它从描述性的事实揄出最终的诊断结论。
在这类规则中：
　　前提
其中，Si为描述性条件，[Af1, Af2]为该条件的模糊隶属度函数的取值区间。
　　直接规则的实例如下：
Rule 022：
IF 0.4<=细胞核面积<0.6 
THEN 该细胞是癌细胞 with cf=0.5 (0.5)
　　本系统的知识库是一个包含以上形式具有200多条规则的规则库，是知识工程师通过系统灵活的知识获取界面，建立的知识库。
5 推理机
5.1 推理控制策略
　　本系统主要采用数据驱动的正向推理策略。经过图象处理和分割后，系统自动将分割出来的细胞区域的相应图象特征保存到专家系统的综合(全局)数据库中，作为输入的事实供推理机使用。如果用户认为系统自动分割图象的效果不够理想，还可以利用系统的交互输入模块，使用数字化仪或鼠标手工分割出若干细胞区域，系统会立即计算出这些区域的图象特征参数，并存入综合(全局)数据库中。
　　系统推理机的推理策略及其步骤如下：
　　1)读入当前细胞区域的特征事实，首先用这些事实与知识库中的间接规则的前提进行匹配，将匹配成功的规则的结论存入综合数据库；
　　2)将上一步生成的中间结论作为新的事实，与知识库中的直接规则的前提进行匹配；
　　3)如果综合数据库中的事实达到一种稳定状态，即再无新的事实生成时，结束推理过程，输出最终诊断结论。
　　除了上述的正向推理外，系统在响应用户的交互式提问时还同时采用了目标驱动的反向推理策略。用户的回答将被保存在综合数据库中，推理时将其与知识库中规则的结论部分进行匹配，直到得出最终的结果。
5.2 规则可信度计算
　　为了表达知识的模糊性和不确定性，系统采用类MYCIN系统的确定性理论模型，对每条规则引入可信度CF(Certainty Factor)的概念，用来估计规则的精确程度。本系统中定义可信度CF的取值范围为[-1，1]。对于每条规则的可信度值的大小，都由肺癌专家给出一个合适的初值，以后随着系统的不断调试和实验，逐步稳定在一个理想的范围内。
　　推理过程中可信度的计算公式如下：
　　●当前提之间是“与”(AND)关系时：
　　
　　●当前提之间是(OR)关系时：
　　
其中，cf 为当规则所有前提都成立时规则的可信度，cfvi为该规则中每个前提的可信度。
　　●如果有多条规则同时可推出同一条结论时，例如：规则R1 with CF1，R2 with CF2, ..., Rn with CFn的结论都为Ci时，则：
　　1)如果Ci为中间结论(原始知识的条件部分)，其可信度CFCi为：
　　
　　2)如果Ci为最终结论(原始知识的结论部分)，其可信度CFCi为：
　　
　　在不确定性推理开始前，系统将所有结论命题的可信度值都置为0。推理机开始运行后，系统根据得到的原始事实，沿着规则库开始进行匹配推理，同时按照可信度传播和更新算法将原始事实的可信度向下传播给中间结论，直到求出最终结论的可信度。如果最终结论的可信度大于指定的阈值，则判定结论成立。采用了上述可信度更新和传播算法后，系统的诊断准确度大有提高。
6 结束语
　　本系统在Windows 95操作系统下用VC++5.0编程实现。试运行结果表明，系统所采用的图象处理技术、知识表示方法和不确定性推理模型是成功的。本系统已于1998年5月顺利通过了国家“九五”攻关课题中期考核。在中国人民解放军八一医院试用后，反映良好。
该项目获国家盼攻关课题(96-906-01-18)的资助
花蕾（南京大学计算机科学与技术系 南京 210093）
杨育彬（南京大学计算机科学与技术系 南京 210093）
李宁（南京大学计算机科学与技术系 南京 210093）
叶玉坤（中国人民解放军八一医院 南京 210002）
参考文献
1，陈世福, 陈兆乾. 人工智能与知识工程. 南京：南京大学出版社, 1997
2，刘有才, 刘增良. 模糊专家系统原理与设计. 北京：北京航空航天大学出版社, 1995
3，杨叔子, 丁 洪. 基于知识的诊断推理. 北京：清华大学出版社, 1992
4，陈兆乾, 潘金贵. NCFW系统的设计与实现. 计算机研究与发展, 1991,l: 29～34
收稿日期：1999年8月30日
