计算机工程
COMPUTER ENGINEERING
1999年 第25卷 第8期 Vol.25 No.8 1999



肺癌早期诊断系统中形态学识别的研究与实现
冒宇清，李宁，陆新泉，陈世福，叶玉坤，汪栋
摘要：讨论了通过利用细胞图象中的形态学信息对肺癌细胞进行识别和检测的方法。该方法采用基于区域边界的链码方法提取形态学特征，再根据形态学识别算法，对细胞自动进行分类，从而识别出图象中的肺癌细胞。
关键词：形态学；链码；特征向量；分类
The Pesearching and Implementation of Morphological Recognition in the System of Diagnosing the Early Stage Lung Cancers
Mao Yuqing,Li Ning,Lu Xinquan,Chen Shifu,Wang Dong
(State Key Laboratory for Novel Software Technology,Nanjing University,Nanjing 210093;
Bayi Hospital,PLA,Nanjing 210002)
【Abstract】This paper discusses a method of recogniaing the lung cancer cells by utilizing the information in the Cytological image.This method uses the chain code based on the edge of the region to extract the morphological feature.Then the cells are classified automatically according to the arithmetic of morphological recognition, so that all cancer cells in the image can be recognized.
【Key words】Morphological reconition; Chain code;Feature vector;Classification
　　南京大学与八一医院联合研制了肺癌早期诊断系统。该系统通过一系列的图象处理和识别过程，能判断肺癌穿刺标本的彩色显微图象中是否存在癌细胞，识别诊断出患者是否有肺癌。为了提高识别肺癌细胞的准确性，系统采用了形态学特征与色度学特征并举的多层次处理结构；同时，在系统中还运用了专家系统和神经网络技术进行识别和判断。该系统经试用，已实现了肺癌细胞的自动识别和分类，同时还有效地弥补了人工识别的缺陷和不足，提高了识别的准确性和效率。 
1 系统概况 
1.1 系统硬件配置
　　系统的硬件配置如图 1 所示，主要有显微镜、摄影机、图象采集卡和计算机系统等。 

图 1 系统硬件配置 
　　彩色摄影机与显微镜观察平台相连接，它实时地获取肺癌穿刺标本涂片的视频信号，该信号经图象采集卡处理后转化为 RGB 真彩图象，供计算机系统进行处理。系统所使用的涂片均采用 HE 染色法进行染色处理。 
1.2 系统处理流程 
　　系统的处理流程如以下 (1)-(7) 顺序，并对各模块的功能作简要叙述。
　　(1) 初始化模块 定义系统中使用的各种数据结构 , 对所有全局变量进行说明 , 并分配图象存储区等。 
　　(2) 图象获取模块 通过图象采集 , 得到一幅优质的细胞图象。 
　　(3) 图象预处理模块 对原始图象进行去噪、平滑和锐化等一系列的预处理，提高图象的质量，并清除显微图象中的过滤效应和电子光学中的“假象”问题。 
　　(4) 图象分割模块 主要功能是将细胞逐一从背景中分离出来。通过双重自适应阈值选取算法，求出一幅标示细胞所在位置和形状的二值图象，再经多次筛选后，得到感兴趣的区域。 
　　(5) 形态学识别模块 对划分出来的区域 , 利用形态学的有关特征对其进行再识别 , 标示出可疑区域。 
　　(6) 色度学识别模块 对可疑区域 , 利用色度学技术对其相关的色度特征进行分析判断 , 标示出有癌细胞的区域。 
　　(7) 专家系统 (ES) 和神经网络系统 (NNS) 主要是进一步完成检测、分类和判决等工作。根据上述模块得出的各种特征参数以及经过人机交互输入的现象和特征，经专家系统和神经网络算法处理后，得出最终的分析结果，并硬拷贝输出。 
　　以上介绍了系统中各模块的主要功能。为了保证系统的正确运行和分析结果的准确性，在系统的若干模块中还设计了人机交互功能。使用者可以通过数字化仪、键盘或光笔监控系统对误差进行校对，以弥补算法上的某些不足并充分发挥技术人员的作用，从而提高系统的性能和准确率。 
2 形态学识别与判断 
　　一个完整的识别过程由模式采集、特征提取 / 选择和分类判决组成，如图 2 所示。 

图 2 识别过程方框图 
　　在本系统中，图象获取模块采集到的是彩色细胞图象。在进行形态学识别时，由于只关心它们的形状特征，其色度信息让位为次要地位，因此首先将彩色图象转化为二值化图象，使目标与背景区分开来。通常对目标进行形状分析，提取形态特征有 3 种方法：基于区域本身、基于区域的边界以及基于区域的骨架。为了提高系统的处理速度，我们采用了基于区域边界的链码表示来提取形态特征，这种链码表示既有利于有关形态特征的计算，也有利于节省存储空间。在进行分类判断时，我们采用了最小距离分类器 (MDC), 并且在学习阶段，通过训练求出聚类中心。下面分别介绍我们采用的链码技术、分类器和形态学识别算法。 
2.1 链码 
　　对于显微图象中的象点而言 , 均有 8 个方向的邻域 , 如图 3 所示。对每种方向赋以一种代码表示 , 如图 3(a) 中 8 个方向分别对应 0,1,2,3,4,5,6,7, 这些代码称为方向码。一条曲线最终可以由下式表示： 
An= α1α2…αn，αi∈{0,1,2, … ,7} ，i=1,　　(1) 
　　An称为曲线的链码。如图 4(b) 中曲线的链码为 :A=1,0,1,0,1,2,2,4,3,4 。设分辨单元边长为 1, 那么链的每一码段的长度是 1( 当 i= 偶数 ) 或( 当 i= 奇数 ) 。 

图 3 八链码原理图 
　　从链码可以得到一系列的细胞的几何形状特征，其周长、面积、宽度和高度等所采用的计算公式如下:
　　(1) 链码所围细胞区域的周长，即链的长度 

　　其中 ne表示链码中偶数码的数目， no表示链码中奇数码的数目。 
　　(2) 细胞区域的宽度和高度 
　　定义ai在X轴上的分量为aix，在X轴上的分量为aiy，aix与aiy的取值如表1所示： 
表 1 aix 与 aiy 的取值 
ajaixaiy
010
111
201
3-11
4-10
5-1-1
60-1
71-1

　　设 x0 与 y0 是起始点的坐标，则
　　宽度 
　　高度 
　　(3) 细胞区域的面积 
 (1) 其中， yi =yi-1 +aiy
　　(4) 细胞区域的圆度　　(2) 
　　圆度用于描述细胞区域与圆形的偏离程度。在相同面积的条件下，细胞区域边界光滑且为圆形，则周长最短，其圆度为 C=1 。细胞区域的形状越偏离圆形，则 C 值越小。 
　　(5) 细胞区域的矩形度 
　　(3) 
　　矩形度用于描述细胞区域与矩形的偏离程度，当细胞区域为矩形时， R 取最大值 1 。 
　　(6) 细胞区域的伸长度 
　　(4) 
　　细胞区域越呈细长形，E越小，当细胞区域为圆形时， E=1 。 
2.2 分类器 
　　假定 n 维特征空间中有两个模式向量 x 和 y 分别为： 
　　x=(x1 ,x2 , … ,xn )T ,y=(y1 ,y2 , … ,yn )T
　　x 与 y 之间的距离定义为： 
 　　(5) 
　　显然，若 x 和 y 位于同一个类型区域里，距离 D(X,Y) 较小，距离的远近反映了模式向量所属类型有无差异，最小距离分类器就是根据这一性质进行分类的。 
　　为了有效地分类，希望类间距离大而类内距离小，所选择的特征应尽可能满足这样的要求。在本系统中，选取的形态学特征为：面积 S 、圆度 C 、矩形度 R 和伸长度 E ，在四维特征空间进行分类。特征的选择是基于癌细胞与正常细胞形态上的主要差异，即： (1) 癌细胞核比正常细胞大，一倍至三四倍不等； (2) 癌细胞核异型明显，正常细胞的细胞核一般呈圆形或卵圆形 , 而癌细胞的细胞核则还会出现各种不规则型或分叶状等。 
　　由 (5) 式可见，每个特征在 D(X,Y) 中的权重与其数量级有关，由于圆度 C 、矩形度 R 和伸长度 E 都在区间 (0 ， 1] 中取值，为了使面积 S 对距离的影响与 C 、 R 、 E 相当，用 A=S/S0 取代 S ，其中 S0 为通过实验所获得的癌细胞面积最大极限值。另一方面，通过 S0 与癌细胞圆度最小极限值 C0 相结合，可以排除细胞图象中的杂质和无法分割的聚堆细胞，使特征向量能够收敛于聚类中心。 
　　在学习阶段，通过对大量训练样本进行统计分析，针对肺癌的 3 种类型：鳞癌、腺癌、小细胞未分化癌，分别确定 3 种肺癌细胞的聚类中心 M1 =(A1 ,C1 ,R1 ,E1 ),M2 =(A2 ,C2 ,R2 ,E2 ) ， M3 =(A3 ,C3 ,R3 ,E3 ) ，及非癌细胞的聚类中心M'=(A',C',R',E') ；在判断阶段，分类器根据通过计算目标区域的特征向量 T 与聚类中心 M1 、 M2 、 M3 和 M' 的距离，判断该区域是癌细胞还是非癌细胞。 
　　为了提高系统的自适应能力，在处理完一定量的穿刺涂片后，系统可以通过人机交互，针对可能出现的误分类，进行误差校对，对聚类中心进行修正，从而提高识别的精度。 
2.3 形态学识别算法 
　　所采集的彩色细胞图象经过预处理之后，根据如下算法进行特征提取和识别分类。 
　　(1) 对图象中的每个象素 Pi 计算其灰度值 Hi ，根据灰度直方图统计自动选取分割阈值 Hth 。 
　　(2) 对于每个象素 Pi ，其 Hi 的取值： 

　　(3) 对二值化图象进行扫描，以边界上的点作为起始点，按照图 3(a) 的次序搜索：先向 “0” 方向搜索邻点，如果遇到目标象素，则标记为链码上的点，否则向 “1” 方向搜索，如此不断向前搜索，直至回到起始点为止，这样得到图象中每个目标区域的链码表示。 
　　(4) 对于每个目标区域 X ，根据其链码表示由 (1) ～ (4) 式求取其特征值，得到特征向量 T=(A,C,R,E) ；若：X 满足 S>S0 或 C<C0 (S0 、C0分别为癌细胞面积和圆度极限值)，则该区域标记为非癌细胞区域，算法结束，否则： 
　　(5) 对每个目标区域 X, 分别计算T与聚类中心 M1 、M2、M3 和 M' 的距离 D1、D2、D3、D'，若： D'<min{D1,D2,D3}，则该区域标记为非癌细胞区域，否则标记为可疑的癌细胞区域。
　　由该算法可以识别出绝大多数癌细胞，对于标记为可疑癌细胞的区域，再经过下一步色度学识别，得出系统的初步诊断结果。该结果包括癌细胞个数、位置以及相关特征量值等信息。根据这些参数以及人机交互输入的参数，再由肺癌病理专家系统和神经网络识别系统进行最终的判断和分类，可使整个系统识别癌细胞的正确率达到 95% 以上。 
3 结束语
　　在医学图象识别系统中，往往由于对识别目标缺乏全面清晰的描述而使得识别工作效果很差。在本系统中，我们采用图象处理、模式识别以及人工智能等技术对肺癌细胞进行了全面、多层次的基于特征量的描述，从而较好地克服了这一难题。其中，在形态学识别部分，通过合理地选择特征向量，并且采用链码方法提取形态特征，提高了系统的运行效率；最小距离分类法的应用使分类识别有了客观定量尺度，大量的实验分析和学习过程以及在专家指导下的再学习功能，使系统的诊断更为科学，识别准确性得到进一步提高。 
　　本系统在 Windows 95 环境下用 VC++ 语言编程实现。试运行结果表明，特征的提取和识别技术的应用是成功的。本系统已于 1998 年 5 月顺利通过了国家“九五”攻关课题中期考核，并经中国人民解放军八一医院试用，运行效果很好。 
作者单位：南京大学软件新技术国家重点实验室，南京 210093；
　　　　　中国人民解放军八一医院，南京 210002
参考文献
1 徐建华 . 图象处理与分析 . 北京：科学出版社 ,1992 
2 夏德深 , 傅德胜 . 现代图象处理技术与应用 . 南京：东南大学出版社 , 1997 
3 Zhou P,Pycock D.Robust Statistical Models for Cell Image Interpretation.Image and Vision Computing,1997(15) ： 307 
