自动化学报
ACTA AUTOMATICA SINICA
1997年 第23卷 第1期 Vol.23 No.1 1997



基于多通道分解与匹配的笔迹鉴别研究
刘成林　刘迎建　戴汝为
摘　要　笔迹鉴别是通过分析手写字符的书写风格来判断书写人身份的一门技术.笔迹鉴别的关键步骤是提取反映书写风格的笔迹特征.笔迹特征包括笔划位置、方向、搭配关系等，它们可以通过图像多通道分解提取和表达出来.本文提出一种用于笔迹鉴别的二值图像多通道分解方法，利用字符的笔划方向性先进行方向分解，然后对每个方向的子图像进行频带分解.用分解后的采样信号值作为笔迹特征，用特征匹配方法进行书写人识别，得到了很好的实验结果.
关键词　笔迹鉴别，笔迹特征，多通道分解，方向分解，频带分解，特征匹配，书写人识别.
WRITER IDENTIFICATION BY MULTICHANNEL
DECOMPOSITION AND MATCHING
LIU CHENGLIN　LIU YINGJIAN　DAI RUWEI
(Institute of Automation, Chinese Academy of Sciences, Beijing 100080)
Abstract By writer identification (WI), the writer of a handwritten document is detected by analyzing the writing style. The crucial stage in WI is the extraction of individual features which reflect the writing style. There are many informative individual features, in which are the stroke position, direction, and the collocation. Some features can be represented simutaneously by multichannel decomposition (MCD) of images. In this paper, a MCD approach of binary images for WI is presented. The image is decomposed into directional subimages according to strokes direction, and then each subimage is further decomposed into several frequency bands. Finally, the sampled values of subband images are used as individual features for WI. Promising results have been achieved in the writer recognition experiments by feature matching.
Key words Writer identification, individual features, multichannel decomposition, directional decomposition, frequency band decomposition, feature matching, writer recognition.
1　前言
　　笔迹鉴别(Writer Identfication, WI)［1］是通过分析和比较手写笔迹的书写风格来判断书写人身份的一门科学和技术.笔迹鉴别的方法根据所考察的对象和提取的特征可分为两大类［1，2］：文本独立(text independent)方法和文本依存(text dependent)方法.文本独立方法从大量字符集提取与字符类别无关的特征，如布局、字符大致形态等.文本依存方法从检验笔迹和参考笔迹中选择相同的单字(称为特征字)进行比较.与文本独立方法相比，文本依存方法可以对字符形状和书写风格进行深入的分析，因此可以得到更高的鉴别率和可靠性.本文提出一种新的文本依存笔迹鉴别方法，是通过对字符图像进行多通道分解和匹配得到的笔迹特征距离度量.
　　计算机笔迹鉴别的研究进行了30年，取得了一定的成果，提出了很多方法［1］.笔迹鉴别的文本独立方法主要有变换法(谱分析法)、自相关法、游程直方图法、笔段直方图法等.文本依存方法主要有标准模板变形法［3］、线段高阶相关法［2］、弧模式频率法［4］、方向指数直方图法［4］、笔划匹配法［5］等.但是总的说来，目前计算机笔迹鉴别水平还不是太高，还有很多问题没有解决.计算机笔迹鉴别研究的目的是为了实现笔迹鉴别工作的自动化，因此在研究中必须针对应用背景，考虑方法和手段的实用性.与传统的模式识别问题不同的是，笔迹鉴别所考虑的书写人和所利用的字符类别是不定的，因此不能进行离线学习，这就对特征提取和比较判别提出了更高的要求.
　　笔迹鉴别的过程是对检验笔迹和多个嫌疑人的参考笔迹进行比较，找出书写风格最相似者判定为检验笔迹的书写人.为了得到可靠的鉴别结果，计算机笔迹鉴别的一种可行的方案是：将检验笔迹与所有参考笔迹进行比较，计算笔迹特征相似度，然后按相似度大小对嫌疑人进行排队，判定相似度最大者为检验笔迹书写人，或保留部分相似度较大的嫌疑人作为重点嫌疑对象，然后再由人工专家进行分析认定.比较两份笔迹时，先找出检验笔迹和参考笔迹中的相同字(特征字)，计算特征字的相似度，然后结合多个特征字的相似度得到整个笔迹之间的相似度.特征字的比较是一个匹配过程，通过匹配计算相似度或距离.为了便于结合多特征字的信息，不同类别的特征字比较结果(相似度或距离)应归一化(值域与字符类别无关).
　　本文提出一种新的特征字比较方法，基本思想是先对检验字符和参考字符图像分别进行多通道(方向、频带)分解，以子带图像的采样值作为笔迹特征，然后计算特征之间的距离，根据此距离进行书写人识别.字符图像的多通道分解是分方向分解和频带分解两步分别进行的，具有物理意义明确，计算速度快等特点.
2　多通道分解的基本思想
　　手写字符的笔划位置、笔划方向和搭配关系是非常重要的笔迹特征，通过对字符图像进行多通道分解(Multichannel Decomposition, MCD)，这三个方面的特征都可以被提取和表示出来.笔划之间的搭配关系可以看做是一种纹理特性，对应一定的频谱分布.MCD将信号分解成不同频带的子信号，从而不同频谱的信号有不同的分解结果.MCD的频带选择具有方向性，而空间频率方向又和字符笔划方向有一定对应关系，因此不同笔划方向的字符图像具有不同的分解结果.MCD在空间域和空间频域同时具有分辨能力，因此笔划位置信息也在分解后的子图像中反映出来.在文献中已有用纹理分析方法提取字符的笔划搭配特征进行笔迹鉴别的报道，如文献［2］的线段高阶相关法和文献［6］的游程直方向图法，但这些方法提取的特征都是全局的，笔划方向特征也没有显式表达，因而鉴别能力不够.文献［5，6］的方向指数直方图法(Directional Index Histogram, DIH)显式利用了笔划方向信息，但没有进行频带分解.本文提出的方法同时对字符图像进行方向和频带分解，而且利用了笔划位置信息，相当于一种空间域/空间频域联合表示［7］.
　　信号的多通道分解和表示有很多种方法，常用的如DOG表示［7，8］、Gabor变换和小波变换［9－11］等.DOG表示是一种传统的信号多通道分解方法，通过不同带宽的低通滤波器之差得到带通滤波器，它的不足是没有方向选择性.Gabor变换和小波变换可以同时具有频率和方向选择性，是近年来很受重视的信号分析方法.基于多通道分解或类似思想的信号分析方法已在字符识别、签名验证等领域得到了成功的应用［12，13］，虽然Gabor变换和小波变换的数学基础比较成熟，在计算机视觉和模式识别中也取得了成功的应用，但运算太大.对于字符图像的处理，运算量是可以大大减少的.我们在笔迹鉴别中的多通道分解是采用方向分解与DOG分解相结合的方法.DOG滤波器是各向同性的，不过我们可以在频带分解之前利用笔划的方向性对字符图像进行方向分解，然后再对每个方向的子图像进行频带分解.这样，最后的分解结果具有频带和方向选择性.这种分解方法利用了字符图像的特点，相对于Gabor变换和小波变换而言，大大减少了计算量.
　　图像多通道分解的结果不是尺寸不变的，因此在字符图象的分解之前要进行尺寸归一化.在笔迹鉴别中，字符图象的归一化要求保持形状不变，即水平方向和垂直方向的比例因子相同.归一化后的点阵大小是64×64.
3　字符图像方向分解
　　方向指数直方图法(DIH)［4］是一种利用轮廓点的方向进行模板匹配的识别方法，在字符识别和笔迹鉴别中都得到了成功的应用.DIH只利用了笔划轮廓点信息，这样可以克服笔划厚度对特征值的影响.但是，只利用轮廓点信息得到的局部笔划方向和频谱分布都不太稳定，因此我们需要同时对轮廓点和非轮廓点进行方向分解.字符图像的方向分解过程是：对所有前景点(笔划点)，根据其局部笔划方向赋予一个方向值(水平、左对角、垂直、右对角，分别用0、1、2、3表示)，然后把四个方向的笔划点分别分配到对应的方向子图像中去.
　　轮廓点的分解可以沿用DIH的方法，根据轮廓点与相邻轮廓点的关系赋予方向值，具体方法如下.轮廓点是至少有一个4-邻域点为0的前景点.当轮廓点只有一个4-邻域点为0时(如图1(a)所示)，该点的笔划方向等于为0的4-邻域点方向的垂直方向.当轮廓点有两个4-邻域点为0时，若为0的两个4-邻域点相对(如图1(b)所示)，笔划方向等于它们连线的垂直方向；若为0的两个4-邻域点相邻(如图1(c)所示)，笔划方向等于它们连线的方向.当轮廓点有三个4-邻域点为0时(如图1(d)所示)，该点的笔划方向等于不为0的4-邻域点方向的垂直方向.轮廓点的四个4-邻域点都为0时，可看做是噪声点，不予考虑.


图1　轮廓点邻域结构(X可为1或0)
　　对于非轮廓点(内部点)，其笔划方向的确定是先找出与该点距离最近的背景点，以该背景点与内部点连线方向(量化到四个值)的垂直方向作为笔划方向.寻找内部点的最近背景点的任务可用距离变换来完成，因此计算量是很小的.这里采用的距离变换是符号欧氏距离变换(Signed Euclidean Distance Tranform, SEDT)［14］，它可以给出最近背景点相对当前黑点的相对坐标，从而可以得到最近背景点的位置，由两点之间的相对坐标可以计算连线的方向.为节省篇幅，SEDT的具体方法这里不做介绍.得到每个内部点的最近背景点相对坐标(LX,LY)后，两点间连线的方向角的正切
　　　(1)
得到方向角θ的量化值
　　　(2)
最后，内部点的笔划方向(连线的垂直方向)等于
　　(3)
　　得到所有笔划点的方向后，字符图像f(x,y)方向分解的结果是(k=0,1,2,3对应四个方向)
　　　(4)
4　频带分解：滤波和采样
　　方向分解后，对每个子图像进行低通滤波和带通滤波.低通滤波器采用圆对称的Gauss滤波，其脉冲响应函数是
　　　(5)
滤波过程是图像信号与脉冲响应函数的卷积.Gauss滤波器的频率转移函数为
　　(6)
其中　σu＝1／2πσx.Gauss滤波器的带宽与σu成正比，与尺度σx成反比.由两个不同带宽的低通滤波器相减，可以得到带通滤波器(DOG)
　　　(7)
其中，尺度　σ1＜　σ2，一般满足　σ2=2σ1 或 σ2=σ1［8］.在我们的实验中用了三个不同带宽的低通滤波器对子图像进行滤波，取两个带通信号和一个低通信号(最低频)用于笔迹鉴别.带通信号是对两个低通信号相减得到的.
　　按照图像采样定理［15］，信号的采样频率应大于或等于信号最高频率的2倍.这就是说，对于水平方向和垂直方向的最高频率umax和vmax，采样频率满足
fx≥2umax,　 fy≥2vmax.　　(8)
我们使采样频率等于信号最高频率的2倍.而低频信号的带宽可近似地以低通滤波器的带宽来代替.但是Gauss滤波器是无限冲激响应滤波器(IIR)，因此其带宽的计算也是近似的，是包含信号大部分能量的频带.经过计算，我们发现以σu作为低频信号的带宽比较合适［16］.滤波器的参数与信号的采样周期之间也有一定关系.设采样周期为ts，则采样频率为 fs=1/ts,fs与带宽σu之间存在关系 fs＝2σu，而σu=,因此可以得到低通滤波器的参数
σx=ts/π　　(9)
　　在实验中，三个低通滤波器对应的采样周期分别是8，16和32，由(9)式得到它们的尺度分别是σ1 =2.546,σ2=5.093和σ3=10.186,它们的脉冲响应函数分别表示为 g1(x,y)，g2(x,y)和g3(x,y)，经过低通滤波的图像分别表示为 f1(x,y)， f2(x,y)和f3(x,y).f1(x,y)的采样点是字符图像中8×8个子区域的中心.f2(x,y)的采样点应是4×4个子区域的中心，但由于要计算低通滤波输出之差 f1(x,y)-f2(x,y)，对那些与 f1(x,y)相同的64个采样点同样需要计算f2(x,y)的值. f3(x,y)的采样点应是2×2个子区域的中心，同样也要计算8×8个点的值.
　　考虑字符在k方向上的子图像 f(k)(x,y)，k=0,1,2,3,经过低通滤波分别得到不同频带的低通信号f(k)1(x,y)，f(k)2(x,y)和f(k)3(x,y).对每个方向的信号进行频带分解：
f(k)1b(x,y)＝f(k)1(x,y)－f(k)2(x,y)，　　　(10)
f(k)2b(x,y)＝f(k)2(x,y)－f(k)3(x,y).　　　(11)
f(k)1b(x,y)，f(k)2b(x,y)和f(k)3(x,y)各有8×8个值，对f(k)2b(x,y)进行区域平均得到4×4个采样值，对f(k)3(x,y)进行区域平均得到2×2个采样值.这些值对字符的黑点数归一化(以消除笔划厚度的影响)后作为笔迹鉴别的特征.特征的总维数是4×(64+16+4)=336，高、中、低三个频带分别有256、64和16个值，按顺序排成特征矢量f.
5　特征匹配的距离度量
　　计算两个字符笔迹特征之间的距离，既要考虑单个频带特征的距离，又要将不同频带的距离结合起来.将三个频带的距离结合起来时应考虑不同频带对模式可分性的贡献.但是，对于不同的字符，信号不同频带所占比例相差很大，因而对鉴别所起的作用也很不一样.比如，简单字符低频分量多，鉴别时主要是低频部分起作用，而复杂字符的高频分量多，鉴别时中频和高频部分作用也比较大.因此，在结合不同频带的距离时，只能以频带信号所占比重对距离进行加权.对于两个字符的特征矢量f1和 f2，计算距离度量如(12)式，该距离考虑了不同频带信号能量对鉴别所做贡献的大小，并且是对字符归一化的.
　　　(12)
中频和低频信号的采样值分别乘以倍数4和16，因为它们的采样点数只有高频信号采样点数的1/4和1/16.实验证明，这种距离度量是比较稳定的.
6　实验结果
　　为了对上面介绍的特征字比较方法进行检验，进行了基于单字比较的书写人识别实验.实验的样本是从20个人书写的笔迹文本中挑选出来的重复频率较高的特征字，这样的字有25类.对于每个类别特征字的多个样本，选一个作为参考样本，其余均作为检验样本.将检验样本与20个人的参考样本比较，计算距离度量，按距离从小到大进行排队，找出与检验样本书写特征最相似的书写人(包括前五位候选).单字的笔迹鉴别正确率是有限的，为了检验多个特征字组合的鉴别效果，我们分别结合5个、10个、15个和20个特征字的距离度量进行书写人识别.结合的距离度量等于多个特征字距离的平均值.基于单个字和多个字结合的鉴别结果如表1所示.作为对比，表1还给出了方向指数直方图法(DIH)的实验结果，该结果是用同样的实验过程和样本得到的.
表1　基于单个字和多特征字结合的书写人识别率(%)

方法字数识别率二候选三候选四候选五候选
MCD1
5
10
15
2059.40
95.84
99.84
100
10071.41
98.12
100
100
10078.74
98.88
100
100
10082.94
99.44
100
100
10086.44
99.64
100
100
100
DIH1
5
10
15
2054.87
91.96
99.16
99.72
10068.38
96.80
99.80
100
10075.79
98.36
99.92
100
10080.33
99.16
99.92
100
10083.95
99.60
99.96
100
100

　　DIH是迄今国外文献中介绍的笔迹鉴别方法中效果最好的一种，我们提出的MCD方法得到的结果又比DIH提高了很多，这从表1可以看出.用单个特征字进行书写人识别时，DIH的识别率是54.87%，前五候选正确率83.95%，而MCD的识别率达到了59.40%，前五侯选正确率86.44%.多特征字结合时，MCD的结果也好得多，10个字结合时前二候选正确率就达到了100%，15个字结合时第一候选达100%，而DIH达到同样结果需要多5个特征字.
7　结束语
　　本文提出了一种新的文本依存笔迹鉴别方法，这种方法的基本思想是分别对检验字和参考字的图像进行多通道分解，用分解后子图像的采样值作为笔迹特征，计算特征字之间的距离.字符图像的多通道分解是分方向分解和频带分解两步进行的，计算量较小.距离度量是对不同频带特征距离的组合，而且对不同类别的特征字距离度量是归一化的.基于单特征字和多字结合的书写人识别实验结果表明，这种新方法的鉴别性能是非常好的，识别率明显高于方向指数直方图法.多特征字结合的书写人识别率之高说明这种方法已达到实用水平.
作者简介：刘成林　1967年出生，1989年于武汉大学获学士学位，1992年和1995年分别于北京工业大学和中科院自动化研究所获硕士和博士学位.主要研究领域包括模式识别、人工智能、信号处理、文字识别等.
　　刘迎建　男，1953年出生于江苏南京，1978年进入南京通信工程学院计算机系学习.1982年毕业后到总参通信部工作，1987年被破格录取为中科院自动化所在职博士生.现任中科院自动化所副研究员、文字识别实验室主任、中自汉王科技公司总经理.主要从事手写汉字识别研究和高科技产业工作，曾获中国科学院自然科学一等奖等多项奖励，发表论文20多篇并有多项专利.
　　戴汝为　云南昆明人，1933年生，毕业于北京大学.长期从事自动控制、模式识别、人工智能、智能控制及思维科学的研究.现任中国科学院院士、中科院技术科学学部副主任、国家攀登计划项目首席科学家、国家智能计算机研究开发中心学术委员会主任、国务院学位委员会及国家自然基金委学科评议成员及负责人、中国加拿大环境与资源保护中心专家主任等职，并受聘于清华大学、汕头大学等三十余所高校任教授、兼职教授.长期担任国内外学术杂志主编，已培养硕士生、博士生40余名.近年来在著名科学家钱学森教授的直接指导下，在某些交叉性科学的前沿领域共同进行合作研究.
作者单位：中国科学院自动化研究所　北京　100080
参考文献
［1］　Plamondon R, Lorrete G. Automatic signature verification and writer identification――the state of the art. Pattern Recognition, 1989, 22(2):107―131.
［2］　尺长健，金子博，淀川英司.2次统计量の线分スぺクトル分解にする手书き文字の笔者认识.(日本)电子通信学会论文志，1984，J67-D(7):776-783.
［3］　Naske R D. Writer recognition by prototype related deformation of handprinted chracters, Proc. 6th ICPR, 1982, PP. 819-822.
［4］　Yoshimura I, Yoshimura M. Off-line writer identification using ordinary characters as the object, Pattern Recognition, 1991, 24(9):909-915.
［5］　Impedovo S, et al. An off-line writer identification system based on a syntactic approach, Proc. 1990 IWFHR, pp.53-61.
［6］　Azari B. Handwriting identification by means of run-length measurements, IEEE Trans. SMC, 1977,7(12):878-881.-
［7］　Jacobson L D, Wechsler H.Joint spatial /spatial-frequency representation,Signal Processing, 1988, 14:37-68
［8］　Crowley J L,Stern R M. Fast computation for the difference of low-pass transform, IEEE Trans. PAMI, 1984, 6:212-221.
［9］　Mallat S G. A theory for multiresolution signal decomposition:the wavelet representation,IEEE Trans. PAMI, 1989, 11(7):674-693.
［10］　Mallat S G. Multifrequency channel decompositions of images and wavelet models, IEEE Trans. ASSP, 1989, 37(12):2091-2110.
［11］　Jain A K, Farrokhnia F. Unsupervised texture segmentation using Gabor filters, Pattern Recognition, 1991,24(12):1167-1186.
［12］　Shustorovich A. A subspace projection approach to feature extraction:the twodimensional Gabor tranform for character recognition, Neural Networks, 1994,7(8):1295-1301.
［13］　Qi Y, Hunt B，R. A multiresolution approach to computer verification of handwritten signatures ,IEEE Trans. Image Processing, 1995,4(6):870-874.
［14］　Ye Q-Z.The signed Euclidean distance tramsform and its applications, Proc 9th. ICPR, 1988, 495-499.
［15］　Jain A K. Fundementals of Digital Image Processing, Prentice-Hall, 1989.
［16］　Liu C-L, Hao H-W, Liu Y-J. Handwritten numeral recognition by spatial filtering and neural network. Proc. ICNNSP, Nanjing, 1995.
收稿日期　1995-08-09


