软件学报
JOURNAL OF SOFTWARE
1999年　第10卷　第9期　Vol.10　No.9　1999



数据挖掘在音高变化规律学习中的应用*
朱廷劭　高文　Charles X. Ling　高正其　李锦涛
摘要　音高变化规律对合成高自然度的语音非常重要.为了提取音高即基频的变化规律，设计实现了数据挖掘系统SpeechDM，经过训练取得了较好的学习结果.该文介绍了国内进行的关于音高变化规则的研究情况以及数据挖掘技术，给出SpeechDM的系统结构，并介绍其主要模块，对实验结果进行了分析.
关键词　语音合成,音高变化,数据挖掘,神经网络,规则提取.
中图法分类号　TP311
Data Mining for Mandarin Tone Variation Patterns Learning
ZHU Ting-shao,GAO Wen,GAO Zheng-qi,LI Jin-tao
(Institute of Computing Technology The Chinese Academy of Sciences Beijing 100080)
Charles X. Ling
(Department of Computer Science University of Western Ontario Ontario Canada)
Abstract　The tone variation patterns is very important for speech synthesis. To extract more accurate patterns, a prototype system called SpeechDM has been implemented for learning. In this paper, the relative research and data mining are specified at first, the modules are introduced in detail, and some experimental results are also given.
Key words　Speech synthesis, tone variation, data mining, neural network, patterns extraction.
　　语音合成技术是计算机智能接口的重要组成部分，为了合成高自然度、高清晰度的语音，必须有完善的韵律规则，而且韵律规则的总结应该采用定量的方法.汉语的韵律规则主要表现在音节的时长分布、音高的变化、能量的变化及适当的停顿等几个方面，其中音高和音长的变化对自然度的影响最为显著［1］，而音高的变化主要体现在语音基频的变化上.
　　吴宗济曾对汉语的两字组的声调模式做过很多研究.他认为两字组中各种声调两两搭配有15种模式［2］.林茂灿通过对普通话两字组正常重音的声学分析，得到了普通话两字组中前后音节的时长和音高的关系［3］.初敏通过对一个女发音人的音高曲线分析,统计归纳出14种单音节的音高模式和22种两字词声调模式，其中单音节的音高模式包括阴平和上声的声调模式各两种、阳平和轻声的声调模式各3种、去声的声调模式4种［1］.
　　由上面的结果可以看出，目前的音高变化规律大多是根据语言学的研究得出的一些定性的描述，这在使用计算机进行语音合成时只能提供一些参考，很难在合成过程中准确地使用这些规则.此外，即使采用了定量描述，由于这些规则是由人工进行统计得到的，也不能保证全面地描述音高变化规则，而且对这些规则的维护和完善也很困难.
　　数据库中的知识发现KDD(knowledge discovery in database)是近年来随着人工智能和数据库技术的发展而出现的一门新兴的技术，它是从大量数据中提取出可信的、新颖的、有效的，并能被人理解的模式的高级处理过程［4］.数据挖掘是KDD中最重要的处理阶段，因此人们往往不加区别地使用两者［5］.
　　由人工提取韵律规则很难对大批量数据进行处理，因而所得到的韵律规则不够全面.数据挖掘利用机器学习的方法从大量数据中提取有用的知识，为此，我们进行了将数据挖掘应用于普通话基频变化规律的研究，并设计实现了一个原型系统――SpeechDM.普通话中两字词出现的概率最高［5］，我们通过对两字词中音节的基频变化规律的学习，取得了较好的实验结果.
1　SpeechDM的系统结构
　　SpeechDM是一个面向语音数据处理的数据挖掘系统，它主要由数据预处理、数据管理、训练管理、数据挖掘及结果输出等模块组成.图1给出了SpeechDM的系统结构.

图1　SpeedDM系统结构
　　为了能够对数据挖掘的各个阶段进行控制，SpeechDM提供了交互界面来对数据挖掘的各个过程进行控制.利用这些交互界面可以调整学习和训练的各种参数，设定针对某种学习任务的数据集定义描述等.
　　SpeechDM通过数据集实现了对数据的管理.数据集是对为了完成某项学习任务而需从数据库中提取出数据的描述.在系统中，所有训练任务均作为线程存在，训练管理对它们进行简单的调度，如暂停、继续或停止等等.利用数据集管理和训练管理可以实现反复学习以取得更好的学习结果.
　　数据预处理主要是对语音数据进行参数提取，求得语音数据的基频值，进行规整，使其适合于后面的学习算法的使用.数据挖掘模块是利用神经网络对预处理后的数据进行训练或测试.输出模块主要是将测试的结果以图形化方式显示给用户.
2　数据预处理
　　为了学习汉语语音基频变化规律，必须首先得到语音的基频值.数据预处理主要是通过对语音数据的处理得到较为精确的基频值，并进行时间和数值规整.
　　语音数据库采用的是语音合成语料库CoSS-1，它是国家863支持的项目，由清华大学计算机科学与技术系、中国科学院声学研究所和社会科学院语言研究所共同完成的.CoSS-1包括1 268个有调音节和640个两字词，尽量涵盖了音段和超音段的音联现象，并且同步录制语音声压波形和声门波阻抗波形.
　　采用时域或频域方法都不能得到较为准确的基音周期［6］，而准确的基音周期对后续的训练和测试非常重要.CoSS-1中的声门波阻抗波形是将说话人声带处的振动波形记录下来，与语音波形比较起来，其周期性更明显，可以很容易地标出每个基音周期.我们通过对声门波的基音标注，得到非常准确的基音周期值.
　　经过标注后得到的基频值的变化范围很大，为了便于后续处理，必须对其进行标准化处理.由于不同音节的基音序列的长短相差很大，这些基频值序列也应该进行时间规整，SpeechDM采用了下面的规整算法.
　　输入：float *pitch, int pitchlen;　/*需规整的基频值串和基音周期数*/
　　输出：float *twpitch, int twlen;　/*规整后的基频值和规整长度*/
　　对0-(twlen-1)中的每个值i,
　　　　求出在0-(pitchlen-1)中的相对位置loc=pitchlen*i/twlen;
　　　　若loc为整数点，则twlen［i］=pitch［loc］;
　　　　否则，取得在loc周围的4个整数点;
　　　　利用插值方法求得loc对应的值value,twlen［i］=value.
3　数据挖掘
　　语音的基频值变化在不同语言环境下,即不同声调组合及声韵母组合下的变化是不同的.我们可将语言环境看做是影响音节语音基频发生变化的因素，单音节的正常发音在不同情况下发生了不同的变化，从而形成多种音变现象.基于上面的思路，我们采用神经网络，通过学习孤立音节及其在词中的映射得到基频的变化规律.
　　误差逆传播网络(back propagation,简称BP)是一种多层结构的映射网络，是目前应用最广泛的一种神经网络模型［7］.SpeechDM中使用误差逆传播网络进行基频变化规律的学习.网络分为3层：输入层、隐含层和输出层，各层之间全互连.网络的学习率取0.25，采用Sigmoid函数作为输出函数.
　　目前，SpeechDM主要是学习组成两字词的各音节的基频变化规律，学习对象是两字词中的各音节发音及该音节的单独发音数据.为便于网络学习，使用两个神经网络分别学习第1个和第2个音节的基频变化规律.
　　通过前面的预处理，可以得到音节单独发音时的基频值和该音节在两字词中发音的基频值.对每个两字词，提取出其中每个音节的语言环境参数，目前，我们主要使用了声调信息作为语言环境参数.输入节点包括音节单独发音时的基频值及前后声调，由于汉语共有4种声调，在输入层使用8个节点表示前后音节的声调，其中前4个节点表示第1个音节的声调，后4个节点表示第2个音节的声调，如：01001000表示第1个音节为二声，第2个音节的声调为一声.
　　输出节点为该音节在两字词中发音的基频值，这些基频值首先是经过对两字词进行切分、基频标注、时间规整和标准化后得到的数据.输入节点和输出节点的个数随规整的长度而不同.在SpeechDM中,取所有音节单独发音的基音周期数的平均值作为规整的长度，两字词中所有第1个音节的基音周期数或第2个音节的基音周期的平均值作为输出节点数.
　　语音数据库提供的数据无法直接进行训练和测试，必须首先对原始语音数据进行预处理，提取出特征参数，在此基础上进行训练和测试.
　　为了得到训练和测试所需数据，首先对所有单音节和两字词进行切分和基频标注，得到基频值,求出规整长度，即求得所有音节单独发音时的基音周期数的平均值以及两字词中第1个音节和第2个音节的基音周期数的各自平均值,根据规整长度，对数据进行规整，规整后的数据可以用于训练和测试.
4　实验结果
　　SpeechDM的输出主要是将实际发音的基频值串与学习后得到的基频值串进行比较，将测试结果以图形方式显示出来.下面给出一次测试的结果，测试例共5组.在图2中，左面一行是词的第1个音节的测试结果，右面一行显示的是第2个音节的测试结果，其中每一个结果在显示中同时都给出了孤立音节的基频曲线、该音节在词中发音时的基频曲线以及测试结果的基频曲线.

古板(gu3ban3)

启齿(qi3chi3)

尾花(wei3hua1)

可怜(ke3lian2)

火化(huo3hua4)
图2　孤立音节、词中发音及测试结果的基频值
　　图2给出了5对共10个音节的测试结果，从实验结果可以看出，测试结果与实际数值非常接近.使用数据挖掘可以得到音高变化规律的定量描述，测试的输出结果就是需要的基频序列，可以直接用于语音合成.在初敏使用的合成系统中，必须利用音高规则库中的规则对语音进行变换才能得到所需要的基频序列.经过学习后的神经网络占用空间小，而且在使用时可以很快得到所需要的基频序列，从而加快语音合成的速度.数据挖掘中的规则提取是由学习算法完成的，这使得通过对大规模语音数据的学习以得到较为全面的音高变化规则成为可能,并且通过反复的训练比较可以得到更好的学习结果.
　　SpeechDM是面向语音数据处理而设计的一个数据挖掘系统，它基本上实现了数据库中知识发现的主要处理步骤，取得了较好的学习结果.进一步的工作包括音长变化规律的学习及多字词中的基频变化规律的学习.我们希望通过利用数据挖掘，得到较为全面的汉语语音的韵律规律，以提高汉语合成语音的自然度和连续度.
*　本文研究得到国家自然科学基金和中国科学院百人工程项目基金资助.
本文通讯联系人：朱廷劭，北京100080,中国科学院计算技术研究所
作者简介：朱廷劭，1971年生，博士生，主要研究领域为数据库及其应用，数据挖掘，Internet，语音合成.
　　　　　高文，1956年生，博士，教授，博士生导师，主要研究领域为人工智能，模式识别与图像处理，多媒体技术.
　　　　　Charles X. Ling，1956年生，博士，副教授，博士生导师，主要研究领域为机器学习，数据挖掘及其应用.
　　　　　高正其，1971年生，助理工程师，主要研究领域为计算机应用，数据挖掘，语音合成.
　　　　　李锦涛，1962年生，博士，研究员，主要研究领域为多媒体技术，虚拟现实技术.
作者单位：朱廷劭，高文，高正其，李锦涛（中国科学院计算技术研究所 北京 100080）
　　　　　Charles X. Ling（Western Ontario大学计算机科学系　Ontario　加拿大）
参考文献：
［1］初敏.高清晰度高自然度汉语文语转换系统的研究［博士学位论文］.中国科学院声学研究所,1995
(Chu Min. Research on Chinese TTS system with high intelligibility and naturalness ［Ph.D. Thesis］. Institute of Acoustics, The Chinese Academy of Sciences, 1995)
［2］吴宗济.普通话语句中的声调变化.中国语文,1982,6:439～449
(Wu Zong-ji. The tone variation in mandarin. Chinese Grammar, 1982,6:439～449)
［3］林茂灿,颜景助,孙国华.北京话两字组正常重音的初步实验.方言,1984,1
(Lin Mao-can, Yan Jing-zhu, Sun guo-hua. Experiment of the normal accent in Beijing dialect. Dialect, 1984,1)
［4］Usama M Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth et al. Adavance in Knowledge Discovery and Data Mining. Cambridge, MA: AAAI/MIT Press, 1996
［5］John George H. Enhancements to the data mining process ［Ph.D. Thesis］. Stanford University, 1997
［6］杨行峻,迟惠生等.语音信号数字处理.北京：电子工业出版社,1990
(Yang Xing-jun, Chi Hui-sheng et al. Speech Signal Digital Process. Beijing: Publishing House of Electronics Industry, 1990)
［7］王伟.人工神经网络原理――入门与应用.北京：北京航空航天大学出版社,1995
(Wang Wei. Principle of Artificial Neural Network――Rudiment and Implement. Beijing: Beijing University of Aeronautics and Astronautics Press, 1995)
收稿日期：1998-05-15，修改日期：1998-10-05
