计算机工程
COMPUTER ENGINEERING
1999年 第25卷 第8期 Vol.25 No.8 1999



音频信息检索
李恒峰，李国辉
摘要：回顾了国内外现行的音频信息检索方法，分析了常见的音频数据处理技术，包括语音识别技术和基于内容的音频检索技术，提出了基于内容的音频检索的一般方法，并指出了相应研究中的关键问题。
关键词：音频；信息检索；语音识别；基于内容检索
Audio Information Retrieval
Li Hengfeng,Li Guohui
(Dept.of System Engineering,National University of Defense Technology,Changsha 410073)
【Abstract】This paper overviewes the main stream of abroad audio ingormation retrieval method,analyzes the general audio data transact technology,such as speech recognition and content-based audio retrieval,brings forward the general method of content-based audio retrieval,and puts out some key problem of audio research.
【Key words】Audio;Information retrieval;Speech recognition;Content based retrieval
　　音频信息检索是数字化信息检索的迫切需要。大量的网络数据中包含多媒体数据，如视频、图象和音频，人们已经不再满足于通过一般的属性 ( 如名字、年月、价格等 ) 进行检索，对图象和视频，可以采用主色调、纹理等视觉特征来检索；同样，对于音频，需要通过听觉特征进行检索。基于文本检索的常规信息检索技术已经无法满足对大量音频数据的检索需要，所以音频信息检索技术已经成为信息检索技术的研究重点之一。 
　　声音媒体是除视觉媒体外最重要的媒体，占有总信息量的 20 ％左右，语音和音乐是最常见的声音媒体。对声音进行数字化处理得到的结果称为音频。 
　　声音其实是一种正弦波，故具有振幅、频率、相位等特性。但由于声音是我们所能感觉到的媒体，因此声音具有物理和心理两种属性，并且是相互关联的。物理属性与波形有关，包括声强、频率、声波复合、谐波结构等属性。心理属性则与我们的感觉有关，且因人而异，包括强度、音调、音色、音量、和谐等属性。 
1 音频预处理 
　　音频有别于一般数据，本身是一种正弦波，检索前需要进行预处理或进行媒体转换，以提取音频特征或文本描述。 
1.1 语音识别 
　　语音是与文字一一对应的，区别只在于语言不同，文字不同，所以如果把语音识别出来变成文字，就可以借助于常规的信息检索技术进行检索处理，或者进行其它操作，如人机交互，这就是语音识别的初衷，语音识别技术 (Automatic Speech Recognition-ASR) 是音频处理的重点研究领域。对于基于内容的音频信息检索，则首先应提取数据的音频特征，而后对音频特征进行匹配，从而进行音频数据的分类和检索。 
　　语音识别技术已经从实验室走出来成为一种比较实用的技术。 IBM 的 ViaVoice 和 Lernout&Hauspie 的 Voice Express 是两种比较成功的系统，其中 ViaVoice 将成为国内计算机的标准配置。 
　　实际上所有实用的 ASR 系统都是基于隐马尔克夫模型 (HMM) 的。隐马尔克夫模型是语音事件如单词的统计表现，模型参数由大量带标识的语音数据训练生成。给定 HMM 训练集，有很多高效的算法可以找出最可能的模型序列。这种方法不但对于大词汇量的识别系统，而且对关键词识别系统也很有效。 
　　(1) 关键词识别 
　　关键词识别是指在给定音频数据中查询少量特定的单词或短语。它可以通过对需要的关键词和填充模型进行 HMM 训练，以使其与每一个单词匹配。相对于大词汇量识别系统，关键词识别系统既精确，计算量又小，而且对于实际的语音数据有较大的弹性。对于关键词识别技术，比较典型的测试是 SWITCHBOARD 集，它收藏了自然生成的电话对话。由于对话大都是关于某一主题的，因此有些研究组正试图自动检测某一对话的主题。来自 BBN 的研究人员曾综合大词汇量识别与关键词识别技术以解决主题确认问题。 
　　(2) 大词汇量语音识别 
　　不同于关键词识别，大词汇量识别将大量的语音数据转换成文本形式。然而，单纯对所有单词建立 HMM 模型的大词汇量识别有一些缺点：如果单词不在语音词典中，将无法识别；需要建立语言模型，而且要有大量的文本训练集。有鉴于此，一般采用 " 子单词 " 方法，将单词分段，而不是对数以千万计的单词建立 HMM 模型。这样只需要用到几百个基于音节的子单词模型。将几个子单词和在一起就可构成完整的单词。比如， "right" 就可以由 3 个子单词 "R AY T" 相加而成。另外，针对不同语言的特点，需要研究各单词的出现概率。 ASR 的一个优点是，大多数需要的音频数据是已知的，故可以离线操作。然而 ASR 系统的一个很大的缺点在于它的准确性较低。对于特定的领域，即使是最好的连续语音识别系统也只能达到 90 ％左右的准确率。而对现实的任务如电话对话或新闻广播，只能有 50 ％到 60 ％的准确率。 
1.2 说话者检测 
　　说话者检测是音频处理的重要领域，可用以进行语音数据的对齐和视音频的聚类。相对于语音识别而言，说话者区别是比较简单而实用的技术。即不管说的是什么，而只注意是谁说的。应用说话者识别进行多媒体数据流的分段是一个很有前途的领域。如果分析处理能在毫秒级足够准确的话，就可用来在音频或视频等多媒体数据中检测说话者的改变。有位学者 Wyse 开发了一种基于倒频谱差异的方法：该方法比较特征空间中相似区域的差别，以消除同一说话者内部的改变。当此差异大于适当阀值时，即可认定出现了新的说话者或话音有显著变化。此方法可与视频处理方法相结合，迅速有效地从音频与视频流中提取信息。 
1.3 音频特征与提取 
　　在进行音频检索之前，首先要提取音频特征。音频有其自身的特点和属性。在音频数据中提取特征有两种方法，一是提取感性特征如音高，响度，二是计算非感性属性或称物理特性，如对数倒频谱系数，线性预测系数。特征提取多在频域进行，故先对音频数据进行加窗处理，加窗大小在 10 ～ 30ms 左右，然后对加窗后的数据即每一帧作离散傅立叶变换 (DFT) ，实际上常用快速傅立叶变换 (FFT) ，最后应用不同算法计算相应的特征。这里介绍几个常见的特征。 
　　响度：这是较常用的感性属性特征。计算应在时域进行，一般是对每帧数据取平方和，然后计算其平方根。 ( 此方法与人耳的频率响应无关 ) 。 
　　音调：这是与频率有关的感性属性。对此有很多高效的算法，这里就不赘述了。 
　　过零率：两个相邻取样值有不同符号时，便出现 " 过零 " 现象。单位时间过零的次数称为 " 过零率 " 。 过零率应用极广，尤其在语音识别方面。过零率高的区段对应于清音或无声区，因此时噪声相对较高，过零率低的区段对应于浊音。可见，过零率是区别清音与浊音，有声与无声的重要标志。 
　　Mel- 伸缩对数倒频谱系数 (Mel-scaled frequency Cepstral coefficients-MFCCs) ：这是音频数据经 Z －变换和对数处理后得出的结果。一般对每帧数据取 12 个系数，可以很好地表现每帧的特征。其处理过程如下： 
　　线性预测系数 (Line prediction coefficients-LPC) ： LPC 无论在音频压缩编码领域还是在音频信息计算方面均有极广的应用。在实用中有很多线性预测方法，可以极大的提高线性预测的准确度和效率。 

图1 Mel-伸缩对数倒频谱系数
2 基于内容的音频分析 
　　自然界的声音极其广泛，如音乐声，风雨声，动物叫声，机器轰鸣声等等，要从数以千万计的音频数据中提取所需的信息，常规的基于文本检索方法是行不通的，这就需要新的技术。图象检索要提取颜色 、纹理等特征，视频检索要提取关键帧特征，同样，只有从广泛的音频数据中提取特征信息，才能对不同音频数据进行分类和检索，这就要用到基于内容检索 (Content Based Retrieval-CBR) 的方法。 
2.1 音频检索系统的基本结构 
　　音频检索系统基本结构如图 2 所示： 

图2 音频检索系统结构示意图
　　如图 2 所示，音频检索第一步是先建立数据库：对音频数据进行特征提取，将音频数据装入数据库的原始音频库部分，将特征装入特征库部分，通过特征对音频数据聚类，将聚类信息装入聚类参数库部分。数据库建立以后就可以进行音频信息检索。音频检索主要采用示例查询 (Query by Example-QBE) 方式，用户通过查询界面确定样本并设定属性值，然后提交查询，系统对样本提取特征，结合属性值确定查询特征矢量，而后检索引擎对特征矢量与聚类参数集匹配，按相关性从大到小的顺序在特征库和原始音频库中一定数量的相应数据，并通过查询接口返回给用户。其中，原始音频库存放的是音频数据，特征库存放音频数据的特征，按记录存放，聚类参数库是对音频特征进行聚类所得的参数集，包括比如特征矢量空间的码本，阈值等信息。 
2.2 音频分类与检索方法 
　　在音频检索应用中，常需要对音频数据分类。音频分类和聚类是两个不同的概念：聚类指特征空间的分割，根据音频特征和需要将样本分成个数不定的类；而分类则是判断一个给定样本所在的类别。音频分类一般采用相似性检索的方法，即计算音频特征的距离。距离可采用欧几理德距离，对称相对熵，或其它相应的距离定义。 
　　比较常见的聚类方法是采用平均矢量量化方法。 Muscle Fish 公司即应用此种方法，先将带标识的数据加窗处理，对每帧数据提取音高，响度，亮度，带宽属性，而后对属性序列计算其均值，方差和自相关值，加上能量共 13 个特征，最后采用平均矢量量化的方法将其分配到矢量空间的特定区域中。要确定某数据的类别，计算其与各码本间的距离，距离最小的码本所在的类即为所求。检索一个数据则提取矢量空间中与它最近的 N 个点。 
　　还有一种基于树型结构的方法：对带标识的数据加窗后计算其特征，而后采用基于最大相互信息 (Maximum Mutual Information-MMI) 树的方法将矢量空间分成 L 个不相交的区域，然后根据各类在区域中的分布生成模板。计算欲检测数据与模板间的距离即可进行分类和检索。 
2.3 查询接口 
　　对音频进行检索，可有多种检索方式。 
　　(1) 基本属性检索： 这与普通的文本检索基本相同，查找诸如文件名，大小，生成时间等一般属性，或者是取样率，声道数等音频属性。 
　　(2) 特征值检索： 这是较高层次的检索，比如查找能量大于某值的音频数据。 
　　(3) 示例检索 (QBE) ： 这是最高层次的检索方法，也最常见。比如给定一段 " 雨声 " 数据，查找与 " 雨声 " 相似的音频数据。图 3 给出一个比较一般化的查询接口。 

图3 音频检索界面
2.4 数据库组织与索引 
　　音频数据库可以综合关系数据库和多媒体数据库的优点，在高层采用如上所述的方法，底层采用已很成熟的关系数据库，比如 DB2 或 Oracle ，这样可以借助其完善的数据库组织，事务处理和高效的底层关系检索功能，中间可以应用 ODBC 接口，构成一个完整的系统。 
　　至于数据库记录，主要包含以下内容： 
　　一般属性：比如文件名，文件格式，大小，日期等； 
　　音频属性：比如声道数，取样率，持续时间等； 
　　特征属性：比如声强，能量，带宽或 MFCCs 系数等。 
　　实际应用时，常加入索引，聚簇以提高检索效率。由于音频特征比较多，常采用 B* 树索引结构。 
3 结束语 
　　本文主要回顾了现行的音频信息检索方法，介绍了国内外音频领域的研究重点，分析了常见的音频数据处理技术，包括语音识别技术和基于内容的音频检索技术，提出了基于内容的音频检索的一般方法，指出了相应研究中的关键问题。 
　　音频技术已研究了 20 多年，但实用的搜索引擎还需时日。 AOD ， VOD ，音频解析等系统的实用与推广，都需要高效的音频信息检索技术。其中一个重要的研究方向是 Web 上的音频搜索引擎。我们已经接触了很多强有力的 Web 搜索引擎，如 Yahoo, AltaVista, 但比较实用的音频搜索引擎则是凤毛麟角。 Internet 上的多媒体流非常巨大，要有一些高效的搜索引擎从浩如烟海的数据中找出需要的信息。另外，语音识别的速度和准确率要提高，音频流的分析，音频数据的分类和整理都是迫切要研究的课题。 
作者单位：国防科技大学系统工程与数学系，长沙 410073
参考文献 
1 胡晓峰，李国辉 . 多媒体系统 . 北京：人民邮电出版社 ,1997-08 
2 Rabiner L R.A Tutorial on Markov Models and Selected Applica- tions in Speech Recognition. Proc IEEE,1989,72(2) ： 257-286 
3 Wold E, Blum T, Keslar D. Content-based Classification, Search, and Retrieval of Audio. IEEE Multimedia,fall, 1996 ： 27-36 
4 Wicox L, Chen F. Segmentation of Speech Using Speaker Identi- fication, Proc ICASSP'94 
