软件学报
JOURNAL OF SOFTWARE
1999年　第10卷　第9期　Vol.10　No.9　1999



相似顺序图用于视频镜头的组织*
白雪生　徐光　史元春
摘要　在对视频进行基于内容检索时,对由分割得到的镜头进行有效的组织是提高检索效率的一种重要手段.在绝大多数情况下,传统的自动组织方法不能给出令人满意的结果,而需要通过人机交互来进行组织.文章提出了相似顺序图的概念,即对镜头代表帧重新排序，使得感官上相近的代表帧在新序列中位置相近,以便于用户的交互组织.文章还提出了相似距离的概念以作为对序列中相近代表帧相似性的度量,并采用了改进的遗传算法来进行求解.文章阐述了相似顺序图、相似距离和求解采用的改进遗传算法的基本思想,并给出了实验结果和分析.
关键词　视频检索,相似距离,相似顺序,相似顺序图,遗传算法.
中图法分类号　TP311
Using Similarity Sequence for Shot Organization in Video Retrieval
BAI Xue-sheng,XU Guang-you,SHI Yuan-chun
(Department of Computer Science and Technology Tsinghua University Beijing 100084)
(National Key Laboratory of Intelligent Technology and Systems Tsinghua University Beijing 100084)
Abstract　Shot organization is very important in content-based video retrieval, but in most cases automatic shot organization methods fail to give satisfactory results, thus human-involved interactive organization is required. In this paper, a new shot organization method called similarity sequence is proposed, which reorders the r-frames of shot and makes similar r-frame appear near each other in the generated sequence, thus provides an effective interactive organizing interface. To compare the performance of different sequences, a distance measure called similarity distance is proposed, upon which a gene algorithm calculating similarity sequence is developed and applied to r-frame sequence reordering in shot organization. Basic ideas and algorithm modules are given in detail, also with experimental results and analysis.
Key words　Video retrieval, similarity distance, similarity order, similarity sequence, gene algorithm.
　　随着数字化时代的到来和多媒体技术的发展,视频信息也摆脱了以模拟信号形式在磁性介质(录像带)上进行存储的时代,而代之以易于计算机处理的数字化存储方式.在信息社会里,每天都有大量的视频信号产生,这些信号的存储和检索也就成为人们需要解决的问题.
　　视频信号的检索要求有别于传统数据库,在多数情况下，人们希望能够根据信号内容来进行检索.在检索视频信号时,由于视频的流特性,需要将其分割为具有独立语义信息的片段――镜头来作为检索的基本单元［1］.但当信号中含有大量镜头时,直接对镜头浏览检索较为困难,往往需要对镜头进行组织并建立更高层的索引结构.目前常用的方法是,对这些镜头先在内容描述空间聚类，再在时间轴上聚类［2］.但基于目前图像理解技术的水平,自动组织的结果往往难以令人满意.相比之下,若能提供一种简便的方法使用户可通过交互更快地完成镜头组织,也就具有更为重要的意义了.
　　在本文中,我们提出了一种新的镜头组织方法――相似顺序图法.与基于聚类的自动组织方法不同,该方法根据镜头的内容描述进行组织后并不给出聚类结果,而是给出一个按镜头内容描述距离远近构成相邻关系的一维序列――相似顺序图.在序列中,内容描述相近的镜头位置相近,内容描述相差较大的镜头位置相距较远.这样,用户通过简单的交互就可以完成正确的镜头组织.
　　为了对不同序列中相近代表帧的相似性进行比较,我们引入了相似距离的概念,从而将相似顺序图的求解转化为一个优化问题.在此基础上,我们采用遗传算法来求解相似顺序图.在遗传算法的求解中,我们除了采用传统的重组和变异算子之外,还提出根据知识的染色体片段迁移来产生新个体的算法,以加快算法的收敛.
　　本文第1节对视频镜头的组织问题作简要的介绍.第2节详细说明相似顺序图的含义、相似距离的定义以及求解相似顺序图的遗传算法的基本思想.第3节给出了相似顺序图的模拟仿真和对实际视频流镜头组织的实验结果.
1　视频镜头的组织问题
1.1　视频流的分割与镜头描述
　　根据视频信号的产生原理和编辑特性可知，一般的视频信号本身是由多段（摄像机从RECORD到STOP期间所获得的）连续视频信号通过拼接编辑而成.在镜头转换处,帧特性会发生改变.通过采用针对此特性而设计的检测算法,可将连续的视频流分割成一组镜头序列.
　　在完成分割后,需要对每个镜头建立内容描述以便于检索.一种有效的方法是，用一幅或多幅图像――代表帧来代表镜头,从而给用户一个直观的、可视化的浏览检索界面.代表帧是一幅能充分反映镜头内容的图像,一般通过选择镜头视频序列中的图像或对视频流进行拼接（mosaic）而得到［3］.
1.2　视频镜头的组织
　　直接对镜头浏览检索仅适用于镜头较少的情况,对于较长或内容丰富的视频信号,分割视频流可能会产生大量的镜头.在这种情况下,若仍对镜头进行浏览检索,将会面对大量代表帧而变得困难,因此,对镜头进行组织并建立高层索引结构就显得十分必要了.
　　镜头组织的常用方法是,对每个镜头根据建立的内容描述先在内容描述空间进行聚类（如对代表帧的差设阈值）,再通过时间轴上的聚类以形成高层组织结构.内容描述一般是通过图像理解技术得到的,但就目前的技术水平而言,建立的镜头内容描述还不能贴切地反映其内容,自动聚类得到的组织结果也往往与人的要求相距甚远.从实用性出发,镜头组织将不可避免地需要人工交互以保证组织的正确性.这样,提供一种方法以便于用户交互地完成镜头组织则具有十分重要的意义.
　　聚类算法的缺点在于分类结果由计算机决定,而分类准则仅是对人的感知的一个近似.针对这一点,我们提出如下思想：对镜头的内容描述（代表帧）重排序形成一个新序列,使得感官意义上相近的代表帧在序列中位置相距较近,相差较多的代表帧的位置相距较远.这样所形成的新序列就提供给用户一个可视化的、易调整的组织界面,用户只需简单的交互就可完成镜头的组织工作.
2　相似顺序图及其求解方法
2.1　相似距离与相似顺序图
　　 从第1节的分析可知,问题实质上是对镜头序列重排，使内容描述相近的镜头在新序列中位置相近.为便于对序列中相近代表帧的相似性进行定量比较,我们引入如下的相似距离概念.
　　定义1（相似距离）. 已知空间点集{Pi,i=0,1,...,N},根据给定距离定义,对一条遍历非封闭路径Pi0,Pi1,...,PiN,路径长度L1=|Pil-1Pil|称为该路径的一阶相似距离.显然,一阶相似距离仅考虑了序列中相邻点（1邻域）的距离.进一步地,考虑了序列中n邻域点距离的度量，称为该路径的n阶相似距离,其中Wm（m=1,2,...,n）分别为对应于序列中位置相差m的点间距离的权重.
　　在引入相似距离定义后,我们可用一个序列相应路径的n阶相似距离来作为序列中相邻代表帧相似程度的度量.这样,序列重排问题就可形式化地描述如下.
　　定义2（最优相似顺序,最优相似顺序图）. 已知内容描述空间中的点集{Pi,i=0,1,...,N},根据给定相似距离定义,计算一条遍历非封闭路径Pi0Pi1...Pin,使得相应的n阶相似距离最短.顺序i0i1...in称为此点集在此相似距离定义下的最优相似顺序,对应的代表帧序列图称为最优相似顺序图.
　　最优相似顺序的计算是一个比较复杂的问题.但由于镜头组织的目的是提供一个方便用户交互组织的界面,因而并不要求得到的必须是最优相似顺序,往往次优相似顺序（次短路径对应的顺序）就已给出了相当好的组织结果.基于这个原因,我们将在下面的讨论中用相似顺序和相似顺序图来笼统地称呼所得到的排列顺序和代表帧序列图.
2.2　求取相似顺序图遗传算法的基本思想
　　通过上述分析,序列重排转化为一个优化问题.我们采用遗传算法来进行求解,每个解直接用其路径对应的序列来表示.对于群体中新个体的产生方法,我们除了采用传统的重组和杂交之外,还提出了根据知识的染色体片段迁移的方法.下面我们将对这3种方法进行详细说明.
　　（1） 重组
　　本算法引入了两种重组方式.
　　(a) 定位重组 从染色体1中随机选择一些片段（点数和位置随机）,复制到其子染色体的对应位置.从染色体2中去除已选中的点,将剩余点按其在染色体2中的顺序依次填入子染色体中.图1给出了片段中包含3点（B,E,F）的定位重组示意图.

图1　定位重组示意图
　　(b) 定位连续重组　从染色体1中随机选择一连续片段（长度和起始位置随机）,复制到其子染色体的对应位置.从染色体2中去除已选中的点,将剩余点按其在染色体2中的顺序依次填入子染色体中.图2显示了片段DEFG的定位连续重组情形.

图2　定位连续重组示意图
　　（2） 变异
　　变异包括以下两种方式.
　　(a) 基因片段镜像　从染色体中随机选择一连续片段（长度和起始位置随机）,镜像后复制到子染色体对应位置.其他基因不变,复制到子染色体中.图3显示了片段DEF的镜像变异.

图3　基因片段镜像变异示意图
　　(b) 染色体移位　将整个染色体循环移位一个随机长度,从而得到子染色体.图4给出了长度为2的染色体的移位变异.

图4　染色体移位变异示意图
　　（3） 根据知识的染色体片段迁移
　　在重组和变异中,新个体的产生是随机的,性能较优的片段也是随机产生并在群体中迁移的.为了加快算法的收敛速度,我们提出了根据知识进行染色体片段迁移的新个体产生方法.其基本思想是,随机选择点P和长度n,将点P与距其最近的n-1个点按下面的算法1形成一个连续片段.对某一染色体,随机选择一个起始位置,将此片段复制到其子染色体中,并将父染色体中不在此片段内的点按其原有顺序依次填入子染色体中.图5显示了染色体片段迁移的情形,其中片段ADG为根据算法1得到的性能较优（即相互间距离较小）的迁移片段.

图5　根据知识的染色体片段迁移变异示意图
　　给定点P和长度n,连续片段的生成算法如下.
　　算法1（求取含指定点具有指定长度的迁移片段）.
　　输入：空间点集{Pi,i=0,1,...,N},指定点Pm,指定长度L
　　输出：含点Pm的长度为l的连续片段
　　算法：
　　（1） 建立一个2*L-1大小的缓冲区,将点Pm填入L处,并初始化spos=L,epos=L+1.
　　（2） 在点集剩余点中选择距Pm最近的点,记为Q.分别计算点Q与缓冲区中spos和epos-1处点的距离,并将其记为dist1和dist2.
　　（3） 若dist1＜dist2,将点Q填入spos-1处,同时,spos减1.转（5）.
　　（4） 将点Q填入epos处,同时,epos加1.
　　（5） 若epos-spos小于指定长度l,转(2).否则,将从spos开始至epos的片段返回.
2.3　求取相似顺序图的遗传算法
　　根据上节提出的新个体产生方式,我们实现了求取相似顺序图的遗传算法.在算法中,每个个体的评价值等于群体中其他个体相似距离之和.对于重组个体的选择,我们采用了轮盘选择策略(roulette wheel selection scheme).群体的更新采用了稳定更新（steady delete）方式.具体算法如下.
　　算法2（求取最小n阶相似距离路径的遗传算法）.
　　输入：空间点集{Pi,i=0,1,...,n},相似距离定义,群体大小s及循环次数
　　输出：具有最小或次小n阶相似距离的路径
　　算法：
　　（1） 通过随机产生个体来初始化群体,并对每个个体进行评价.
　　（2） 按概率选择重组个体,根据随机长度和位置对群体中其他个体进行定位重组.
　　（3） 按概率选择重组个体,根据随机长度和起始位置对群体中其他个体进行定位顺序重组.
　　（4） 随机选择片段长度和起始位置,对群体中所有个体进行基因片段镜像变异.
　　（5） 随机选择移位长度,对群体中所有个体进行染色体移位变异.
　　（6） 随机选择点和长度,利用算法1生成迁移片段.据此片段和随机起始位置,对群体中所有个体进行片段迁移.
　　（7） 对生成的所有子个体进行评价,并将其加入群体中.
　　（8） 根据相似距离大小对群体中所有个体重新排序,去除重复个体,并仅保留前s个个体.
　　（9） 若未达到循环次数,转（2）.否则,将具有最小相似长度的个体返回,即为所求路径.
3　算法实现与分析
　　利用本文中提出的相似顺序计算方法,我们对随机点集进行了仿真计算.图6给出了对二维情况下由3个随机点集得到的最小相似距离路径.其中相似距离为三阶距离,权重均为1.点集中有30个随机点,染色体群体大小选为20,循环2 000次取具有最小相似距离的路径作为结果.

图6　对3个二维随机点集求取最小距离相似路径的仿真结果
　　利用此算法,我们对实际视频信号分割得到的镜头序列进行了组织.实验结果如图7所示.

（a） 原始代表帧序列

（b） 得到的相似顺序图
图7　视频镜头进行组织
　　图7(a)为利用视频分割算法得到的镜头代表帧序列,各代表帧按其出现的先后次序排列.利用在本文中提出的算法,我们对其进行了重排.其中,我们采用对直流DC图像计算相关差（即代表帧对应点RGB差之和）作为代表帧间距离的度量,相似距离仍为三阶,各阶对应的权重均为1.0，群体大小仍为20,循环1 000次.图7(b)为重排后得到的相似顺序图.可见,在此序列中，感官上相似的代表帧在序列中排到了一起,从而为用户提供了一个极好的交互组织界面.序列中唯一与感知不符的排列是图7(a)中的2、4帧未在图7(b)中排在相邻位置,但这在很大程度上是由于采用了相关差作为距离度量的缘故.由于这两帧间运动的存在,导致了帧间具有较大的相关差,即具有较大的距离.采用对运动鲁棒的度量（如颜色直方图差）可以避免这个问题.除此之外,相似顺序图都给出了令人满意的结果.
*　本文研究得到国家863高科技项目基金和国家“211”学科建设项目基金资助.
本文通讯联系人：白雪生，北京 100084,清华大学计算机科学与技术系信息教研组
作者简介：白雪生,1972年生,博士生,主要研究领域为基于内容检索,计算机视觉.
　　　　　徐光,1940年生,教授,博士生导师,主要研究领域为计算机视觉,多媒体技术.
　　　　　史元春,女,1967年生,在职博士生,副教授，主要研究领域为计算机支持的协同工作,多媒体技术.
作者单位：白雪生，徐光，史元春（清华大学计算机科学与技术系　北京 100084)
　　　　　白雪生，徐光，史元春(清华大学智能技术与系统国家重点实验室　北京 100084）
参考文献：
［1］Zhang H J, Kankanhalli A, Smoliar S W. Automatic partitioning of animate video. Technical Report, Institute of Systems Science, National University of Singapore, 1992
［2］Yeung M M, Yeo B L, Liu B. Extracting story units from long programs for video browsing and navigation. In:IEEE Computer Society ed. Proceedings of the International Conference on Multimedia Computing and Systems. Los Alamitos:IEEE Computer Society Press, 1996. 291～305
［3］Irani M, Anandan P, Hsu S. Mosaic based representations of video sequences and their applications. In:IEEE Computer Society ed. Proceedings of the 5th International Conference on Computer Vision. Los Alamitos:IEEE Computer Society Press, 1995. 605～611
收稿日期：1998-06-16，修改日期：1998-09-17
