当前位置: 首页 > 专利查询>复旦大学专利>正文

一种用于视频片段快速相似查询的k近邻方法技术

技术编号:2868658 阅读:255 留言:0更新日期:2012-04-11 18:40
一种用于视频片段快速相似查询的k近邻检索方法,其特征在于基本步骤如下:(1)首先为视频数据库中每一幅关键帧图象所对应的高维特征矢量建立索引结构,即Ordered  VA-File;(2)对于用户提交的查询视频片段中的每一帧,利用Ordered  VA-File找出它们的T×k个近邻,其中T为查询控制参数;(3)将所有查询帧的T×k近邻按照它们在视频数据库中出现的先后位置关系排序,如果视频数据库中的某一帧同时属于n个查询帧的T×k近邻,记录下这些查询帧的帧号;排序完成以后得到二元有序序列〈d↓[0],s↓[0]〉,〈d↓[1],s↓[1]〉……〈d↓[n],s↓[n]〉,其中d↓[i]表示该帧在数据库中的位置,s↓[i]表示在查询片段中和d↓[i]相似的所有帧的帧号;(4)根据一定的算法对该二元有序序列进行扫描,根据用户定义的查询结果的最大长度W↓[max]和最小长度W↓[min],计算所有可能为k近邻的片段和待查询视频片段之间的相似度,返回相似度最大的前k个片断。(*该技术在2023年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术属于多媒体信息检索、数据挖掘和聚类分析等数据处理领域,具体涉及一种利用高维索引结构实现视频片段快速相似查询k近邻方法。
技术介绍
最近10年来,计算机和网络高速发展,数字化媒体信息大量涌现,为了实现对海量多媒体信息的高效访问,多媒体信息处理和检索工具的研制成为当务之急。视频(video)是在时间上连续的一系列图像帧的集合,是一种没有结构的流数据,是集图像序列(image sequence)、图像(image)、文本(text)等为一体、已经获得广泛使用的一种综合性的媒体信息。如果把一个视频文件看作一本没有目录和索引的书,那么一帧图像就相当于视频“书”中的一页。由于视频这部书缺乏目录和索引信息,人们就无法对它进行高效浏览和检索,无法快速阅读。为寻找感兴趣的视频片段,人们只能采取“快进”和“快倒”这种耗时的阅读方式。随着数字化视频数据量的迅速增加,传统耗时的浏览方式已远不能满足人们对视频内容的访问和查询需求。人们越来越希望能在海量视频库中快速找到自己感兴趣的视频片段,因此就需要为视频建立有效的目录结构。一般来说,按照视频内容粒度可以把视频分为多个层次,从高到低依次为节目、场景、镜头和关键帧。镜头是指摄像机从打开到关闭的全过程中记录下来的一组连续的图像帧序列。镜头边界是客观存在的,可以采用一定的方法自动检测镜头边界。在实际应用中,用户浏览一个镜头中所有图像帧是非常耗时的,因此常用关键帧技术实现快速浏览。关键帧是指代表镜头中最重要的、有代表性的一幅或多幅图像。依据镜头内容的复杂程度,可以从一个镜头中提取一个或多个关键帧。为了在语义层建立视频结构模型,需要对视频进行场景划分。场景定义为语义上相关、时间上相邻的一组镜头,它们能够表达视频的高层次概念或故事等。镜头是组成视频的基本物理单位,而场景(又称故事)则是视频在语义层的单位,通常只有场景才能向观看者传达相对完整的语义。节目则是由时间上有序的场景组成,例如新闻节目、娱乐节目、体育节目、天气预报等。视频信息检索是多媒体信息检索中最困难的一项研究课题,也是目前学术界的研究热点,利用图像和视频片段的底层物理特征实现视频片段检索是一个非常重要的研究方向,其基本步骤为首先将视频数据库中的视频流划分为镜头,并从每个镜头中提取一个或多个关键帧,然后从每个关键帧提取特征矢量,用特征矢量表征所对应的镜头。在检索时对用户提交的查询视频作同样的处理。然后利用特征矢量进行视频片段之间相似度的计算实现相似性查询。根据用户提交的不同的查询需求类型,可以分为两类视频镜头检索和视频片段检索。镜头检索指用户提交的查询视频片段仅包含一个镜头,可利用该镜头所对应的关键帧的特征矢量实现快速的相似性检索,针对这一类检索方式,人们已经提出了大量的高维索引结构和相似性查询算法,如R-Tree、X-Tree和VA-File等。视频片段检索则是指用户提交的查询视频可能由多个连续的镜头组成的描述同一语义的一段视频,对于这一类查询,首先需要对查询视频进行镜头分割,利用每个镜头的关键帧的特征矢量组成的具有一定时间顺序的特征矢量序列来表征用户的查询需求。度量两个视频片段之间的相似度往往基于各个关键帧的特征矢量之间的相似性程度,如果不采用高效索引结构和快速检索算法,直接在原始数据库上进行检索,将花费高昂代价。实现视频片段检索最简单和最直接的方法就是对原始视频数据库进行顺序扫描(SScan),根据相似度模型依次计算查询视频片段与数据库中每一个视频片段之间的相似度,返回前k个相似度最大的视频片段为查询结果。当视频数据量较大时,整个视频数据库就必须存储在磁盘中,因此SScan就需要耗费大量磁盘I/O和CPU计算代价。为了加速查询速度和提高查询效率,最常用方法就是借助索引结构降低磁盘I/O和CPU的计算代价。传统的高维索引结构(R-Tree、X-Tree、VA-File等)以及相似性检索算法,它们所考虑的查询仅仅用于单一的高维矢量,即仅支持镜头检索类型,因此它们不能支持查询对象为特征矢量序列的视频片段的检索。据已公开的文献,只有S2-Tree是唯一支持特征矢量序列的高维索引结构。其主要思想在于将所有的高维矢量数据编码,然后将顺序排列的高维矢量数据序列的检索转换成字符串匹配。该索引结构对于视频片段检索来说存在着很大局限首先,因为它是建立在X-Tree的基础上,当特征矢量的维数超过20时,其查询效率将低于顺序扫描SScan,所以S2-tree适用20维以下的应用。而在视频检索应用中,提取一个关键帧所得到的特征矢量通常要远高于20维;其次,基于S2-Tree的检索算法要求所得到结果数据之间的顺序必须严格符合查询数据的顺序,但是在视频片段检索中,两段在内容上相似的视频其镜头,其顺序可能不一致,对于这样的情形,基于S2-Tree的检索算法将无能为力。Ordered VA-File是我们最近提出的一种有效的高维数据索引结构(已申请中国专利技术专利,申请号03129687.4),它通过对VA-File中的近似矢量重新排序组织,并对得到的近似矢量文件进行分段,从而在查询过程中仅查询部分矢量,以实现快速的近似k近邻查询。实验结果表明在获得比VA-File中VA-LOW算法高达100倍的加速比时,Ordered VA-File能得到非常好的查询结果质量。本专利技术的主要贡献是基于Ordered VA-File提出了用于视频片段检索的快速、相似和k近邻的查询方法。参考文献1.Y.P.,Kulkarni,S.R.,Ramadge,P.J.“A framework for measuring video similarity and itsapplication to video query by example”,Proceedings of IEEE International Conference onImage Processing,1999,2106-110. 2.Dimitrova,N.,Abdel-Mottaled,M.“Content-based video retrieval by example video clip”,Proceedings of IS & T and SPIE Storage and Retrieval of Image and Video Databases VI,1998184-196. 3.Guttman A.“R-TreesA dynamic index structure for spatial searching”,Proc.ACMSIGMOD Int.Conf.on Management of Data,Boston,MA,198447-57. 4.Stefan Berchtold,Daniel A.Keim,and Hans-Peter Kriegel.“The X-TreeAn index structurefor high dimensional data”,Proc.of the 22ndVLDB Conference,199628-39. 5.Roger Weber,Hans-J.Schek,Stephen Blott,“A Quantitativ本文档来自技高网...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:刘芳洁董道国薛向阳
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1