字典学习、视觉词袋特征提取方法及检索系统技术方案

技术编号:10423350 阅读:397 留言:0更新日期:2014-09-12 14:04
本发明专利技术提供一种字典学习方法,包括:1)基于维度将图像的局部特征向量分为第一分段和第二分段;2)用多个局部特征向量的第一分段构造第一数据矩阵,用多个局部特征向量的第二分段构造第二数据矩阵;3)对第一数据矩阵进行稀疏非负矩阵分解,得到用于对局部特征向量的第一分段进行稀疏编码的第一字典;对第二数据矩阵进行稀疏非负矩阵分解,得到用于对局部特征向量的第二分段进行稀疏编码的第二字典。本发明专利技术还提供了基于上述两个字典对图像局部特征进行分段稀疏表示的视觉词袋特征提取方法和相应的检索系统。本发明专利技术能够大幅减少内存占用,降低词表训练时间和特征提取时间,特别适合应用于移动终端。

【技术实现步骤摘要】
字典学习、视觉词袋特征提取方法及检索系统
本专利技术涉及多媒体内容分析与检索
,具体地说,本专利技术涉及一种字典学习、视觉词袋特征提取方法及检索系统。
技术介绍
视觉搜索简单地说就是“以图搜图”。为实现视觉搜索,首先需要对大规模图像库提取特征建立索引库,在用户搜索时,对查询图像提取特征,在特征索引库中快速检索并按相关性(即相似度)排序,返回结果。这个结果是一个排序的库中图像列表,其中每个结果图像可能包含与查询图像相关、结合用户特征和搜索场景的关联信息。目前,面向PC的传统视觉搜索已经积累了大量算法和技术方案可供选择。然而,随着移动互联网的快速发展,人们对移动视觉搜索有了越来越高的需求。移动视觉搜索具有移动化、网络化和智能化等特点,它通过为用户提供“所见即所知”的新一代搜索服务,便捷地将身边现实世界的视觉对象关联至互联网信息世界的视觉对象,成为链接现实世界和信息世界的桥梁和纽带。图1示出了一种典型的移动视觉搜索的构架,它通过智能手机、平板电脑等移动终端获取现实世界中对象的图像或视频,然后进行特征提取,再通过移动互联网将所提取的特征传输至服务器,服务器基于大规模数据库进行大规模视觉搜索,再将搜索结果返回给移动终端,从而实现“所见即所知”的效果。例如在一个应用场景中,用手机拍摄一个古董,然后对所拍摄图片进行检索,即可快速便捷地获得该古董的名称、形状尺寸、历史典故、评论等相关信息,这极大地提升了用户体验,真正地实现了“所见即所知”的效果。可以说,移动视觉搜索极具想象空间,具有广阔的应用前景。然而,移动视觉搜索还面临一系列需要克服的难点,主要体现在:(1)移动终端拍摄随意性较大,旋转缩放、内容删减和背景干扰、尤其是视角变化造成的仿射形变等因素往往导致查询图像与库图像之间存在严重的视觉形变,全局颜色、纹理等传统特征很难适用,因而需要研究更为鲁棒的局部特征提取方法。(2)面对无线网络环境的带宽有限、带宽波动、时延和获取等方面挑战,需要研究视觉查询的紧凑表示。发送图像的紧凑视觉签名,比传送整张图像更具优势,不仅可降低资费,且可避免不必要的大量上行数据传输造成的传输延迟,大幅提升用户体验。(3)移动终端的处理器性能、内存和电力资源有限,因此需要研究适合于移动终端的特征提取与表示算法,以满足实际应用中对移动终端内存占用、处理速度和精度的需求。综上所述,围绕移动智能终端,针对视觉查询进行鲁棒特征提取和紧凑表示,在不损失基于原始图像的检索性能前提下,亟待突破特征提取速度慢、内存开销大、数据不紧致的瓶颈;这也是多媒体信号处理、图像分析与检索等多个交叉研究领域共同关注的问题。视觉特征的鲁棒性、区分性和紧凑性和提取算法的高效性是保证移动视觉搜索系统精度的重要前提。由于前述移动终端拍摄的随意性造成的巨大视觉差异,对特征的鲁棒性提出了更高的要求,全局颜色、纹理等传统特征很难适用。局部特征是指从角点、边缘、斑块等局部显著结构的图像区块中提取的视觉特征。与图像分割产生的区域不同,局部区块允许互相重叠,而且在不同图像条件下检测到的局部区块具有很高的可重复性。局部特征对旋转平移、尺度缩放、光照变化、视角变化、物体运动、遮挡、裁剪等具有较好的鲁棒性,已成为近几年来的研究热点。文献K.MikolajczykandC.Schmid.“Aperformanceevaluationoflocaldescriptors”,IEEETransactionsonPatternAnalysisandMachineIntelligence(TPAMI),27(10):615-1630,2005.对一些著名的局部区块检测算法和描述算法进行了比较和总结,并指出最好的描述子是SIFT描述子。它由Lowe在ICCV’99提出、2004年IJCV完善总结。SIFT描述子对图像尺度缩放、旋转变换和光照变化情况都能保持较好鲁棒性,并被证明是现有描述子中稳定性和区分性最好的局部特征描述子。但是SIFT描述子最大的缺陷是高维,存储和欧式距离的计算都成问题,对大规模检索,这构成性能的瓶颈。SIFT特征高达128维,传输每个SIFT特征都至少需要1024比特(8比特/维)。而一幅512×512的普通图像中提取的SIFT特征点数通常高达上千个,传输SIFT特征所需比特数甚至超过传输JPEG图像本身。因此,为了采用尽可能少的特征比特数传递尽可能多的查询图像信息,特征量化成为减少传输流量、降低网络延迟、和降低服务器端特征存储占用的重要手段。文献B.Girod,V.Chandrasekhar,D.M.Chen,N.M.Cheung,R.Grzeszczuk,Y.Reznik,G.Takacs,S.S.Tsai,andR.Vedantham.“MobileVisualSearch”;IEEESignalProcessingMagazine,SpecialIssueonMediaSearchinMobileDevices,28(4):61-76,July2011.指出:2003年J.Sivic提出的视觉词袋(BoW,BagofVisualWords)特征量化方法目前基于内容图像检索中最为成功和广泛应用的方法。该方法借鉴文本检索领域的BoW方法,通过K-Means聚类将局部特征采用矢量量化(Vectorquantization)为特征聚类的类别标号,即视觉关键词,避免了存储海量的图像特征,并避免了计算高维特征相似性所带来的时间开销,非常适合于大规模数据环境下的局部近似图像检索。但是,该在特征量化时产生了量化损失,降低了特征的区分性,影响了检索效果。针对这一问题,近年来,研究者们普遍采取增大词表(字典)规模(即视觉关键词总数)的方法增强BoW的区分性。实践证明在视觉词表规模达到100,000以上时,具有良好的区分性,从而能够支持海量高维特征的低比特数存储。值得注意的是:Arandjelovic等最近基于对SIFT描述子进行l1归一化和求平方根,提出RootSIFT(可参考文件:Arandjelovic,R.andZisserman,A.,“Threethingseveryoneshouldknowtoimproveobjectretrieval”,InProc.IEEEConf.onComputerVisionandPatternRecognition(CVPR),2012),分别在Oxford5K和105K、Paris6K数据集上实现高达0.929、0.891、0.910(非软分配BoW)的检索平均精度MAP。词表规模的增大给词表训练和特征量化带来了巨大的压力。学者们采用了多种层次结构对传统的K-Means聚类方法进行改进、以及各种近似最近邻搜索方法取代精确最近邻搜索,对词表训练和特征量化过程进行加速。例如:2006年Nister等提出层次聚类的HKM,2007年Philbin等提出近似最近邻AKM,2010年Li等通过记录字典学习迭代的中间结果提出了RAKM方法,2012年Avrithis年提出了近似混合高斯模型的AGM方法,2013年Mikulik等结合HKM和AKM方法构建了一个两层的字典(下文中简称Mikulik方案),每层字典的规模是8K,共有64M个视觉关键词。然而,上本文档来自技高网...
字典学习、视觉词袋特征提取方法及检索系统

【技术保护点】
一种字典学习方法,其特征在于,包括下列步骤:1)基于维度将图像的局部特征向量分为第一分段和第二分段;2)用训练集中局部特征向量的第一分段作为列向量,构造第一数据矩阵,用训练集中局部特征向量的第二分段作为列向量,构造第二数据矩阵;3)对第一数据矩阵进行稀疏非负矩阵分解,得到用于对局部特征向量的第一分段进行稀疏编码的第一字典;对第二数据矩阵进行稀疏非负矩阵分解,得到用于对局部特征向量的第二分段进行稀疏编码的第二字典。

【技术特征摘要】
1.一种视觉词袋特征提取方法,包括下列步骤:1)从图像中提取局部特征点及其局部特征向量,并对该局部特征向量进行分段,得到相应的第一分段和第二分段;2)基于第一字典,对当前局部特征向量的第一分段进行稀疏编码,得到相应的第一稀疏编码系数向量,基于第二字典,对当前局部特征向量的第二分段进行稀疏编码,得到相应的第二稀疏编码系数向量;其中,第一字典和第二字典根据以下子步骤得出:2a)基于维度将图像的局部特征向量分为第一分段和第二分段;2b)用训练集中局部特征向量的第一分段作为列向量,构造第一数据矩阵,用训练集中局部特征向量的第二分段作为列向量,构造第二数据矩阵;2c)对第一数据矩阵进行稀疏非负矩阵分解,得到用于对局部特征向量的第一分段进行稀疏编码的第一字典;对第二数据矩阵进行稀疏非负矩阵分解,得到用于对局部特征向量的第二分段进行稀疏编码的第二字典;3)根据第一稀疏编码系数向量和第二稀疏编码系数向量中的非零元素所对应的字典基元索引号,将当前局部特征向量分配到视觉词袋中对应的视觉关键词;所述步骤3)中,找出第一稀疏编码系数向量中最大非零元素所对应的字典基元索引号I1,以及第二稀疏编码系数向量中最大非零元素所对应的字典基元索引号I2,根据索引号组合[I1、I2]将当前局部特征向量分配到视觉词袋中对应的一个视觉关键词;或者找出第一稀疏编码系数向量中最大的两个非零元素所对应的字典基元索引号I11和I12,以及第二稀疏编码系数向量中最大的两个非零元素所对应的字典基元索引号I21和I22,根据索引号组合[I11、I21],[I11、I22],[I12、I11]和[I12、I22]将当前局部特征向量软分配到视觉词袋中对应的四个视觉关键词。2.根据权利要求1所述的视觉词袋特征提取方法,其特征在于,所述步骤2c)中,稀疏非负矩阵分解采用在线学习算法、MOD算法或者KSVD算法实现。3.根据权利要求2所述的视觉...

【专利技术属性】
技术研发人员:唐胜张勇东李锦涛徐作新
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1