一种基于特征融合的图像检索方法技术

技术编号:26924077 阅读:38 留言:0更新日期:2021-01-01 22:48
本发明专利技术公开了一种基于特征融合的图像检索方法,属于图像检索领域,包括:训练特征提取网络;提取训练图像集中各图像的多层语义浮点描述符,并进行哈希学习生成旋转矩阵R;提取图像库中各图像的多层语义浮点描述符,利用R进行旋转之后进行二值化;利用分类网络对图像库中各图像进行分类;对应存储各图像的二值描述符和类概率向量;提取多层语义浮点描述符包括:提取图像的高层语义特征和底层图像特征,并进行融合;高层语义特征包括全局描述符,其提取方式为:将图像缩放至多个不同尺度,利用特征提取网络提取特征并融合;底层图像特征包括SIFT描述符,其提取方式为:提取图像的多个SIFT特征并聚合为VALD。本发明专利技术能够构建区分力强且占空间小的描述符。

【技术实现步骤摘要】
一种基于特征融合的图像检索方法
本专利技术属于图像检索领域,更具体地,涉及一种基于特征融合的图像检索方法。
技术介绍
基于内容的图像检索方法提取图像的视觉特征来描述图像,可以比文本更加准确全面的描述图像。尺度不变特征变换(ScaleInvariantFeatureTransform,SIFT)在1999年由David提出,以用于计算机视觉领域的图像匹配问题。SIFT不仅对尺度、平移、旋转具有较强的不变性,还对光照变化、遮挡及噪声具有很好的鲁棒性。RootSIFT是SIFT的改进版,RootSIFT在SIFT的基础上进行1-范数标准化和平方根变换,从而提高了SIFT的描述力。局部聚合描述符向量(VectorofLocallyAggregatedDescriptors,VLAD)用于将特征集编码为一个定长的向量,VLAD对k-means算法生成的每一个聚类求残差,将每一个聚类中的残差分别相加,再将各“残差和”向量串连起来。IntraVLAD使用“内部归一化”方法,来消除视觉爆发现象。内部归一化分别对各个视觉单词对应的“残差和”子向量进行2-范数归一化处理。卷积神经网络(ConvolutionalNeuralNet,CNN)的研究源于Hubel和Wiesel对猫的视觉神经系统的研究,Hubel和Wiesel发现,视觉皮层的神经网络具有一种层次结构,“复杂细胞”在接受“简单细胞”的输出后,会选择性地对更加复杂的视觉模式产生响应,并且具有更大的“感受野”,对视觉模式的平移更加不敏感。基于CNN的方法是一种数据驱动的方法,首先利用图像数据来训练神经网络,然后通过训练后的神经网络来提取特征。网络参数是可以在训练过程中调节的,机器自动学习如何提取特征。而与此相对的,SIFT的提取过程是利用复杂的专业知识设计的,其参数一般是固定的。由于全连接层特征在描述图像上的较高准确性,一些研究者利用全连接层来提取图像的特征。然而,经过合适的处理,卷积层特征形成的图像表示可以在图像检索任务上获得较高的准确率。CNN一般是在分类任务上训练的,为了适应分类任务,位于CNN后面的全连接层包含了较多的高层语义,而位于前面的卷积层则包含了较多的低层局部信息。因此,在仅使用全连接层特征的情况下,生成的图像表示缺乏局部信息。为了弥补底层图像特征与高层语义特征间的鸿沟以及提高检索的准确率,如何构建区分力强且占空间小的描述符具有重要意义。
技术实现思路
针对现有技术的缺陷和改进需求,本专利技术提供了一种基于特征融合的图像检索方法,其目的在于,提高增强图像描述符的区分力,同时节省存储开销。为实现上述目的,按照本专利技术的一个方面,提供了一种基于特征融合的图像检索方法,包括:模型训练步骤:建立用于提取图像特征的卷积神经网络,并利用训练图像集对其进行训练,得到特征提取网络;多层语义浮点描述符构建步骤:提取图像的至少一种高层语义特征和至少一种底层图像特征,并将所提取的高层语义特征和底层图像特征进行融合,得到图像的多层语义浮点描述符;高层语义特征包括全局描述符,全局描述符的提取方式为:将图像缩放至多个不同尺度,利用特征提取网络分别提取缩放后各尺度图像的特征,并融合为图像的全局描述符;底层图像特征包括SIFT描述符,SIFT描述符的提取方式为:提取图像的多个SIFT特征,并聚合为局部聚合描述符向量,作为图像的SIFT描述符;哈希学习步骤:根据多层语义浮点描述符构建步骤提取训练图像集中每一幅图像的多层语义浮点描述符,得到浮点描述符集合F,并利用浮点描述符集合F进行哈希学习生成旋转矩阵R;描述符库构建步骤:根据多层语义浮点描述符构建步骤提取图像库中每一幅图像的多层语义浮点描述符,并利用旋转矩阵R进行旋转,将旋转后的多层语义浮点描述符进行二值化,得到图像的二值描述符;利用已训练好的分类网络对图像库中的每一幅图像进行分类,得到各图像的类概率向量;对应存储各图像的二值描述符和类概率向量,以构建用于图像检索的描述符库。本专利技术同时融合高层语义特征和底层图像特征,得到图像的多层语义浮点描述符,能够有效得弥补底层图像特征和高层语义特征间鸿沟,提高图像描述符的区分力;同时,本专利技术对图像描述图进行二值化压缩,能够有效节省存储开销。总的来说,本专利技术能够有效提高图像描述符的区分力,并降低图像描述符的存储开销。本专利技术在构建图像描述符时,所提取的高层语义特征包括全局描述符,该全局描述符描述了图像的全局特征,同时,本专利技术在提取图像的全局描述符时,会对图像进行多尺度缩放,因此所提取的全局描述符可以捕获图像多个尺度的模式或对象信息,并且具有一定的尺度不变性,对几何变换更加的鲁棒。本专利技术在构建图像描述符时,所提取的底层图像特征包括SIFT描述符,SIFT描述符描述了图像的小区域特征,包括图像的纹理、边缘等信息,由于SIFT特征对尺度、平移、旋转具有较强的不变性,还对光照变化、遮挡及噪声具有很好的鲁棒性,本专利技术能够利用SIFT特征与CNN特征的互补性,使得融合得到的多层语义浮点描述符具有更强的区分力,并增强描述符的几何不变性。进一步地,高层语义特征还包括对象描述符,对象描述符的提取方式为:将图像缩放至多个不同的尺度,并分别对各尺度的图像进行对象检测,得到多个可能包含对象的图像分片,利用特征提取网络提取各图像分片的特征,并聚合为局部聚合描述符向量,作为图像的对象描述符。本专利技术在构建图像描述符时,还会融合对象描述符,对象描述符描述了图像中的对象信息,因此,本专利技术所构建的多层语义浮点描述符能够很好地捕获图像对象信息,具有更强的区分力;本专利技术在提取对象描述符时,同样会对图像进行多尺度缩放操作,能够进一步增强几何不变性。进一步地,在将提取的图像分片的特征聚合为聚合描述符向量时,使用软分配。本专利技术在将提取的图像分片的特征聚合为聚合描述符向量时,使用软分配,能够解决码字二义性(visualwordambiguity)问题,提高对象描述符的准确性。进一步地,高层语义特征还包括显著性区域描述符,显著性区域描述符的提取方式为:对图像进行显著性区域检测,生成图像的显著性图,将显著性图缩放至预设尺寸后与图像进行点乘,得到显著性区域,利用特征提取网络提取显著性区域的特征,作为图像的显著性区域描述符。对象检测得到的图像分片是方形的,这些图像分片可能仅包含对象的一部分,还有可能来自杂乱的背景,不包含前景对象;本专利技术在提取了图像的对象描述符的基础上,进一步提取并融合了图像的显著性区域描述符,显著性区域描述符描述了显著性区域信息,进一步增强了所构建的多层语义浮点描述符的信息含量和区分力。进一步地,哈希学习步骤中,利用浮点描述符集合F进行哈希学习生成旋转矩阵R,包括:(S1)将浮点描述符集合F表示为矩阵形式,并对该矩阵进行正交旋转,得到矩阵X,基于矩阵X设置哈希学习的目标函数如下:其中,f表示目标函数;B表示学到的哈希编码,R表示旋转矩阵,I表示单位矩阵;bi表示B的第i列,对应训练图像集中第i幅图像的哈希码,|bi|表示哈希本文档来自技高网
...

【技术保护点】
1.一种基于特征融合的图像检索方法,其特征在于,包括:/n模型训练步骤:建立用于提取图像特征的卷积神经网络,并利用训练图像集对其进行训练,得到特征提取网络;/n多层语义浮点描述符构建步骤:提取图像的至少一种高层语义特征和至少一种底层图像特征,并将所提取的高层语义特征和底层图像特征进行融合,得到图像的多层语义浮点描述符;所述高层语义特征包括全局描述符,所述全局描述符的提取方式为:将所述图像缩放至多个不同尺度,利用所述特征提取网络分别提取缩放后各尺度图像的特征,并融合为所述图像的全局描述符;所述底层图像特征包括SIFT描述符,所述SIFT描述符的提取方式为:提取所述图像的多个SIFT特征,并聚合为局部聚合描述符向量,作为所述图像的SIFT描述符;/n哈希学习步骤:根据所述多层语义浮点描述符构建步骤提取所述训练图像集中每一幅图像的多层语义浮点描述符,得到浮点描述符集合F,并利用所述浮点描述符集合F进行哈希学习生成旋转矩阵R;/n描述符库构建步骤:根据所述多层语义浮点描述符构建步骤提取图像库中每一幅图像的多层语义浮点描述符,并利用所述旋转矩阵R进行旋转,将旋转后的多层语义浮点描述符进行二值化,得到图像的二值描述符;利用已训练好的分类网络对所述图像库中的每一幅图像进行分类,得到各图像的类概率向量;对应存储各图像的二值描述符和类概率向量,以构建用于图像检索的描述符库。/n...

【技术特征摘要】
1.一种基于特征融合的图像检索方法,其特征在于,包括:
模型训练步骤:建立用于提取图像特征的卷积神经网络,并利用训练图像集对其进行训练,得到特征提取网络;
多层语义浮点描述符构建步骤:提取图像的至少一种高层语义特征和至少一种底层图像特征,并将所提取的高层语义特征和底层图像特征进行融合,得到图像的多层语义浮点描述符;所述高层语义特征包括全局描述符,所述全局描述符的提取方式为:将所述图像缩放至多个不同尺度,利用所述特征提取网络分别提取缩放后各尺度图像的特征,并融合为所述图像的全局描述符;所述底层图像特征包括SIFT描述符,所述SIFT描述符的提取方式为:提取所述图像的多个SIFT特征,并聚合为局部聚合描述符向量,作为所述图像的SIFT描述符;
哈希学习步骤:根据所述多层语义浮点描述符构建步骤提取所述训练图像集中每一幅图像的多层语义浮点描述符,得到浮点描述符集合F,并利用所述浮点描述符集合F进行哈希学习生成旋转矩阵R;
描述符库构建步骤:根据所述多层语义浮点描述符构建步骤提取图像库中每一幅图像的多层语义浮点描述符,并利用所述旋转矩阵R进行旋转,将旋转后的多层语义浮点描述符进行二值化,得到图像的二值描述符;利用已训练好的分类网络对所述图像库中的每一幅图像进行分类,得到各图像的类概率向量;对应存储各图像的二值描述符和类概率向量,以构建用于图像检索的描述符库。


2.如权利要求1所述的基于特征融合的图像检索方法,其特征在于,所述高层语义特征还包括对象描述符,所述对象描述符的提取方式为:将所述图像缩放至多个不同的尺度,并分别对各尺度的图像进行对象检测,得到多个可能包含对象的图像分片,利用所述特征提取网络提取各图像分片的特征,并聚合为局部聚合描述符向量,作为所述图像的对象描述符。


3.如权利要求2所述的基于特征融合的图像检索方法,其特征在于,在将提取的图像分片的特征聚合为聚合描述符向量时,使用软分配。


4.如权利要求2所述的基于特征融合的图像检索方法,其特征在于,所述高层语义特征还包括显著性区域描述符,所述显著性区域描述符的提取方式为:对所述图像进行显著性区域检测,生成所述图像的显著性图,将所述显著性图缩放至预设尺寸后与所述图像进行点乘,得到显著性区域,利用所述特征提取网络提取所述显著性区域的特征,作为所述图像的显著性区域描述符。


5.如权利要求1所述的基于特征融合的图像检索方法,其特征在于,所述哈希学习步骤中,利用所述浮点描述符集合F进行哈希学习生成旋转矩阵R,包括:
(S1)将所述浮点描述符集合F表示为矩阵形式,并对该矩阵进行正交旋转,得到矩阵X,基于矩阵X设置哈希学习的目标函数如下:



其中,f表示所述目标函数;B表示学到的哈希编码,R表示旋转矩阵,I表示单位矩阵;bi表示B的第i列,对应所述训练图像集中第i幅图像的哈希码,|bi|表示哈希码bi中1的个数;k表示稠密度;||.||1表示L1-范数,||.||2表示L2-范数;为预设的系数;
(S2)初始化旋转矩阵R和哈希编码...

【专利技术属性】
技术研发人员:于俊清吴泽斌何云峰
申请(专利权)人:华中科技大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1