一种基于多尺度特征联合的细粒度跨媒体检索方法技术

技术编号:31011860 阅读:14 留言:0更新日期:2021-11-30 00:40
本发明专利技术公开了一种基于多尺度特征联合的细粒度跨媒体检索方法,本发明专利技术在传统的样本级特征的基础上,额外引入目标级特征和关键区域的像素级特征,基于这三种尺度特征构建出三个类别损失函数共同约束特征提取网络。本发明专利技术有效解决了传统的公共特征提取方法中只有样本级特征的类别损失约束,样本中的背景噪声和非关键区域对细粒度类别预测造成误导,样本中的背景噪声及非关键区域特征的影响较大的问题。本发明专利技术无需引入额外参数,几乎不增加计算成本的同时,更加精准的提取细粒度数据的公共特征,进一步提高细粒度跨媒体检索效果。进一步提高细粒度跨媒体检索效果。进一步提高细粒度跨媒体检索效果。

【技术实现步骤摘要】
一种基于多尺度特征联合的细粒度跨媒体检索方法


[0001]本专利技术属于信息检索的
,具体涉及一种基于多尺度特征联合的细粒度跨媒体检索方法。

技术介绍

[0002]为实现高质量的精细信息检索,细粒度跨媒体检索成为大数据时代的研究热点。相比于传统跨媒体检索,细粒度跨媒体检索基于其精准的公共特征提取能力,可以为用户提供更加精准高效的多媒体检索服务。由于细粒度数据集存在的类间差异小类内差异大的难点,直接使用传统深度卷积网络对细粒度样本进行特征提取,实验效果往往不够理想。
[0003]细粒度样本的特征提取的关键在于局部关键区域的定位与识别,从而精准提取目标细节特征以获得更好的跨媒体检索效果。在跨媒体检索的公共特征提取过程中,往往起到主要作用的是细粒度数据的某一小部分的关键区域,如鸟类目标的头部,翅膀或者尾巴。而其他大量区域往往仅是背景噪声或目标的非关键性区域。
[0004]传统细粒度数据识别方法需要先通过复杂的计算如注意力机制等定位关键区域并将其从原始数据中裁剪出来,再输入到深度网络中提取细粒度特征。这种方法的模型复杂度往往较高并且计算开销较大,当关键区域定位不准确时,特征提取结果将受到严重影响。

技术实现思路

[0005]本专利技术的目的在于提供一种基于多尺度特征联合的细粒度跨媒体检索方法,在传统的样本级特征的基础上,额外引入目标级特征和关键区域的像素级特征,基于这三种尺度特征构建出三个类别损失函数共同约束深度卷积网络;本专利技术有效解决了传统的公共特征提取方法中只有样本级特征的类别损失约束,样本中的背景噪声和非关键区域可能会对细粒度类别预测造成误导,样本中的背景噪声及非关键区域特征的影响较大的问题。
[0006]本专利技术主要通过以下技术方案实现:一种基于多尺度特征联合的细粒度跨媒体检索方法,包括以下步骤:步骤S100:获取包含图像样本的跨媒体数据集;将图像样本经过深度卷积神经网络处理后得到一组N
×
H
×
W特征图,其中N为特征图的通道数,H和W分别为每张特征图的长和宽;步骤S200:将步骤S100中的特征图输入全局平均池化层得到样本级特征,将样本级特征经过全连接层处理,然后计算得到样本级特征类别损失;步骤S300:将步骤S100中的特征图依次通过累加特征图、保留最大连通分量、阈值二值化处理去除背景干扰,保留目标关键区域,得到目标级特征,并计算得到目标级特征类别损失;步骤S400:为步骤S100中的特征图的每一个像素设置类别标签,计算并累加所有像素的类别损失函数,实现更精细的定位目标关键区域,得到像素级特征,并计算得到像素
级特征类别损失;步骤S500:联合样本级特征、目标级特征、像素级特征三种特征尺度的样本级特征类别损失、目标级特征类别损失、像素级特征类别损失共同约束特征提取网络;步骤S600:通过特征提取网络提取媒体特征,并测量不同媒体特征之间的相似度并按相似度对媒体特征进行排序,实现检索。
[0007]为了更好地实现本专利技术,进一步地,所述步骤S100中采用ResNet

50网络提取出一组2048
×
14
×
14的特征图S,并记为,其中i=1,2

,N。
[0008]为了更好地实现本专利技术,进一步地,所述步骤S200具体包括以下步骤:将特征图S输入全局平均池化层得到样本级特征:再将2048维的样本级特征经过2048
×
200的全连接层得到200维类别评分:将经过Softmax函数得到细粒度类别概率p:最后,利用样本类别标签y构建样本级特征类别损失:其中:表示一个批次的样本数量,I、T、V、A分别表示图像、文本、音频和视频媒体类型,为图像类型样本的细粒度类别概率,为图像类型样本的类别标签,为文本类型样本的细粒度类别概率,为文本类型样本的类别标签,为音频类型样本的细粒度类别概率,为音频类型样本的类别标签,为视频类型样本的细粒度类别概率,为视频类型样本的类别标签,k为样本序号,l(p,y)为交叉熵损失函数:其中C为类别总数。
[0009]为了更好地实现本专利技术,进一步地,所述步骤S300具体包括以下步骤:
先将特征图S沿通道维度累加得到原始激活图A:再将原始激活图A保留最大连通分量得到去噪激活图:然后将去噪激活图A基于响应均值做阈值二值化得到目标掩模:其中:a为响应阈值,为去噪激活图中(i,j)位置的值,为去噪激活图中(i,j)位置处的目标掩模,最后将特征图S与目标掩模对应位置相乘并输入全局平均池化层得到目标级特征:得到,将其代入,即可得到目标级特征类别损失:其中:为目标级特征的类别评分,p为细粒度类别概率,表示一个批次的样本数量,I、T、V、A分别表示图像、文本、音频和视频媒体类型,为图像类型样本的细粒度类别概率,为图像类型样本的类别标签,为文本类型样本的细粒度类别概率,为文本类型样本的类别标签,为音频类型样本的细粒度类别概率,为音频类型样本的类别标签,为视频类型样本的细粒度类别概率,为视频类型样本的类别标签,
k为样本序号,l(p,y)为交叉熵损失函数:其中C为类别总数。
[0010]为了更好地实现本专利技术,进一步地,所述步骤S400具体包括以下步骤:首先,由于数据集的类别标签仅为样本级标签,因此需要为特征图S中的每一个位置(i,j)生成像素级辅助标签:其中:k为样本序号,C为类别总数,将每个像素类别从1到C的数值表示转化为one

hot向量表示y:其中:m表示为C+1中的第m个,将特征图S输入卷积核为1
×
1大小的卷积层,输入通道数为N即输出通道数为C+1,得到(C+1)
×
H
×
W大小的像素级特征:再将像素级特征的每个像素的类别预测评分通过Softmax函数转化为类别概率:此时,每个像素点的细粒度类别损失计算公式如下:分别累加目标像素细粒度类别损失和与背景像素细粒度类别损失和:其中:为目标像素细粒度类别数,为背景像素细粒度类别数,最终像素级特征类别损失由和按像素数比例线性组合得到:。
[0011]为了更好地实现本专利技术,进一步地,所述步骤S500中特征提取网络的损失函数为样本级特征类别损失、目标级特征类别损失、像素级特征类别损失之和:其中:为样本级特征类别损失,为目标级特征类别损失,为像素级特征类别损失。
[0012]为了更好地实现本专利技术,进一步地,所述样本级特征类别损失、目标级特征类别损失、像素级特征类别损失均基于特征图得到,并且均使用交叉熵损失函数约束类别概率。
[0013]本专利技术的有益效果:本专利技术在传统的样本级特征的基础上,额外引入目标级特征和关键区域的像素级特征,基于这三种尺度特征构建出三个类别损失函数共同约束深度卷积网络的训练过程。本专利技术有效解决了传统的公共特征提取方法中只有样本级特征的类别损失约束,样本中的背景噪声和非关键区域可能会对细粒度类别预测造成误导,样本中的背景噪声及非关键区域特征的影响较大的问题。本专利技术无需引入额外参数,几乎本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多尺度特征联合的细粒度跨媒体检索方法,其特征在于,包括以下步骤:步骤S100:获取包含图像样本的跨媒体数据集;将图像样本经过深度卷积神经网络处理后得到一组N
×
H
×
W特征图,其中N为特征图的通道数,H和W分别为每张特征图的长和宽;步骤S200:将步骤S100中的特征图输入全局平均池化层得到样本级特征,将样本级特征经过全连接层处理,然后计算得到样本级特征类别损失;步骤S300:将步骤S100中的特征图依次通过累加特征图、保留最大连通分量、阈值二值化处理去除背景干扰,保留目标关键区域,得到目标级特征,并计算得到目标级特征类别损失;步骤S400:为步骤S100中的特征图的每一个像素设置类别标签,计算并累加所有像素的类别损失函数,实现更精细的定位目标关键区域,得到像素级特征,并计算得到像素级特征类别损失;步骤S500:联合样本级特征、目标级特征、像素级特征三种特征尺度的样本级特征类别损失、目标级特征类别损失、像素级特征类别损失共同约束特征提取网络;步骤S600:通过特征提取网络提取媒体特征,并测量不同媒体特征之间的相似度并按相似度对媒体特征进行排序,实现检索。2.根据权利要求1所述的一种基于多尺度特征联合的细粒度跨媒体检索方法,其特征在于,所述步骤S100中采用ResNet

50网络提取出一组2048
×
14
×
14的特征图S,并记为,其中i=1,2

,N。3.根据权利要求2所述的一种基于多尺度特征联合的细粒度跨媒体检索方法,其特征在于,所述步骤S200具体包括以下步骤:将特征图S输入全局平均池化层得到样本级特征:再将2048维的样本级特征经过2048
×
200的全连接层得到200维类别评分:将经过Softmax函数得到细粒度类别概率p:最后,利用样本类别标签y构建样本级特征类别损失:其中:表示一个批次的样本数量,I、T、V、A分别表示图像、文本、音频和视频媒体类型,为图像类型样本的细粒度类别概率,为图像类型样本的类别标签,为文本类型样本的细粒度类别概率,
为文本类型样本的类别标签,为音频类型样本的细粒度类别概率,为音频类型样本的类别标签,为视频类型样本的细粒度类别概率,为视频类型样本的类别标签,k为样本序号,l(p,y)为交叉熵损失函数:其中C为类别总数。4.根据权利要求2所述的一种基于多尺度特征联合的细粒度跨媒体检索方法,其特征在于,所述步...

【专利技术属性】
技术研发人员:姚亚洲孙泽人陈涛张传一沈复民
申请(专利权)人:南京码极客科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1