一种图像检索方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:29790070 阅读:13 留言:0更新日期:2021-08-24 18:08
本发明专利技术公开了一种图像检索方法、装置、计算机设备及存储介质。该方法包括:获取待检索图像和文本;利用VGGNet网络模型提取图像特征;提取文本的Word2vec特征和TF‑IDF特征并进行深度串联,得到文本特征;对图像特征与文本特征进行融合,构建残差特征和门特征,并按照权重线性组合,得到融合特征;通过度量学习的方法,对权重进行学习,得到最终权重;将待检索图像的最终融合特征作为待检索特征,计算与检索数据库内的多个图像的检索特征之间的相似性度,返回符合检索要求的图像。该方法基于图像和文本两种模态类型的数据,实现了不同模态数据的信息融合,并利用融合后的信息完成检索任务,从而提升检索的性能。

【技术实现步骤摘要】
一种图像检索方法、装置、计算机设备及存储介质
本专利技术实施例涉及图像检索
,尤其涉及一种图像检索方法、装置、计算机设备及存储介质。
技术介绍
在网络时代,随着各种社交网络的兴起,文字、图片、音频、视频等不同类型的信息也出现了大规模的增加,这些不同模态的数据能够从不同的角度去阐释同一种物体或事件,从而让人们对其的理解变得越来越完善。怎样利用不同模态的数据去完成特别场景下的具体任务,也成为了研究热点。随着多模态数据的递增,普通用户想更加准确高效地检索出自己所需的信息也开始越来越复杂。图像检索中的多模态数据包括图像的文字描述和图像表现。图像检索技术主要分两种:基于文本的图像检索(Text-BasedImageRetrieval,简称为TBIR)以及基于内容的图像检索(Content-BasedImageRetrieval,简称为CBIR)。TBIR主要依赖于图像的标注信息进行检索,但是面对数以万计的图像数据集,手工进行图像标注的代价太过昂贵,使得这种检索方案渐已不能满足现实的应用需要。CBIR主要利用特征提取和高维索引技术进行图像检索,但由于计算机获取的图像的视觉信息与用户对图像理解的语义信息可能不一致,导致的低层和高层检索需求之间产生距离,即导致“语义鸿沟”。在CBIR中,由于语义鸿沟的存在,特征相似的图像很可能在语义上是不相关的,这就使得很多情况下基于内容的图像检索结果难以满足用户的信息需求。
技术实现思路
本专利技术提供一种图像检索方法、装置、计算机设备及存储介质,以解决现有技术中存在的上述问题。第一方面,本专利技术实施例提供了一种图像检索方法。该方法包括:S10:获取待检索图像,以及所述待检索图像对应的文本;S20:利用VGGNet网络模型提取所述待检索图像的图像特征;S30:提取所述文本的词向量(WordtoVector,简称为Word2vec)特征和词频-逆文本频率(TermFrequency–InverseDocumentFrequency,简称为TF-IDF)特征,将所述Word2vec特征和所述TF-IDF特征进行深度串联,得到所述待检索图像的文本特征;S40:对所述图像特征与所述文本特征进行融合,构建所述待检索图像的残差特征和门特征,其中,所述残差特征和所述门特征的空间结构一致;将所述残差特征和所述门特征按照权重线性组合,得到所述待检索图像的融合特征;S50:获取训练数据集,其中,所述训练数据集中包括多个训练图像以及各自对应的文本;通过度量学习的方法,利用所述多个训练图像的融合特征和各自的检索目标特征,对所述残差特征与所述门特征在所述融合特征中的权重进行学习,得到最终权重;S60:将所述待检索图像的残差特征和门特征按照所述最终权重线性组合,得到所述待检索图像的最终融合特征,将所述最终融合特征作为待检索特征,计算所述待检索特征与检索数据库内的多个图像的检索特征之间的相似性度,返回所述多个图像中符合检索要求的图像。在一实施例中,所述VGGNet网络模型的参数配置包括如下步骤:S11:利用ImageNet数据集对所述VGGNet网络模型进行预训练,得到预训练网络参数;S12:将所述VGGNet网络模型的目标数据集中的所有图像尺寸均调整至256*256的尺寸,随机选择一个尺寸大小为227*227的图像内容镜像,作为所述VGGNet网络模型的输入;S13:将所述VGGNet网络模型的最后一层全连接层的神经元的数目,由ImageNet数据集中的图像类别数目修改为所数目标数据集中的图像类别的数目c;S14:对所述最后一层全连接层的输出进行维度为c的Softmax操作,以获得待检索图像在c个图像类别中的概率分布结果。在一实施例中,S30中,所述将所述Word2vec特征和所述TF-IDF特征进行深度串联,得到所述待检索图像的文本特征包括:S31:将所述Word2vec特征记为,其中,均为实数,N表示所述Word2vec特征的维度;将所述TF-IDF特征记为,其中,均为实数,T表示所述TF-IDF特征的维度;S32:将和进行拼接,得到拼接后的特征;S33:将输入深度神经网络,通过所述深度神经网络学习与的高阶融合特征,得到所述待检索图像的文本特征,其中,的维度小于的维度。在一实施例中,S40包括:S41:根据公式(1),通过卷积过滤器将所述文本特征进行变换,使得变换后的文本特征与所述图像特征的尺寸相同:(1)其中,*表示标准的归一化卷积计算方式;S42:根据公式(2)构建所述残差特征:(2)其中,表示ReLU激活函数;S43:根据公式(3)构建所述门特征:(3)其中,为sigmoid函数,和表示两个卷积过滤器,表示同位元素对应相乘的计算方法;S44:根据公式(4),对和按照各自的权重进行线性组合,得到所述待检索图像的融合特征:(4)其中,和表示可学习的权重值,用于平衡和在中的比重。在一实施例中,S50中,所述通过度量学习的方法,利用所述多个训练图像的融合特征和各自的检索目标特征,对所述残差特征与所述门特征在所述融合特征中的权重进行学习,得到最终权重,包括:S51:设定在训练过程中,采用梯度下降算法寻找最小损失值时的minibatch的大小为B,其中,所述minibatch中包括每个训练图像的初始融合特征和对应的检索目标特征;将记为,其中,表示对应的文本,表示获取的初始融合特征的函数,i=1,2,…,B;将记为,其中,表示对应的检索目标图像,表示获取任一图像的图像特征的函数;S52:对每个训练图像,重复构建M个大小为K的集合得到所述M个的集合,其中,每个包括从所述minibatch中选取的K个样本,所述K个样本中包括一个正例与(K-1)个负例,所述一个正例为所述检索目标特征,所述(K-1)个负例记为,M小于或等于B,且M小于或等于K;S53:采用如公式(5)构建Softmax交叉熵损失函数:(5)其中,表示相似核函数,表示两个数据点向量和之间的距离;和分别表示中的样本对应的初始融合特征和检索目标特征,表示在的条件下计算;表示softmax函数,用于表征转化后结果占所有转化后结果之和的百分比;S54:利用对所述残差特征与所述门特征在所述融合特征中的权重进行学习,得到所述最终权重。在一实施例中,S60中,所述将所述最终融合特征作为待检索特征,计算所述待检索特征与检索数据库内的多个图像的检索特征之间的相似性度,返回所述多个图像中符合检索要求的图像,包括:S61:将所述待检索图像的最终融合特征记为,其中,t表示对应的文本,表示获取的最终融合特征的函数;将作为所述待检索特征,根据公式(6),计算所述待检索特征所述检索数据库内的每个图像的检索特征之间的距离:(6)其中,将所述检索数据库中的图像的数量记为R,r=1,2,…,R;...

【技术保护点】
1.一种图像检索方法,其特征在于,包括:/nS10:获取待检索图像,以及所述待检索图像对应的文本;/nS20:利用VGGNet网络模型提取所述待检索图像的图像特征;/nS30:提取所述文本的词向量Word2vec特征和词频-逆文本频率TF-IDF特征,将所述Word2vec特征和所述TF-IDF特征进行深度串联,得到所述待检索图像的文本特征;/nS40:对所述图像特征与所述文本特征进行融合,构建所述待检索图像的残差特征和门特征,其中,所述残差特征和所述门特征的空间结构一致;将所述残差特征和所述门特征按照权重线性组合,得到所述待检索图像的融合特征;/nS50:获取训练数据集,其中,所述训练数据集中包括多个训练图像以及各自对应的文本;通过度量学习的方法,利用所述多个训练图像的融合特征和各自的检索目标特征,对所述残差特征与所述门特征在所述融合特征中的权重进行学习,得到最终权重;/nS60:将所述待检索图像的残差特征和门特征按照所述最终权重线性组合,得到所述待检索图像的最终融合特征,将所述最终融合特征作为待检索特征,计算所述待检索特征与检索数据库内的多个图像的检索特征之间的相似性度,返回所述多个图像中符合检索要求的图像。/n...

【技术特征摘要】
1.一种图像检索方法,其特征在于,包括:
S10:获取待检索图像,以及所述待检索图像对应的文本;
S20:利用VGGNet网络模型提取所述待检索图像的图像特征;
S30:提取所述文本的词向量Word2vec特征和词频-逆文本频率TF-IDF特征,将所述Word2vec特征和所述TF-IDF特征进行深度串联,得到所述待检索图像的文本特征;
S40:对所述图像特征与所述文本特征进行融合,构建所述待检索图像的残差特征和门特征,其中,所述残差特征和所述门特征的空间结构一致;将所述残差特征和所述门特征按照权重线性组合,得到所述待检索图像的融合特征;
S50:获取训练数据集,其中,所述训练数据集中包括多个训练图像以及各自对应的文本;通过度量学习的方法,利用所述多个训练图像的融合特征和各自的检索目标特征,对所述残差特征与所述门特征在所述融合特征中的权重进行学习,得到最终权重;
S60:将所述待检索图像的残差特征和门特征按照所述最终权重线性组合,得到所述待检索图像的最终融合特征,将所述最终融合特征作为待检索特征,计算所述待检索特征与检索数据库内的多个图像的检索特征之间的相似性度,返回所述多个图像中符合检索要求的图像。


2.如权利要求1所述的图像检索方法,其特征在于,所述VGGNet网络模型的参数配置包括如下步骤:
S11:利用ImageNet数据集对所述VGGNet网络模型进行预训练,得到预训练网络参数;
S12:将所述VGGNet网络模型的目标数据集中的所有图像尺寸均调整至256*256的尺寸,随机选择一个尺寸大小为227*227的图像内容镜像,作为所述VGGNet网络模型的输入;
S13:将所述VGGNet网络模型的最后一层全连接层的神经元的数目,由ImageNet数据集中的图像类别数目修改为所数目标数据集中的图像类别的数目c;
S14:对所述最后一层全连接层的输出进行维度为c的Softmax操作,以获得待检索图像在c个图像类别中的概率分布结果。


3.如权利要求1所述的图像检索方法,其特征在于,S30中,所述将所述Word2vec特征和所述TF-IDF特征进行深度串联,得到所述待检索图像的文本特征包括:
S31:将所述Word2vec特征记为,其中,均为实数,N表示所述Word2vec特征的维度;将所述TF-IDF特征记为,其中,均为实数,T表示所述TF-IDF特征的维度;
S32:将和进行拼接,得到拼接后的特征;
S33:将输入深度神经网络,通过所述深度神经网络学习与的高阶融合特征,得到所述待检索图像的文本特征,其中,的维度小于的维度。


4.如权利要求1所述的图像检索方法,其特征在于,S40包括:
S41:根据公式(1),通过卷积过滤器将所述文本特征进行变换,使得变换后的文本特征与所述图像特征的尺寸相同:

(1)
其中,*表示标准的归一化卷积计算方式;
S42:根据公式(2)构建所述残差特征:

(2)
其中,表示ReLU激活函数;
S43:根据公式(3)构建所述门特征:

(3)
其中,为sigmoid函数,和表示两个卷积过滤器,表示同位元素对应相乘的计算方法;
S44:根据公式(4),对和按照各自的权重进行线性组合,得到所述待检索图像的融合特征:

(4)
其中,和表示可学习的权重值,用于平衡和在中的比重。


5.如权利要求1所述的图像检索方法,其特征在于,S50中,所述通过度量学习的方法,利用所述多个训练图像的融合特征和各自的检索目标特征,对所述残差特征与所述门特征在所述融合特征中的权重进行学习,得到最终权重,包括:
S51:设定在训练过程中,采用梯度下降算法寻找最小损失值时的minibatch的大小为B,其中,所述miniba...

【专利技术属性】
技术研发人员:丁冬睿姚丽杨光远逯天斌房体品
申请(专利权)人:广东众聚人工智能科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1