当前位置: 首页 > 专利查询>东北大学专利>正文

基于语义的图像-文本的跨模态检索方法技术

技术编号:31812622 阅读:17 留言:0更新日期:2022-01-08 11:15
本发明专利技术提供一种基于语义的图像

【技术实现步骤摘要】
基于语义的图像

文本的跨模态检索方法


[0001]本专利技术涉及数据库
,尤其涉及一种基于语义的图像

文本的跨模态检索方法。

技术介绍

[0002]由于来自社交媒体和网络应用的多媒体数据的爆炸性增长,图像

文本双向检索在学术和工业界变得越来越流行。这个任务定义为给定一个图像去检索与图像语义相似的文本;给定一个文本去检索于文本语义相似的图像。图像

文本的跨模态检索本质是处理图像

文本匹配的任务。在一定程度上,图像

文本跨模态检索促进了视觉与语言的相互理解;同时可以应用到搜索引擎。但是,这一任务也面临很大的挑战,由于图像和文本属于不同的结构,学习两种异构的数据变得很困难。如何准确的度量两种不同结构的数据的对应关系是一个难题。
[0003]在近年,为了解决图像和文本的异构性,很多关于图像

文本的跨模态检索方法被提出来。但是很多是关于粗粒度的方法,通过神经网络的方法,把图像和文本直接映射到同一潜在的子空间;然后通过计算图像和文本特征之间的距离,度量两者的相似性;距离越小相似性越大,距离越大相似性越小。但是,这些方法粗略地捕捉了模态之间的对应关系,没有考虑图像和文本的语义对应,从而不能提高匹配的准确性。为了进一步提高匹配的准确性,一些方法探索了图像和文本之间的细粒度交互。同时为了更深入地理解这种细粒度的对应关系,最近的研究提出了跨模态图像

文本检索的细粒度对应的方法。每个图像和文本分别生成图像区域特征表示和文本单词特征表示,并将图像的区域与问文本的单词对齐。目前最好的对齐方法应用了注意力机制,将每个片段与来自另一个模态的所有片段对齐,是一种一对多的关系。它可以灵活地发现细粒度的对应关系,但是也存在不足。图像区域特征的提取只是像素级别的,图像区域之间的关系没有考虑,从而没有解决图像模态内的语义关系;在处理模态间的关系时,采用图像

文本的注意力机制,考虑了很多不相关的语义信息;从而不能准确的挖掘出图像

文本的细粒度语义对应。

技术实现思路

[0004]针对现有技术的不足,本专利技术提供一种基于语义的图像

文本的跨模态检索方法。
[0005]一种基于语义的图像

文本的跨模态检索方法,包括以下步骤:
[0006]步骤1、分别对待测图片的图像特征以及文本特征进行提取;
[0007]所述图像特征采用深度学习算法Faster R

CNN提取出每张图像的m个区域,再采用预训练残差网络提出每个区域的特征f
i
,如下式所示:
[0008]v
i
=W
v
f
i
+b
v
[0009]其中W
v
和b
v
是学习参数;通过全连接学习f
i
特征,生成图像的特征表示v
i
,最终图像的特征表示如下式所示:
[0010]V={v
i
|i=1,

,m,v
i
∈R
d
}
[0011]V表示该图像的全部区域特征,m表示图像的区域个数,v
i
表示该图像的区域特征,v
i
表示该图像的区域特征,R
d
表示特征维度;
[0012]所述文本特征采用双向门控循环单元生成文本表示,如下式所示
[0013]T={t
j
|j=1,

,n,t
j
∈R
d
}
[0014]T表示文本的全部单词特征,t
j
表示文本中的第j个单词的特征表示,n表示文本中单词的个数,R
d
表示特征维度
[0015]步骤2、增强图像表示:
[0016]采用双向门控循环单元RNN生成结合图像上下文的图像区域表示,把一张图片的每个区域看成一个节点,计算结合图像上下文的图像区域特征表示;如下式所示:
[0017]U={u
i
|i=1,

,m,u
i
∈R
d
}
[0018]其中W
g
是学习参数;U表示结合上下文的图像特征表示,u
i
表示第i个有上下文语义的区域特征;
[0019]步骤3、采用注意力机制进行跨模态检索,分别学习基于文本的区域特征,以及基于图像的单词特征;
[0020]其中跨模态检索分为图像

文本匹配和文本

图像匹配;
[0021]所述图像

文本匹配采用注意力机制将该图像的某一个区域与匹配句子中的所有单词对齐,将学习到每个区域对应的文本信息,得到一个新的表示,这个表示代表从文本传到视觉的语义信息;即先计算图像区域与句子单词的相似性,如下所示:
[0022][0023]其中Z
ij
度量图像区域和文本单词之间相似度,||
·
||表示l2范数,对Z
ij
进行归一化得到对横轴归一化后的相似性再将进行softmax归一化处理得到对归一化后的相似性如下式所示:
[0024][0025][0026]将它与对应的单词特征相乘再求和得到基于文本的区域表示如下式所示:
[0027][0028]所述文本

图像匹配如下所示:
[0029][0030][0031][0032]对Z
ij
进行归一化得到对纵轴归一化后的相似性再将进行softmax归一化处理得到对归一化后的相似性是基于图像的单词表示;
[0033]步骤4、采用了改进的门控机制加强图像

文本的语义匹配,过滤掉匹配中与设定不相关的信息,生成新的图像,同时进行文本

图像匹配,生成新的文本;如下式所示:
[0034][0035][0036][0037]其中W
g
,b
g
,W
o
,b
o
是学习参数;g
i
表示图像

文本的更新门,sigmoid()是一个激活函数,O
i
表示图像

文本的融合特征;
[0038]同样使文本

图像匹配,生成新的文本表示具体实现如下式所示:
[0039][0040][0041][0042]其中W
h
,b
h
,W
m
,b
m
,是学习参数;g
j
*表示文本

图像的更新门,O<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语义的图像

文本的跨模态检索方法,其特征在于,包括以下步骤:步骤1、分别对待测图片的图像特征以及文本特征进行提取;步骤2、增强图像表示:采用双向门控循环单元RNN生成结合图像上下文的图像区域表示,把一张图片的每个区域看成一个节点,计算结合图像上下文的图像区域特征表示;步骤3、采用注意力机制进行跨模态检索,分别学习基于文本的区域特征,以及基于图像的单词特征;步骤4、采用了改进的门控机制加强图像

文本的语义匹配,过滤掉匹配中与设定不相关的信息,生成新的图像,同时进行文本

图像匹配,生成新的文本;步骤5、分别计算图像和文本的相似度;采用计算局部的相似性,求和平均得到图像和文本的相似性;步骤6、采用最大硬度的排序损失函数L对设定批量的图像文本匹配进行训练,训练结束后,给定一张目标图像或者句子,即可找到最匹配的句子或者图像。2.根据权利要求1所述的基于语义的图像

文本的跨模态检索方法,其特征在于,步骤1中所述图像特征采用深度学习算法Faster R

CNN提取出每张图像的m个区域,再采用预训练残差网络提出每个区域的特征f
i
,如下式所示:v
i
=W
v
f
i
+b
v
其中W
v
和b
v
是学习参数;通过全连接学习f
i
特征,生成图像的特征表示v
i
,最终图像的特征表示如下式所示:V={v
i
|i=1,

,m,v
i
∈R
d
}V表示该图像的全部区域特征,m表示图像的区域个数,v
i
表示该图像的区域特征,v
i
表示该图像的区域特征,R
d
表示特征维度;所述文本特征采用双向门控循环单元生成文本表示,如下式所示T={t
j
|j=1,

,n,t
j
∈R
d
}T表示文本的全部单词特征,t
j
表示文本中的第j个单词的特征表示,n表示文本中单词的个数,R
d
表示特征维度。3.根据权利要求1所述的基于语义的图像

文本的跨模态检索方法,其特征在于,步骤2中所述结合上下文的图像区域特征表示如下式所示:U={u
i
|i=1,

,m,u
i
∈R
d
}其中W
g
是学习参数;U表示结合上下文的图像特征表示,u
i
表示第i个有上下文语义的区域特征。4.根据权利要求1所述的基于语义的图像

文本的跨模态检索方法,其特征在于,步骤3中所述跨模态检索分为图像

文本匹配和文本

图...

【专利技术属性】
技术研发人员:杨晓春李晓静郑晗王斌张晓红
申请(专利权)人:东北大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1