【技术实现步骤摘要】
基于语义的图像
‑
文本的跨模态检索方法
[0001]本专利技术涉及数据库
,尤其涉及一种基于语义的图像
‑
文本的跨模态检索方法。
技术介绍
[0002]由于来自社交媒体和网络应用的多媒体数据的爆炸性增长,图像
‑
文本双向检索在学术和工业界变得越来越流行。这个任务定义为给定一个图像去检索与图像语义相似的文本;给定一个文本去检索于文本语义相似的图像。图像
‑
文本的跨模态检索本质是处理图像
‑
文本匹配的任务。在一定程度上,图像
‑
文本跨模态检索促进了视觉与语言的相互理解;同时可以应用到搜索引擎。但是,这一任务也面临很大的挑战,由于图像和文本属于不同的结构,学习两种异构的数据变得很困难。如何准确的度量两种不同结构的数据的对应关系是一个难题。
[0003]在近年,为了解决图像和文本的异构性,很多关于图像
‑
文本的跨模态检索方法被提出来。但是很多是关于粗粒度的方法,通过神经网络的方法,把图像和文本直接映射到同一潜在的子空间;然后通过计算图像和文本特征之间的距离,度量两者的相似性;距离越小相似性越大,距离越大相似性越小。但是,这些方法粗略地捕捉了模态之间的对应关系,没有考虑图像和文本的语义对应,从而不能提高匹配的准确性。为了进一步提高匹配的准确性,一些方法探索了图像和文本之间的细粒度交互。同时为了更深入地理解这种细粒度的对应关系,最近的研究提出了跨模态图像
‑
文本检索的细粒度 ...
【技术保护点】
【技术特征摘要】
1.一种基于语义的图像
‑
文本的跨模态检索方法,其特征在于,包括以下步骤:步骤1、分别对待测图片的图像特征以及文本特征进行提取;步骤2、增强图像表示:采用双向门控循环单元RNN生成结合图像上下文的图像区域表示,把一张图片的每个区域看成一个节点,计算结合图像上下文的图像区域特征表示;步骤3、采用注意力机制进行跨模态检索,分别学习基于文本的区域特征,以及基于图像的单词特征;步骤4、采用了改进的门控机制加强图像
‑
文本的语义匹配,过滤掉匹配中与设定不相关的信息,生成新的图像,同时进行文本
‑
图像匹配,生成新的文本;步骤5、分别计算图像和文本的相似度;采用计算局部的相似性,求和平均得到图像和文本的相似性;步骤6、采用最大硬度的排序损失函数L对设定批量的图像文本匹配进行训练,训练结束后,给定一张目标图像或者句子,即可找到最匹配的句子或者图像。2.根据权利要求1所述的基于语义的图像
‑
文本的跨模态检索方法,其特征在于,步骤1中所述图像特征采用深度学习算法Faster R
‑
CNN提取出每张图像的m个区域,再采用预训练残差网络提出每个区域的特征f
i
,如下式所示:v
i
=W
v
f
i
+b
v
其中W
v
和b
v
是学习参数;通过全连接学习f
i
特征,生成图像的特征表示v
i
,最终图像的特征表示如下式所示:V={v
i
|i=1,
…
,m,v
i
∈R
d
}V表示该图像的全部区域特征,m表示图像的区域个数,v
i
表示该图像的区域特征,v
i
表示该图像的区域特征,R
d
表示特征维度;所述文本特征采用双向门控循环单元生成文本表示,如下式所示T={t
j
|j=1,
…
,n,t
j
∈R
d
}T表示文本的全部单词特征,t
j
表示文本中的第j个单词的特征表示,n表示文本中单词的个数,R
d
表示特征维度。3.根据权利要求1所述的基于语义的图像
‑
文本的跨模态检索方法,其特征在于,步骤2中所述结合上下文的图像区域特征表示如下式所示:U={u
i
|i=1,
…
,m,u
i
∈R
d
}其中W
g
是学习参数;U表示结合上下文的图像特征表示,u
i
表示第i个有上下文语义的区域特征。4.根据权利要求1所述的基于语义的图像
‑
文本的跨模态检索方法,其特征在于,步骤3中所述跨模态检索分为图像
‑
文本匹配和文本
‑
图...
【专利技术属性】
技术研发人员:杨晓春,李晓静,郑晗,王斌,张晓红,
申请(专利权)人:东北大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。