基于跨模态置信度感知的图像文本匹配方法组成比例

技术编号:34884238 阅读:15 留言:0更新日期:2022-09-10 13:41
本发明专利技术涉及跨模态检索领域,公开了一种基于跨模态置信度感知的图像文本匹配方法,以待匹配文本为桥梁,参考图像

【技术实现步骤摘要】
基于跨模态置信度感知的图像文本匹配方法


[0001]本专利技术涉及跨模态检索领域,具体涉及一种基于跨模态置信度感知的图像文本匹配方法。

技术介绍

[0002]随着互联网应用和社交媒体的兴起,图像、文本、视频和语音等模态的信息海量涌现。多模态信息的理解与应用日益重要,如何实现信息的跨模态转化、映射与对齐是近年来的研究热点。图像

文本匹配任务是跨模态领域中的核心任务,其通过计算图像和文本的语义相似度来进行跨模态检索,缩减两模态间的视觉

语义鸿沟以实现异质模态对齐,并可启发对其他跨模态任务的探索,如字幕生成,视觉问答等。因此,实现一种精准的图文匹配方法,对异质模态对齐理论的探讨和多模态应用技术的拓展都有重大意义。
[0003]现有的图文匹配方法可分为两种策略:基于全局对齐的匹配和基于局部对齐的匹配。全局对齐方法直接基于整张图像和全文在公共嵌入空间中的对齐程度来推断跨模态语义相似度。基于局部对齐的方法从检测到的显著区域和文本单词之间的局部语义对齐中聚合得到图文整体相关性。近来的研究工作主要关注于挖掘区域

单词水平上的细粒度视觉

语义对齐,如通过建模区域

单词间的语义交互过程来获得有助于对齐的可分性表征,或设计局部对齐聚合机制以得到更准确的整体相关性。总的来说,现有的方法主要通过关联局部视觉

语义来匹配区域

单词,再机械地聚合区域

单词匹配对之间的局部语义相似度来衡量图像

文本的整体相关性。
[0004]然而在现有的方法中,局部语义相似度,即区域

单词匹配对的相关性,被以默认的匹配置信度被聚合,这是不合理的。因为匹配置信度,即区域

单词匹配对的可信程度,取决于全局图像

文本语义,相互间存在差异。也就是说,某局部区域

单词对虽然是匹配的,但它与全局的图像

文本语义并不一致,是不可信任的。因此,为了揭示局部语义相似度对整体跨模态相关性的真实合理的贡献水平,需要明确表示区域

单词对在匹配中的置信度。在不考虑置信度的情况下,与整体语义不一致的区域

单词匹配对将被不加区分地聚合,从而干扰整体相关性的度量。

技术实现思路

[0005]为解决上述技术问题,本专利技术提供一种基于跨模态置信度感知的图像文本匹配方法。
[0006]为解决上述技术问题,本专利技术采用如下技术方案:
[0007]一种基于跨模态置信度感知的图像文本匹配方法,包括以下步骤:
[0008]步骤一:抽取图像I上N个区域v
i
的特征表示和文本T中M个单词u
i
的特征表示,计算图像的全局表征v
glo
和文本T的全局表征u
glo

[0009]步骤二:通过规范化距离向量表示图像上各区域v
i
与语义相关文本的区域局部语义相似度文本T中各单词u
i
与语义相关区域的单词局部语义相似度以及图像I和
文本T的全局语义相似度s
glo

[0010]步骤三:以区域v
i
的周边区域作为视觉上下文对区域v
i
进行扩展,通过视觉上下文计算区域v
i
在文本T中被描述的程度其中为可学习参数矩阵;
[0011]步骤四:以文本为桥梁,通过全局语义相似度s
glo
和视觉上下文计算区域v
i
对应的匹配置信度c
i

[0012]c=σ(LayerNorm([∈1,∈2,

,∈
i


,∈
N
]));
[0013][0014]其中c=[c1,c2,

c
i


,c
N
],为可学习参数向量,

指示元素对应相乘操作,σ表示sigmoid函数,LayerNorm表示层规范化操作;
[0015]步骤五:通过匹配置信度c
i
对相应区域局部语义相似度进行缩放,得到全局语义相似度s
glo
和各被缩放后的区域局部语义相似度构成的集合S
v
,全局语义相似度s
glo
与单词局部语义相似度构成集合S
u

[0016]步骤六:分别在集合S
v
和S
u
上应用多层自注意力推理,拼接最后一层注意力推理层中视觉增强的全局语义相似度和语言增强的全局语义相似度得到拼接向量,将拼接向量输入到由sigmoid函数激活的全连接层来计算图像I和文本T之间的跨模态相关性r(I,T):
[0017][0018]其中为可学习参数向量。
[0019]具体地,步骤一中抽取图像I上的区域v
i
的特征表示以及计算图像的全局表征v
glo
的方法如下:
[0020]采用以ResNet

101为骨干网络的Faster R

CNN目标检测器来抽取图像上N个显著区域的特征x
i
,然后将x
i
线性映射为共同嵌入空间中的视觉向量作为区域v
i
的特征,图像I的全局表征v
glo
通过以区域平均值v
ave
为查询键的注意力机制来编码:
[0021][0022]其中注意力权重w
i
是v
ave
和v
i
的相似度。
[0023]具体地,步骤一中抽取文本T中的单词u
i
的特征表示以及计算文本T的全局表征u
glo
的方法如下:
[0024]将M个单词的one

hot编码{d1,d2,

,d
M
}由可学习单词映射层t
i
=W
e
d
i
转换为分布式表征,使用Bi

GRU来编码单词的前向信息和后向信息
[0025][0026][0027]采用作为被上下文增强的单词u
i
的表征;其中W
e
为单词映射层
的线性变换参数矩阵;
[0028]文本T的全局表征u
glo
通过以单词平均值u
ave
为查询键的注意力机制来编码:
[0029][0030]其中注意力权重w
i
是u
ave
和u
i
的相似度。
[0031本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于跨模态置信度感知的图像文本匹配方法,包括以下步骤:步骤一:抽取图像I上N个区域v
i
的特征表示和文本T中M个单词u
i
的特征表示,计算图像的全局表征v
glo
和文本T的全局表征u
glo
;步骤二:通过规范化距离向量表示图像上各区域v
i
与语义相关文本的区域局部语义相似度文本T中各单词u
i
与语义相关区域的单词局部语义相似度以及图像I和文本T的全局语义相似度s
glo
;步骤三:以区域v
i
的周边区域作为视觉上下文对区域v
i
进行扩展,通过视觉上下文计算区域v
i
在文本T中被描述的程度其中为可学习参数矩阵;步骤四:以文本为桥梁,通过全局语义相似度s
glo
和视觉上下文计算区域v
i
对应的匹配置信度c
i
:c=σ(LayerNorm([∈1,E2,

,∈
i
,...,∈
N
]));其中c=[c1,c2,...c
i
,...,c
N
],为可学习参数向量,

指示元素对应相乘操作,σ表示sigmoid函数,LayerNorm表示层规范化操作;步骤五:通过匹配置信度c
i
对相应区域局部语义相似度进行缩放,得到全局语义相似度s
glo
和各被缩放后的区域局部语义相似度构成的集合S
v
,全局语义相似度s
glo
与单词局部语义相似度构成集合S
u
;步骤六:分别在集合S
v
和S
u
上应用多层自注意力推理,拼接最后一层注意力推理层中视觉增强的全局语义相似度和语言增强的全局语义相似度得到拼接向量,将拼接向量输入到由sigmoid函数激活的全连接层来计算图像I和文本T之间的跨模态相关性r(I,T):其中为可学习参数向量。2.根据权利要求1所述基于跨模态置信度感知的图像文本匹配方法,其特征在于,步骤一中抽取图像I上的区域v
i
的特征表示以及计算图像的全局表征v
glo
的方法如下:采用以ResNet

101为骨干网络的Faster R

CNN目标检测器来抽取图像上N个显著区域的特征x
i
,然后将x
i
线性映射为共同嵌入空间中的视觉向量作为区域v
i
的特征,图像I的全局表征v
glo
通过以区域平均值v
ave
为查询键的注意力机制来编码:其中注意力权重w
...

【专利技术属性】
技术研发人员:毛震东张勇东张铧天张坤
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1