【技术实现步骤摘要】
基于跨模态置信度感知的图像文本匹配方法
[0001]本专利技术涉及跨模态检索领域,具体涉及一种基于跨模态置信度感知的图像文本匹配方法。
技术介绍
[0002]随着互联网应用和社交媒体的兴起,图像、文本、视频和语音等模态的信息海量涌现。多模态信息的理解与应用日益重要,如何实现信息的跨模态转化、映射与对齐是近年来的研究热点。图像
‑
文本匹配任务是跨模态领域中的核心任务,其通过计算图像和文本的语义相似度来进行跨模态检索,缩减两模态间的视觉
‑
语义鸿沟以实现异质模态对齐,并可启发对其他跨模态任务的探索,如字幕生成,视觉问答等。因此,实现一种精准的图文匹配方法,对异质模态对齐理论的探讨和多模态应用技术的拓展都有重大意义。
[0003]现有的图文匹配方法可分为两种策略:基于全局对齐的匹配和基于局部对齐的匹配。全局对齐方法直接基于整张图像和全文在公共嵌入空间中的对齐程度来推断跨模态语义相似度。基于局部对齐的方法从检测到的显著区域和文本单词之间的局部语义对齐中聚合得到图文整体相关性。近来的研究工作主要关注于挖掘区域
‑
单词水平上的细粒度视觉
‑
语义对齐,如通过建模区域
‑
单词间的语义交互过程来获得有助于对齐的可分性表征,或设计局部对齐聚合机制以得到更准确的整体相关性。总的来说,现有的方法主要通过关联局部视觉
‑
语义来匹配区域
‑
单词,再机械地聚合区域
‑
单词匹配对之间的局部语义相似度 ...
【技术保护点】
【技术特征摘要】
1.一种基于跨模态置信度感知的图像文本匹配方法,包括以下步骤:步骤一:抽取图像I上N个区域v
i
的特征表示和文本T中M个单词u
i
的特征表示,计算图像的全局表征v
glo
和文本T的全局表征u
glo
;步骤二:通过规范化距离向量表示图像上各区域v
i
与语义相关文本的区域局部语义相似度文本T中各单词u
i
与语义相关区域的单词局部语义相似度以及图像I和文本T的全局语义相似度s
glo
;步骤三:以区域v
i
的周边区域作为视觉上下文对区域v
i
进行扩展,通过视觉上下文计算区域v
i
在文本T中被描述的程度其中为可学习参数矩阵;步骤四:以文本为桥梁,通过全局语义相似度s
glo
和视觉上下文计算区域v
i
对应的匹配置信度c
i
:c=σ(LayerNorm([∈1,E2,
…
,∈
i
,...,∈
N
]));其中c=[c1,c2,...c
i
,...,c
N
],为可学习参数向量,
⊙
指示元素对应相乘操作,σ表示sigmoid函数,LayerNorm表示层规范化操作;步骤五:通过匹配置信度c
i
对相应区域局部语义相似度进行缩放,得到全局语义相似度s
glo
和各被缩放后的区域局部语义相似度构成的集合S
v
,全局语义相似度s
glo
与单词局部语义相似度构成集合S
u
;步骤六:分别在集合S
v
和S
u
上应用多层自注意力推理,拼接最后一层注意力推理层中视觉增强的全局语义相似度和语言增强的全局语义相似度得到拼接向量,将拼接向量输入到由sigmoid函数激活的全连接层来计算图像I和文本T之间的跨模态相关性r(I,T):其中为可学习参数向量。2.根据权利要求1所述基于跨模态置信度感知的图像文本匹配方法,其特征在于,步骤一中抽取图像I上的区域v
i
的特征表示以及计算图像的全局表征v
glo
的方法如下:采用以ResNet
‑
101为骨干网络的Faster R
‑
CNN目标检测器来抽取图像上N个显著区域的特征x
i
,然后将x
i
线性映射为共同嵌入空间中的视觉向量作为区域v
i
的特征,图像I的全局表征v
glo
通过以区域平均值v
ave
为查询键的注意力机制来编码:其中注意力权重w
...
【专利技术属性】
技术研发人员:毛震东,张勇东,张铧天,张坤,
申请(专利权)人:中国科学技术大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。