一种基于混合聚焦注意力机制的图文匹配方法及系统技术方案

技术编号：37641241 阅读：24 留言：0更新日期：2023-05-25 10:08

本发明专利技术公开了一种基于混合聚焦注意力机制的图文匹配方法及系统，方法包括以下步骤：步骤S1.提取图像中显著区域的特征以及自然语言描述中各个单词的特征；步骤S2.利用聚焦的跨模态注意力机制自适应地调整注意力机制对不同图片的温度系数，从而区分有效和无效的区域特征；步骤S3.利用门控的自注意力机制实现对区域特征和单词特征的模态内融合，通过门控信号控制自注意力矩阵自适应地选择有效的区域特征和单词特征；步骤S4.利用跨模态和自模态的区域特征和单词特征计算整个图像和句子的匹配分数。本发明专利技术可以实现图文间互相检索。本发明专利技术可以实现图文间互相检索。本发明专利技术可以实现图文间互相检索。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于混合聚焦注意力机制的图文匹配方法及系统

[0001]本专利技术属于计算机视觉和自然语言处理的交叉领域，具体涉及一种计算图像和文本匹配的方法。

技术介绍

[0002]图像和文本作为互联网传播信息的主要媒体，已经充斥了人们的日常生活，图像作为一种视觉数据，本质上与文本这类自然语言数据有着天然的差异，虽然这两种数据在模态上存在差异，但是很多场景下，图像和文本传播的内容是息息相关的，一幅图像与一句自然语言描述通常会存在内部的语义关联，如何挖掘这种关联，对实现图像和自然语言之间的语义对齐有很大的应用前景及价值。通过挖掘图像和自然语言文本之间的相似性分数，找到语义匹配的图文对，能极大的促进当下文字检索图像/图像检索文字的发展，从而帮助使用者在互联网中检索到更有价值的信息，这就是图文匹配的研究价值及意义。
[0003]图文匹配方法需要对给定的图像和自然语言描述对进行匹配程度的打分，因此，理解图像和自然语言描述的内容是决定匹配分数的关键，只有图文匹配方法能理解图像与文本中的内容，才能更加准确和全面的判断两者的匹配程度。传统的图文匹配方法为实现图文之间细致的匹配，往往会利用预训练的目标检测器抽取图像中的显著区域，而对于自然语言描述，往往会通过序列建模的方式，来抽取句子中每个单词的特征，从而把匹配图像和描述这种全局的信息，转化为区域和单词这种局部信息的匹配，自底向上的实现对图文对匹配程度的计算。
[0004]上述方法目前仍然存在以下两个挑战：（a）存在冗余信息/噪声信息，以往的图文匹配模型往往会用预先从图像中抽出...

【技术保护点】

【技术特征摘要】
1.一种基于混合聚焦注意力机制的图文匹配方法，其特征在于，包括以下步骤：步骤S1.提取图像中显著区域的特征以及自然语言描述中各个单词的特征；步骤S2.利用聚焦的跨模态注意力机制自适应地调整注意力机制对不同图片的温度系数，从而区分有效和无效的区域特征，实现区域级和单词级的特征的跨模态上下文抽取以及融合；步骤S3.利用门控的自注意力机制实现对区域特征和单词特征的模态内融合，通过门控信号控制自注意力矩阵自适应地选择有效的区域特征和单词特征，掩盖噪声和冗余的区域，增强不同区域特征和单词特征的区分度；步骤S4.利用跨模态和自模态的区域特征和单词特征计算整个图像和句子的匹配分数。2.根据权利要求1所述的一种基于混合聚焦注意力机制的图文匹配方法，其特征在于，还包括：步骤S5. 利用三元组损失函数对步骤S1
‑
步骤S4中所有线性层进行优化，优化后再执行步骤S1
‑
步骤S4。3.根据权利要求1或2所述的一种基于混合聚焦注意力机制的图文匹配方法，其特征在于，在步骤S1中，包括两个子步骤：步骤S11.采用预训练的Faster R
‑
CNN目标检测器检测图像中最显著的个区域，并抽取每个区域对应的特征，然后通过线性层将特征映射到维隐空间，将得到的区域特征记为，其中，特征向量中的每个元素都是实数，表示特征向量的维度，表示实数域，表示维的实数向量；步骤S12.对于包含个单词的自然语言描述，采用双向门控循环单元Bi
‑
GRU来抽取每个单词的特征，Bi
‑
GRU的前向过程从第一个单词读到最后一个单词，并记录读到每个单词时的隐状态：，其中，表示前向过程的隐状态，表示第个单词的独热码，表示Bi
‑
GRU的前向过程；Bi
‑
GRU的后向过程从最后一个单词读到第一个单词，并记录读到每个单词时的隐状态：，其中，表示后向过程的隐状态，表示Bi
‑
GRU的后向过程；单词特征由前向过程的隐状态和后向过程的隐状态求平均得到，即：，通过线性层将其特征映射到维隐空间，记为，代表特征向量的维度。4.根据权利要求3所述的一种基于混合聚焦注意力机制的图文匹配方法，其特征在于，
在步骤S2中，包括两个子步骤；步骤S21、给定图像区域特征和描述的单词特征，分别求取平均特征，记为图像区域平均特征和单词平均特征，以图像区域平均特征和单词平均特征为查询对象，分别算出对每个区域、单词的注意力分数：，，其中，表示图像区域平均特征对第个图像区域特征的注意力分数，表示单词平均特征对第个单词特征的注意力分数，、和、分别为参数矩阵一、参数矩阵二、参数矩阵三、参数矩阵四，和为参数向量，表示元素乘法，通过注意力分数对区域、单词特征进行加权和，即可得到图像和文本的全局特征，即：，其中，表示图像的全局特征；表示句子描述的全局特征；对于大小为的批量图像，计算当前文本描述对其中第张图像的聚焦程度，即：，其中，为参数向量，表示两个特征向量的拼接操作，为sigmoid激活函数，由此得到当前文本描述对张图像的聚焦程度；步骤S22、在得到第张图像的区域特征和文本描述的单词特征以及其对第张图像的聚焦分数后，通过局部的单词和区域交互，计算出每个单词对每个区域的相似性分数，即：，其中，表示转置，对相似性分数进行L2归一化处理得到归一化相似程度，表示第个单词与第个区域的相似程度；注意力分数由下式得到：，通...

【专利技术属性】
技术研发人员：鲍秉坤，叶俊杰，邵曦，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人