一种基于混合聚焦注意力机制的图文匹配方法及系统技术方案

技术编号:37641241 阅读:24 留言:0更新日期:2023-05-25 10:08
本发明专利技术公开了一种基于混合聚焦注意力机制的图文匹配方法及系统,方法包括以下步骤:步骤S1.提取图像中显著区域的特征以及自然语言描述中各个单词的特征;步骤S2.利用聚焦的跨模态注意力机制自适应地调整注意力机制对不同图片的温度系数,从而区分有效和无效的区域特征;步骤S3.利用门控的自注意力机制实现对区域特征和单词特征的模态内融合,通过门控信号控制自注意力矩阵自适应地选择有效的区域特征和单词特征;步骤S4.利用跨模态和自模态的区域特征和单词特征计算整个图像和句子的匹配分数。本发明专利技术可以实现图文间互相检索。本发明专利技术可以实现图文间互相检索。本发明专利技术可以实现图文间互相检索。

【技术实现步骤摘要】
一种基于混合聚焦注意力机制的图文匹配方法及系统


[0001]本专利技术属于计算机视觉和自然语言处理的交叉领域,具体涉及一种计算图像和文本匹配的方法。

技术介绍

[0002]图像和文本作为互联网传播信息的主要媒体,已经充斥了人们的日常生活,图像作为一种视觉数据,本质上与文本这类自然语言数据有着天然的差异,虽然这两种数据在模态上存在差异,但是很多场景下,图像和文本传播的内容是息息相关的,一幅图像与一句自然语言描述通常会存在内部的语义关联,如何挖掘这种关联,对实现图像和自然语言之间的语义对齐有很大的应用前景及价值。通过挖掘图像和自然语言文本之间的相似性分数,找到语义匹配的图文对,能极大的促进当下文字检索图像/图像检索文字的发展,从而帮助使用者在互联网中检索到更有价值的信息,这就是图文匹配的研究价值及意义。
[0003]图文匹配方法需要对给定的图像和自然语言描述对进行匹配程度的打分,因此,理解图像和自然语言描述的内容是决定匹配分数的关键,只有图文匹配方法能理解图像与文本中的内容,才能更加准确和全面的判断两者的匹配程度。传统的图文匹配方法为实现图文之间细致的匹配,往往会利用预训练的目标检测器抽取图像中的显著区域,而对于自然语言描述,往往会通过序列建模的方式,来抽取句子中每个单词的特征,从而把匹配图像和描述这种全局的信息,转化为区域和单词这种局部信息的匹配,自底向上的实现对图文对匹配程度的计算。
[0004]上述方法目前仍然存在以下两个挑战:(a)存在冗余信息/噪声信息,以往的图文匹配模型往往会用预先从图像中抽出的固定数量(典型值为36)的区域特征,其中部分区域并不包含与文本相关的信息,即噪声特征;还有部分区域存在一定程度的重叠,即冗余特征。(b)图文匹配模型不能区分有用和无用信息,基于单模态自注意力机制往往不会关注某个区域是否为有用区域,而现存的跨模态注意力机制往往只能利用一个温度系数来对所有的图片中所有的区域进行区分,而不能针对不同的图片赋予不同的温度系数。

技术实现思路

[0005]本专利技术所要解决的技术问题:在图文间互相检索过程中,如何去除图像中的冗余/噪声区域信息,以及如何构建跨模态和自模态的注意力机制,使得图文匹配方法能不过分关注冗余/噪声区域信息。
[0006]为解决上述技术问题,本专利技术提供一种基于混合聚焦注意力机制的图文匹配方法,包括以下步骤:步骤S1.提取图像中显著区域的特征以及自然语言描述中各个单词的特征;步骤S2.利用聚焦的跨模态注意力机制自适应地调整注意力机制对不同图片的温度系数,从而区分有效和无效的区域特征,实现区域级和单词级的特征的跨模态上下文抽取以及融合;
步骤S3.利用门控的自注意力机制实现对区域特征和单词特征的模态内融合,通过门控信号控制自注意力矩阵自适应地选择有效的区域特征和单词特征,掩盖噪声和冗余的区域,增强不同区域特征和单词特征的区分度;步骤S4.利用跨模态和自模态的区域特征和单词特征计算整个图像和句子的匹配分数。
[0007]前述的一种基于混合聚焦注意力机制的图文匹配方法,还包括:步骤S5. 利用三元组损失函数对步骤S1

步骤S4中所有线性层进行优化,优化后再执行步骤S1

步骤S4。
[0008]前述的一种基于混合聚焦注意力机制的图文匹配方法,在步骤S1中,包括两个子步骤:步骤S11.采用预训练的Faster R

CNN目标检测器检测图像中最显著的个区域,并抽取每个区域对应的特征,然后通过线性层将特征映射到维隐空间,将得到的区域特征记为,其中,特征向量中的每个元素都是实数,表示特征向量的维度,表示实数域,表示维的实数向量;步骤S12.对于包含个单词的自然语言描述,采用双向门控循环单元Bi

GRU来抽取每个单词的特征,Bi

GRU的前向过程从第一个单词读到最后一个单词,并记录读到每个单词时的隐状态:,其中,表示前向过程的隐状态,表示第个单词的独热码,表示Bi

GRU的前向过程;Bi

GRU的后向过程从最后一个单词读到第一个单词,并记录读到每个单词时的隐状态:,其中,表示后向过程的隐状态,表示Bi

GRU的后向过程;单词特征由前向过程的隐状态和后向过程的隐状态求平均得到,即:,通过线性层将其特征映射到维隐空间,记为,代表特征向量的维度。
[0009]前述的一种基于混合聚焦注意力机制的图文匹配方法,在步骤S2中,包括两个子步骤;步骤S21、给定图像区域特征和描述的单词特征,分别求取平均特征,记为图像区域平均特征和单词平均特征,以图像区域平均特征和单词平均特征为查询对象,分别算出对每个区域、单词的注意力分数:,,
其中,表示图像区域平均特征对第个图像区域特征的注意力分数,表示单词平均特征对第个单词特征的注意力分数,、和、分别为参数矩阵一、参数矩阵二、参数矩阵三、参数矩阵四,和为参数向量,表示元素乘法,通过注意力分数对区域、单词特征进行加权和,即可得到图像和文本的全局特征,即:,其中,表示图像的全局特征;表示句子描述的全局特征;对于大小为的批量图像,计算当前文本描述对其中第张图像的聚焦程度,即:,其中,为参数向量,表示两个特征向量的拼接操作,为sigmoid激活函数,由此得到当前文本描述对张图像的聚焦程度;步骤S22、在得到第张图像的区域特征和文本描述的单词特征以及其对第张图像的聚焦分数后,通过局部的单词和区域交互,计算出每个单词对每个区域的相似性分数,即:,其中,表示转置,对相似性分数进行L2归一化处理得到归一化相似程度,表示第个单词与第个区域的相似程度;注意力分数由下式得到:,通过每个单词对每个区域的注意力分数进行加权和得到每个单词对应的跨模态上下文特征,即:,经由线性层实现第个单词特征和对应的跨模态上下文特征的融合,即:,其中,表示两个模态信息相融后的特征;为线性层;
将步骤S21中所得的图像的全局特征和句子描述的全局特征进行融合,作为融合后的全局特征,即:,将融合后的全局特征和每个单词对应的融合特征合并记为多模态特征。
[0010]前述的一种基于混合聚焦注意力机制的图文匹配方法,在步骤S3中,注意力系数矩阵通过下式计算为:,其中,和表示两个参数不同的线性层;门控信号计算为:,其中,为激活函数,是一个可学习的参数向量,门控信号,中的每个标量元素看作每个特征的重要程度,在对注意力矩阵中每行元素进行softmax归一之前,将门控分数通过门限值分离为重要的特征和不重要的特征,即将每个固定为硬(hard)分数:,其中,为门限值,为不重要的局部特征的分数,为重要的局部特征的分数;门控向量表示为;用第个门控信号对注意力分数矩阵的第列元素进行加权,由下式表示:,其中,表示注意力分数矩阵的每个元素;通过softmax函数对门控后的注意力矩阵中的每行元素进行归一化处理;更新后的全局特征由注意力分数对多模态特征进行加权和得到,即:,其中,为激活函数;为线性层;为上步中得到的多模态特征矩阵;门控的自本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于混合聚焦注意力机制的图文匹配方法,其特征在于,包括以下步骤:步骤S1.提取图像中显著区域的特征以及自然语言描述中各个单词的特征;步骤S2.利用聚焦的跨模态注意力机制自适应地调整注意力机制对不同图片的温度系数,从而区分有效和无效的区域特征,实现区域级和单词级的特征的跨模态上下文抽取以及融合;步骤S3.利用门控的自注意力机制实现对区域特征和单词特征的模态内融合,通过门控信号控制自注意力矩阵自适应地选择有效的区域特征和单词特征,掩盖噪声和冗余的区域,增强不同区域特征和单词特征的区分度;步骤S4.利用跨模态和自模态的区域特征和单词特征计算整个图像和句子的匹配分数。2.根据权利要求1所述的一种基于混合聚焦注意力机制的图文匹配方法,其特征在于,还包括:步骤S5. 利用三元组损失函数对步骤S1

步骤S4中所有线性层进行优化,优化后再执行步骤S1

步骤S4。3.根据权利要求1或2所述的一种基于混合聚焦注意力机制的图文匹配方法,其特征在于,在步骤S1中,包括两个子步骤:步骤S11.采用预训练的Faster R

CNN目标检测器检测图像中最显著的个区域,并抽取每个区域对应的特征,然后通过线性层将特征映射到维隐空间,将得到的区域特征记为,其中,特征向量中的每个元素都是实数,表示特征向量的维度,表示实数域,表示维的实数向量;步骤S12.对于包含个单词的自然语言描述,采用双向门控循环单元Bi

GRU来抽取每个单词的特征,Bi

GRU的前向过程从第一个单词读到最后一个单词,并记录读到每个单词时的隐状态:,其中,表示前向过程的隐状态,表示第个单词的独热码,表示Bi

GRU的前向过程;Bi

GRU的后向过程从最后一个单词读到第一个单词,并记录读到每个单词时的隐状态:,其中,表示后向过程的隐状态,表示Bi

GRU的后向过程;单词特征由前向过程的隐状态和后向过程的隐状态求平均得到,即:,通过线性层将其特征映射到维隐空间,记为,代表特征向量的维度。4.根据权利要求3所述的一种基于混合聚焦注意力机制的图文匹配方法,其特征在于,
在步骤S2中,包括两个子步骤;步骤S21、给定图像区域特征和描述的单词特征,分别求取平均特征,记为图像区域平均特征和单词平均特征,以图像区域平均特征和单词平均特征为查询对象,分别算出对每个区域、单词的注意力分数:,,其中,表示图像区域平均特征对第个图像区域特征的注意力分数,表示单词平均特征对第个单词特征的注意力分数,、和、分别为参数矩阵一、参数矩阵二、参数矩阵三、参数矩阵四,和为参数向量,表示元素乘法,通过注意力分数对区域、单词特征进行加权和,即可得到图像和文本的全局特征,即:,其中,表示图像的全局特征;表示句子描述的全局特征;对于大小为的批量图像,计算当前文本描述对其中第张图像的聚焦程度,即:,其中,为参数向量,表示两个特征向量的拼接操作,为sigmoid激活函数,由此得到当前文本描述对张图像的聚焦程度;步骤S22、在得到第张图像的区域特征和文本描述的单词特征以及其对第张图像的聚焦分数后,通过局部的单词和区域交互,计算出每个单词对每个区域的相似性分数,即:,其中,表示转置,对相似性分数进行L2归一化处理得到归一化相似程度,表示第个单词与第个区域的相似程度;注意力分数由下式得到:,通...

【专利技术属性】
技术研发人员:鲍秉坤叶俊杰邵曦
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1