基于动态路由注意力机制的视觉问答方法、存储介质及设备技术

技术编号:32856626 阅读:16 留言:0更新日期:2022-03-30 19:28
基于动态路由注意力机制的视觉问答方法、存储介质及设备,属于自然语言处理技术领域。为了解决现有的引入了多层注意力的问答模型由于参数量过多,从而导致了训练时长,甚至梯度消失的问题。本发明专利技术将图像I和文本问题Q输入视觉问答模型以获得问答答案;视觉问答模型包括:对图像和文本问题进行特征提取的特征提取单元、使用动态路由的方式分别以文本问题特征、视觉特征作为参考向量和特征矩阵在图像中进行注意力权重的更新,根据注意力权重分布获取到图像中的输出向量的动态路由注意力网络单元,以及将获取到的输出向量输入到两层全连接层进行特征转换,然后通过预测层对问题的答案进行预测的答案预测单元。本发明专利技术主要用于视觉问答。觉问答。觉问答。

【技术实现步骤摘要】
基于动态路由注意力机制的视觉问答方法、存储介质及设备


[0001]本专利技术涉及一种视觉问答方法,属于自然语言处理


技术介绍

[0002]鉴于问答任务在自然语言处理领域的成功应用,很多科研工作者开始研究将问答系统应用到计算机视觉领域。近年来,很多科研工作者致力于视觉问答任务的研究,视觉问答方法得以快速发展。现已有多种视觉问答模型被提出,这些模型又可根据其使用的具体方法被细分为联合嵌入方法模型,基于注意力机制的模型,基于组合式的方法模型以及基于外部知识库的模型。目前流行的基于注意力机制的视觉问答方法中为了能够获取到与任务相关性最高的特征,都引入了多层注意力,同时也引入了大量的参数,导致模型计算量的急剧增加,对模型的鲁棒性和训练效果都造成严重损害。

技术实现思路

[0003]本专利技术是为了解决现有的引入了多层注意力的问答模型由于参数量过多,从而导致了训练时长,甚至梯度消失的问题。
[0004]基于动态路由注意力机制的视觉问答方法,包括以下步骤:
[0005]将图像I和文本问题Q输入视觉问答模型,利用视觉问答模型获得问答答案;
[0006]所述视觉问答模型包括:
[0007]特征提取单元:使用第一神经网络对图像I进行特征提取得到视觉特征,并使用第二神经网络对文本问题Q进行特征提取得到文本问题特征;
[0008]动态路由注意力网络单元:使用动态路由的方式分别以文本问题特征、视觉特征作为参考向量和特征矩阵在图像中进行注意力权重的更新,根据注意力权重分布获取到图像中的输出向量;
[0009]答案预测单元:将获取到的输出向量输入到两层全连接层进行特征转换,然后通过预测层对问题的答案进行预测。
[0010]进一步地,所述视觉问答模型的处理过程包括以下步骤:
[0011]S1、使用第一神经网络对图像I进行特征提取得到视觉特征F;
[0012]同时,使用第二神经网络对文本问题Q进行特征提取得到文本问题特征h;
[0013]S2、将获取的视觉特征F和文本问题特征h输入到本专利技术提出的动态路由注意力机制网络单元中进行多步推理,动态路由注意力机制推理的具体过程如下:
[0014]将文本问题特征h作为动态路由注意力机制中引导的参考向量,视觉特征F作为特征矩阵进行信息查询;视觉特征F由k个视觉特征向量组成,将视觉特征F中的每一个视觉特征向量表示为f
i
,即f
i
∈F且i∈{1,2,...,k};
[0015]首先使用映射矩阵W
f
、W
h
分别将每个视觉特征向量f
i
和文本问题特征h映射到同一空间维度,得到f
ip
和h
p

[0016]f
ip
=W
f
·
f
i
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0017]h
p
=W
h
·
h
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0018]动态路由注意力机制的输出向量s首先由参考向量h映射后的h
p
进行初始化,初始化后用s0表示:
[0019]s0=h
p
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0020]第t次迭代后输出向量被更新为s
t

[0021][0022]其中,s
t
‑1表示上一次迭代后得到的输出向量;f
ip
是由输入的视觉特征矩阵F映射后得到的新的视觉特征F
p
中的第i个视觉特征向量;c
i
表示第i个视觉特征向量对应的注意力权重,在每次迭代的过程中进行更新;注意力权重c
i
构成了视觉特征矩阵F
p
上的注意力权重分布;
[0023]注意力权重c
i
是由动态路由算法使用softmax函数计算更新:
[0024][0025]其中,b
i
为指数先验,表示第i个视觉特征向量f
ip
和输出向量s相关联的指数先验概率;
[0026]每次动态路由都会将指数先验b
i
进行更新,然后将更新后的b
i
用于下一次迭代过程的注意力权重c
i
的更新;每次迭代中b
i
通过在b
i
的原值上加上f
ip
和输出向量s的内积进行更新:
[0027]b
i
=b
i
+f
ip
·
s
t
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0028]其中,s
t
表示第t次迭代后的输出向量;
[0029]动态路由注意力机制网络进行N次迭代,将经过N次迭代之后得到的输出向量s
N
表示为s作为输入的视觉特征F和文本问题特征h的联合特征;
[0030]S3、将联合特征s输入到答案预测单元进行处理,联合特征s首先通过两层全连接层进行特征转换,预测层将转换后的特征利用损失函数进行答案预测。
[0031]进一步地,所述第二神经网络为双向GRU网络;双向GRU网络对输入的文本问题Q进行特征提取,通过拼接双向GRU网络中前馈和后馈网络的隐层特征作为文本问题特征h。
[0032]进一步地,所述第一神经网络为卷积神经网络。
[0033]进一步地,所述输出向量和视觉特征向量之间的注意力权重之和为1。
[0034]进一步地,所述视觉问答模型在训练过程中,预测层采用的损失函数为Softmax交叉熵损失函数。
[0035]或者,所述视觉问答模型在训练过程中,预测层按多标签分类问题来进行处理,损失函数如下:
[0036][0037]其中,p
l
表示第l类的预测概率,y
l
表示第l类是否是正确答案,y
l
=1表示第l类在正确答案中。
[0038]一种存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现所述的基于动态路由注意力机制的视觉问答方法。
[0039]一种设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现所述的基于动态路由注意力机制的视觉问答方法。
[0040]有益效果:
[0041]为了解决现有模型中参数量过多的问题,本专利技术提出了一种基于动态路由注意力机制的视觉问答方法,通过高效的、鲁棒的动态路由注意力方法,使用一层注意力完成多步推理过程,避免了传统多层注意力本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于动态路由注意力机制的视觉问答方法,其特征在于,将图像I和文本问题Q输入视觉问答模型,利用视觉问答模型获得问答答案;所述视觉问答模型包括:特征提取单元:使用第一神经网络对图像I进行特征提取得到视觉特征,并使用第二神经网络对文本问题Q进行特征提取得到文本问题特征;动态路由注意力网络单元:使用动态路由的方式分别以文本问题特征、视觉特征作为参考向量和特征矩阵在图像中进行注意力权重的更新,根据注意力权重分布获取到图像中的输出向量;答案预测单元:将获取到的输出向量输入到两层全连接层进行特征转换,然后通过预测层对问题的答案进行预测。2.根据权利要求1所述基于动态路由注意力机制的视觉问答方法,其特征在于,所述视觉问答模型的处理过程包括以下步骤:S1、使用第一神经网络对图像I进行特征提取得到视觉特征F;同时,使用第二神经网络对文本问题Q进行特征提取得到文本问题特征h;S2、将获取的视觉特征F和文本问题特征h输入到本发明提出的动态路由注意力机制网络单元中进行多步推理,动态路由注意力机制推理的具体过程如下:将文本问题特征h作为动态路由注意力机制中引导的参考向量,视觉特征F作为特征矩阵进行信息查询;视觉特征F由k个视觉特征向量组成,将视觉特征F中的每一个视觉特征向量表示为f
i
,即f
i
∈F且i∈{1,2,...,k};首先使用映射矩阵W
f
、W
h
分别将每个视觉特征向量f
i
和文本问题特征h映射到同一空间维度,得到f
ip
和h
p
:f
ip
=W
f
·
f
i
ꢀꢀꢀꢀꢀꢀ
(1)h
p
=W
h
·
h
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)动态路由注意力机制的输出向量s首先由参考向量h映射后的h
p
进行初始化,初始化后用s0表示:s0=h
p
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)第t次迭代后输出向量被更新为s
t
:其中,s
t
‑1表示上一次迭代后得到的输出向量;f
ip
是由输入的视觉特征矩阵F映射后得到的新的视觉特征F
p
中的第i个视觉特征向量;c
i
表示第i个视觉特征向量对应的注意力权重,在每次迭代的过程中进行更新;注意力权重c
i
构成了视觉特征矩阵F
p
上的注意力权重分布;注意力权重c
i

【专利技术属性】
技术研发人员:董宇欣闫鹏超张立国印桂生王红滨杨东梅
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1