【技术实现步骤摘要】
基于动态路由注意力机制的视觉问答方法、存储介质及设备
[0001]本专利技术涉及一种视觉问答方法,属于自然语言处理
技术介绍
[0002]鉴于问答任务在自然语言处理领域的成功应用,很多科研工作者开始研究将问答系统应用到计算机视觉领域。近年来,很多科研工作者致力于视觉问答任务的研究,视觉问答方法得以快速发展。现已有多种视觉问答模型被提出,这些模型又可根据其使用的具体方法被细分为联合嵌入方法模型,基于注意力机制的模型,基于组合式的方法模型以及基于外部知识库的模型。目前流行的基于注意力机制的视觉问答方法中为了能够获取到与任务相关性最高的特征,都引入了多层注意力,同时也引入了大量的参数,导致模型计算量的急剧增加,对模型的鲁棒性和训练效果都造成严重损害。
技术实现思路
[0003]本专利技术是为了解决现有的引入了多层注意力的问答模型由于参数量过多,从而导致了训练时长,甚至梯度消失的问题。
[0004]基于动态路由注意力机制的视觉问答方法,包括以下步骤:
[0005]将图像I和文本问题Q输入视觉问答模型,利用视觉问答模型获得问答答案;
[0006]所述视觉问答模型包括:
[0007]特征提取单元:使用第一神经网络对图像I进行特征提取得到视觉特征,并使用第二神经网络对文本问题Q进行特征提取得到文本问题特征;
[0008]动态路由注意力网络单元:使用动态路由的方式分别以文本问题特征、视觉特征作为参考向量和特征矩阵在图像中进行注意力权重的更新,根据注意力权重分布获取到图 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.基于动态路由注意力机制的视觉问答方法,其特征在于,将图像I和文本问题Q输入视觉问答模型,利用视觉问答模型获得问答答案;所述视觉问答模型包括:特征提取单元:使用第一神经网络对图像I进行特征提取得到视觉特征,并使用第二神经网络对文本问题Q进行特征提取得到文本问题特征;动态路由注意力网络单元:使用动态路由的方式分别以文本问题特征、视觉特征作为参考向量和特征矩阵在图像中进行注意力权重的更新,根据注意力权重分布获取到图像中的输出向量;答案预测单元:将获取到的输出向量输入到两层全连接层进行特征转换,然后通过预测层对问题的答案进行预测。2.根据权利要求1所述基于动态路由注意力机制的视觉问答方法,其特征在于,所述视觉问答模型的处理过程包括以下步骤:S1、使用第一神经网络对图像I进行特征提取得到视觉特征F;同时,使用第二神经网络对文本问题Q进行特征提取得到文本问题特征h;S2、将获取的视觉特征F和文本问题特征h输入到本发明提出的动态路由注意力机制网络单元中进行多步推理,动态路由注意力机制推理的具体过程如下:将文本问题特征h作为动态路由注意力机制中引导的参考向量,视觉特征F作为特征矩阵进行信息查询;视觉特征F由k个视觉特征向量组成,将视觉特征F中的每一个视觉特征向量表示为f
i
,即f
i
∈F且i∈{1,2,...,k};首先使用映射矩阵W
f
、W
h
分别将每个视觉特征向量f
i
和文本问题特征h映射到同一空间维度,得到f
ip
和h
p
:f
ip
=W
f
·
f
i
ꢀꢀꢀꢀꢀꢀ
(1)h
p
=W
h
·
h
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)动态路由注意力机制的输出向量s首先由参考向量h映射后的h
p
进行初始化,初始化后用s0表示:s0=h
p
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)第t次迭代后输出向量被更新为s
t
:其中,s
t
‑1表示上一次迭代后得到的输出向量;f
ip
是由输入的视觉特征矩阵F映射后得到的新的视觉特征F
p
中的第i个视觉特征向量;c
i
表示第i个视觉特征向量对应的注意力权重,在每次迭代的过程中进行更新;注意力权重c
i
构成了视觉特征矩阵F
p
上的注意力权重分布;注意力权重c
i
技术研发人员:董宇欣,闫鹏超,张立国,印桂生,王红滨,杨东梅,
申请(专利权)人:哈尔滨工程大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。