一种基于动作捕捉的注意力网络的视频问答方法技术

技术编号:30430105 阅读:22 留言:0更新日期:2021-10-24 17:21
本发明专利技术公开了一种基于动作捕捉的注意力网络的视频问答方法,先提取将待处理视频和待处理的提问的特征,然后基于这些特征,通过物体动作注意力机制提取动作信息,通过物体关系注意力机制提取待处理视频的全局物体关系信息,通过全局动作注意力机制提取待处理视频的全局动作信息;接着对三种注意力机制下提取的信息进行融合,提取整个视频的全局特征向量;最后基于全局特征向量根据提问的格式输出不同类型答案。同类型答案。同类型答案。

【技术实现步骤摘要】
一种基于动作捕捉的注意力网络的视频问答方法


[0001]本专利技术属于视频问答
,更为具体地讲,涉及一种基于动作捕捉的注意力网络的视频问答方法。

技术介绍

[0002]视频问答(Video Question Answering,Video QA)的主要目标是:输入任意的一个视频和一个对于该视频内容的提问,模型能通过对多模态输入的理解和推理,自动找出问题的答案。解决这个任务的典型方法是先用一个循环神经网络(RNN)处理问题文本,得到问题的特征向量;同时用一个卷积神经网络(CNN)逐帧处理输入视频,得到视频的特征向量;最后将两个模态的特征进行融合,并通过输出模块得到最终预测的答案。
[0003]现有的一些方法使用视觉或文本注意机制,帮助模型能更精准地关注到视频中的关键帧或问题中的关键单词。其次,为了给模型提供一些额外的知识,另一些方法利用了视频物体中的外部数据(如百科信息),它提供了关于该物体的一些常识信息,从而帮助提升回答问题的准确率。还有一些方法对视频帧中的物体关系进行建模,捕捉物体间关系在时间上的演变情况,从而使模型对输入能有更全面、更深层次的理解。
[0004]然而在视频帧的层面(粗粒度),现有方法通常对帧的整体变化进行建模,由于视频帧中可能包含多个物体而往往只有少量物体与提问有关,所以这是一种粗粒度的方法,它的识别精确度有限;其次,在视频帧中的物体层面(细粒度),现有的方法通常对同一帧的物体间的关系进行建模,并捕捉这种交互关系的动态变化情况。但是它们忽略了物体自身的动作变化情况,这对于回答问题同样十分关键。

技术实现思路

[0005]本专利技术的目的在于克服现有技术的不足,提供一种基于动作捕捉的注意力网络的视频问答方法,通过设计一个基于动作捕捉的注意力网络(MAAN),能够同时在细粒度和粗粒度层面捕捉视频中所有物体自身的动作改变情况,并结合提问得到预测的答案。
[0006]为实现上述专利技术目的,本专利技术一种基于动作捕捉的注意力网络的视频问答方法,其特征在于,包括以下步骤:
[0007](1)、特征提取
[0008](1.1)、将待处理视频输入至Faster RCNN网络中,提取出每一视频帧中物体的特征,其中,第j帧中第k个物体的特征记为v
j,k
,j=1,2

,N,k=1,2,

,K,N表示视频的总帧数,K表示每帧画面提取的物体个数;
[0009](1.2)、将待处理视频分割成多个视频片段,然后将每一个视频片段输入至ResNeXt网络,提取出每一个视频片段的特征,记为v
i
,i=1,2,

,C,C为待处理视频被分割成视频片段的数量;
[0010](1.3)、将待处理的提问先后经过Bi_LSTM网络和自注意力机制的处理,提取出提问的特征,记为q;
[0011](2)、基于物体动作注意力机制提取动作信息u;
[0012](2.1)、通过双向Bi_LSTM网络提取物体的动作信息u
j,k

[0013]u
j,k
=Bi_LSTM(v
j,k
)
[0014](2.2)、使用物体动作注意力机制对不同时刻的特征进行加权,得到当前物体k在整个视频内的全局动作信息u
k

[0015][0016]β
j,k
=softmax(W1u
j,k
+W2q)
[0017]其中,W1、W2为权重参数;β
j,k
表示第j帧中第k个物体的重要程度指标;
[0018](2.3)、使用物体动作注意力机制提取整个视频与提问有关的动作信息u;
[0019][0020]α
k
=softmax(W3u
k
+W4q)
[0021]其中,W3、W4为权重参数;α
k
表示第k个物体与提问的关联程度指标;
[0022](3)、基于物体关系注意力机制提取待处理视频的全局物体关系信息μ;
[0023](3.1)、使用物体关系注意力机制计算当前视频帧j中的物体关系信息μ
j

[0024][0025]γ
j,k
=softmax(W5v
j,k
+W6q)
[0026]其中,W5、W6为为权重参数,γ
j,k
是第j帧中第k个物体的关系值;
[0027](3.2)、将不同时刻的物体关系信息μ
j
按先后顺序构成序列,然后输入至Bi

LSTM网络,从而提取出整个视频的全局物体关系信息μ;
[0028]μ=Bi_LSTM(μ1,μ2,


j
,

μ
N
)
[0029](4)、基于全局动作注意力机制提取待处理视频的全局动作信息U;
[0030](4.1)、计算第i个视频片段的特征v
i
的权重值λ
i

[0031]λ
i
=softmax(W7v
i
+W8q)
[0032]其中,W7、W8为权重参数;
[0033](4.2)、使用全局动作注意力机制计算整个视频的全局动作信息;
[0034][0035](5)、提取待处理视频的全局特征向量f;
[0036](5.1)、对三种注意力机制下提取的信息进行融合:表示向量拼接操作;
[0037](5.2)、提取整个视频的全局特征向量f;
[0038][0039]其中,与φ(q)表示统一向量与q的维度,表示向量的对应元素乘积;
[0040](6)、根据提问的格式输出不同类型答案;
[0041](6.1)、确定待处理的提问的格式,具体包括三种提问格式:选择式、开放式单词、开放式数字;
[0042](6.2)、当待处理的提问为选择式时,将待处理的提问视为一个五分类的场景,再利用LSTM网络提取每类场景的特征c
τ
,τ=1,2,3,4,5;然后计算出每类场景的概率值最后选出最大的一个概率值作为预测结果;
[0043](6.3)、当待处理的提问为开放式单词时,将待处理的提问视为一个N多分类的场景,然后利用softmax函数提取N类场景的概率矩阵P,最后在概率矩阵P中选择最大概率值对应的单词作为预测结果;
[0044](6.4)、当待处理的提问为开放式数字时,将待处理的提问视为一个线性回归问题,通过全连接层将全局特征向量f转为实数并取整作为预测结果,即最终预测结构为:
[0045]本专利技术的专利技术目的是这样实现的:
[0046]本专利技术基于动作捕捉的注意力网络的视频问答方法,先提取将待处理视频和待处理的提问的特征,然后基于这些特征,通过物体动本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于动作捕捉的注意力网络的视频问答方法,其特征在于,包括以下步骤:(1)、特征提取(1.1)、将待处理视频输入至Faster RCNN网络中,提取出每一视频帧中物体的特征,其中,第j帧中第k个物体的特征记为v
j,k
,j=1,2

,N,k=1,2,

,K,N表示视频的总帧数,K表示每帧画面提取的物体个数;(1.2)、将待处理视频分割成多个视频片段段,然后将每一个视频片段输入至ResNeXt网络,提取出每一个视频片段的特征,记为v
i
,i=1,2,

,C,C为待处理视频被分割成视频片段的数量;(1.3)、将待处理的提问先后经过Bi_LSTM网络和自注意力机制的处理,提取出提问的特征,记为q;(2)、基于物体动作注意力机制提取动作信息u;(2.1)、通过双向Bi_LSTM网络提取物体的动作信息u
j,k
;u
j,k
=Bi_LSTM(v
j,k
)(2.2)、使用物体动作注意力机制对不同时刻的特征进行加权,得到当前物体k在整个视频内的全局动作信息u
k
;β
j,k
=softmax(W1u
j,k
+W2q)其中,W1、W2为权重参数;β
j,k
表示第j帧中第k个物体的重要程度指标;(2.3)、使用物体动作注意力机制提取整个视频与提问有关的动作信息u;α
k
=softmax(W3u
k
+W4q)其中,W3、W4为权重参数;α
k
表示第k个物体与提问的关联程度指标;(3)、基于物体关系注意力机制提取待处理视频的全局物体关系信息μ;(3.1)、使用物体关系注意力机制计算当前视频帧j中的物体关系信息μ
j
;γ
j,k
=softmax(...

【专利技术属性】
技术研发人员:杨阳杨双吉彭亮王国庆
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1