一种基于动作捕捉的注意力网络的视频问答方法技术

技术编号：30430105 阅读：22 留言：0更新日期：2021-10-24 17:21

本发明专利技术公开了一种基于动作捕捉的注意力网络的视频问答方法，先提取将待处理视频和待处理的提问的特征，然后基于这些特征，通过物体动作注意力机制提取动作信息，通过物体关系注意力机制提取待处理视频的全局物体关系信息，通过全局动作注意力机制提取待处理视频的全局动作信息；接着对三种注意力机制下提取的信息进行融合，提取整个视频的全局特征向量；最后基于全局特征向量根据提问的格式输出不同类型答案。同类型答案。同类型答案。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于动作捕捉的注意力网络的视频问答方法

[0001]本专利技术属于视频问答
，更为具体地讲，涉及一种基于动作捕捉的注意力网络的视频问答方法。

技术介绍

[0002]视频问答(Video Question Answering,Video QA)的主要目标是：输入任意的一个视频和一个对于该视频内容的提问，模型能通过对多模态输入的理解和推理，自动找出问题的答案。解决这个任务的典型方法是先用一个循环神经网络(RNN)处理问题文本，得到问题的特征向量；同时用一个卷积神经网络(CNN)逐帧处理输入视频，得到视频的特征向量；最后将两个模态的特征进行融合，并通过输出模块得到最终预测的答案。
[0003]现有的一些方法使用视觉或文本注意机制，帮助模型能更精准地关注到视频中的关键帧或问题中的关键单词。其次，为了给模型提供一些额外的知识，另一些方法利用了视频物体中的外部数据(如百科信息)，它提供了关于该物体的一些常识信息，从而帮助提升回答问题的准确率。还有一些方法对视频帧中的物体关系进行建模，捕捉物体间关系在时间上的演变情况，从而使模型对输入能有更全面、更深层次的理解。
[0004]然而在视频帧的层面(粗粒度)，现有方法通常对帧的整体变化进行建模，由于视频帧中可能包含多个物体而往往只有少量物体与提问有关，所以这是一种粗粒度的方法，它的识别精确度有限；其次，在视频帧中的物体层面(细粒度)，现有的方法通常对同一帧的物体间的关系进行建模，并捕捉这种交互关系的动态变化情况。但是它们忽略了物体自身的动作变化情况，这对于回答...

【技术保护点】

【技术特征摘要】
1.一种基于动作捕捉的注意力网络的视频问答方法，其特征在于，包括以下步骤：(1)、特征提取(1.1)、将待处理视频输入至Faster RCNN网络中，提取出每一视频帧中物体的特征，其中，第j帧中第k个物体的特征记为v
j,k
，j＝1,2
…
,N，k＝1,2,
…
,K，N表示视频的总帧数，K表示每帧画面提取的物体个数；(1.2)、将待处理视频分割成多个视频片段段，然后将每一个视频片段输入至ResNeXt网络，提取出每一个视频片段的特征，记为v
i
，i＝1,2,
…
,C，C为待处理视频被分割成视频片段的数量；(1.3)、将待处理的提问先后经过Bi_LSTM网络和自注意力机制的处理，提取出提问的特征，记为q；(2)、基于物体动作注意力机制提取动作信息u；(2.1)、通过双向Bi_LSTM网络提取物体的动作信息u
j,k
；u
j,k
＝Bi_LSTM(v
j,k
)(2.2)、使用物体动作注意力机制对不同时刻的特征进行加权，得到当前物体k在整个视频内的全局动作信息u
k
；β
j,k
＝softmax(W1u
j,k
+W2q)其中，W1、W2为权重参数；β
j,k
表示第j帧中第k个物体的重要程度指标；(2.3)、使用物体动作注意力机制提取整个视频与提问有关的动作信息u；α
k
＝softmax(W3u
k
+W4q)其中，W3、W4为权重参数；α
k
表示第k个物体与提问的关联程度指标；(3)、基于物体关系注意力机制提取待处理视频的全局物体关系信息μ；(3.1)、使用物体关系注意力机制计算当前视频帧j中的物体关系信息μ
j
；γ
j,k
＝softmax(...

【专利技术属性】
技术研发人员：杨阳，杨双吉，彭亮，王国庆，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人