一种基于动作的关系网络视频问答系统及方法技术方案

技术编号:26730667 阅读:16 留言:0更新日期:2020-12-15 14:31
本发明专利技术提供了一种基于动作的关系网络视频问答系统及方法,属于计算语言学和计算机视觉领域,包括编码模块、问题特征模块、动作检测模块、关系转换网络模块以及解码模块。本发明专利技术使用时序动作检测网络的结果辅助视频特征的编码,强调了视频的动作因素,同时通过检测结果得到的动作概率分布避免错误的动作检测带来的误差累积,将动作概率分布与初始的视频特征被一起输入到神经网络的编码器中,以学习视频特征使最终的视频特征能够包含动作信息,最后,将输出的视频特征与问题特征输入一个多头的关系转换器网络中,通过此网络输出最后的结果,本发明专利技术通过增强问题中的动作特征来提高任务性能,并辅以关系转换器网络可以取得更好的解题效果。

【技术实现步骤摘要】
一种基于动作的关系网络视频问答系统及方法
本专利技术属于计算语言学和计算机视觉领域,尤其涉及一种基于动作的关系网络视频问答系统及方法。
技术介绍
视频问答系统即根据给定视频片段自动回答相关问题,近年来一直吸引着研究者的关注,是一项重要的多模态理解任务。典型的视频问答系统是给出一个问题的描述并给出一个对应的问题片段,较早的研究尝试通过跨模态检索和动作识别来解决问题。近年来开始出现了基于深度学习的问答系统,这些深度学习方法能够自动获取特征学习信息,同时它们在规模较大且复杂的数据集上也达到了很高的性能。该类方法中有很多都是探究的多模态信息融合和注意力机制的使用,从那时起,许多研究工作都投身于了改进基于深度学习的问题系统。比较有代表性的改进是利用层次化和多层级的注意力机制和图神经网络建模多种信息之间的关联,它们着眼于改进模型的表征能力和特征提取能力。另一方面,改进视频表征的获取方式也是实现更好的解决方案表达方式的潜在方法,具体来说,现有的视频问答系统无法有效地获取视频中的动作信息,而且无法很好地利用相关信息,从而导致获取的特征无法准确地表达视频中的关键信息,最终导致生成的答案不准确。
技术实现思路
针对现有技术中的上述不足,本专利技术提供的一种基于动作的关系网络视频问答系统及方法,解决了现有的深度学习模型求解答案正确率低的问题。为了达到以上目的,本专利技术采用的技术方案为:本方案提供一种基于动作的关系网络视频问答系统,包括编码模块、问题特征模块、动作检测模块、关系转换网络模块以及解码模块;所述编码模块,用于通过三维卷积网络和光流网络将所有视频的帧表示为一组具有固定维度的实值向量VE;所述问题特征模块,用于利用基于共现的词嵌入方法将问题文本中的词表示为问题特征Qo;所述动作检测模块,用于利用时序动作检测网络获取视频中的多种动作概率分布,并将多种动作概率分布与实值向量VE进行融合,得到中间视频特征V;所述关系转换网络模块,用于根据所述中间视频特征V和问题特征Qo,利用关系转换网络得到视频动作间的关系特征Rz,并通过注意力机制将所述视频特征V和关系特征Rz聚合为关系视频特征ratt;所述解码模块,用于融合中间视频特征V、问题特征Qo以及关系视频特征ratt,并将融合结果输入至视频问题的解码器中生成对应类型的问题答案,完成基于动作的关系网络视频问答。本专利技术的有益效果是:本专利技术首先使用时序动作检测网络的结果辅助视频特征的编码,强调了视频的动作因素,同时,由于缺乏精准的动作区间标注,本专利技术没有直接使用检测出来的动作区间,而是通过检测结果得到的动作概率分布避免错误的动作检测带来的误差累积,时序动作检测网络得到的动作概率分布与初始的视频特征被一起输入到基于循环神经网络的编码器中,以学习视频特征,使最终的视频特征能够包含动作信息,最后,将输出的视频特征与问题特征输入一个多头的关系转换器网络中,通过此网络输出最后的结果。本专利技术通过增强问题中的动作特征来提高任务性能,并辅以关系转换器网络,可以取得更好的解题效果。基于上述系统本专利技术还提供了一种基于动作的关系网络视频问答方法,包括以下步骤:S1、通过三维卷积网络和光流网络将所有视频的帧表示为一组具有固定维度的实值向量VE;S2、利用基于共现的词嵌入方法将问题文本中的词表示为问题特征Qo;S3、利用时序动作检测网络获取视频中的多种动作概率分布,并将多种动作概率分布与实值向量VE进行融合,得到中间视频特征V;S4、根据所述中间视频特征V和问题特征Qo,利用关系转换网络得到视频动作间的关系特征Rz,并通过注意力机制将所述视频特征V和关系特征Rz聚合为关系视频特征ratt;S5、融合中间视频特征V、问题特征Qo以及关系视频特征ratt,并将融合结果输入至视频问题的解码器中生成对应类型的问题答案,完成基于动作的关系网络视频问答。本专利技术的有益效果是:本专利技术首先使用时序动作检测网络的结果辅助视频特征的编码,强调了视频的动作因素,同时,由于缺乏精准的动作区间标注,本专利技术没有直接使用检测出来的动作区间,而是通过检测结果得到的动作概率分布避免错误的动作检测带来的误差累积,时序动作检测网络得到的动作概率分布与初始的视频特征被一起输入到基于循环神经网络的编码器中,以学习视频特征,使最终的视频特征能够包含动作信息,最后,将输出的视频特征与问题特征输入一个多头的关系转换器网络中,通过此网络输出最后的结果。本专利技术通过增强问题中的动作特征来提高任务性能,并辅以关系转换器网络,可以取得更好的解题效果。进一步地,所述步骤S1包括以下步骤:S101、根据视频文件本身的每秒传输帧数,从视频中提取T帧图像;S102、根据提取的T帧图像,利用残差网络获取帧的静态特征集合的隐状态表征VF={f1,f2,...,fr},并将所述静态特征集合的隐状态表征VF作为视频对应的静态特征实值向量,其中,fr表示每一帧视频对应的残差特征;S103、根据提取的T帧图像,利用光流卷积网络获取帧的动态特征集合的隐状态表征VS={s1,s2,...,sr},并将所述动态特征集合的隐状态表征VS作为视频对应的动态特征实值向量,其中,sr表示每一帧视频对应的光流特征;S104、融合所述静态特征实值向量和动态特征实值向量,得到具有固定维度的实值向量VE。上述进一步方案的有益效果是:残差网络和光流卷及网络分别强调了视频的动态和静态特征,这样有利于模型对视频更全面的理解。再进一步地,所述步骤S2包括以下步骤:S201、根据问题文本,将输入的问题以单词序列的方式进行处理;S202、利用词嵌入方法将单词序列转换成固定维度的实值向量集合Q={q1,q2,..,qN},其中,qN表示最后一个单词对应的特征向量,N表示问题序列的长度;S203、将所述实值向量集合Q输入至循环神经网络,得到问题特征Qo。再进一步地,所述步骤S3包括以下步骤:S301、利用时序动作检测网络对视频序列进行处理,得到视频中的多种动作概率分布{(tfs1,tfs2,...,tfe1),...,(tfsM,...,tfeM)},其中,tfsM表示检测到的动作的开始时间帧,tfeM表示检测到的动作的结束时间帧,M表示前M个动作概率分布;S302、将所述多种动作概率分布转换成对应的掩膜矩阵,并将掩膜矩阵与实值向量VE进行融合处理,得到中间视频特征V。上述进一步方案的有益效果是:本专利技术首先使用动作检测网络提供的信息辅助编码输入的视频特征,将视频在时间维度的属性有效地嵌入视频特征中,新生成的视频特征包含检测到的以动作为中心的信息,这些动作信息对正确回答问题往往具有重要的意义,本专利技术通过丰富视频特征中的动作信息来提高任务性能,可以取得更好的效果。再进一步地,所述步骤S302包括以下步骤:S3021、将所述多种动作概率分布转换成对应的初始掩膜矩阵,得到实值向量VE的子集VE1;S3022、定本文档来自技高网...

【技术保护点】
1.一种基于动作的关系网络视频问答系统,其特征在于,包括编码模块、问题特征模块、动作检测模块、关系转换网络模块以及解码模块;/n所述编码模块,用于通过三维卷积网络和光流网络将所有视频的帧表示为一组具有固定维度的实值向量VE;/n所述问题特征模块,用于利用基于共现的词嵌入方法将问题文本中的词表示为问题特征Q

【技术特征摘要】
1.一种基于动作的关系网络视频问答系统,其特征在于,包括编码模块、问题特征模块、动作检测模块、关系转换网络模块以及解码模块;
所述编码模块,用于通过三维卷积网络和光流网络将所有视频的帧表示为一组具有固定维度的实值向量VE;
所述问题特征模块,用于利用基于共现的词嵌入方法将问题文本中的词表示为问题特征Qo;
所述动作检测模块,用于利用时序动作检测网络获取视频中的多种动作概率分布,并将多种动作概率分布与实值向量VE进行融合,得到中间视频特征V;
所述关系转换网络模块,用于根据所述中间视频特征V和问题特征Qo,利用关系转换网络得到视频动作间的关系特征Rz,并通过注意力机制将所述视频特征V和关系特征Rz聚合为关系视频特征ratt;
所述解码模块,用于融合中间视频特征V、问题特征Qo以及关系视频特征ratt,并将融合结果输入至视频问题的解码器中生成对应类型的问题答案,完成基于动作的关系网络视频问答。


2.一种基于动作的关系网络视频问答方法,其特征在于,包括以下步骤:
S1、通过三维卷积网络和光流网络将所有视频的帧表示为一组具有固定维度的实值向量VE;
S2、利用基于共现的词嵌入方法将问题文本中的词表示为问题特征Qo;
S3、利用时序动作检测网络获取视频中的多种动作概率分布,并将多种动作概率分布与实值向量VE进行融合,得到中间视频特征V;
S4、根据所述中间视频特征V和问题特征Qo,利用关系转换网络得到视频动作间的关系特征Rz,并通过注意力机制将所述视频特征V和关系特征Rz聚合为关系视频特征ratt;
S5、融合中间视频特征V、问题特征Qo以及关系视频特征ratt,并将融合结果输入至视频问题的解码器中生成对应类型的问题答案,完成基于动作的关系网络视频问答。


3.根据权利要求2所述的基于动作的关系网络视频问答方法,其特征在于,所述步骤S1包括以下步骤:
S101、根据视频文件本身的每秒传输帧数,从视频中提取T帧图像;
S102、根据提取的T帧图像,利用残差网络获取帧的静态特征集合的隐状态表征VF={f1,f2,...,fr},并将所述静态特征集合的隐状态表征VF作为视频对应的静态特征实值向量,其中,fr表示每一帧视频对应的残差特征;
S103、根据提取的T帧图像,利用光流卷积网络获取帧的动态特征集合的隐状态表征VS={s1,s2,...,sr},并将所述动态特征集合的隐状态表征VS作为视频对应的动态特征实值向量,其中,sr表示每一帧视频对应的光流特征;
S104、融合所述静态特征实值向量和动态特征实值向量,得到具有固定维度的实值向量VE。


4.根据权利要求2所述的基于动作的关系网络视频问答方法,其特征在于,所述步骤S2包括以下步骤:
S201、根据问题文本,将输入的问题以单词序列的方式进行处理;
S202、利用词嵌入方法将单词序列转换成固定维度的实值向量集合Q={q1,q2,..,qN},其中,qN表示最后一个单词对应的特征向量,N表示问题序列的长度;
S203、将所述实值向量集合Q输入至循环神经网络,得到问题特征Qo。


5.根据权利要求2所述的基于动作的关系网络视频问答方法,其特征在于,所述步骤S3包括以下步骤:
S301、利用时序动作检测网络对视频序列进行处理,得到视频中的多种动作概率分布{(tfs1,tfs2,...,tfe1),...,(tfsM,...,tfeM)},其中,tfsM表示检测到的动作的开始时间帧,tfeM表示检测到的动作的结束时间帧,M表示前M个动作概率分布;
S302、将所述多种动作概率分布转换成对应的掩膜矩阵,并将掩膜矩阵与实值向量VE进行融合处理,得到中间视频特征V。


6.根据权利要求5所述的基于动作的关系网络视频问答方法,其特征在于,所述步骤S302包括以下步骤:
S3021、将所述多种动作概率分布转换成对应的初始掩膜矩阵,得...

【专利技术属性】
技术研发人员:邵杰张骥鹏高联丽徐行申恒涛
申请(专利权)人:四川省人工智能研究院宜宾
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1