一种基于级联Transformer的动态注意力的视频问答方法技术

技术编号：42484411 阅读：4 留言：0更新日期：2024-08-21 13:03

本发明专利技术公开了一种基于级联Transformer的动态注意力的视频问答方法，包括：根据视频数据中对象的表征和边界框获取对象特征以及对象之间的关系特征；使用独立的Transformer分别推理对象特征以及关系特征，而后使用图卷积网络进行融合推理从而得到对象级特征；对对象级特征进行聚合处理生成视频帧级特征，对视频帧级特征进行聚合处理生成帧组级特征；获取要回答的问题的文本特征，通过动态注意力将帧组级特征与问题文本特征融合从而得到帧组级特征；使用Transformer推理帧组级特征而后聚合出视频特征；计算视频特征和文本特征之间的相似度，从而得出预测结果。本发明专利技术引入了级联Transformer架构和动态注意力机制，以更好的解决视频和文本的跨模态学习问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及视频数据处理，具体来说，涉及一种基于级联transformer的动态注意力的视频问答方法。

技术介绍

1、视频问答旨在从视觉内容中有效地利用文本和视觉信息来回答自然语言问题，这在人工智能领域受到了越来越多的关注。视频问答模型主要侧重于跨模态推理，它输入带有相关问题的视频，并预测出正确的答案。近年来，它已被广泛用于交互式人工智能处理，如自动驾驶、食品图像智能相机处理等领域。一般来说，获得可靠的答案需要对视觉特征、文本信息以及更重要的视觉文本之间的关系有一个普遍的理解。现阶段，一些研究直接利用纯transformer来捕捉视频问答任务的更丰富的上下文特征。随着不断的研究，很明显发现传统的transformer架构无法有效地适应视频问答任务，其昂贵的计算成本使其难以灵活地解决不同预训练变体中的各种问题，且设计一种用于融合视觉与文本的注意力机制也显得尤为重要。如何探索一种有效的transformer结构并选择灵活的注意力组件是提出一个令人满意的视频问答模型的关键问题。

技术实现思路

1、鉴于现有技术的不足，本专利技术提供一种基于级联transformer的动态注意力的视频问答方法。本专利技术引入了级联transformer架构和动态注意力机制，以更好的解决视频和文本的跨模态学习问题。

2、本专利技术采用的技术手段如下：

3、一种基于级联transformer的动态注意力的视频问答方法，包括以下步骤：

4、s1、获取视频数据，根据所述视频数据

5、s2、使用独立的transformer分别推理对象特征以及关系特征，而后使用图卷积网络对对象特征和关系特征进行融合推理，从而得到对象级特征；

6、s3、对得到的对象级特征进行聚合处理，生成视频帧级特征，对所述视频帧级特征进行聚合处理，生成帧组级特征；

7、s4、获取要回答的问题的文本特征，通过动态注意力将帧组级特征与问题文本特征融合，从而得到包含视觉和文本特征的帧组级特征；

8、s5、使用transformer推理帧组级特征，而后聚合出视频特征；

9、s6、计算视频特征和文本特征之间的相似度，从而得出预测结果。

10、进一步地，获取视频数据，根据所述视频数据中对象的表征和边界框，获取对象特征以及对象之间的关系特征，包括：

11、s101、获取视频中对象的表征和边界框，通过以下公式得出对象的特征：

12、f＝elu(φwo([r:b])) (17)

13、其中表示对象特征；elu是深度学习中的激活函数；φwo表示深度学习中的线性变换层，其可学习权重矩阵为[r:b]表示矩阵r和b的拼接操作；表示视频中对象的表征；表示视频中对象的边界框；

14、s102、基于得到的所有对象特征构建对象特征矩阵其中，no表示视频帧中所有对象的个数；

15、s103、基于对象特征矩阵通过以下公式得出视频帧中对象之间的关系特征：

16、

17、其中表示第o个对象与帧中所有对象的关系特征；和是线性层中的权重矩阵；softmax是深度学习中的一种激活函数；no表示对象的数量；

18、s104、基于所得到的所有对象之间的关系特征构建关系特征矩阵

19、进一步地，使用独立的transformer分别推理对象特征以及关系特征，而后使用图卷积网络对对象特征和关系特征进行融合推理，从而得到对象级特征，包括：

20、s201、通过transformer推理视频帧组中的某个对象在帧间的变化信息，公式如下：

21、

22、其中fp,o表示第o个对象在帧组中的第p帧上的特征，其经过推理后生成的对应结果为tn表示用于推理的transformer，第p帧上所有对象推理后的特征可以构成对象特征矩阵no表示对象的数量；

23、s202、通过transformer推理关系特征在帧间变化的信息，公式如下：

24、

25、其中sp表示第p帧上的对象关系特征矩阵其经过推理后生成的对应结果为vec表示矩阵拉直成向量的算子；te表示用于推理的transformer，使用vec的逆运算vec-1来将向量还原成矩阵，公式如下：

26、

27、其中np表示帧组中帧的数量；

28、s203、通过图卷积将对于同一视频帧中的对象特征矩阵和关系特征矩阵进行融合生成对象级特征，其表达成如下形式：

29、

30、其中表示第i层图卷积层输出的结果；relu表示深度学习中的一种激活函数；e表示单位矩阵；表示可学习的权重矩阵；i表示图卷积层的数量；表示对象级特征。

31、进一步地，对得到的对象级特征进行聚合处理，生成视频帧级特征，对所述视频帧级特征进行聚合处理，生成帧组级特征，包括：

32、s301、将每帧上的所有对象特征聚合为一个加权平均特征，聚合公式如下：

33、

34、其中表示所有对象加权平均后的值，nf表示向量的维度；φwg表示线性层，其将每个对象的特征映射为一个数，该线性层的权重为表示对象级特征；

35、s302、将所述加权平均特征与预先获得的当前帧的表征聚合为一个视频帧级特征，聚合公式如下：

36、

37、其中表示视频帧级特征；表示预先获得的帧的表征；和分别表示对应线性层的权重，

38、s303、根据每个视频帧级特征构建视频帧组的帧级特征矩阵其中np表示一个视频帧组包含的视频帧个数；

39、s304、将视频帧组中所有视频帧级特征的平均值作为视频帧组级特征，求帧组级特征的公式如下：

40、

41、其中表示帧组级特征；

42、s305、根据每个帧组级特征构建视频的帧组级特征矩阵其中ng表示一个视频中包含的帧组个数。

43、进一步地，获取要回答的问题的文本特征，通过动态注意力将帧组级特征与问题文本特征融合，从而得到包含视觉和文本特征的帧组级特征，包括：

44、s401、对于预先给出的问题的文本表征，使用以下公式对问题句子中每个词的表征进行处理：

45、

46、其中表示句子中词的表征，其对应的处理结果为sigmoid表示深度学习中的一种激活函数；和分别表示对应线性层的权重；⊙表示矩阵的按元素相乘计算；

47、s402、根据每个词的表征构建句子的表征矩阵其中，nw表示句子中包含的词的个数；

48、s403、帧组级特征和问题句子矩阵通过以下公式融合出新的包含文本特征的帧组级特征：

49、

50、其中c表示帧组级特征；表示问题句子矩阵；表示融合了文本特征的帧组级特征。

51、进一步地，使用transformer推理帧组本文档来自技高网...

【技术保护点】

1.一种基于级联Transformer的动态注意力的视频问答方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于级联Transformer的动态注意力的视频问答方法，其特征在于，获取视频数据，根据所述视频数据中对象的表征和边界框，获取对象特征以及对象之间的关系特征，包括：

3.根据权利要求1所述的一种基于级联Transformer的动态注意力的视频问答方法，其特征在于，使用独立的Transformer分别推理对象特征以及关系特征，而后使用图卷积网络对对象特征和关系特征进行融合推理，从而得到对象级特征，包括：

4.根据权利要求1所述的一种基于级联Transformer的动态注意力的视频问答方法，其特征在于，对得到的对象级特征进行聚合处理，生成视频帧级特征，对所述视频帧级特征进行聚合处理，生成帧组级特征，包括：

5.根据权利要求1所述的一种基于级联Transformer的动态注意力的视频问答方法，其特征在于，获取要回答的问题的文本特征，通过动态注意力将帧组级特征与问题文本特征融合，从而得到包含视觉和文本特征的帧组级特征，包括：

6.根据权利要求1所述的一种基于级联Transformer的动态注意力的视频问答方法，其特征在于，使用Transformer推理帧组级特征，而后聚合出视频特征，包括：

7.根据权利要求1所述的一种基于级联Transformer的动态注意力的视频问答方法，其特征在于，计算视频特征和文本特征之间的相似度，从而得出预测结果，包括：

...

【技术特征摘要】

1.一种基于级联transformer的动态注意力的视频问答方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于级联transformer的动态注意力的视频问答方法，其特征在于，获取视频数据，根据所述视频数据中对象的表征和边界框，获取对象特征以及对象之间的关系特征，包括：

3.根据权利要求1所述的一种基于级联transformer的动态注意力的视频问答方法，其特征在于，使用独立的transformer分别推理对象特征以及关系特征，而后使用图卷积网络对对象特征和关系特征进行融合推理，从而得到对象级特征，包括：

4.根据权利要求1所述的一种基于级联transformer的动态注意力的视频问答方法，其特征在于，对得到的对象级...

【专利技术属性】
技术研发人员：王辉兵，蒋依民，颜廷飞，姚铭泽，
申请(专利权)人：大连海事大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人