基于协同自监督视频表示学习的视频动作识别方法及装置制造方法及图纸

技术编号：41872827 阅读：17 留言：0更新日期：2024-07-02 00:24

本发明专利技术提出一种基于协同自监督视频表示学习的视频动作识别方法和装置，包括：将人物动作视频输入视频编码器进行特征提取，得到训练视频特征序列；通过图像编码器对人物动作视频的关键帧信息进行特征提取，得到图像特征序列，训练视频特征序列和图像特征序列通过对比学习损失约束，获取训练视频静态特征序列；融合训练视频静态特征序列和人物动作视频的人物动作特征序列，得到融合特征序列，根据融合特征序列重建恢复视频，根据恢复视频和人物动作视频构建损失函数训练图像编码器；在训练完成后的编码器后添加全连接层，得到中间动作识别模型，通过已标注动作类别标签的视频数据集微调中间动作识别模型，以完成动作识别任务。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及视频分类、动作识别，并特别涉及一种基于协同自监督视频表示学习的视频动作识别方法及装置。

技术介绍

1、在当今社会，视频愈发成为重要的信息传播媒介之一。近年来随着深度学习领域的发展壮大，涌现出了许多视频表征学习的方法，旨在更好的让机器理解视频内容，服务人的需求。自监督视频学习方法希望能够利用网络中大量的无标注视频数据，学习泛化能力更好、鲁棒性更强的表征。人体动作识别研究的是视频中目标人物的动作，是最常用的视频表征学习任务之一，在视频监督、视频推荐和人机交互中有重要作用。随着近年自监督方法的不断发展，越来越多的模型关注如何学习泛化性更好的视频表征，通过一次预训练完成多种不同的下游任务。但这些方法没能针对人体动作识别任务设计网络结构和预训练任务，导致在这个最常见的任务上仍有较大的提升空间。虽然有一些方法尝试通过双流网络的结构分别对视频的时间和空间信息进行学习，但他们没能设计更好的学习目标，协同地训练整个网络，进一步提升网络在下游任务上的性能。也有一些工作针对性的完成了有监督的人体姿态估计和自监督的人体姿态预测，但他们完全摒弃了视频蕴含的颜色、光照等静态信息，在动作识别任务中的性能也不够优秀，而且在实际的视频理解应用场景下无法发挥作用。

2、动作识别任务的精度受多方面的影响：

3、有监督方法中的监督信号能够最直接的帮助深度学习模型学习视频数据，但学习效果受数据量、标注精度的影响很大，自监督学习方法能够自行从无标注的视频任务中获取自监督信号，节省标注所需的资源；

4、动作识别需要同时考虑视

5、综上所述，目前的自监督视频表征学习领域仍然缺乏高效完成人体动作理解的上游任务和网络结构设计，需要一个能够针对人体动作识别任务的视频表征学习方法。

技术实现思路

1、本专利技术通过自监督方法充分的利用大量无标注数据、同时关注视频蕴含的动态和静态信息，并通过预训练任务的设计实现更具有泛化性和鲁棒性的动作识别模型。

2、针对相关技术中的问题，本专利技术提出一种面向动作识别的协同自监督视频表示学习方法，以克服现有相关技术所存在的上述技术问题。

3、具体来说本专利技术提出了一种基于协同自监督视频表示学习的视频动作识别方法，其中包括：

4、特征提取步骤，获取无动作类别标签的人物动作视频，将该人物动作视频输入视频编码器进行特征提取，得到训练视频特征序列；通过图像编码器对该人物动作视频的关键帧信息进行特征提取，得到图像特征序列，该训练视频特征序列和该图像特征序列通过对比学习损失约束，获取训练视频静态特征序列；

5、特征融合步骤，融合该训练视频静态特征序列和该人物动作视频的人物动作特征序列，得到融合特征序列，根据该融合特征序列重建恢复视频，根据该恢复视频和该人物动作视频构建损失函数训练该图像编码器；

6、动作识别步骤，在训练完成后的该编码器后添加全连接层，得到中间动作识别模型，通过已标注动作类别标签的视频数据集微调训练该中间动作识别模型，得到最终动作识别模型，完成动作识别任务。

7、所述的基于协同自监督视频表示学习的视频动作识别方法，其中该人物动作特征序列的提取过程包括：

8、构建包括生成器gp和判别器dp的条件对抗生成网络；该人物动作视频已标注人体姿态序列标签，该生成器对该人物动作的前指定帧进行编码并生成后指定帧的未来姿态，该判别器将该未来姿态和该人体姿态序列标签中的后指定帧姿态进行对比，生成损失函数引导该生成器的训练。

9、所述的基于协同自监督视频表示学习的视频动作识别方法，其中该对比学习包括：

10、通过目标匹配，拉近来自同一段视频的视频特征序列和图像特征序列的余弦距离，推远来自不同视频的视频特征序列和图像特征序列的余弦距离。

11、所述的基于协同自监督视频表示学习的视频动作识别方法，其中该人物动作视频为快递分拣视频，该动作识别任务的识别结果为是否存在快递的暴力分拣。

12、本专利技术还提出了一种基于协同自监督视频表示学习的视频动作识别装置，其中包括：

13、特征提取模块，用于获取无动作类别标签的人物动作视频，将该人物动作视频输入视频编码器进行特征提取，得到训练视频特征序列；通过图像编码器对该人物动作视频的关键帧信息进行特征提取，得到图像特征序列，该训练视频特征序列和该图像特征序列通过对比学习损失约束，获取训练视频静态特征序列；

14、特征融合模块，用于融合该训练视频静态特征序列和该人物动作视频的人物动作特征序列，得到融合特征序列，根据该融合特征序列重建恢复视频，根据该恢复视频和该人物动作视频构建损失函数训练该图像编码器；

15、动作识别模块，用于在训练完成后的该编码器后添加全连接层，得到中间动作识别模型，通过已标注动作类别标签的视频数据集微调训练该中间动作识别模型，得到最终动作识别模型，完成动作识别任务。

16、所述的基于协同自监督视频表示学习的视频动作识别装置，其中该人物动作特征序列的提取过程包括：

17、构建包括生成器gp和判别器dp的条件对抗生成网络；该人物动作视频已标注人体姿态序列标签，该生成器对该人物动作的前指定帧进行编码并生成后指定帧的未来姿态，该判别器将该未来姿态和该人体姿态序列标签中的后指定帧姿态进行对比，生成损失函数引导该生成器的训练。

18、所述的基于协同自监督视频表示学习的视频动作识别装置，其中该对比学习包括：

19、通过目标匹配，拉近来自同一段视频的视频特征序列和图像特征序列的余弦距离，推远来自不同视频的视频特征序列和图像特征序列的余弦距离。

20、所述的基于协同自监督视频表示学习的视频动作识别装置，其中该人物动作视频为快递分拣视频，该动作识别任务的识别结果为是否存在快递的暴力分拣。

21、本专利技术还提出了一种电子设备，包括所述的视频动作识别装置。

22、本专利技术还提出了一种存储介质，用于存储一种执行所述视频动作识别方法的计算机程序。

23、由以上方案可知，本专利技术的优点在于：

24、本专利技术通过姿态预测分支将人体姿态信息引入到自监督视频表征学习中，并通过简单的基于一维卷积神经网络结构的条件生成对抗网络学习姿态信息，能够高效学习人体动作表征，充分引导视频编码器学习有利于动作识别下游任务的信息；通过目标匹配分支引导视频编码器从视频关键帧学习静态信息，让视频背景、人物体型等静态特征也能贡献于动作识别任务；本专利技术采用视频重构任务协同地所有预训练过程，为分散的动态和静态特征学习过程提供了统一且强力的学习目标，显著提升了预训练模型在多个下游任务上的表现。同时本专利技术结合多种视频自监督任务协同学习视频表征，有效探索了生成式和判别式自监督方法的联合学习方法，为今后的学习方本文档来自技高网...

【技术保护点】

1.一种基于协同自监督视频表示学习的视频动作识别方法，其特征在于，包括：

2.如权利要求1所述的基于协同自监督视频表示学习的视频动作识别方法，其特征在于，该人物动作特征序列的提取过程包括：

3.如权利要求1所述的基于协同自监督视频表示学习的视频动作识别方法，其特征在于，该对比学习包括：

4.如权利要求1所述的基于协同自监督视频表示学习的视频动作识别方法，其特征在于，该人物动作视频为快递分拣视频，该动作识别任务的识别结果为是否存在快递的暴力分拣。

5.一种基于协同自监督视频表示学习的视频动作识别装置，其特征在于，包括：

6.如权利要求5所述的基于协同自监督视频表示学习的视频动作识别装置，其特征在于，该人物动作特征序列的提取过程包括：

7.如权利要求5所述的基于协同自监督视频表示学习的视频动作识别装置，其特征在于，该对比学习包括：

8.如权利要求5所述的基于协同自监督视频表示学习的视频动作识别装置，其特征在于，该人物动作视频为快递分拣视频，该动作识别任务的识别结果为是否存在快递的暴力分拣。