当前位置: 首页 > 专利查询>科大讯飞华南人工智能研究院广州有限公司专利>正文

一种视频动作识别方法、装置、存储介质及设备制造方法及图纸

技术编号：40787947 阅读：10 留言：0更新日期：2024-03-28 19:19

本申请公开了一种视频动作识别方法、装置、存储介质及设备，该方法包括：首先将目标视频的各帧图像分别输入预先构建的视频动作识别模型的姿态检测层和卷积层进行目标用户的姿态检测和编码处理，得到姿态流数据和时空特征序列，并将姿态流数据输入卷积层进行编码处理，得到姿态特征序列；然后利用模型的卷积层和混合注意力层，对姿态特征序列和时空特征序列进行混合编码和混合注意力的交替增强处理，得到增强后的特征序列；接着将增强后的特征序列输入模型的分类层进行动作识别，得到目标用户的动作识别结果。从而通过高效的捕捉目标视频中的时空和运动模式信息，显著降低了目标视频的冗余信息，实现了对于目标用户的更准确的动作识别。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机，尤其涉及一种视频动作识别方法、装置、存储介质及设备。

技术介绍

1、随着科学技术的不断突破和各种智能终端设备的日益普及，基于视频的动作识别的应用领域也越来越广泛，例如行为分析、人机交互、公共安全、智能监控等领域，能够给人们的生活带来极大的便利。

2、目前，现有的视频动作识别方法通常可以包括基于卷积神经网络的识别方法、基于卷积和转换器模型(transformer)的识别方法(利用卷积对视频进行编码，直接映射成高层特征)、基于transformer的识别方案、基于卷积和图神经网络(graph convolutionalnetwork，gcn)(将关键点当作连接图)的识别方法等，但通过这些识别方法得到的识别结果均不够准确。

技术实现思路

1、本申请实施例的主要目的在于提供一种视频动作识别方法、装置、存储介质及设备，能够更为准确的进行视频动作的分类识别，得到准确性更高的识别结果。

2、本申请实施例提供了一种视频动作识别方法，包括：

3、获取待识别的目标视频；所述目标视频中包含目标用户的视频；

4、将所述目标视频的各帧图像输入预先构建的视频动作识别模型的姿态检测层进行目标用户的姿态检测，得到所述目标视频对应的姿态流数据；并将所述姿态流数据输入所述视频动作识别模型的卷积层进行编码处理，得到所述姿态流数据的姿态特征序列；以及将所述目标视频的各帧图像输入所述视频动作识别模型的卷积层进行编码处理，得到所述目标视频各帧图像的时空特征序列

5、利用所述视频动作识别模型的卷积层和混合注意力层，对所述姿态特征序列和所述时空特征序列进行混合编码和混合注意力的交替增强处理，得到增强后的特征序列；

6、将所述增强后的特征序列输入所述视频动作识别模型的分类层进行动作识别，得到所述目标用户的动作识别结果。

7、一种可能的实现方式中，所述将所述目标视频的各帧图像输入预先构建的视频动作识别模型的姿态检测层进行目标用户的姿态检测，得到所述目标视频对应的姿态流数据，包括：

8、将所述目标视频的各帧图像输入预先构建的视频动作识别模型的姿态检测层，识别出所述目标视频的各帧图像中目标用户头部、手部、脚部和躯干位置的关键点信息；

9、根据人体躯干的连接关系，构建所述目标视频的各帧图像中目标用户对应的全身姿态热图，作为所述目标视频对应的姿态流数据。

10、一种可能的实现方式中，所述卷积层为2d或3d卷积神经网络；所述将所述姿态流数据输入所述视频动作识别模型的卷积层进行编码处理，得到所述姿态流数据的姿态特征序列；以及将所述目标视频的各帧图像输入所述视频动作识别模型的卷积层进行编码处理，得到所述目标视频各帧图像的时空特征序列，包括：

11、将所述姿态流数据输入所述视频动作识别模型的2d或3d卷积神经网络进行空间和时间的特征提取，得到所述姿态流数据的姿态特征序列；以及将所述目标视频的各帧图像输入所述视频动作识别模型的2d或3d卷积神经网络进行空间和时间的特征提取，以提取出所述目标视频各帧图像的时空特征序列。

12、一种可能的实现方式中，所述利用所述视频动作识别模型的卷积层和混合注意力层，对所述姿态特征序列和所述时空特征序列进行混合编码和混合注意力的交替处理，得到增强后的特征序列，包括：

13、将所述姿态特征序列和所述时空特征序列进行展平后拼接在一起，得到第一拼接后的特征序列；

14、利用所述混合注意力层对所述第一拼接后的特征序列进行非线性变换处理，以实现对所述目标视频中时间、空间、表观信息和所述目标用户的姿态变化的相关性的建模，得到第一增强后的特征序列；

15、将所述第一增强后的特征序列与所述姿态特征序列进行叠加，并利用所述视频动作识别模型的卷积层对叠加结果进行编码处理，得到卷积后的姿态特征序列；以及将所述第一增强后的特征序列与所述时空特征序列进行叠加，并利用所述视频动作识别模型的卷积层对叠加结果进行编码处理，得到卷积后的时空特征序列；

16、将所述卷积后的姿态特征序列和所述卷积后的时空特征序列进行展平后拼接在一起，得到第二拼接后的特征序列；

17、利用所述混合注意力层对所述第二拼接后的特征序列进行非线性变换处理，以实现对所述目标视频中时间、空间、表观信息和所述目标用户的姿态变化的相关性的建模，得到第二增强后的特征序列；

18、依次类推，直至完成所述视频动作识别模型中预设个数的卷积层和混合注意力层的处理后，得到最终的增强后的特征序列。

19、一种可能的实现方式中，所述视频动作识别模型还包括空间池；所述将所述增强后的特征序列输入所述视频动作识别模型的分类层进行动作识别，得到所述目标用户的动作识别结果，包括：

20、将所述增强后的特征序列输入所述视频动作识别模型的空间池进行池化处理，得到池化后的特征序列；

21、将所述池化后的特征序列输入所述视频动作识别模型的分类层进行动作识别，得到所述目标用户的动作识别结果。

22、一种可能的实现方式中，所述方法还包括：

23、将通过预设个数的混合注意力层确定的增强后的特征序列分别输入所述视频动作识别模型的空间池进行池化处理，并将得到的池化后的增强特征序列进行叠加融合，得到融合后的特征序列；

24、将所述融合后的特征序列输入所述视频动作识别模型的分类层进行动作识别，得到所述目标用户的动作识别结果。

25、一种可能的实现方式中，所述方法还包括：

26、获取样本视频；所述样本视频中包含样本用户的视频；

27、利用所述样本视频和目标损失函数，构建视频动作识别模型；所述目标损失函数的取值用于约束所述视频动作识别模型参数的更新，以降低所述样本用户的动作识别结果与真实分类结果之间的差异。

28、一种可能的实现方式中，所述目标损失函数为交叉熵损失函数。

29、本申请实施例还提供了一种视频动作识别装置，包括：

30、第一获取单元，用于获取待识别的目标视频；所述目标视频中包含目标用户的视频；

31、输入单元，用于将所述目标视频的各帧图像输入预先构建的视频动作识别模型的姿态检测层进行目标用户的姿态检测，得到所述目标视频对应的姿态流数据；并将所述姿态流数据输入所述视频动作识别模型的卷积层进行编码处理，得到所述姿态流数据的姿态特征序列；以及将所述目标视频的各帧图像输入所述视频动作识别模型的卷积层进行编码处理，得到所述目标视频各帧图像的时空特征序列；所述视频动作识别模型包括卷积层、姿态检测层、混合注意力层和分类层；

32、增强单元，用于利用所述视频动作识别模型的卷积层和混合注意力层，对所述姿态特征序列和所述时空特征序列进行混合编码和混合注意力的交替增强处理，得到增强后的特征序列；

33、第本文档来自技高网...

【技术保护点】

1.一种视频动作识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述目标视频的各帧图像输入预先构建的视频动作识别模型的姿态检测层进行目标用户的姿态检测，得到所述目标视频对应的姿态流数据，包括：

3.根据权利要求1所述的方法，其特征在于，所述卷积层为2D或3D卷积神经网络；所述将所述姿态流数据输入所述视频动作识别模型的卷积层进行编码处理，得到所述姿态流数据的姿态特征序列；以及将所述目标视频的各帧图像输入所述视频动作识别模型的卷积层进行编码处理，得到所述目标视频各帧图像的时空特征序列，包括：

4.根据权利要求1所述的方法，其特征在于，所述利用所述视频动作识别模型的卷积层和混合注意力层，对所述姿态特征序列和所述时空特征序列进行混合编码和混合注意力的交替增强处理，得到增强后的特征序列，包括：

5.根据权利要求1所述的方法，其特征在于，所述视频动作识别模型还包括空间池；所述将所述增强后的特征序列输入所述视频动作识别模型的分类层进行动作识别，得到所述目标用户的动作识别结果，包括：

6.根据权利要求4所述

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

8.根据权利要求7所述的方法，其特征在于，所述目标损失函数为交叉熵损失函数。

9.一种视频动作识别装置，其特征在于，包括：

10.一种视频动作识别设备，其特征在于，包括：处理器、存储器、系统总线；

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行权利要求1-8任一项所述的方法。

...

【技术特征摘要】

1.一种视频动作识别方法，其特征在于，包括：

3.根据权利要求1所述的方法，其特征在于，所述卷积层为2d或3d卷积神经网络；所述将所述姿态流数据输入所述视频动作识别模型的卷积层进行编码处理，得到所述姿态流数据的姿态特征序列；以及将所述目标视频的各帧图像输入所述视频动作识别模型的卷积层进行编码处理，得到所述目标视频各帧图像的时空特征序列，包括：

4.根据权利要求1所述的方法，其特征在于，所述利用所述视频动作识别模型的卷积层和混合注意力层，对所述姿态特征序列和所述时空特征序列进行混合编码和混合注意力的交替增强处理，得到增强后的特征序列，包括...

【专利技术属性】
技术研发人员：陈茂东，谌鹏，程大龙，
申请(专利权)人：科大讯飞华南人工智能研究院广州有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人