视频动作识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号：25271744 阅读：46 留言：0更新日期：2020-08-14 23:04

本发明专利技术实施例提供一种视频动作识别方法、装置、电子设备及存储介质；方法包括：从待识别的视频得到第一帧图像序列；根据第一帧图像序列生成第一差分图像序列；提取第一帧图像序列中的帧图像在时间和空间上的特征，得到第一视频动作识别结果；提取第一差分图像序列中的差分图像在时间和空间上的特征，得到第二视频动作识别结果；根据第一视频动作识别结果与第二视频动作识别结果，得到第一帧图像序列的最终视频动作识别结果。本发明专利技术实施例通过将现有的双流网络中的光流信息替换为差分图像，在不损失识别精度的前提下，不仅可以节省大量的计算资源，降低运行成本，还进一步提高的算法的识别速度。更加适合实时性要求较高的场景。

全部详细技术资料下载

【技术实现步骤摘要】
视频动作识别方法、装置、电子设备及存储介质
本专利技术涉及视频
，尤其涉及一种视频动作识别方法、装置、电子设备及存储介质。
技术介绍
基于视频的人体动作识别可应用于多个领域，如行为分析、人机交互、公共安全、智能监控等。深度卷积网络的出现极大地促进了图像分类、目标识别等技术的发展，因此也开始被大量应用在动作识别中。由于视频是由连续的多帧图像组成，因此深度卷积网络中的2D卷积网络无法获取到时间和运动信息，也就不能用于视频动作识别。现有技术中的一种解决方法是先从视频中提取出运动信息，比如光流信息，然后再设计一个包含空间信息流和时间信息流的双流网络，分别使用图像信息和光流信息进行训练，从而得到能够用于视频动作识别的模型。基于双流网络的视频动作识别方法通常都采用RGB图像和光流信息，光流虽然能够增加动作识别的准确率，但是计算光流信息的复杂度较高，需要占用大量的资源，同时计算光流的时间也比较长，难以满足生产环境中快速、实时的要求。
技术实现思路
本专利技术实施例提供一种视频动作识别方法、装置、电子设备及存储介质，用以解决现有技术中的视频动作识别方法计算复杂度较高、需要占用大量资源以及实时性低的缺陷。本专利技术第一方面实施例提供一种视频动作识别方法，包括：从待识别的视频得到第一帧图像序列；根据所述第一帧图像序列生成第一差分图像序列；提取所述第一帧图像序列中的帧图像在时间和空间上的特征，根据帧图像在时间和空间上的特征得到第一视频动作识别结果；提取所述第一差分图...

【技术保护点】
1.一种视频动作识别方法，其特征在于，包括：/n从待识别的视频得到第一帧图像序列；/n根据所述第一帧图像序列生成第一差分图像序列；/n提取所述第一帧图像序列中的帧图像在时间和空间上的特征，根据帧图像在时间和空间上的特征得到第一视频动作识别结果；/n提取所述第一差分图像序列中的差分图像在时间和空间上的特征，根据差分图像在时间和空间上的特征得到第二视频动作识别结果；/n根据所述第一视频动作识别结果与所述第二视频动作识别结果，得到所述第一帧图像序列的最终视频动作识别结果。/n

【技术特征摘要】
1.一种视频动作识别方法，其特征在于，包括：
从待识别的视频得到第一帧图像序列；
根据所述第一帧图像序列生成第一差分图像序列；
提取所述第一帧图像序列中的帧图像在时间和空间上的特征，根据帧图像在时间和空间上的特征得到第一视频动作识别结果；
提取所述第一差分图像序列中的差分图像在时间和空间上的特征，根据差分图像在时间和空间上的特征得到第二视频动作识别结果；
根据所述第一视频动作识别结果与所述第二视频动作识别结果，得到所述第一帧图像序列的最终视频动作识别结果。

2.根据权利要求1所述的视频动作识别方法，其特征在于，所述提取所述第一帧图像序列中的帧图像在时间和空间上的特征，根据帧图像在时间和空间上的特征得到第一视频动作识别结果包括：
将所述第一帧图像序列输入第一视频动作识别模型，由所述第一视频动作识别模型提取所述第一帧图像序列中的帧图像在时间和空间上的特征，根据帧图像在时间和空间上的特征得到第一视频动作识别结果；
以及，所述提取所述第一差分图像序列中的差分图像在时间和空间上的特征，根据差分图像在时间和空间上的特征得到第二视频动作识别结果包括：
将所述第一差分图像序列输入第二视频动作识别模型，由所述第二视频动作识别模型提取所述第一差分图像序列中的差分图像在时间和空间上的特征，根据差分图像在时间和空间上的特征得到第二视频动作识别结果；
其中，所述第一视频动作识别模型是基于样本视频中提取的样本帧图像序列、所述样本帧图像序列对应的动作识别结果训练得到的；
所述第二视频动作识别模型是基于样本视频所生成的样本差分图像序列、所述样本差分图像序列对应的动作识别结果训练得到的。

3.根据权利要求2所述的视频动作识别方法，其特征在于，所述第二视频动作识别模型是在3D卷积神经网络模型的基础上，将注意力模块内置于3D卷积神经网络模型内部所得到的模型；其中，所述注意力模块用于增强3D卷积神经网络模型对所述第一差分图像序列中动作发生区域的关注；
所述第一视频动作识别模型是在3D卷积神经网络模型的基础上，将注意力模块内置于3D卷积神经网络模型内部所得到的模型；其中，所述注意力模块用于增强3D卷积神经网络模型对所述第一帧图像序列中动作发生区域的关注。

4.根据权利要求2所述的视频动作识别方法，其特征在于，所述第二视频动作识别模型包括第二卷积层以及第二注意力模块；其中，
所述第二注意力模块用于对所述第二卷积层输出的特征进行平均池化与卷积操作，得到第...

【专利技术属性】
技术研发人员：赵家成，
申请(专利权)人：咪咕文化科技有限公司，中国移动通信集团有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人