【技术实现步骤摘要】
视频动作识别方法、装置、电子设备及存储介质
本专利技术涉及视频
,尤其涉及一种视频动作识别方法、装置、电子设备及存储介质。
技术介绍
基于视频的人体动作识别可应用于多个领域,如行为分析、人机交互、公共安全、智能监控等。深度卷积网络的出现极大地促进了图像分类、目标识别等技术的发展,因此也开始被大量应用在动作识别中。由于视频是由连续的多帧图像组成,因此深度卷积网络中的2D卷积网络无法获取到时间和运动信息,也就不能用于视频动作识别。现有技术中的一种解决方法是先从视频中提取出运动信息,比如光流信息,然后再设计一个包含空间信息流和时间信息流的双流网络,分别使用图像信息和光流信息进行训练,从而得到能够用于视频动作识别的模型。基于双流网络的视频动作识别方法通常都采用RGB图像和光流信息,光流虽然能够增加动作识别的准确率,但是计算光流信息的复杂度较高,需要占用大量的资源,同时计算光流的时间也比较长,难以满足生产环境中快速、实时的要求。
技术实现思路
本专利技术实施例提供一种视频动作识别方法、装置、电子设备及存储介质,用以解决现有技术中的视频动作识别方法计算复杂度较高、需要占用大量资源以及实时性低的缺陷。本专利技术第一方面实施例提供一种视频动作识别方法,包括:从待识别的视频得到第一帧图像序列;根据所述第一帧图像序列生成第一差分图像序列;提取所述第一帧图像序列中的帧图像在时间和空间上的特征,根据帧图像在时间和空间上的特征得到第一视频动作识别结果;提取所述第一差分图 ...
【技术保护点】
1.一种视频动作识别方法,其特征在于,包括:/n从待识别的视频得到第一帧图像序列;/n根据所述第一帧图像序列生成第一差分图像序列;/n提取所述第一帧图像序列中的帧图像在时间和空间上的特征,根据帧图像在时间和空间上的特征得到第一视频动作识别结果;/n提取所述第一差分图像序列中的差分图像在时间和空间上的特征,根据差分图像在时间和空间上的特征得到第二视频动作识别结果;/n根据所述第一视频动作识别结果与所述第二视频动作识别结果,得到所述第一帧图像序列的最终视频动作识别结果。/n
【技术特征摘要】
1.一种视频动作识别方法,其特征在于,包括:
从待识别的视频得到第一帧图像序列;
根据所述第一帧图像序列生成第一差分图像序列;
提取所述第一帧图像序列中的帧图像在时间和空间上的特征,根据帧图像在时间和空间上的特征得到第一视频动作识别结果;
提取所述第一差分图像序列中的差分图像在时间和空间上的特征,根据差分图像在时间和空间上的特征得到第二视频动作识别结果;
根据所述第一视频动作识别结果与所述第二视频动作识别结果,得到所述第一帧图像序列的最终视频动作识别结果。
2.根据权利要求1所述的视频动作识别方法,其特征在于,所述提取所述第一帧图像序列中的帧图像在时间和空间上的特征,根据帧图像在时间和空间上的特征得到第一视频动作识别结果包括:
将所述第一帧图像序列输入第一视频动作识别模型,由所述第一视频动作识别模型提取所述第一帧图像序列中的帧图像在时间和空间上的特征,根据帧图像在时间和空间上的特征得到第一视频动作识别结果;
以及,所述提取所述第一差分图像序列中的差分图像在时间和空间上的特征,根据差分图像在时间和空间上的特征得到第二视频动作识别结果包括:
将所述第一差分图像序列输入第二视频动作识别模型,由所述第二视频动作识别模型提取所述第一差分图像序列中的差分图像在时间和空间上的特征,根据差分图像在时间和空间上的特征得到第二视频动作识别结果;
其中,所述第一视频动作识别模型是基于样本视频中提取的样本帧图像序列、所述样本帧图像序列对应的动作识别结果训练得到的;
所述第二视频动作识别模型是基于样本视频所生成的样本差分图像序列、所述样本差分图像序列对应的动作识别结果训练得到的。
3.根据权利要求2所述的视频动作识别方法,其特征在于,所述第二视频动作识别模型是在3D卷积神经网络模型的基础上,将注意力模块内置于3D卷积神经网络模型内部所得到的模型;其中,所述注意力模块用于增强3D卷积神经网络模型对所述第一差分图像序列中动作发生区域的关注;
所述第一视频动作识别模型是在3D卷积神经网络模型的基础上,将注意力模块内置于3D卷积神经网络模型内部所得到的模型;其中,所述注意力模块用于增强3D卷积神经网络模型对所述第一帧图像序列中动作发生区域的关注。
4.根据权利要求2所述的视频动作识别方法,其特征在于,所述第二视频动作识别模型包括第二卷积层以及第二注意力模块;其中,
所述第二注意力模块用于对所述第二卷积层输出的特征进行平均池化与卷积操作,得到第...
【专利技术属性】
技术研发人员:赵家成,
申请(专利权)人:咪咕文化科技有限公司,中国移动通信集团有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。