视频动作识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:25271744 阅读:40 留言:0更新日期:2020-08-14 23:04
本发明专利技术实施例提供一种视频动作识别方法、装置、电子设备及存储介质;方法包括:从待识别的视频得到第一帧图像序列;根据第一帧图像序列生成第一差分图像序列;提取第一帧图像序列中的帧图像在时间和空间上的特征,得到第一视频动作识别结果;提取第一差分图像序列中的差分图像在时间和空间上的特征,得到第二视频动作识别结果;根据第一视频动作识别结果与第二视频动作识别结果,得到第一帧图像序列的最终视频动作识别结果。本发明专利技术实施例通过将现有的双流网络中的光流信息替换为差分图像,在不损失识别精度的前提下,不仅可以节省大量的计算资源,降低运行成本,还进一步提高的算法的识别速度。更加适合实时性要求较高的场景。

【技术实现步骤摘要】
视频动作识别方法、装置、电子设备及存储介质
本专利技术涉及视频
,尤其涉及一种视频动作识别方法、装置、电子设备及存储介质。
技术介绍
基于视频的人体动作识别可应用于多个领域,如行为分析、人机交互、公共安全、智能监控等。深度卷积网络的出现极大地促进了图像分类、目标识别等技术的发展,因此也开始被大量应用在动作识别中。由于视频是由连续的多帧图像组成,因此深度卷积网络中的2D卷积网络无法获取到时间和运动信息,也就不能用于视频动作识别。现有技术中的一种解决方法是先从视频中提取出运动信息,比如光流信息,然后再设计一个包含空间信息流和时间信息流的双流网络,分别使用图像信息和光流信息进行训练,从而得到能够用于视频动作识别的模型。基于双流网络的视频动作识别方法通常都采用RGB图像和光流信息,光流虽然能够增加动作识别的准确率,但是计算光流信息的复杂度较高,需要占用大量的资源,同时计算光流的时间也比较长,难以满足生产环境中快速、实时的要求。
技术实现思路
本专利技术实施例提供一种视频动作识别方法、装置、电子设备及存储介质,用以解决现有技术中的视频动作识别方法计算复杂度较高、需要占用大量资源以及实时性低的缺陷。本专利技术第一方面实施例提供一种视频动作识别方法,包括:从待识别的视频得到第一帧图像序列;根据所述第一帧图像序列生成第一差分图像序列;提取所述第一帧图像序列中的帧图像在时间和空间上的特征,根据帧图像在时间和空间上的特征得到第一视频动作识别结果;提取所述第一差分图像序列中的差分图像在时间和空间上的特征,根据差分图像在时间和空间上的特征得到第二视频动作识别结果;根据所述第一视频动作识别结果与所述第二视频动作识别结果,得到所述第一帧图像序列的最终视频动作识别结果。上述技术方案中,所述提取所述第一帧图像序列中的帧图像在时间和空间上的特征,根据帧图像在时间和空间上的特征得到第一视频动作识别结果包括:将所述第一帧图像序列输入第一视频动作识别模型,由所述第一视频动作识别模型提取所述第一帧图像序列中的帧图像在时间和空间上的特征,根据帧图像在时间和空间上的特征得到第一视频动作识别结果;以及,所述提取所述第一差分图像序列中的差分图像在时间和空间上的特征,根据差分图像在时间和空间上的特征得到第二视频动作识别结果包括:将所述第一差分图像序列输入第二视频动作识别模型,由所述第二视频动作识别模型提取所述第一差分图像序列中的差分图像在时间和空间上的特征,根据差分图像在时间和空间上的特征得到第二视频动作识别结果;其中,所述第一视频动作识别模型是基于样本视频中提取的样本帧图像序列、所述样本帧图像序列对应的动作识别结果训练得到的;所述第二视频动作识别模型是基于样本视频所生成的样本差分图像序列、所述样本差分图像序列对应的动作识别结果训练得到的。上述技术方案中,所述第二视频动作识别模型是在3D卷积神经网络模型的基础上,将注意力模块内置于3D卷积神经网络模型内部所得到的模型;其中,所述注意力模块用于增强3D卷积神经网络模型对所述第一差分图像序列中动作发生区域的关注;所述第一视频动作识别模型是在3D卷积神经网络模型的基础上,将注意力模块内置于3D卷积神经网络模型内部所得到的模型;其中,所述注意力模块用于增强3D卷积神经网络模型对所述第一帧图像序列中动作发生区域的关注。上述技术方案中,所述第二视频动作识别模型包括第二卷积层以及第二注意力模块;其中,所述第二注意力模块用于对所述第二卷积层输出的特征进行平均池化与卷积操作,得到第二注意力权重,并将所述第二注意力权重赋予所述第二卷积层输出的特征。上述技术方案中,所述第一视频动作识别模型包括第一卷积层以及第一注意力模块;其中,所述第一注意力模块用于对所述第一卷积层输出的特征进行平均池化与卷积操作,得到第一注意力权重,并将所述第一注意力权重赋予所述第一卷积层输出的特征。上述技术方案中,还包括:从样本视频得到样本帧图像序列;根据所述样本帧图像序列得到对应的动作识别结果;将样本帧图像序列作为训练使用的输入数据,将样本帧图像序列对应的动作识别结果作为标签,采用深度学习方式进行训练,得到用于生成待识别视频的视频动作识别结果的第一视频动作识别模型。上述技术方案中,还包括:从样本视频得到样本帧图像序列;根据所述样本帧图像序列得到样本差分图像序列;根据所述样本差分图像序列得到对应的动作识别结果;将样本差分图像序列作为训练使用的输入数据,将样本差分图像序列对应的动作识别结果作为标签,采用深度学习方式进行训练,得到用于生成待识别视频的视频动作识别结果的第二视频动作识别模型。本专利技术第二方面实施例提供了一种视频动作识别装置,包括:第一帧图像序列生成模块,用于从待识别的视频得到第一帧图像序列;第一差分图像序列生成模块,用于根据所述第一帧图像序列生成第一差分图像序列;第一视频动作识别结果生成模块,用于提取所述第一帧图像序列中的帧图像在时间和空间上的特征,根据帧图像在时间和空间上的特征得到第一视频动作识别结果;第二视频动作识别结果生成模块,用于提取所述第一差分图像序列中的差分图像在时间和空间上的特征,根据差分图像在时间和空间上的特征得到第二视频动作识别结果;最终视频动作识别结果生成模块,用于根据所述第一视频动作识别结果与所述第二视频动作识别结果,得到所述第一帧图像序列的最终视频动作识别结果。本专利技术第三方面实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本专利技术第一方面实施例所述视频动作识别方法的步骤。本专利技术第四方面实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如本专利技术第一方面实施例所述视频动作识别方法的步骤。本专利技术实施例提供的视频动作识别方法、装置、电子设备及存储介质,通过将现有的双流网络中的光流信息替换为差分图像,在不损失识别精度的前提下,不仅可以节省大量的计算资源,降低运行成本,还进一步提高的算法的识别速度。更加适合实时性要求较高的场景。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的视频动作识别方法的流程图;图2为本专利技术实施例提供的视频动作识别装置的示意图;图3示例了一种电子设备的实体结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的本文档来自技高网...

【技术保护点】
1.一种视频动作识别方法,其特征在于,包括:/n从待识别的视频得到第一帧图像序列;/n根据所述第一帧图像序列生成第一差分图像序列;/n提取所述第一帧图像序列中的帧图像在时间和空间上的特征,根据帧图像在时间和空间上的特征得到第一视频动作识别结果;/n提取所述第一差分图像序列中的差分图像在时间和空间上的特征,根据差分图像在时间和空间上的特征得到第二视频动作识别结果;/n根据所述第一视频动作识别结果与所述第二视频动作识别结果,得到所述第一帧图像序列的最终视频动作识别结果。/n

【技术特征摘要】
1.一种视频动作识别方法,其特征在于,包括:
从待识别的视频得到第一帧图像序列;
根据所述第一帧图像序列生成第一差分图像序列;
提取所述第一帧图像序列中的帧图像在时间和空间上的特征,根据帧图像在时间和空间上的特征得到第一视频动作识别结果;
提取所述第一差分图像序列中的差分图像在时间和空间上的特征,根据差分图像在时间和空间上的特征得到第二视频动作识别结果;
根据所述第一视频动作识别结果与所述第二视频动作识别结果,得到所述第一帧图像序列的最终视频动作识别结果。


2.根据权利要求1所述的视频动作识别方法,其特征在于,所述提取所述第一帧图像序列中的帧图像在时间和空间上的特征,根据帧图像在时间和空间上的特征得到第一视频动作识别结果包括:
将所述第一帧图像序列输入第一视频动作识别模型,由所述第一视频动作识别模型提取所述第一帧图像序列中的帧图像在时间和空间上的特征,根据帧图像在时间和空间上的特征得到第一视频动作识别结果;
以及,所述提取所述第一差分图像序列中的差分图像在时间和空间上的特征,根据差分图像在时间和空间上的特征得到第二视频动作识别结果包括:
将所述第一差分图像序列输入第二视频动作识别模型,由所述第二视频动作识别模型提取所述第一差分图像序列中的差分图像在时间和空间上的特征,根据差分图像在时间和空间上的特征得到第二视频动作识别结果;
其中,所述第一视频动作识别模型是基于样本视频中提取的样本帧图像序列、所述样本帧图像序列对应的动作识别结果训练得到的;
所述第二视频动作识别模型是基于样本视频所生成的样本差分图像序列、所述样本差分图像序列对应的动作识别结果训练得到的。


3.根据权利要求2所述的视频动作识别方法,其特征在于,所述第二视频动作识别模型是在3D卷积神经网络模型的基础上,将注意力模块内置于3D卷积神经网络模型内部所得到的模型;其中,所述注意力模块用于增强3D卷积神经网络模型对所述第一差分图像序列中动作发生区域的关注;
所述第一视频动作识别模型是在3D卷积神经网络模型的基础上,将注意力模块内置于3D卷积神经网络模型内部所得到的模型;其中,所述注意力模块用于增强3D卷积神经网络模型对所述第一帧图像序列中动作发生区域的关注。


4.根据权利要求2所述的视频动作识别方法,其特征在于,所述第二视频动作识别模型包括第二卷积层以及第二注意力模块;其中,
所述第二注意力模块用于对所述第二卷积层输出的特征进行平均池化与卷积操作,得到第...

【专利技术属性】
技术研发人员:赵家成
申请(专利权)人:咪咕文化科技有限公司中国移动通信集团有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1