人体视频动作识别方法、装置、存储介质及处理器制造方法及图纸

技术编号:17486497 阅读:71 留言:0更新日期:2018-03-17 10:43
本发明专利技术公开了一种人体视频动作识别方法、装置、存储介质及处理器。其中,该方法包括:根据预设全通道三维卷积核创建第一卷积神经网络模型;根据预设动作识别数据集训练第一卷积神经网络模型,得到第二卷积神经网络模型;将第一卷积神经网络模型中的至少部分全通道三维卷积层替换为单通道三维卷积单元,得到第三卷积神经网络模型;根据预设动作识别数据集和第二卷积神经网络模型训练第三卷积神经网络模型,得到目标卷积神经网络模型;输入待识别视频至目标卷积神经网络模型,得到目标识别结果。本发明专利技术解决了现有技术中存在的人体动作识别方式计算精度较低、计算效率较差的技术问题。

Human video action recognition method, device, storage medium and processor

The invention discloses a method of human video action recognition, a device, a storage medium and a processor. Among them, the method comprises the following steps: according to preset full channel 3D convolution create the first convolutional neural network model; according to the preset action recognition data set to train the first convolutional neural network model, second convolutional neural network model; the at least part of the first convolutional neural network model of the whole channel volume replacement for single channel multilayer three-dimensional 3D convolution unit. Third convolutional neural network model; according to the preset action recognition data sets and second convolutional neural network model training third convolutional neural network model to get the target of convolutional neural network model; input to identify the video to the target convolutional neural network model, target recognition results. The invention solves the technical problems of low calculation precision and poor calculation efficiency existing in the existing technology of human body movement recognition.

【技术实现步骤摘要】
人体视频动作识别方法、装置、存储介质及处理器
本专利技术涉及视频处理领域,具体而言,涉及一种人体视频动作识别方法、装置、存储介质及处理器。
技术介绍
随着社会的信息化、网络化发展浪潮,各种视频大量涌现,如监控系统安防视频、自拍视频、网络媒体视频等。智能的动作分析识别技术对于大规模视频检索、人机交互、安防监控预警、视频分类等应用具有重要作用。传统动作识别借助光流法、密集轨迹分析等技术进行,人工设计并选取特征,计算复杂,且存在性能瓶颈。伴随着深度学习在图像分类领域的突破进展,深度学习相关技术也逐渐渗透至视频分析动作识别领域。但是,目前的人体动作识别方式存在计算精度较低、计算效率较差的技术问题。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种人体视频动作识别方法、装置、存储介质及处理器,以至少解决现有技术中存在的人体动作识别方式计算精度较低、计算效率较差的技术问题。根据本专利技术实施例的一个方面,提供了一种人体视频动作识别方法,该方法包括:根据预设全通道三维卷积核创建第一卷积神经网络模型;根据预设动作识别数据集训练上述第一卷积神经网络模型,得到第二卷积神经网络模型,其中,上述第二卷积神经网络模型为达到收敛状态的上述第一卷积神经网络模型;将上述第一卷积神经网络模型中的至少部分全通道三维卷积层替换为单通道三维卷积单元,得到第三卷积神经网络模型;根据上述预设动作识别数据集和上述第二卷积神经网络模型训练上述第三卷积神经网络模型,得到目标卷积神经网络模型,其中,上述目标卷积神经网络模型为达到收敛状态的上述第三卷积神经网络模型;输入待识别视频至上述目标卷积神经网络模型,得到目标识别结果。进一步地,在根据预设动作识别数据集训练上述第一卷积神经网络模型之前,上述方法还包括:获取目标视频中的视频数据;将上述视频数据分割成多个视频短片段,其中,每个上述视频短片段仅包含单一动作类别;对上述视频短片段添加预设类别标签,得到上述预设动作识别数据集。进一步地,上述将上述第一卷积神经网络模型中的至少部分全通道三维卷积层替换为单通道三维卷积单元包括:将上述至少部分全通道三维卷积层替换为上述单通道三维卷积层;在上述单通道三维卷积层的后位层级添加批规范化层、非线性层、残差分支、叠加单元和1x1分组卷积层,得到上述单通道三维卷积单元。进一步地,上述输入待识别视频至上述目标卷积神经网络模型,得到目标识别结果包括:对上述待识别视频进行分割,得到多个具有同一预设长度的第二视频序列;将多个上述第二视频序列输入至上述目标卷积神经网络,得到上述多个上述第二视频序列对应的初步识别结果;根据预设数据处理方式对上述初步识别结果进行处理,得到上述目标识别结果,其中,上述预设数据处理方式包括下述至少之一:获取上述初步识别结果的极值、获取上述初步识别结果的平均值以及对上述初步识别结果进行加权求和。根据本专利技术实施例的另一方面,还提供了一种人体视频动作识别装置,该装置包括:创建单元,用于根据预设全通道三维卷积核创建第一卷积神经网络模型;第一训练单元,用于根据预设动作识别数据集训练上述第一卷积神经网络模型,得到第二卷积神经网络模型,其中,上述第二卷积神经网络模型为达到收敛状态的上述第一卷积神经网络模型;替换单元,用于将上述第一卷积神经网络模型中的至少部分全通道三维卷积层替换为单通道三维卷积单元,得到第三卷积神经网络模型;第二训练单元,用于根据上述预设动作识别数据集和上述第二卷积神经网络模型训练上述第三卷积神经网络模型,得到目标卷积神经网络模型,其中,上述目标卷积神经网络模型为达到收敛状态的上述第三卷积神经网络模型;处理单元,用于输入待识别视频至上述目标卷积神经网络模型,得到目标识别结果。进一步地,上述装置还包括:获取单元,用于获取目标视频中的视频数据;分割单元,用于将上述视频数据分割成多个视频短片段,其中,每个上述视频短片段仅包含单一动作类别;添加单元,用于对上述视频短片段添加预设类别标签,得到上述预设动作识别数据集。进一步地,上述替换单元包括:替换子单元,用于将所述至少部分全通道三维卷积层替换为所述单通道三维卷积层;添加子单元,用于在所述单通道三维卷积层的后位层级添加批规范化层、非线性层、残差分支、叠加单元和1x1分组卷积层,得到所述单通道三维卷积单元。进一步地,上述处理单元包括:分割子单元,用于对上述待识别视频进行分割,得到多个具有同一预设长度的第二视频序列;输入子单元,用于将多个上述第二视频序列输入至上述目标卷积神经网络,得到上述多个上述第二视频序列对应的初步识别结果;处理子单元,用于根据预设数据处理方式对上述初步识别结果进行处理,得到上述目标识别结果,其中,上述预设数据处理方式包括下述至少之一:获取上述初步识别结果的极值、获取上述初步识别结果的平均值以及对上述初步识别结果进行加权求和。根据本专利技术实施例的另一方面,又提供了一种存储介质,上述存储介质包括存储的程序,其中,在上述程序运行时控制上述存储介质所在设备执行上述的人体视频动作识别方法。根据本专利技术实施例的另一方面,又提供了一种处理器,上述处理器用于运行程序,其中,上述程序运行时执行上述的人体视频动作识别方法。在本专利技术实施例中,采用根据预设全通道三维卷积核创建第一卷积神经网络模型的方式;根据预设动作识别数据集训练第一卷积神经网络模型,得到第二卷积神经网络模型,其中,第二卷积神经网络模型为达到收敛状态的第一卷积神经网络模型;通过将第一卷积神经网络模型中的至少部分全通道三维卷积层替换为单通道三维卷积单元,得到第三卷积神经网络模型;根据预设动作识别数据集和第二卷积神经网络模型训练第三卷积神经网络模型,得到目标卷积神经网络模型,其中,目标卷积神经网络模型为达到收敛状态的第三卷积神经网络模型;达到了输入待识别视频至目标卷积神经网络模型,得到目标识别结果的目的,从而实现了提升人体动作识别精度、提高人体动作识别的效率的技术问题。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术实施例的一种可选的人体视频动作识别方法的流程示意图;图2是根据本专利技术实施例的另一种可选的人体视频动作识别方法的流程示意图;图3是根据本专利技术实施例的又一种可选的人体视频动作识别方法的流程示意图;图4是根据本专利技术实施例的又一种可选的人体视频动作识别方法的流程示意图;图5是根据本专利技术实施例的一种可选的人体视频动作识别装置的结构示意图;图6是根据本专利技术实施例的一种可选的第一卷积神经网络模型的结构示意图;具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本本文档来自技高网
...
人体视频动作识别方法、装置、存储介质及处理器

【技术保护点】
一种人体视频动作识别方法,其特征在于,包括:根据预设全通道三维卷积核创建第一卷积神经网络模型;根据预设动作识别数据集训练所述第一卷积神经网络模型,得到第二卷积神经网络模型,其中,所述第二卷积神经网络模型为达到收敛状态的所述第一卷积神经网络模型;将所述第一卷积神经网络模型中的至少部分全通道三维卷积层替换为单通道三维卷积单元,得到第三卷积神经网络模型;根据所述预设动作识别数据集和所述第二卷积神经网络模型训练所述第三卷积神经网络模型,得到目标卷积神经网络模型,其中,所述目标卷积神经网络模型为达到收敛状态的所述第三卷积神经网络模型;输入待识别视频至所述目标卷积神经网络模型,得到目标识别结果。

【技术特征摘要】
1.一种人体视频动作识别方法,其特征在于,包括:根据预设全通道三维卷积核创建第一卷积神经网络模型;根据预设动作识别数据集训练所述第一卷积神经网络模型,得到第二卷积神经网络模型,其中,所述第二卷积神经网络模型为达到收敛状态的所述第一卷积神经网络模型;将所述第一卷积神经网络模型中的至少部分全通道三维卷积层替换为单通道三维卷积单元,得到第三卷积神经网络模型;根据所述预设动作识别数据集和所述第二卷积神经网络模型训练所述第三卷积神经网络模型,得到目标卷积神经网络模型,其中,所述目标卷积神经网络模型为达到收敛状态的所述第三卷积神经网络模型;输入待识别视频至所述目标卷积神经网络模型,得到目标识别结果。2.根据权利要求1所述的方法,其特征在于,在根据预设动作识别数据集训练所述第一卷积神经网络模型之前,所述方法还包括:获取目标视频中的视频数据;将所述视频数据分割成多个视频短片段,其中,每个所述视频短片段仅包含单一动作类别;对所述视频短片段添加预设类别标签,得到所述预设动作识别数据集。3.根据权利要求1所述的方法,其特征在于,所述将所述第一卷积神经网络模型中的至少部分全通道三维卷积层替换为单通道三维卷积单元包括:将所述至少部分全通道三维卷积层替换为所述单通道三维卷积层;在所述单通道三维卷积层的后位层级添加批规范化层、非线性层、残差分支、叠加单元和1x1分组卷积层,得到所述单通道三维卷积单元。4.根据权利要求1所述的方法,其特征在于,所述输入待识别视频至所述目标卷积神经网络模型,得到目标识别结果包括:对所述待识别视频进行分割,得到多个具有同一预设长度的第二视频序列;将多个所述第二视频序列输入至所述目标卷积神经网络,得到所述多个所述第二视频序列对应的初步识别结果;根据预设数据处理方式对所述初步识别结果进行处理,得到所述目标识别结果,其中,所述预设数据处理方式包括下述至少之一:获取所述初步识别结果的极值、获取所述初步识别结果的平均值以及对所述初步识别结果进行加权求和。5.一种人体视频动作识别装置,其特征在于,包括:创建单元,用于根据预设全通道三维卷积核创建第一卷积神经网络模型;第一训练单元,用于根据预设动作识别数据集训练所述第一...

【专利技术属性】
技术研发人员:周文明王志鹏
申请(专利权)人:珠海习悦信息技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1