人体动作识别方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:30644847 阅读:26 留言:0更新日期:2021-11-04 00:49
本申请涉及一种人体动作识别方法、装置、计算机设备和存储介质。该方法包括:基于目标RGB视频,获取m个图像组,对于m个图像组中任一图像组,对目标RGB视频进行分段处理,得到T个视频段,对于T个视频段中每一视频段,基于预设间隔,在每一视频段中选取n帧图像;基于每一视频段对应的n帧图像,获取每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值,对每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值进行求和,将求和结果归一化至预设范围,以获得每一视频段对应的一帧图像,并由T个视频段对应的T帧图像构成任一图像组。由于任一图像组是通过解少量线性方程计算所得,从而提高目标RGB视频的动作识别速度。从而提高目标RGB视频的动作识别速度。从而提高目标RGB视频的动作识别速度。

【技术实现步骤摘要】
人体动作识别方法、装置、计算机设备和存储介质


[0001]本申请涉及人体行为识别
,特别是涉及一种人体动作识别方法、装置、计算机设备和存储介质。

技术介绍

[0002]动作识别是指:给定一个视频,通过机器来识别出视频里的主要动作类型。RGB彩色视频中的人体动作识别,是计算机视觉及模式识别研究中一个重要而富有挑战性的问题,其在人机交互、智能交通系统、紧急救援及视频监控等应用中发挥着重要作用。近年来,CNN(Convolutional Neural Networks,卷积神经网络)给动作识别带来了显著的推动。基于CNN(Convolutional Neural Networks,卷积神经网络)的动作方法能够从原始数据中自动学习特征。然而,出于背景杂乱、光照变化、视点变化及动作自由度大等原因,如何有效地完成动作识别任务仍然是一个挑战。
[0003]相关技术中,基于RGB彩色视频的动作识别工作主要集中在RGB图像和光流的结合。虽然运用光流的CNN(Convolutional Neural Networks,卷积神经网络)具有优越的识别性能,但是在提取光流时,涉及大量的解方程运算,从而导致运用光流的CNN(Convolutional Neural Networks,卷积神经网络)识别速度较慢,使得其在实时性要求高环境下存在难以应用的问题。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够满足提高视频中人体动作识别的速度的人体动作识别方法、装置、计算机设备和存储介质。
[0005]一种人体动作识别方法,该方法包括:
[0006]基于目标RGB视频,获取m个图像组,m不小于2,m个图像组中每一图像组均是由目标RGB视频中的部分图像帧计算所得;
[0007]对于m个图像组中任一图像组,对目标RGB视频进行分段处理,得到T个视频段,T不小于3;
[0008]对于T个视频段中每一视频段,基于预设间隔,在每一视频段中选取n帧图像;
[0009]基于每一视频段对应的n帧图像,获取每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值,对每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值进行求和,将求和结果归一化至预设范围,以获得每一视频段对应的一帧图像,并由T个视频段对应的T帧图像构成任一图像组;其中,预设范围为0至255,在获取m个图像组中每一图像组时所使用的预设间隔均不同;
[0010]将RGB数据流输入至预设模型,输出第一分类结果,RGB数据流是由目标RGB视频中的部分图像帧所组成的;
[0011]将多个图像组中每一图像组分别输入至预设模型,输出每一图像组的第二分类结果,第一分类结果包括RGB数据流中各种动作类别的概率,每一图像组的第二分类结果包括
每一图像组中各种动作类别的概率;
[0012]将第一分类结果及每一第二分类结果进行融合,得到目标RGB视频的动作识别结果。
[0013]在其中一个实施例中,m不大于3。
[0014]在其中一个实施例中,T不大于7。
[0015]在其中一个实施例中,将RGB数据流输入至预设模型,输出第一分类结果之前,还包括:
[0016]从每一视频段中随机选取一帧图像,并由随机选取的所有图像构成RGB数据流。
[0017]在其中一个实施例中,对目标RGB视频进行分段处理,得到T个视频段,包括:
[0018]对目标RGB视频进行平均分段处理,得到均分的T个视频段。
[0019]在其中一个实施例中,将多个图像组中每一图像组分别输入至预设模型之前,还包括:
[0020]基于第一样本集对初始模型进行训练,得到预训练模型;
[0021]基于第二样本集对预训练模型进行再训练,得到预设模型,第二样本集是由包含动作的样本图像所确定的,第一样本集是由随机选取的样本图像所确定的,第一样本集中的样本总数量大于第二样本集中的样本总数量。
[0022]在其中一个实施例中,将第一分类结果及每一第二分类结果进行融合,得到目标RGB视频的动作识别结果,包括:
[0023]获取第一分类结果的权重及每一第二分类结果的权重;
[0024]其中,第一分类结果的权重高于每一图像组的第二分类结果的权重;
[0025]将第一分类结果中每种动作类别的概率与第一分类结果的权重进行相乘,将第一分类结果中每种动作类别对应的乘积重新作为第一分类结果中每种动作类别对应的概率,将每一第二分类结果中每种动作类别的概率与每一第二分类结果的权重进行相乘,将每一第二分类结果中每种动作类别对应的乘积重新作为每一第二分类结果中每种动作类别对应的概率;
[0026]将每一动作类别在第一分类结果中的概率及每一动作类别在每一第二分类结果中的概率进行相加,将相加结果作为每一动作类别对应的最终概率;
[0027]将最大的最终概率所对应的动作类别作为目标RGB视频的动作识别结果。
[0028]一种人体动作识别装置,该装置包括:
[0029]获取模块,用于基于目标RGB视频,获取m个图像组,m不小于2,m个图像组中每一图像组均是由目标RGB视频中的部分图像帧计算所得;
[0030]处理模块,用于对于m个图像组中任一图像组,对目标RGB视频进行分段处理,得到T个视频段,T不小于3;
[0031]第一选取模块,用于对于T个视频段中每一视频段,基于预设间隔,在每一视频段中选取n帧图像;
[0032]构成模块,用于基于每一视频段对应的n帧图像,获取每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值,对每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值进行求和,将求和结果归一化至预设范围,以获得每一视频段对应的一帧图像,并由T个视频段对应的T帧图像构成任一图像组;其中,预设范围为0至255,在获
取m个图像组中每一图像组时所使用的预设间隔均不同;
[0033]第一输出模块,用于将RGB数据流输入至预设模型,输出第一分类结果,RGB数据流是由目标RGB视频中的部分图像帧所组成的;
[0034]第二输出模块,用于将多个图像组中每一图像组分别输入至预设模型,输出每一图像组的第二分类结果,第一分类结果包括RGB数据流中各种动作类别的概率,每一图像组的第二分类结果包括每一图像组中各种动作类别的概率;
[0035]融合模块,用于将第一分类结果及每一第二分类结果进行融合,得到目标RGB视频的动作识别结果。
[0036]一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现以下步骤:
[0037]基于目标RGB视频,获取m个图像组,m不小于2,m个图像组中每一图像组均是由目标RGB视频中的部分图像帧计算所得;
[0038]对于m个图像组中任一图像组,对目标RGB视频进行分段处理,得到T个视频段,T不小于3;
[0039]对于T个视频段中每一视频段,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种人体动作识别方法,其特征在于,所述方法包括:基于目标RGB视频,获取m个图像组,所述m不小于2,所述m个图像组中每一图像组均是由所述目标RGB视频中的部分图像帧计算所得;对于m个图像组中任一图像组,对所述目标RGB视频进行分段处理,得到T个视频段,所述T不小于3;对于所述T个视频段中每一视频段,基于预设间隔,在每一视频段中选取n帧图像;基于每一视频段对应的n帧图像,获取每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值,对所述每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值进行求和,将求和结果归一化至预设范围,以获得每一视频段对应的一帧图像,并由所述T个视频段对应的T帧图像构成所述任一图像组;其中,所述预设范围为0至255,在获取所述m个图像组中每一图像组时所使用的预设间隔均不同;将所述RGB数据流输入至预设模型,输出第一分类结果,所述RGB数据流是由所述目标RGB视频中的部分图像帧所组成的;将所述多个图像组中每一图像组分别输入至所述预设模型,输出每一图像组的第二分类结果,所述第一分类结果包括所述RGB数据流中各种动作类别的概率,每一图像组的第二分类结果包括每一图像组中各种动作类别的概率;将所述第一分类结果及每一第二分类结果进行融合,得到所述目标RGB视频的动作识别结果。2.根据权利要求1所述的方法,其特征在于,所述m不大于3。3.根据权利要求1所述的方法,其特征在于,所述T不大于7。4.根据权利要求1所述的方法,其特征在于,所述将所述RGB数据流输入至预设模型,输出第一分类结果之前,还包括:从每一视频段中随机选取一帧图像,并由随机选取的所有图像构成所述RGB数据流。5.根据权利要求4所述的方法,其特征在于,所述对所述目标RGB视频进行分段处理,得到T个视频段,包括:对所述目标RGB视频进行平均分段处理,得到均分的T个视频段。6.根据权利要求1所述的方法,其特征在于,所述将所述多个图像组中每一图像组分别输入至所述预设模型之前,还包括:基于第一样本集对初始模型进行训练,得到预训练模型;基于第二样本集对预训练模型进行再训练,得到所述预设模型,所述第二样本集是由包含动作的样本图像所确定的,所述第一样本集是由随机选取的样本图像所确定的,所述第一样本集中的样本总数量大于所述第二样本集中的样本总数量。7.根据权利要求1至6中任意一项所述的方法,其特征在于,所述将所述第一分类结果及每一第二分类结果进行融合,得到所述目标RGB视频的动作识别结果,包括:获取所述第一分类结果的权重及每一第二分类...

【专利技术属性】
技术研发人员:郑浩河乔丕业刘航刘朝鹏程俊牛茂龙程钦任子良
申请(专利权)人:中国科学院深圳先进技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1