一种基于混合神经网络的人体行为识别方法技术

技术编号:34135588 阅读:60 留言:0更新日期:2022-07-14 16:32
本发明专利技术涉及智能信息处理与模式识别技术领域,尤其涉及一种基于混合神经网络的人体行为识别方法。构建训练样本集和测试样本集:将训练样本集送入混合神经网络进行训练,以测试样本集的整体识别准确率作为指标评判性能,获取准确率最高的模型,作为最终训练模型;将待定视频序列进行预处理操作将待定视频序列的图像帧和光流帧导入到最终训练模型,得到待定视频序列中的行为。本发明专利技术通通过神经网络结构的深度融合来达到充分的提取视频序列的场景信息,运动信息以及时间序列信息的目的进而形成优于任一单一网络结构的识别精度和鲁棒性;实现了用于复杂场景的人体行为的识别。实现了用于复杂场景的人体行为的识别。实现了用于复杂场景的人体行为的识别。

A human behavior recognition method based on hybrid neural network

【技术实现步骤摘要】
一种基于混合神经网络的人体行为识别方法


[0001]本专利技术涉及智能信息处理与模式识别
,尤其涉及一种基于混合神经网络的人体行为识别方法。

技术介绍

[0002]人体行为识别技术广泛应用于医疗健康、智能交通、安全监控、智能机器人等诸多领域。近年来,随着神经网络的不断发展和计算机算力的进一步提高,神经网络用于人体行为识别已经逐渐成为研究人员们的研究热点。
[0003]由于卷积神经网络在图像等领域的兴起,所以卷积神经网络可以极好的对图像中的信息进行提取,因此卷积神经网络对表观信息和运行信息的提取具有极佳的优势,但是相较于图像来讲视频序列具有时间维度特征,在处理时间维度信息时卷积神经网络不能有效的提取其时序特征。循环神经网络由于其独特的记忆性从而可以有效的提取上下文的关系来达到提取时间序列的目的,但是循环神经网络在提取长时间序列时可能发生梯度消失或者梯度爆炸,改进的循环神经网络LSTM 增加了遗忘门从而有效的解决了梯度消失和梯度爆炸问题,但是在提取场景信息和运动信息时容易引起参数量的增加。
[0004]当前,基于深度学习的人体行为识别的方法大致可以归纳为双流卷积神经网络、3D卷积神经网络、循环神经网络三种方法。双流卷积神经网络通过分别提取其表观信息和运动信息然后进行融合分类得到分类结果。可以较好的提取视频的场景信息和运动信息。3D卷积神经网络虽然可以将视频直接输入到网络中进行特征的提取,但是3D卷积核结构复杂引起的参数量也随网络深度的增加而大量的增加,不能进行长时间的特征提取并且提取的运动信息和时序信息并不是很充分。后续经过改进的3D卷积神经网络虽然在一定程度上解决了参数过大,提取特征能力有限的问题,但并不是针对所有的问题都有好的效果。在循环伸进网络之上改进后的LSTM可以获得长期时序信息,但是在对场景于运行信息提取不足且引入的大量的参数。拖慢了模型的识别速度。后来的研究者利用LSTM 和其它的神进网络的进行结合取得了不错的识别效果。
[0005]解决人体行为识别的困难涉及到大量图像处理、模式识别、人工智能方面的理论和方法。为此,本专利技术提出一种基于卷积神进网络和LSTM 以及多头注意力机制结合的混合神经网络的识别方法,相对现有方法,具有更好的特征提取充分性和人体行为识别精度。

技术实现思路

[0006]本专利技术的目的是提供一种基于混合神经网络的人体行为识别方法,用于解决现有技术中特征提取不充分和人体行为识别精度不足的问题。
[0007]为了实现上述目的,本专利技术采用了如下技术方案:一种基于混合神经网络的人体行为识别方法,包括以下步骤:S1.构建训练样本集和测试样本集:获取包括行为标签的视频数据,并经其进行预处理操作,得到视频数据中的图像
帧,并计算其相邻帧的光流得到光流帧;将所述视频数据划分为训练样本集和测试样本集;S2.将训练样本集送入混合神经网络进行训练,训练过程中,通过测试样本集对其训练结果进行验证,验证时不更新参数并将参数保存为权重文件;S3.使用已验证准确率最高的权重文件初始化整体混合神经网络,以测试样本集的整体识别准确率作为指标评判性能,获取准确率最高的模型,作为最终训练模型;S4.使用摄像装置采集具有人体行为的待定视频序列,并对其进行预处理操作,得到待定视频序列的图像帧和光流帧;S5.将待定视频序列的图像帧和光流帧导入到最终训练模型,得到待定视频序列中的行为。
[0008]进一步优选的,其中,S2和S4中,通过预处理获得图像帧和光流帧的方法主要包括:s21.将视频序列每隔五帧提取一帧形成RGB图像帧;s22.将所述RGB图像帧数据集中每相邻两张图像帧所有对应的像素点的梯度结合时间信息求其所在时刻的亮度变化值;s23.通过像素点为5*5的检测框来跟踪亮度变化的角点,得到x和y方向上的光流图像,形成x和y方向的光流图像帧。
[0009]进一步优选的,S2中混合神经网络为ResNet101为骨干的网络模型,并将ResNet101的3*3卷积替换为cot block模块,形成卷积神经网络与注意力机制的结合网络。
[0010]进一步优选的,S2中,训练过程包括:将视频数据中的所有图像帧和光流帧数据,定义为,其中C、H、W分别为图像的通道数、高度和宽度;将采样的帧空间分辨率裁剪为224
×
224的大小并且随机翻转后转换成张量的形式输入送到混合神经网络中;训练过程中的批量大小设置为64;图像帧的网络输入大小为(64, 3, 224, 224),输出为(64, 101);将光流帧的网络输入大小为(64, 20, 224, 224),输出为(64, 101);其中64是批量大小,3是图像帧的通道数量,20是光流帧的通道数,224和224是图像的空间分辨率大小;训练过程中使用反向传播来更新参数;分类器实现为一层全连接层,其输出维度设置为类别总数。
[0011]本专利技术至少具备以下有益效果:本专利技术通过混合神经网络充分的利用了卷积神经网络的局部感受野、权值共享以及时间或空间亚采样的特征提取方式,注意力机制的长距离建模能力以及通过静态和动态上下文的融合来进行特征之间的交互优势,循环神经网络的LSTM结构来提取运动信息之外的时间序列信息;本专利技术将以上神经网络结构的深度融合来达到充分的提取视频序列的场景信息,运动信息以及时间序列信息的目的进而形成优于任一单一网络结构的识别精度和鲁棒性;本专利技术通过以上训练的神经网络模型可以用于复杂场景的人体行为的识别。
附图说明
[0012]为了更清楚地说明本专利技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0013]图1为本专利技术的整体流程图;图2为混合神经网络的进行行为识别的基本结构示意图。
[0014]图3为自我注意力机制的特征提取过程示意图。其中,x为原始的特征图,Q,K,V均为经过1*1卷积后的特征图, k1为经过分组卷积得到的静态建模,W为k1与Q拼接形成的全脂矩阵,D为W与V的乘积而形成的动态上下文,Out为静态上下文k1和动态上下文的融合特征输出。
[0015]图4为以一个样本视频为例展示与图2对应的每个步骤的处理结果示意图。
具体实施方式
[0016]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0017]具体请参阅图1,本专利技术为一种基于混合神经网络的人体行为识别方法。
[0018]具体的,首先获取包含视频数据以及标签的数据样本集并且将其预处理得到图像帧和计算其相邻帧的光流并将其划分为训练样本集和测试样本集;其次经训练数据集送入混合神经网络,设置学习率对整体的网络进行训练,总体迭代100次,到90次的时学习率下降为原来的1/10以加速网络的收敛。使用分类器生成识别本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于混合神经网络的人体行为识别方法,其特征在于,包括以下步骤:S1.构建训练样本集和测试样本集:获取包括行为标签的视频数据,并经其进行预处理操作,得到视频数据中的图像帧,并计算其相邻帧的光流得到光流帧;将所述视频数据划分为训练样本集和测试样本集;S2.将训练样本集送入混合神经网络进行训练,训练过程中,通过测试样本集对其训练结果进行验证,验证时不更新参数并将参数保存为权重文件;S3.使用已验证准确率最高的权重文件初始化整体混合神经网络,以测试样本集的整体识别准确率作为指标评判性能,获取准确率最高的模型,作为最终训练模型;S4.使用摄像装置采集具有人体行为的待定视频序列,并对其进行预处理操作,得到待定视频序列的图像帧和光流帧;S5.将待定视频序列的图像帧和光流帧导入到最终训练模型,得到待定视频序列中的行为。2.根据权利要求1所述的一种基于混合神经网络的人体行为识别方法,其特征在于,其中,S2和S4中,通过预处理获得图像帧和光流帧的方法主要包括:s21.将视频序列每隔五帧提取一帧形成RGB图像帧;s22.将所述RGB图像帧数据集中每相邻两张图像帧所有对应的像素点的梯度结合时间信息求其所在时刻的亮度变化值;s23.通过像素点为5...

【专利技术属性】
技术研发人员:黄仕建岳帆侯怡冉马欢谭勇党随虎蒋丽杜得荣施明成邢柏松
申请(专利权)人:长江师范学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1