一种基于空间增强模块的视频行为识别方法及系统技术方案

技术编号:28211475 阅读:42 留言:0更新日期:2021-04-24 14:48
本发明专利技术公开了一种基于空间增强模块的视频行为识别方法及系统,该方法包括下述步骤:将待测视频解码为帧序列,将解码所得帧序列以图像的形式存储;采取稀疏采样的采样策略,将视频分成多个视频片段,从每个视频片段中抽取一帧,组合而成堆叠的帧序列;计算行为识别数据集中所有的训练视频帧的三个通道的均值,将所采样的帧图像减去所计算出来的均值;用残差神经网络3D

【技术实现步骤摘要】
一种基于空间增强模块的视频行为识别方法及系统


[0001]本专利技术涉及计算机视觉的视频行为识别
,具体涉及一种基于空间增强模块的视频行为识别方法及系统。

技术介绍

[0002]对人体的行为识别一直都是计算机视觉领域中的一项重点研究问题。通过对人体的体态、行为的研究,可以检测出现在公共场合的异常行为,如:快速奔跑,摔倒,打人等。将深度学习理论应用于计算机视觉应用中,可以设计出高精度、高效率的行为识别算法。一个实用性高的行为识别算法为公共安全起到了一份重要的保障,也使得计算机能够自动完成对人体的异常行为检测,节省了管理人员手动查找的时间。视频行为识别的目的就是要识别出一段视频中某个目标的所做动作的具体类别,这在智能安防领域中有非常广泛的应用场景。利用计算机视觉技术进行视频内容的智能分析是当下一种可行的解决方法,值得深入研究。当前主流的基于深度学习的行为识别算法之一是基于3D卷积的行为识别算法。3D卷积可联合学习视频行为的时空特征,在时序性较强的行为数据集上的分类精度显著性的高于2D卷积。然而其对时空特征的联合学习导致了单独对于空间特征的提取能力较2D卷积有很明显的衰减,故在空间特征较强、时序性较弱的数据集上的分类精度弱于2D卷积。

技术实现思路

[0003]为了克服现有技术存在的缺陷与不足,本专利技术提供一种基于空间增强模块的视频行为识别方法及系统,本专利技术在充分考虑视频动作的帧间关联性的基础上,深入挖掘其静态空间特征,具体地说,空间增强模块在其内部利用2D卷积所提取的空间特征来对3D卷积所提取的时空联合特征进行叠加,实现空间增强,从而提升行为识别的准确率;空间特征描述视频中行为及其目标的外观、纹理、穿着,而时空特征主要描述行为在前后帧间的时序性与关联性,若仅考虑时空特征,而忽略其空间特征,在外观较为复杂的行为而帧间关联性较弱的行为上,往往会导致较高的误识别率。因此,本专利技术通过采用空间增强模块,单独的对行为空间特征进行提取并增强,从而实现行为分类,提升了行为识别效果,兼具有效性与通用性。
[0004]为了达到上述目的,本专利技术采用以下技术方案:
[0005]本专利技术提供一种基于空间增强模块的视频行为识别方法,包括下述步骤:
[0006]视频解码:将待测视频解码为帧序列,将解码所得帧序列以图像的形式存储,用于训练及测试;
[0007]稀疏采样:采取稀疏采样的采样策略,将视频分成多个视频片段,从每个视频片段中抽取一帧,组合而成堆叠的帧序列,输入神经网络以捕获长时间动作信息;
[0008]数据预处理:计算行为识别数据集中所有的训练视频帧的R、G、B三个通道的均值,将所采样的帧图像减去所计算出来的均值,并进行归一化处理,对帧图像进行区域裁剪,用于适应神经网络的输入分辨率;
[0009]基于空间增强模块构建神经网络:采用残差神经网络3D

ResNet

18为骨干网络,采用空间增强模块构建行为识别分类网络,增强视频中复杂行为的外观及边缘特征;
[0010]设置训练参数,将训练数据集的视频输入行为识别分类网络进行训练,保存训练后的网络参数;
[0011]模型部署及模型融合:在模型部署阶段,将空间增强模块内部的线性运算符进行融合;
[0012]待测视频输入到行为识别分类网络,输出最终的分类结果。
[0013]作为优选的技术方案,所述采取稀疏采样的采样策略,具体步骤包括:
[0014]将一段视频的所有帧平均分成长度相等的N段,以每一段的起始帧为起点,选取偏移量,从各视频段中相应偏移量的位置抽取一帧,组成时间维度为N的帧序列。
[0015]作为优选的技术方案,所述数据预处理具体步骤包括:
[0016]在训练阶段,对原始帧进行随机拉伸后,并缩放至320
×
240或240
×
320分辨率,再随机裁剪出224
×
224的图像块作为输入;在测试阶段,采取中心裁剪的方式裁剪出224
×
224的图像块作为输入。
[0017]作为优选的技术方案,所述采用空间增强模块构建行为识别分类网络,具体包括:
[0018]采用残差神经网络3D

ResNet

18为骨干网络,使用空间增强模块替换3D

ResNet

18中的所有3D卷积核,搭建行为识别分类网络,所述空间增强模块采用双支路形式,一条支路为3D卷积运算,提取时空联合特征,一条支路为2D卷积运算,提取纯空间特征,在行为识别分类网络的最后采用全连接层对所提取的特征值实行分类。
[0019]作为优选的技术方案,所述空间增强模块采用双支路形式,一条支路为3D卷积运算,提取时空联合特征,一条支路为2D卷积运算,提取纯空间特征,对3D卷积和2D卷积的输出特征图进行逐元素相加,再送入BN层执行批量归一化操作。
[0020]作为优选的技术方案,所述空间增强模块采用双支路形式,一条支路为3D卷积运算,提取时空联合特征,一条支路为2D卷积运算,提取纯空间特征,分别对3D卷积和2D卷积的输出特征图执行批量归一化操作,再进行逐元素相加,实现时空联合特征与纯空间特征的叠加。
[0021]作为优选的技术方案,所述空间增强模块的算子表示为:
[0022]Y=f(X
in
*W
3D
+X
in
*W
2D
)
[0023]其中,X
in
表示输入到空间增强模块的特征图,W
3D
表示3D卷积核,W
2D
表示2D卷积核,“*”表示卷积运算。
[0024]作为优选的技术方案,所述在模型部署阶段,将空间增强模块内部的线性运算符进行融合,具体步骤包括:
[0025]所述空间增强模块的内部算子包括卷积、BN、元素相加以及ReLU;
[0026]通过线性融合的方式将其内部线性算子合并成为一个单一的3D卷积。
[0027]作为优选的技术方案,所述输出最终的特征图,表示为:
[0028]M
3D
=X
in
*W
3D
[0029]M
2D
=X
in
*W
2D
[0030][0031][0032][0033][0034][0035]其中,所有的粗体变量均表示特征图张量,细体变量表示标量,“*”表示卷积运算,“·”表示标量与张量的数乘运算,X
in
表示输入空间增强模块的特征图,W
3D
和W
2D
表示3D卷积和2D卷积的权值,γ、β、μ、σ2分别表示接在3D卷积和2D卷积后面的BN层的缩放、偏置、均值及方差,Y
out
表示空间增强模块最终的输出特征图。
[0036]本专利技术还提供一种基于空间增强模块的视频行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于空间增强模块的视频行为识别方法,其特征在于,包括下述步骤:视频解码:将待测视频解码为帧序列,将解码所得帧序列以图像的形式存储,用于训练及测试;稀疏采样:采取稀疏采样的采样策略,将视频分成多个视频片段,从每个视频片段中抽取一帧,组合而成堆叠的帧序列,输入神经网络以捕获长时间动作信息;数据预处理:计算行为识别数据集中所有的训练视频帧的R、G、B三个通道的均值,将所采样的帧图像减去所计算出来的均值,并进行归一化处理,对帧图像进行区域裁剪,用于适应神经网络的输入分辨率;基于空间增强模块构建神经网络:采用残差神经网络3D

ResNet

18为骨干网络,采用空间增强模块构建行为识别分类网络,增强视频中复杂行为的外观及边缘特征;设置训练参数,将训练数据集的视频输入行为识别分类网络进行训练,保存训练后的网络参数;模型部署及模型融合:在模型部署阶段,将空间增强模块内部的线性运算符进行融合;待测视频输入到行为识别分类网络,输出最终的分类结果。2.根据权利要求1所述的基于空间增强模块的视频行为识别方法,其特征在于,所述采取稀疏采样的采样策略,具体步骤包括:将一段视频的所有帧平均分成长度相等的N段,以每一段的起始帧为起点,选取偏移量,从各视频段中相应偏移量的位置抽取一帧,组成时间维度为N的帧序列。3.根据权利要求1所述的基于空间增强模块的视频行为识别方法,其特征在于,所述数据预处理具体步骤包括:在训练阶段,对原始帧进行随机拉伸后,并缩放至320
×
240或240
×
320分辨率,再随机裁剪出224
×
224的图像块作为输入;在测试阶段,采取中心裁剪的方式裁剪出224
×
224的图像块作为输入。4.根据权利要求1所述的基于空间增强模块的视频行为识别方法,其特征在于,所述采用空间增强模块构建行为识别分类网络,具体包括:采用残差神经网络3D

ResNet

18为骨干网络,使用空间增强模块替换3D

ResNet

18中的所有3D卷积核,搭建行为识别分类网络,所述空间增强模块采用双支路形式,一条支路为3D卷积运算,提取时空联合特征,一条支路为2D卷积运算,提取纯空间特征,在行为识别分类网络的最后采用全连接层对所提取的特征值实行分类。5.根据权利要求1或4所述的基于空间增强模块的视频行为识别方法,其特征在于,所述空间增强模块采用双支路形式,一条支路为3D卷积运算,提取时空联合特征,一条支路为2D卷积运算,提取纯空间特征,对3D卷积和2D卷积的输出特征图进行逐元素相加,再送入BN层执行批量归一化操作。6.根据权利要求1或4所述的基于空间增强模块的视频行为识别方法,其特征在于,所述空间增强模块采用双支路形式,一条支路为3D卷积运算,提取时空联合特征,一条支路为2D卷积运算,提取纯空间特征,分别对3D卷积和2D卷积的输出特征图执行批量归一化操作,...

【专利技术属性】
技术研发人员:胡永健蔡德利刘琲贝王宇飞
申请(专利权)人:中新国际联合研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1