【技术实现步骤摘要】
一种基于空间增强模块的视频行为识别方法及系统
[0001]本专利技术涉及计算机视觉的视频行为识别
,具体涉及一种基于空间增强模块的视频行为识别方法及系统。
技术介绍
[0002]对人体的行为识别一直都是计算机视觉领域中的一项重点研究问题。通过对人体的体态、行为的研究,可以检测出现在公共场合的异常行为,如:快速奔跑,摔倒,打人等。将深度学习理论应用于计算机视觉应用中,可以设计出高精度、高效率的行为识别算法。一个实用性高的行为识别算法为公共安全起到了一份重要的保障,也使得计算机能够自动完成对人体的异常行为检测,节省了管理人员手动查找的时间。视频行为识别的目的就是要识别出一段视频中某个目标的所做动作的具体类别,这在智能安防领域中有非常广泛的应用场景。利用计算机视觉技术进行视频内容的智能分析是当下一种可行的解决方法,值得深入研究。当前主流的基于深度学习的行为识别算法之一是基于3D卷积的行为识别算法。3D卷积可联合学习视频行为的时空特征,在时序性较强的行为数据集上的分类精度显著性的高于2D卷积。然而其对时空特征的联合学习导致了单独对于空间特征的提取能力较2D卷积有很明显的衰减,故在空间特征较强、时序性较弱的数据集上的分类精度弱于2D卷积。
技术实现思路
[0003]为了克服现有技术存在的缺陷与不足,本专利技术提供一种基于空间增强模块的视频行为识别方法及系统,本专利技术在充分考虑视频动作的帧间关联性的基础上,深入挖掘其静态空间特征,具体地说,空间增强模块在其内部利用2D卷积所提取的空间特征来对3D卷积所提取 ...
【技术保护点】
【技术特征摘要】
1.一种基于空间增强模块的视频行为识别方法,其特征在于,包括下述步骤:视频解码:将待测视频解码为帧序列,将解码所得帧序列以图像的形式存储,用于训练及测试;稀疏采样:采取稀疏采样的采样策略,将视频分成多个视频片段,从每个视频片段中抽取一帧,组合而成堆叠的帧序列,输入神经网络以捕获长时间动作信息;数据预处理:计算行为识别数据集中所有的训练视频帧的R、G、B三个通道的均值,将所采样的帧图像减去所计算出来的均值,并进行归一化处理,对帧图像进行区域裁剪,用于适应神经网络的输入分辨率;基于空间增强模块构建神经网络:采用残差神经网络3D
‑
ResNet
‑
18为骨干网络,采用空间增强模块构建行为识别分类网络,增强视频中复杂行为的外观及边缘特征;设置训练参数,将训练数据集的视频输入行为识别分类网络进行训练,保存训练后的网络参数;模型部署及模型融合:在模型部署阶段,将空间增强模块内部的线性运算符进行融合;待测视频输入到行为识别分类网络,输出最终的分类结果。2.根据权利要求1所述的基于空间增强模块的视频行为识别方法,其特征在于,所述采取稀疏采样的采样策略,具体步骤包括:将一段视频的所有帧平均分成长度相等的N段,以每一段的起始帧为起点,选取偏移量,从各视频段中相应偏移量的位置抽取一帧,组成时间维度为N的帧序列。3.根据权利要求1所述的基于空间增强模块的视频行为识别方法,其特征在于,所述数据预处理具体步骤包括:在训练阶段,对原始帧进行随机拉伸后,并缩放至320
×
240或240
×
320分辨率,再随机裁剪出224
×
224的图像块作为输入;在测试阶段,采取中心裁剪的方式裁剪出224
×
224的图像块作为输入。4.根据权利要求1所述的基于空间增强模块的视频行为识别方法,其特征在于,所述采用空间增强模块构建行为识别分类网络,具体包括:采用残差神经网络3D
‑
ResNet
‑
18为骨干网络,使用空间增强模块替换3D
‑
ResNet
‑
18中的所有3D卷积核,搭建行为识别分类网络,所述空间增强模块采用双支路形式,一条支路为3D卷积运算,提取时空联合特征,一条支路为2D卷积运算,提取纯空间特征,在行为识别分类网络的最后采用全连接层对所提取的特征值实行分类。5.根据权利要求1或4所述的基于空间增强模块的视频行为识别方法,其特征在于,所述空间增强模块采用双支路形式,一条支路为3D卷积运算,提取时空联合特征,一条支路为2D卷积运算,提取纯空间特征,对3D卷积和2D卷积的输出特征图进行逐元素相加,再送入BN层执行批量归一化操作。6.根据权利要求1或4所述的基于空间增强模块的视频行为识别方法,其特征在于,所述空间增强模块采用双支路形式,一条支路为3D卷积运算,提取时空联合特征,一条支路为2D卷积运算,提取纯空间特征,分别对3D卷积和2D卷积的输出特征图执行批量归一化操作,...
【专利技术属性】
技术研发人员:胡永健,蔡德利,刘琲贝,王宇飞,
申请(专利权)人:中新国际联合研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。