基于多模块卷积神经网络的异常行为识别方法及装置制造方法及图纸

技术编号:32806817 阅读:12 留言:0更新日期:2022-03-26 19:59
本发明专利技术公开了一种基于多模块卷积神经网络的异常行为识别方法与装置,其方法包括:采集并获得多分类的异常行为视频;将所述多分类的异常行为视频进行数据增强;对所述多分类的异常行为视频与数据增强后的多分类的异常行为视频进行归纳整理,建立对应的异常行为数据集;提取输入视频帧并进行角度自适应处理,得到校正后的视频帧;将所述校正后的视频帧进行多阶段的时空特征提取及时空特征融合,获得特征融合后的时空特征;将所述特征融合后的时空特征送收敛的3D卷积神经网络模型中进行异常行为的分类,获得异常行为分类结果;生成异常行为报告。本发明专利技术实施例可以对实际场景下的异常行为进行监测,保证识别的准确性与实时性。保证识别的准确性与实时性。保证识别的准确性与实时性。

【技术实现步骤摘要】
基于多模块卷积神经网络的异常行为识别方法及装置


[0001]本专利技术涉及计算机视觉
,尤其涉及一种真实场景中基于多模块卷积神经网络的异常行为识别方法及装置。

技术介绍

[0002]随着现代化理论与硬件的快速发展,计算机视觉领域的行为识别技术在各行各业被广泛应用,它在图像的基础上完成对视频中人物的行为理解更能满足日常人们生产生活需要。
[0003]然而,现有的方法在实际场景中通常表现不佳,主要是由于以下三个原因:第一:动作类别单一。由于在获取行为数据集的过程中,数据收集需要大量的人力、物力资源和时间成本,这严重限制了行为类别的多样性,导致早期的方法只检测到一到两种异常行为,很难应用于实际场景。
[0004]第二:角度畸变现象。由于相机视角固定,视频画面中的人物走动会导致人体姿势逐渐发生畸变,一种“身长腿短”的视觉现象,从而影响模型的判断,鲁棒性差。
[0005]第三:检测精度不高。以往的方法只采用3D卷积神经网络提取时空特征,对通道级特征缺乏关注,然而模型的输出对不同的特征具有不同的依赖性,盲目地将通道级特征分配统一的权重,将导致有价值的信息丢失,降低模型的识别精度。
[0006]所以现有的行为识别技术不能准确高效地识别出目标的行为,在应用在实际场景下,可能会发生相机角度畸变、动作识别单一和检测精度欠缺的现状。

技术实现思路

[0007]本专利技术的目的在于克服现有技术的不足,本专利技术提供了一种真实场景中基于多模块卷积神经网络的异常行为识别装置,可以对真实场景下的老人的异常行为进行精准识别,同时保证了检测的准确性与实时性。
[0008]为了解决上述问题,本专利技术提出了一种基于3D卷积神经网络的实际场景异常行为识别方法,所述方法包括:
[0009]从多种条件下采集真实情况下每一类异常行为视频,获得多分类的异常行为视频;
[0010]对所述多分类的异常行为视频进行数据增强,并获得数据增强后的多分类的异常行为视频;
[0011]对所述多分类的异常行为视频与数据增强后的多分类的异常行为视频进行归纳整理,生成标注文件,建立对应的异常行为数据集;
[0012]提取所述异常行为数据集中的输入视频帧并进行角度自适应处理,得到校正后的视频帧;
[0013]对所述校正后的视频帧进行多阶段的时空特征提取及时空特征融合,获得特征融合后的时空特征;
[0014]将所述特征融合后的时空特征送收敛的3D卷积神经网络模型中进行异常行为的分类,获得异常行为分类结果;
[0015]对所述异常行为分类结果进行统计,并生成异常行为报告。
[0016]所述从多种条件下采集真实情况下每一类异常行为视频,获得多分类的异常行为视频,包括:
[0017]基于多个摄像头从多时间段、多角度及多种光照强度下进行多种异常行为视频拍摄处理,获得多种异常行为视频;
[0018]对所述多种异常行为视频进行人工分类标注,获得所述多分类的异常行为视频。
[0019]所述对所述多分类的异常行为视频进行数据增强,并获得数据增强后的多分类的异常行为视频,包括:
[0020]对所述多分类的异常行为视频分别采用多种数据增强方式进行数据增强处理,获得数据增强后的多分类的异常行为视频;
[0021]其中,所述多种数据增强方式包括裁剪与尺寸调整组合、噪声与水平翻转组合、旋转与模糊组合、剪切与颜色抖动组合、平移与亮度组合中的一种或者多种。
[0022]所述对所述多分类的异常行为视频与数据增强后的多分类的异常行为视频进行归纳整理,生成标注文件,建立对应的异常行为数据集,包括:
[0023]将所述数据增强后的多分类的异常行为视频与多分类的异常行为视频放入对应的文件夹中并进行统一的格式命名,将每个视频的文件名与异常行为类别存储至注释文件中用于建立数据集。
[0024]所述提取所述异常行为数据集中的输入视频帧并进行角度自适应处理,得到校正后的视频帧,包括:
[0025]对所述输入视频帧每隔N帧进行采样,累计采样T帧后,将输入数据(N,T,C,H,W)维度变换成(N*T*C,H,W);
[0026]将变换后的数据送入角度自适应模块中,利用3D空间变形网络中的变换矩阵A
θ
对H*W中每个像素点进行坐标校正,公式如下:
[0027][0028]其中表示当前待处理的像素点坐标,表示处理后的像素点坐标,参数θ
ii
表示处理前后像素点之间坐标的映射关系;
[0029]将3D空间变形网络处理后的数据(N*T*C,H,W)进行二次维度变换,使得角度自适应模块输出数据维度为(N,T,C,H,W)。
[0030]所述将所述校正后的视频帧进行多阶段的时空特征提取及时空特征融合,获得融合后的时空特征,包括:
[0031]将所述角度自适应模块的输出数据送入基于3DResnet构建的双流特征提取网络,分别对时间、空间维度进行特征提取;
[0032]将提取到的时间特征与空间特征按照预设间隔阶段进行特征融合,获得融合后的时空特征;
[0033]其中,所述特征融合为在3DResnet中的多个阶段共计进行的多次特征融合。
[0034]所述将所述特征融合后的时空特征送收敛的3D卷积神经网络模型中进行异常行为的分类,获得异常行为分类结果,包括:
[0035]采用3D平均自适应池化操作对所述时空特征(N,T,C,H,W)从H与W两个维度进行特征压缩,压缩成(N,T,C,1,1),处理公式如下:
[0036][0037]上式中,Z
c
表示第C个压缩后的通道特征,uc表示每一个通道中H*W构成的特征图;
[0038]利用两个3D卷积层对压缩后的数据从通道维度进行特征激励,处理公式如下:
[0039]s=σ(W2δ(W1Z)
[0040]上式中,W1、W2表示卷积3D处理,δ、σ分别表示ReLU激活函数和Sigmoid激活函数;
[0041]将激活后的数据与3D通道注意力模块的输入数据进行点乘,获得表达能力更强的时空特征;
[0042]将所述时空特征送入全连接网络进行异常行为分类,获得异常行为分类结果。
[0043]所述收敛的3D卷积神经网络模型的训练过程包括:
[0044]构建3D卷积神经网络模型,通过迁移学习的方式采用Kinetics

400数据集对所述3D卷积神经网络模型进行预训练;
[0045]基于所述异常行为数据集对预训练后的3D卷积神经网络模型进行反复训练,迭代次数设置为80次,初始学习率为0.001,并选取SGD作为训练优化器,利用标注信息对模型参数进行优化;
[0046]利用测试集对训练好的模型进行测试,根据测试结果判断模型是否收敛。
[0047]所述对所述异常行为分类结果进行统计,并生成异常行为报告,包括:
[0048]异常行为监控平台基于实时监控画本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多模块卷积神经网络的异常行为识别方法,其特征在于,所述方法包括:从多种条件下采集真实情况下每一类异常行为视频,获得多分类的异常行为视频;对所述多分类的异常行为视频进行数据增强,并获得数据增强后的多分类的异常行为视频;对所述多分类的异常行为视频与数据增强后的多分类的异常行为视频进行归纳整理,生成标注文件,建立对应的异常行为数据集;提取所述异常行为数据集中的输入视频帧并进行角度自适应处理,得到校正后的视频帧;对所述校正后的视频帧进行多阶段的时空特征提取及时空特征融合,获得特征融合后的时空特征;将所述特征融合后的时空特征送收敛的3D卷积神经网络模型中进行异常行为的分类,获得异常行为分类结果;对所述异常行为分类结果进行统计,并生成异常行为报告。2.根据权利要求1所述的异常行为识别方法,其特征在于,所述从多种条件下采集真实情况下每一类异常行为视频,获得多分类的异常行为视频,包括:基于多个摄像头从多时间段、多角度及多种光照强度下进行多种异常行为视频拍摄处理,获得多种异常行为视频;对所述多种异常行为视频进行人工分类标注,获得所述多分类的异常行为视频。3.根据权利要求1所述的异常行为识别方法,其特征在于,所述对所述多分类的异常行为视频进行数据增强,并获得数据增强后的多分类的异常行为视频,包括:对所述多分类的异常行为视频分别采用多种数据增强方式进行数据增强处理,获得数据增强后的多分类的异常行为视频;其中,所述多种数据增强方式包括裁剪与尺寸调整组合、噪声与水平翻转组合、旋转与模糊组合、剪切与颜色抖动组合、平移与亮度组合中的一种或者多种。4.根据权利要求1所述的异常行为识别方法,其特征在于,所述对所述多分类的异常行为视频与数据增强后的多分类的异常行为视频进行归纳整理,生成标注文件,建立对应的异常行为数据集,包括:将所述数据增强后的多分类的异常行为视频与多分类的异常行为视频放入对应的文件夹中并进行统一的格式命名,将每个视频的文件名与异常行为类别存储至注释文件中用于建立数据集。5.根据权利要求1所述的异常行为识别方法,其特征在于,所述提取所述异常行为数据集中的输入视频帧并进行角度自适应处理,得到校正后的视频帧,包括:对所述输入视频帧每隔N帧进行采样,累计采样T帧后,将输入数据(N,T,C,H,W)维度变换成(N*T*C,H,W);将变换后的数据送入角度自适应模块中,利用3D空间变形网络中的变换矩阵A
θ
对H*W中每个像素点进行坐标校正,公式如下:
其中表示当前待处理的像素点坐标,表示处理后的像素点坐标,参数θ
ii
表示处理前后像素点之间坐标的映射关系;将3D空间变形网络处理后的数据(N*T*C,H,W)进行二次维度变换,使得角度自适应模块输出数据维度为(N,T,C,H,W)。6.根据权利要求1所述的异常行为识别方法,其特征在于,所述将所述校正后的视频帧进行多阶段的时空特征提取及时空特征融合,获得融合后的时空特征,包括:将所述角度自适应模块的输出数据送入基于3DRe...

【专利技术属性】
技术研发人员:焦泽昱王楠黄凯雷欢胡战虎钟震宇
申请(专利权)人:广东省科学院智能制造研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1