【技术实现步骤摘要】
基于多模块卷积神经网络的异常行为识别方法及装置
[0001]本专利技术涉及计算机视觉
,尤其涉及一种真实场景中基于多模块卷积神经网络的异常行为识别方法及装置。
技术介绍
[0002]随着现代化理论与硬件的快速发展,计算机视觉领域的行为识别技术在各行各业被广泛应用,它在图像的基础上完成对视频中人物的行为理解更能满足日常人们生产生活需要。
[0003]然而,现有的方法在实际场景中通常表现不佳,主要是由于以下三个原因:第一:动作类别单一。由于在获取行为数据集的过程中,数据收集需要大量的人力、物力资源和时间成本,这严重限制了行为类别的多样性,导致早期的方法只检测到一到两种异常行为,很难应用于实际场景。
[0004]第二:角度畸变现象。由于相机视角固定,视频画面中的人物走动会导致人体姿势逐渐发生畸变,一种“身长腿短”的视觉现象,从而影响模型的判断,鲁棒性差。
[0005]第三:检测精度不高。以往的方法只采用3D卷积神经网络提取时空特征,对通道级特征缺乏关注,然而模型的输出对不同的特征具有不同的依赖性,盲目地将通道级特征分配统一的权重,将导致有价值的信息丢失,降低模型的识别精度。
[0006]所以现有的行为识别技术不能准确高效地识别出目标的行为,在应用在实际场景下,可能会发生相机角度畸变、动作识别单一和检测精度欠缺的现状。
技术实现思路
[0007]本专利技术的目的在于克服现有技术的不足,本专利技术提供了一种真实场景中基于多模块卷积神经网络的异常行为识别装置,可以对真实场景下 ...
【技术保护点】
【技术特征摘要】
1.一种基于多模块卷积神经网络的异常行为识别方法,其特征在于,所述方法包括:从多种条件下采集真实情况下每一类异常行为视频,获得多分类的异常行为视频;对所述多分类的异常行为视频进行数据增强,并获得数据增强后的多分类的异常行为视频;对所述多分类的异常行为视频与数据增强后的多分类的异常行为视频进行归纳整理,生成标注文件,建立对应的异常行为数据集;提取所述异常行为数据集中的输入视频帧并进行角度自适应处理,得到校正后的视频帧;对所述校正后的视频帧进行多阶段的时空特征提取及时空特征融合,获得特征融合后的时空特征;将所述特征融合后的时空特征送收敛的3D卷积神经网络模型中进行异常行为的分类,获得异常行为分类结果;对所述异常行为分类结果进行统计,并生成异常行为报告。2.根据权利要求1所述的异常行为识别方法,其特征在于,所述从多种条件下采集真实情况下每一类异常行为视频,获得多分类的异常行为视频,包括:基于多个摄像头从多时间段、多角度及多种光照强度下进行多种异常行为视频拍摄处理,获得多种异常行为视频;对所述多种异常行为视频进行人工分类标注,获得所述多分类的异常行为视频。3.根据权利要求1所述的异常行为识别方法,其特征在于,所述对所述多分类的异常行为视频进行数据增强,并获得数据增强后的多分类的异常行为视频,包括:对所述多分类的异常行为视频分别采用多种数据增强方式进行数据增强处理,获得数据增强后的多分类的异常行为视频;其中,所述多种数据增强方式包括裁剪与尺寸调整组合、噪声与水平翻转组合、旋转与模糊组合、剪切与颜色抖动组合、平移与亮度组合中的一种或者多种。4.根据权利要求1所述的异常行为识别方法,其特征在于,所述对所述多分类的异常行为视频与数据增强后的多分类的异常行为视频进行归纳整理,生成标注文件,建立对应的异常行为数据集,包括:将所述数据增强后的多分类的异常行为视频与多分类的异常行为视频放入对应的文件夹中并进行统一的格式命名,将每个视频的文件名与异常行为类别存储至注释文件中用于建立数据集。5.根据权利要求1所述的异常行为识别方法,其特征在于,所述提取所述异常行为数据集中的输入视频帧并进行角度自适应处理,得到校正后的视频帧,包括:对所述输入视频帧每隔N帧进行采样,累计采样T帧后,将输入数据(N,T,C,H,W)维度变换成(N*T*C,H,W);将变换后的数据送入角度自适应模块中,利用3D空间变形网络中的变换矩阵A
θ
对H*W中每个像素点进行坐标校正,公式如下:
其中表示当前待处理的像素点坐标,表示处理后的像素点坐标,参数θ
ii
表示处理前后像素点之间坐标的映射关系;将3D空间变形网络处理后的数据(N*T*C,H,W)进行二次维度变换,使得角度自适应模块输出数据维度为(N,T,C,H,W)。6.根据权利要求1所述的异常行为识别方法,其特征在于,所述将所述校正后的视频帧进行多阶段的时空特征提取及时空特征融合,获得融合后的时空特征,包括:将所述角度自适应模块的输出数据送入基于3DRe...
【专利技术属性】
技术研发人员:焦泽昱,王楠,黄凯,雷欢,胡战虎,钟震宇,
申请(专利权)人:广东省科学院智能制造研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。