基于视听学习的人群异常事件检测方法技术

技术编号:32828383 阅读:12 留言:0更新日期:2022-03-26 20:34
本发明专利技术提供了一种基于视听学习的人群异常事件检测方法。首先,对音频信号进行预处理,再将其对数梅尔谱图输入VGGish网络进行特征提取,得到音频表征;然后,对视频序列进行空间变换和时间变换,再将其输入到3D

【技术实现步骤摘要】
基于视听学习的人群异常事件检测方法


[0001]本专利技术属计算机视觉、智能视频分析
,具体涉及一种基于视听学习的人群异常事件检测方法。

技术介绍

[0002]人群分析是公共安全领域的一项基本任务,包括人群计数、人群定位、人群异常事件检测、人群流/人群运动分析、人群分割、群体检测等。而异常事件检测是人群场景安全预警的一项基本任务。对正在发生的异常事件及时报警对于确保公共安全至关重要。
[0003]目前的异常检测方法主要分为局部分析和全局分析两大类。局部分析方法是检测发生异常事件的异常对象,如卡车或人群中的行人,并定位异常发生的位置。如Liao等人在文献“H.Liao,J.Xiang,W.Sun,Q.Feng,and J.Dai,

An abnormal event recognition in crowd scene,

in Sixth International Conference on Image and Graphics,ICIG 2011,Hefei,Anhui,China,August 12

15,2011.IEEE Computer Society,2011,pp.731

736.”中提出的使用视频描述符检测视频帧中的打架事件。全局分析方法通常是分析整个视频片段并预测视频片段中是否存在异常事件。全局分析方法有三种典型方案:基于轨迹点、基于光流和基于分类。如Mehran等人在文献“R.Mehran,A.Oyama,and M.Shah,

Abnormal crowd behavior detection using social force model,

in 2009IEEE Computer Society Conference on Computer Vision and Pattern Recognition(CVPR 2009),20

25June 2009,Miami,Florida,USA.IEEE Computer Society,2009,pp.935

942.”中利用人群视频片段中提取的目标轨迹进行异常检测;Helbinge等人提出了一种典型的基于轨迹点的描述人群相互作用的社会力模型方法;受Helbinge等人的启发,Mehran和Zhang等人将社会力量模型引入到视频中的社会事件分析中;Cui等人在文献“J.Cui,W.Liu,and W.Xing,

Crowd behaviors analysis and abnormal detection based on surveillance data,

J.Vis.Lang.Comput.,vol.25,no.6,pp.628

636,2014.”中尝试使用模糊c均值聚类的方法对轨迹进行聚类,并通过聚类预测输入轨迹的类别;Du等人提出了一种名为DSFA的变化检测器,它利用两个对称流和慢速特征分析模块来获得更好的遥感图像变化性能。
[0004]由于基于统计的方法对异常事件的定义不明确、不成熟,Demarty等人和Sultani等人分别提出了用于人群场景异常事件检测的VSD和UCFCrime数据集,其中分别包含7种和13种不同类型的异常事件。这两个数据集中的视频片段来自互联网上的电影和视频。上述数据集对人群中的异常事件进行了详细定义,将异常检测任务引入到视频分类任务中。然而当一个异常事件发生时,它往往伴随着一些特殊的声音。视听多模态联合学习是试图从视觉和听觉模态中学习到特殊任务的表征。近年来,视听多模态学习被应用于一般的场景中。Owenset等人,试图将知识从音频学习转移到视频学习;Arandjelovic等人通过视听关系分析视频。同时,这项工作被用于声音定位和视听分离。
[0005]然而,在人群分析领域,目前只有一种结合视觉和听觉信息的方法,是Hu等人在文
献“D.Hu,L.Mou,Q.Wang,J.Gao,Y.Hua,D.Dou,and X.Zhu,

Ambient sound helps:Audiovisual crowd counting in extreme conditions,

arXiv preprint arXiv:2005.07097,2020.”中提出的方法,该方法提出了一种多模式学习,以同时对静止图像和环境声音进行编码。该方法大大减少了极端条件下人群计数的估计误差。而传统的人群场景中的异常检测方法没有考虑到音频数据的影响,具有一定的局限性。

技术实现思路

[0006]为了克服现有技术的不足,本专利技术提供一种基于视听学习的人群异常事件检测方法。首先,对音频信号进行预处理,再将其对数梅尔谱图输入VGGish网络进行特征提取,得到音频表征;然后,对视频序列进行空间变换和时间变换,再将其输入到3D

ResNet网络中进行特征提取,得到视频表征;最后,融合两类特征,并将其输入到分类网络,得到事件类别预测结果。本专利技术是一种多模态学习方法,可以更加有效的用于人群分析中的异常事件检测。
[0007]一种基于视听学习的人群异常事件检测方法,其特征在于步骤如下:
[0008]步骤1:输入人群事件视频中的音频信号,对音频信号进行重采样和短时傅里叶变换;
[0009]步骤2:将步骤1处理后的音频信号的对数梅尔谱图输入VGGish网络进行特征提取,得到音频表征;
[0010]步骤3:输入人群事件视频序列,对视频序列进行空间变换和时间变换;
[0011]步骤4:将步骤3处理后的视频序列输入到3D

ResNet网络中进行特征提取,得到视频表征;
[0012]步骤5:将音频表征和视频表征进行融合处理,得到融合后的特征;
[0013]步骤6:将融合后的特征输入到分类网络,得到事件类别预测结果。
[0014]进一步地,步骤1中所述的重采样是对音频信号进行16kHz重采样;所述的短时傅里叶变换是对重采样的音频信号进行带有Hann窗口的短时傅里叶变换。
[0015]进一步地,步骤2中所述的特征提取采用改进的VGGish网络,去掉VGGish网络的主成分分析后处理部分,并在其输出上沿通道施加全局平均池化,并利用公开的Audio Set数据集进行预训练。
[0016]进一步地,步骤3中所述的空间变换是将视频序列中的图像大小调整为240
×
240,并以0.5的概率对所有图像进行随机水平翻转;所述的时间变换是以固定的步长从整个视频序列中采样50帧图像。
[0017]进一步地,步骤4中所述的3D

ResNet网络是在UCF

101数据集上预训练后的3D

ResNet网络。
[0018]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于视听学习的人群异常事件检测方法,其特征在于步骤如下:步骤1:输入人群事件视频中的音频信号,对音频信号进行重采样和短时傅里叶变换;步骤2:将步骤1处理后的音频信号的对数梅尔谱图输入VGGish网络进行特征提取,得到音频表征;步骤3:输入人群事件视频序列,对视频序列进行空间变换和时间变换;步骤4:将步骤3处理后的视频序列输入到3D

ResNet网络中进行特征提取,得到视频表征;步骤5:将音频表征和视频表征进行融合处理,得到融合后的特征;步骤6:将融合后的特征输入到分类网络,得到事件类别预测结果。2.如权利要求1所述的一种基于视听学习的人群异常事件检测方法,其特征在于:步骤1中所述的重采样是对音频信号进行16kHz重采样;所述的短时傅里叶变换是对重采样的音频信号进行带有Hann窗口的短时傅里叶变换。3.如权利要求1所述的一种基于视听学习的人群异常事件检测方法,其特征在于:步骤2中所述的特征提取采用改进的VGGish网络,去掉VGGish网络的主成分分...

【专利技术属性】
技术研发人员:李学龙高君宇杨思宇
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1