基于视听学习的人群异常事件检测方法技术

技术编号：32828383 阅读：12 留言：0更新日期：2022-03-26 20:34

本发明专利技术提供了一种基于视听学习的人群异常事件检测方法。首先，对音频信号进行预处理，再将其对数梅尔谱图输入VGGish网络进行特征提取，得到音频表征；然后，对视频序列进行空间变换和时间变换，再将其输入到3D

全部详细技术资料下载

【技术实现步骤摘要】
基于视听学习的人群异常事件检测方法

[0001]本专利技术属计算机视觉、智能视频分析
，具体涉及一种基于视听学习的人群异常事件检测方法。

技术介绍

[0002]人群分析是公共安全领域的一项基本任务，包括人群计数、人群定位、人群异常事件检测、人群流/人群运动分析、人群分割、群体检测等。而异常事件检测是人群场景安全预警的一项基本任务。对正在发生的异常事件及时报警对于确保公共安全至关重要。
[0003]目前的异常检测方法主要分为局部分析和全局分析两大类。局部分析方法是检测发生异常事件的异常对象，如卡车或人群中的行人，并定位异常发生的位置。如Liao等人在文献“H.Liao,J.Xiang,W.Sun,Q.Feng,and J.Dai,
‘
An abnormal event recognition in crowd scene,
’
in Sixth International Conference on Image and Graphics,ICIG 2011,Hefei,Anhui,China,August 12
‑
15,2011.IEEE Computer Society,2011,pp.731
‑
736.”中提出的使用视频描述符检测视频帧中的打架事件。全局分析方法通常是分析整个视频片段并预测视频片段中是否存在异常事件。全局分析方法有三种典型方案：基于轨迹点、基于光流和基于分类。如Mehran等人在文献“R.Mehran,A.Oyama...

【技术保护点】

【技术特征摘要】
1.一种基于视听学习的人群异常事件检测方法，其特征在于步骤如下：步骤1：输入人群事件视频中的音频信号，对音频信号进行重采样和短时傅里叶变换；步骤2：将步骤1处理后的音频信号的对数梅尔谱图输入VGGish网络进行特征提取，得到音频表征；步骤3：输入人群事件视频序列，对视频序列进行空间变换和时间变换；步骤4：将步骤3处理后的视频序列输入到3D
‑
ResNet网络中进行特征提取，得到视频表征；步骤5：将音频表征和视频表征进行融合处理，得到融合后的特征；步骤6：将融合后的特征输入到分类网络，得到事件类别预测结果。2.如权利要求1所述的一种基于视听学习的人群异常事件检测方法，其特征在于：步骤1中所述的重采样是对音频信号进行16kHz重采样；所述的短时傅里叶变换是对重采样的音频信号进行带有Hann窗口的短时傅里叶变换。3.如权利要求1所述的一种基于视听学习的人群异常事件检测方法，其特征在于：步骤2中所述的特征提取采用改进的VGGish网络，去掉VGGish网络的主成分分...

【专利技术属性】
技术研发人员：李学龙，高君宇，杨思宇，
申请(专利权)人：西北工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人