一种视频异常检测网络及其训练方法技术

技术编号:31704401 阅读:15 留言:0更新日期:2022-01-01 11:06
一种视频异常检测网络的训练方法,包括:对训练集中的所有视频进行原始特征提取,获得维度统一的原始特征;选取b个正常视频原始特征和b个异常视频原始特征处理,得到2b个时间特征f;基于时间特征f,获得异常分数;对2b个时间特征f进行维度变换;基于b个时间特征f

【技术实现步骤摘要】
一种视频异常检测网络及其训练方法


[0001]本专利技术涉及一种图像处理技术,更具体地,涉及一种视频异常检测网络和视频异常检测网络的训练方法。

技术介绍

[0002]随着经济的飞速发展,视频监控的数量呈爆炸式增长。监控设备记录下的生活中的异常事件或行为层出不穷,如在校园人行区驾驶机动车辆或者骑自行车,公共区域发生爆炸或者火灾,商业区域的偷盗、抢劫等行为。为了及时检测到异常并定位这些异常发生的时间,人们通常是手动查看监控视频,逐帧浏览监控视频以获取关于异常的信息,然而监控视频的数量繁多,依靠人力很难及时检测异常,更不能实时监控异常。随着国家对于公共安全的日益重视,视频异常检测得到了越来越广泛的关注,它能够通过提取视频图像中的特征自动检测监控视频中异常行为,在智能安防、公共安全管理等方面发挥着重要作用。
[0003]近年来,随着深度学习的飞速发展,卷积神经网络已广泛应用于图像分类,目标检测,图像迁移学习等多个计算机视觉领域,也在视频异常检测方向取得了重大进展。卷积神经网络可以自动提取视频图像中的高级特征,无需手动定义和提取特征。
[0004]目前的基于卷积神经网络的方法主要分为半监督方法和弱监督方法。
[0005]半监督方法在过去一直是研究的重点,它仅利用正常事件作为训练数据,通过对正常事件的典型模式建模,不符合此模式的行为被判断为异常。然而半监督方法存在以下几个问题:第一,生活中的正常事件是无穷无尽的,不可能在训练模型时考虑到所有的正常事件,模型容易将没见过的正常事件也判别为异常,因此容易造成检测时虚报率高。第二,大多数半监督方法使用自编码器,由于卷积神经网络的泛化能力过强,容易发生异常的漏检的情况,形成安全隐患。第三,半监督方法没有引入异常数据参与训练,其准确率通常不高。
[0006]卷积神经网络的弱监督异常检测方法使得群体计数视频异常检测有了新的发展。目前广泛使用的基于多示例学习的弱监督异常检测将一个视频视为一个包,视频里面的若干片段看成包里的多个实例,正常包中全部都是正常数据,而异常包中有正常数据也有异常数据。但是这种方法通常只考虑了包和实例级别的数据关系,而忽略了批级别的数据分布关系,导致正常数据和异常数据不能很好地被分开,造成准确率欠佳的情况,限制了视频异常检测算法在现实世界中的应用。
[0007]因此,需要一种高效且准确的视频异常检测方法。

技术实现思路

[0008]本专利技术是为了解决上述问题而提出的,其目的在于提供一种视频异常检测网络,所述网络包括:
[0009]多尺度时间特征网络,处理从维度统一为10*t*2048的视频选取的b个正常视频的原始特征和b个异常视频的原始特征,得到2b个时间特征f,其维度保持不变;
[0010]全连接神经网络,处理多尺度时间特征网络输出的2b个时间特征f,基于式(1)至(3)获得异常分数S,
[0011][0012][0013][0014]分别为时间特征f的权重和偏置,分别为时间特征的权重和偏置,分别为时间特征的权重和偏置,D()表示dropout操作;
[0015]时间特征维度变换模块,变换多尺度时间特征网络输出的2b个时间特征f的维度,输出维度为10*k*2048的b个正常视频的时间特征f
n
组成正常包,以及维度为10*k*2048的b个异常视频的时间特征f
a
组成异常包,其中,k<t;
[0016]时间特征标准化模块,计算时间特征f
n
的各个通道的均值和标准差γ表示通道数,如式(4),(5)所示:
[0017][0018][0019]利用所求的和对正常包的各个通道的时间特征和异常包的各个通道的时间特征进行标准化操作得到标准化后的特征和如式(6),(7)所示:
[0020][0021][0022]利用二范数计算时间特征和的量级D
n
和D
a
,如式(8),(9)所示:
[0023][0024][0025]以及
[0026]损失函数计算模块,基于时间特征标准化模块获得的时间特征和的量级D
n
和D
a
以及全连接神经网络获得的异常分数S来计算损失函数L,如式(10)所示:
[0027]L=λ1L
separate
+λ2L
tirplet
+λ3L
cls
ꢀꢀꢀ
(10)
[0028]其中,λ1表示L
separate
的系数,λ2表示L
tirplet
的系数,λ3表示L
cls
的系数,
[0029]L
separate
是多实例学习排序损失,如式(11):
[0030]L
separate
=max{0,ε

(D
a

D
n
)}
ꢀꢀꢀꢀ
(11)
[0031]其中,ε表示可调的超参数,
[0032]L
triplet
是三元组损失,如式(15):
[0033][0034]d1=||D
n

(D
a
)1||1ꢀꢀ
(13)
[0035]d0=||D
n

(D
a
)0||1ꢀꢀ
(14)
[0036]L
triplet
=max{0,d1‑
d0+θ}
ꢀꢀ
(15)
[0037]其中,θ表示表示可调的超参数,D
a
是b个异常包的时间特征量级,D
n
是b个正常包的时间特征量级D
n
,以1为阈值,当时间特征量级的差值大于1时,则记为(D
a
)0,当时间特征量级的差值小于1时,则记为(D
a
)1,d1为正常包与(D
a
)1的距离,d0为正常包与(D
a
)0的距离,
[0038]L
cls
是交叉熵损失,利用全连接神经网络获得的2b个异常分数S和对应的视频标签y计算,如式(16):
[0039]L
cls


[ylog(S)+(1

y)log(1

S)]ꢀꢀ
(16)。
[0040]为了达到上述专利技术目的,根据本专利技术的一方面,提供一种视频异常检测网络的训练方法,所述方法包括:从维度统一为10*t*2048的视频选取b个正常视频的原始特征和b个异常视频的原始特征;处理b个正常视频的原始特征和b个异常视频的原始特征,得到2b个时间特征f,其维度保持不变;处理2b个时间特征f,基于式(1)至(3)获得异常分数S;变换2b个时间特征f的维度,输出维度为10*k*本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频异常检测网络,所述网络包括:多尺度时间特征网络,处理从维度统一为10*t*2048的视频选取的b个正常视频的原始特征和b个异常视频的原始特征,得到2b个时间特征f,其维度保持不变;全连接神经网络,处理多尺度时间特征网络输出的2b个时间特征f,基于式(1)至(3)获得异常分数S,得异常分数S,得异常分数S,得异常分数S,分别为时间特征f的权重和偏置,分别为时间特征的权重和偏置,分别为时间特征的权重和偏置,D()表示dropout操作;时间特征维度变换模块,变换多尺度时间特征网络输出的2b个时间特征f的维度,输出维度为10*k*2048的b个正常视频的时间特征f
n
组成正常包,以及维度为10*k*2048的b个异常视频的时间特征f
a
组成异常包,其中,k<t;时间特征标准化模块,计算时间特征f
n
的各个通道的均值和标准差γ表示通道数,如式(4),(5)所示:数,如式(4),(5)所示:利用所求的和对正常包的各个通道的时间特征和异常包的各个通道的时间特征进行标准化操作得到标准化后的特征和如式(6),(7)所示:如式(6),(7)所示:利用二范数计算时间特征和的量级D
n
和D
a
,如式(8),(9)所示:,如式(8),(9)所示:以及损失函数计算模块,基于时间特征标准化模块获得的时间特征和的量级D
n
和D
a
以及全连接神经网络获得的异常分数S来计算损失函数L,如式(10)所示:
L=λ1L
separate
+λ2L
tirplet
+λ3L
cls
ꢀꢀꢀꢀꢀꢀꢀꢀ
(10)其中,λ1表示L
separate
的系数,λ2表示L
tirplet
的系数,λ3表示L
cls
的系数,L
separate
是多实例学习排序损失,如式(11):L
separate
=max{0,ε

(D
a

D
n
)}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(11)其中,ε表示可调的超参数,L
triplet
是三元组损失,如式(12)至(15):d1=‖D
n

(D
a
)1‖
1 (13)d0=‖D
n

(D
a
)0‖
1 (14)L
triplet
=max{0,d1‑
d0+θ} (15)其中,θ表示表示可调的超参数,D
a
是b个异常包的时间特征量级,D
n
是b个正常包的时间特征量级D
n
,以1为阈值,当时间特征量级的差值大于1时,则记为(D
a
)0,当时间特征量级的差值小于1时,则记为(D
a
)1,d1为正常包与(D
a
)1的距离,d0为正常包与(D
a
)0的距离,L
cls
是交叉熵损失,利用全连接神经网络获得的2b个异常分数S和对应的视频标签y计算,如式(16):L
cls


[ylog(S)+(1

y)log(1

S)]
ꢀꢀꢀꢀ
(16)。2.根据权利要求1所述的方法,其特征在于,维度统一的b个正常视频的原始特征和b个异常视频的原始特征维度为10*32*128。3.根据权利要求2所述的方法,其特征在于,多尺度时间特征网络包括空洞卷积模块和自注意力模块以及独立卷积层,其中,空洞卷积模块包括三个空洞卷积层1

3,自注意力模块包括五个卷积层4

8,将原始特征输入空洞卷积层1,2,3,分别得到三个输出特征P1,P2,P3,其维度均为10*32*512;将原始特征输入自注意力模块的卷积层4,得到特征P4,其维度为10*32*512;将得到的特征P4分别输入卷积层5,6,7,分别得到三个输出P5,P6,P7,其维度均为10*32*256;将特征P6转置后与P7做矩阵乘法,得到特征P8,其维度为10*32*32;将特征P8与P5做矩阵乘法,得到特征P9,其维度为10*32*256;将特征P9输入卷积层8,得到特征P10,其维度为10*32*512;将特征P10与P4做矩阵加法,得到特征P11,其维度为10*32*512;特征P1,P2,P3与特征P11连接,得到特征P12,其维度为10*32*2048;将特征P12输入独立卷积层,得到特征P13,其维度为10*32*2048;将特征P13与原始特征做矩阵加法,得到时间特征f,其维度保持为10*32*204...

【专利技术属性】
技术研发人员:范哲意易淑涵吴迪刘志文
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1