【技术实现步骤摘要】
基于同源异构信息的多感知视频异常事件检测方法及设备
[0001]本专利技术属于智能视频处理领域,具体涉及一种基于同源异构信息的多感知视频异常事件检测方法及设备。
技术介绍
[0002]视频监控是公共安全领域中一种重要的信息辅助手段。随着监控设备覆盖面的增大,视频安全防控中人力成本增加的同时效率却难以保障。
[0003]异常检测的本质是了解正常事件和异常事件之间的内在差异并进行区分。由于异常实践发生的频率低、样本短缺、标注难度大,一些研究者试图探索基于帧预测的异常检测方法,通过正常样本训练,利用输入帧和预测帧之间的差异来判断异常从而避免异常的定义:Liu等人提出了基于未来帧预测的异常检测框架并使用光流表示运动信息;Li等人提出了一种双分支预测模型并将目标帧的前后连续帧作为输入;Lee等人提出了一种多尺度聚合网络来考虑异常事件的上下文信息。这些方法从两个方向关注了上下文信息,但是他们通过两个分支获取前项和后项信息,导致这两种信息相互独立,进而影响检测性能。
[0004]此外,大多数基于帧预测的异常检测方法在无监督学习中获得了卓越的性能,但是也忽略了使用未来帧预测与异常检测之间存在本质的区别:一方面,帧预测通过目标帧的上下文信息关注预测效果,忽略了目标帧,而异常检测更需要关注目标帧中提供的正常和异常之间的判别性特征;另一方面,在帧预测过程中模型提取高层特征但是缺乏对图像帧中内容的感知,而异常事件检测往往需要明确目标的内容属性,尽可能地避免不确定性因素对判别性特征的干扰。
[0005]为了更明确地学习 ...
【技术保护点】
【技术特征摘要】
1.一种基于同源异构信息的多感知视频异常事件检测方法,其特征在于,包括:目标检测网络、图
‑
文语义感知模块、异构特征融合的双向预测模块和时序注意力判别模块;所述目标检测网络采用YoloV3网络提取视频帧中的目标;所述图
‑
文语义感知模块包含图像特征提取器T
o
、文本特征提取器T
d
和语义相关性描述部分;所述图
‑
文语义感知模块提取出视频的图像特征和文本特征,并计算所述图像特征和文本特征之间的语义相关度保证语义特征的一致性;所述异构特征融合的双向预测模块包含前向编码器E
f
、后向编码器E
b
和解码器;所述异构特征融合的双向预测模块增强正常特征的提取并抑制异常特征的生成;所述时序注意力判别模块包含3D卷积神经网络、时序注意力机制和2D卷积网络,所述时序注意力判别模块学习伪异常时序和正常时序的特征并进行区分;联合预测误差、语义相关度和时序信息对待测视频进行异常判断。2.根据权利要求1所述的基于同源异构信息的多感知视频异常事件检测方法,其特征在于,所述图
‑
文语义感知模块提取出视频的图像细颗粒度特征和文本特征的过程包含:通过所述目标检测网络获取视频序列I1,
…
,I
M
每一帧中的N个目标及其所属类别,其中M为该视频序列的长度,不同帧中N的值不固定;将第t帧I
t
的第i个目标区域记做其中t=1,2,
…
,M,i=1,2,
…
,N,W、H和C分别为目标区域的宽、高和通道数将视频帧中的目标区域转换为固定大小,同时均匀地将目标区域分割为大小为p
×
p的P个子块,其中将P作为所述图像特征提取器T
o
的输入序列的长度;将每一个子块进行特征精炼并映射到维度固定的空间后,产生空间嵌入其中x=1,2,
…
,P,添加位置嵌入以保留每个子块的相对位置信息,得到嵌入特征的表达式如式(1)所示:所述图像特征提取器T
o
由l个堆叠的相同的Transformer框架组成,每个Transformer框架是两个残差连接的串行处理,第一个残差将嵌入特征经过层归一化和多头自注意力机制的输出与其本身相结合,获得中间特征如公式(2)所示:其中LN(
·
)表示层归一化,MSA(
·
)表示多头注意力机制;第二个残差是对中间特征进行层归一化和多层感知后的特征与中间特征相加,得到第一个Transformer框架的输出特征如公式(3)所示:其中MLP(
·
)表示多层感知;再将作为第二个Transformer框架的输入并输出以此类推,经过l个框架堆叠后获得输出特征将输入到独立的多层感知中输出最终目标区域特征z
′
o
;
对于每一个目标区域其对应的类别记为根据所述目标检测网络的预训练样本类别建立类别标签与文本的映射V,每一个目标类别标签都获得对应的文本其中是长度为76的序列,并用[SOS]和[EOS]标记括起来;根据字节对编码转化为计算机可理解的形式,同时嵌入文本字符的位置信息保留语义上下文并获得文本嵌入特征文本嵌入特征经过文本特征提取器T
d
的过程如公式(4)所示:其中z
′
d
为文本特征提取器T
d
的输出特征;使用层归一化和多层感知将z
′
o
和z
′
d
映射到多模态嵌入空间中,输出图像特征z
o
=MLP(LN(z
o
′
))和文本特征z
d
=MLP(LN(z
′
d
))。3.根据权利要求2所述的基于同源异构信息的多感知视频异常事件检测方法,其特征在于,所述计算所述图像特征和文本特征之间的语义相关度保证语义特征的一致性的过程包括:在对图
‑
文语义感知模块进行训练时,语义关联目标函数L
sem
(z
o
,z
d
)如式(5)所示:其中和分别表示目标的图像特征和文本特征,sim[
·
]表示余弦相似性;最小化语义关联目标函数L
sem
(z
o
,z
d
),使图像特征和文本特征两个向量在绝对距离上接近并且约束为相同的方向;对待测视频进行异常检测时,计算全局图像特征与局部文本特征将图像特征和文本特征被表示为相对于一组语义概念的后验概率向量,当待测视频中出现异常时,全局的图像特征和局部文本特征的相关关系弱,在语义空间上的认知出现差异。4.根据权利要求3所述的基于同源异构信息的多感知视频异常事件检测方法,其特征在于,所述异构特征融合的双向预测模块增强正常特征的提取并抑制异常特征的生成包括:采用双向3D编码器来提取前向编码特征和后向编码特征,其中双向3D编码器由所述前向编码器E
f
和后向编码器E
b
组成,所述前向编码器E
f
和后向编码器E
b
具有相同的结构和网络参数;根据每一个目标区域,取其对应位置的前L帧和后L帧,形成一个不包含第t帧中目标的前向目标序列和后向目标序列分别输入所述前向编码器E
f
和后向编码器E
b
中得到前向编码特征z
f
和后向编码特征z
b
,如公式(6)和公式(7)所示:(6)和公式(7)所示:将所述图像特征z
o
、文本特征z
d
、前向编码特征z
f
和后向编码特征z
b
进行拼接,得到异构融合特征z=concat[z
f
,z
b
,z
o
,z
d
];所述解码器依据异构融合特征预测目标区域,采用2D形式表达已获取的特征来预测中
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。