一种弱监督视频异常检测方法、系统及模型训练方法技术方案

技术编号:37052509 阅读:19 留言:0更新日期:2023-03-29 19:30
本发明专利技术公开了一种弱监督视频异常检测方法、系统及模型训练方法,属于视频异常检测技术领域。本发明专利技术设计了教师模型和学生模型,教师模型基于时间注意力机制构建,使视频特征更关注时序信息;学生模型将自注意力机制嵌入到视频特征提取模块中,使得视频特征更关注空间信息,教师模型将关注时序信息的知识进行蒸馏,提供给学生模型,且预测视频的异常得分,并将此标签作为知识传递给学生模型,作为指导;学生模型将空间信息和教师模型传递出来的时序信息进行融合,获得了具有时空信息的视频特征。本发明专利技术能作为公共安全系统中的异常检测模块提供算法支持,解决以往异常检测算法监督精度较差,对于异常的时间定位不准确的问题。对于异常的时间定位不准确的问题。对于异常的时间定位不准确的问题。

【技术实现步骤摘要】
一种弱监督视频异常检测方法、系统及模型训练方法


[0001]本专利技术涉及视频异常检测
,特别涉及一种弱监督视频异常检测方法、系统及模型训练方法。

技术介绍

[0002]随着人们对安全日益增长的重视和智能视频监控系统的持续发展,对异常事件自动检测的需求也日渐凸显。这些事件严重影响了人们的幸福指数,对人民生命财产安全造成了不可估计的损失。如果监控视频能自动检测出视频中的异常事件,并及时发出警报,这或许就能避免很多事故和悲剧的发生。因此,视频异常检测作为一种自动检测视频中异常事件的方法受到了广泛关注。
[0003]在视频异常检测中,一方面由于异常视频中的异常只占少部分,且部分异常较为复杂,因此想要提取这些异常特征难度较大;另一方面异常视频片段可能与正常视频片段没有明显的区别,这使得区分异常片段和正常片段更具有挑战性。目前主要有无监督学习、弱监督学习和强监督学习这三种方法,强监督学习需要使用带有人工标注的视频帧级别标签,这会浪费大量的人力物力;无监督学习虽然不需要标签但是由于训练过程中只有正常视频参与训练,这容易导致模型对偏离训练集中的正常视频有较大误差;弱监督学习仅需要视频级别的标注信息,同时在训练过程中正常视频和异常视频都参与训练。
[0004]弱监督学习倾向于通过使用多实例学习框架生成伪标签,来指导特定的特征编码器进行训练,以完成异常检测,这类方法的实质是利用多实例学习生成视频帧级别的标签,从而更好地指导特定特征编码器的训练。在现有的技术中,很多方法无论通过一阶段生成伪标签来指导第二阶段训练,还是自训练生成伪标签循环指导,都忽略了中间特征的启发、指导作用,这使得异常检测精度较差,对于异常的时间定位往往不够准确。

技术实现思路

[0005]1.专利技术要解决的技术问题鉴于上述现有技术存在的不足,本专利技术提供了一种弱监督视频异常检测方法、系统及模型训练方法;本专利技术通过教师模型中学习的中间特征来指导学生模型训练,一方面,这些中间特征可以用于生成高质量的伪标签,另一方面,中间特征中包含了丰富的视频特征表示,可以更好地指导学生模型的训练。
[0006]2.技术方案为达到上述目的,本专利技术提供的技术方案为:本专利技术的一种弱监督视频异常检测方法,进行视频异常检测模型训练,通过视频级别标签训练教师模型,然后通过教师模型生成的具有时间语义信息的视频特征和高质量的伪视频帧级别标签来指导训练学生模型;学生模型将空间注意力嵌入到视频特征提取模块中,并将空间语义特征和教师模型提取的具有时间语义信息的视频特征进行融合,获得综合时、空及语义信息的优化特征;直接使用学生模型来获得视频的异常得分。
[0007]更进一步地,所述的教师模型采用两个LSTM模块构成时间注意力机制,将输入特征送入到时间注意力机制中,提取出时间维度的语义信息形成,然后将和通过残差连接形成,最后对使用层归一化得到最终的关注时序信息的特征。
[0008]更进一步地,输入特征首先进行transpose操作,其中B表示视频的个数,T表示视频中视频片段的个数,D为每个视频片段的特征维度,transpose操作将特征的B和T的位置交换,转置后的送入2层LSTM模块中,接着进行transpose操作将T和B维度调换回来得到特征。
[0009]更进一步地,所述的学生模型,选择视频特征提取模块中的最后两个不同尺度大小的特征和进行处理,特征送入到空间注意力机制中提取其中的空间语义信息后,接着通过三维卷积操作后获得,将和融合后获得融合了多尺度且具有空间语义信息特征;将教师模型中的时间语义特征知识传递到学生模型中获得特征,然后将空间语义特征和具有时间语义信息结合,得到包含空间又包含时间信息的特征。
[0010]更进一步地,所述的空间语义特征先进行三维卷积操作,形成特征,然后基于特征和特征计算MMD损失函数,将特征提取的时间信息传递给特征。
[0011]更进一步地,使用I3D网络作为视频特征提取模块,采用Self

attention模块作为空间注意力机制。
[0012]本专利技术的一种弱监督视频异常检测系统,包括:视频特征提取模块:提取视频特征,作为教师模块的输入;教师模块:生成具有时间语义信息的视频特征和高质量的伪视频帧级别标签来指导训练学生模块;学生模块:将空间注意力嵌入到视频特征提取模块中,并将空间语义特征和教师模块提取的具有时间语义信息的视频特征进行融合,获得综合时、空及语义信息的优化特征;直接使用学生模块来获得视频的异常得分。
[0013]更进一步地,所述教师模块,首先将输入特征送入时间注意力机制中,进行时间维度的特征提取,然后进行残差连接,最后进行层归一化操作;教师模块采用两个LSTM模块构成时间注意力机制,且在输入特征送入LSTM模块之前以及经LSTM模块处理之后,均进行transpose操作。
[0014]更进一步地,所述学生模块,选择视频特征提取模块中的最后两个不同尺度大小的特征和进行处理,特征送入到空间注意力机制中提取其中的空间语义信息后,接着通过三维卷积处理后获得,将和融合后获得融合了多尺度且具有空间语义信息特征;将教师模块中的时间语义特征知识传递到学生模块中获得特征,然后将空间语义特征和具有时间语义信息结合,得到包含空间又包含时间信息的特征,空间注意力机制由Self

attention模块构成。
[0015]本专利技术的一种模型训练方法,其步骤为:
通过视频标签将视频分成正常视频和异常视频,并且把正常视频和异常视频分为相同的若干个视频片段,然后同时输入视频特征提取模块中获得视频特征,将正常视频特征和异常视频特征送入教师模型中,最后获得正常视频的异常得分和异常视频的异常得分;从正常视频的异常得分中选择视频片段最高得分,从异常视频的异常得分中选择视频片段最高得分来计算多实例损失,基于多实例损失进行教师模型的训练;教师模型训练好后,将异常视频的异常得分作为异常视频帧级别伪标签;正常视频则直接获得正常视频帧级别标签;最终,通过教师模型获得视频帧级别的伪标签;视频数据通过学生模型获得视频异常得分,将教师模型中获得的视频帧级别标签作为真实标签,基于此真实标签和学生模型获得的视频异常得分计算L2损失函数;将学生模型中提取的视频特征送入到已经训练好的教师模型中获得关注时序信息的特征,然后基于关注时序信息的特征和学生模型中提取的特征计算MMD损失函数,将教师模型中关注时序信息特征知识迁移到学生模型中;基于上述L2损失函数和MMD损失函数,训练学生模型。
[0016]3.有益效果采用本专利技术提供的技术方案,与已有的公知技术相比,具有如下显著效果:本专利技术的一种弱监督视频异常检测方法,设计了教师模型和学生模型,教师模型基于时间注意力机制构建,使视频特征更关注时序信息。一方面,教师模型将关注时序信息的知识进行蒸馏,提供给学生模型作为指导;另一方面,教师模型预测视频的异常得分,并将此标签作为知识传递给学生模型,作为指导。学生模型将空间注意力机制嵌入到视频特征提取通用模块中,使得视频特征更关本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种弱监督视频异常检测方法,其特征在于:进行视频异常检测模型训练,通过视频级别标签训练教师模型,然后通过教师模型生成的具有时间语义信息的视频特征和高质量的伪视频帧级别标签来指导训练学生模型;学生模型将空间注意力嵌入到视频特征提取模块中,并将空间语义特征和教师模型提取的具有时间语义信息的视频特征进行融合,获得综合时、空及语义信息的优化特征;直接使用学生模型来获得视频的异常得分。2.根据权利要求1所述的一种弱监督视频异常检测方法,其特征在于:所述的教师模型采用两个LSTM模块构成时间注意力机制,将输入特征送入到时间注意力机制中,提取出时间维度的语义信息形成,然后将和通过残差连接形成,最后对使用层归一化得到最终的关注时序信息的特征。3.根据权利要求2所述的一种弱监督视频异常检测方法,其特征在于:输入特征首先进行transpose操作,其中B表示视频的个数,T表示视频中视频片段的个数,D为每个视频片段的特征维度,transpose操作将特征的B和T的位置交换,转置后的送入2层LSTM模块中,接着进行transpose操作将T和B维度调换回来得到特征。4.根据权利要求3所述的一种弱监督视频异常检测方法,其特征在于:所述的学生模型,选择视频特征提取模块中的最后两个不同尺度大小的特征和进行处理,特征送入到空间注意力机制中提取其中的空间语义信息后,接着通过三维卷积操作后获得,将和融合后获得融合了多尺度且具有空间语义信息特征;将教师模型中的时间语义特征知识传递到学生模型中获得特征,然后将空间语义特征和具有时间语义信息结合,得到包含空间又包含时间信息的特征。5.根据权利要求4所述的一种弱监督视频异常检测方法,其特征在于:所述的空间语义特征先进行三维卷积操作,形成特征,然后基于特征和特征计算MMD损失函数,将特征提取的时间信息传递给特征。6.根据权利要求5所述的一种弱监督视频异常检测方法,其特征在于:使用I3D网络作为视频特征提取模块,采用Self

attention模块作为空间注意力机制。7.一种弱监督视频异常检测系统,其特征在于,包括:视频特征提取模块:提取视频特征,作为教师模块的输入;教师模块:生成具有时间语义信息的视频特征和高质量的伪视频帧级别标签来指导训练学生模块;学生模块:将空间注意...

【专利技术属性】
技术研发人员:余烨蔡文路强程勃陈凤欣
申请(专利权)人:合肥工业大学智能制造技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1