弱监督视频时序动作检测方法、系统、设备及存储介质技术方案

技术编号:38564869 阅读:26 留言:0更新日期:2023-08-22 21:03
本发明专利技术公开了一种弱监督视频时序动作检测方法、系统、设备及存储介质,它们是一一对应的方案,方案中:设计了一种脱离分类任务的自训练分支,该分支可以不受动作上下文信息的干扰生成综合动作序列;并且对于预测结果中的假阳性片段做了针对性的设计,通过对假阳性片段的概率进行建模,并对高概率片段进行抑制,从而大幅度减少了假阳性片段的数量;此外,还设计了前景增强分支,增强模型对前景片段的识别能力。总的来说,本发明专利技术针对假阳性片段进行了有效抑制,提升了模型的检测性能。提升了模型的检测性能。提升了模型的检测性能。

【技术实现步骤摘要】
弱监督视频时序动作检测方法、系统、设备及存储介质


[0001]本专利技术涉及视频分析理解
,尤其涉及一种弱监督视频时序动作检测方法、系统、设备及存储介质。

技术介绍

[0002]近年来,视频数据爆发式增长,视频理解的应用需求逐渐增加。时序动作检测任务作为视频理解的热门下游任务,因其广泛的实际应用,如安防监控、视频检索、体育视频片段剪辑、视频审核等,受到国内外许多研究者的关注。研究者需要针对不同应用场景的需求设计合适的时序动作检测方案,提供精确的动作定位和动作分类结果。
[0003]时序动作检测任务目前主要有两种学习范式:(1)提供详细帧级标注信息的全监督学习范式;(2)只提供视频级动作类别标注的弱监督学习范式。对于全监督时序动作检测来说,所有的样本视频都需要人工进行逐帧的标注,这种标注工作需要消耗巨大的人工成本,并且精度普遍不高。因此,为了解决标注难和标注误差的问题,弱监督时序动作检测应运而生。这种方法可以将网络上大量的未剪辑的视频标记一个视频级的标签,直接作为模型的训练数据。
[0004]虽然弱监督时序动作检测方法有诸多的好处,但是由于缺少精细的标注,检测性能要远远弱于全监督方法。现阶段弱监督时序动作检测方法大多都使用多实例学习框架,对视频中的所有片段进行分类,生成该视频对应的类激活序列,然后聚合每个类别中分数最高的k个片段进行聚合,得到视频级的分类分数,超过预先设定的类别分数阈值则表示视频中存在该种动作,根据找到的动作类别在类激活序列中找到对应的类别的激活序列,再使用预选设定的动作分数阈值生成动作预选框,最后对所有预选框使用非极大值抑制得到最终的预测结果。
[0005]以上介绍的是一种利用分类结果进行定位的方法,模型只能通过优化视频级的分类结果来更新网络参数。但是对于视频级的分类任务来说,模型很容易根据动作上下文信息来做动作分类任务(一般来说不同动作的场景信息差异大,容易分类),因此传统方法不可避免的会导致定位得到的预选框中大部分都是场景信息显著的片段,而这种片段未必属于动作片段。因此,模型的预测结果中会存在许多的假阳性片段,模型的定位性能普遍不佳。
[0006]在公开号为CN110832499A的中国专利技术专利申请《通过稀疏时间池化网络的弱监督动作定位》中利用稀疏关键帧注意力机制进行动作识别。在公开号为CN115439790A的中国专利技术专利申请《基于级联的种子区域生长模块的弱监督时序动作定位方法》中根据时序特征获取原始类激活序列,通过种子生长策略获取扩张后的类激活序列,进行对抗擦除,将原始类激活序列和擦除后的类激活序列融合,获取可信度更高的类激活序列以提升检测精度。在公开号为CN115272941A的中国专利技术专利申请《弱监督视频时序动作检测与分类方法及系统》中采用蒸馏协同的策略,促使单模态和跨模态框架优势互补,实现更完整且准确的时序动作检测和分类。在公开号为CN114898259A的中国专利技术专利申请《一种基于动作关联
注意力的弱监督视频时序动作定位方法》中,采用动作关联注意力模型来建立视频中动作片段之间的关系,利用查询机制建立弱监督的预训练,并将查询机制的输出输入到Transformer(变压器)架构的解码器中用于实现查询集合的时间定位;利用Transformer架构的编码器确定视频片段特征之间的关系,进而实现动作片段的定位及分类。
[0007]然而上述的专利申请公开的方法,都沿用了通过优化分类任务实现动作定位的方式。对于这种定位方法,其定位结果中会存在大量由动作上下文信息引起的假阳性片段,从而导致时序动作检测性能不佳。

技术实现思路

[0008]本专利技术的目的是提供一种弱监督视频时序动作检测方法、系统、设备及存储介质,能够针对假阳性片段进行了有效抑制,提升了时序动作检测性能。
[0009]本专利技术的目的是通过以下技术方案实现的:一种弱监督视频时序动作检测方法,包括:构建弱监督视频时序动作检测模型,所述弱监督视频时序动作检测模型包括:基础框架、自训练动作分支、假阳性抑制模块与前景增强分支;将训练视频数据与对应的光流数据输入至弱监督视频时序动作检测模型,通过基础框架提取获得特征X后,编码为嵌入特征E,再经过分类获得类激活序列A,并结合给定的视频级标签计算基础损失;所述自训练动作分支利用所述特征X获得两种模态的动作序列,并融合后获得综合动作序列与非动作序列,基于两种模态的动作序列以及综合动作序列与非动作序列计算自训练动作损失;所述假阳性抑制模块利用所述类激活序列A与非动作序列,获得假阳性序列,并结合设定的均匀标签计算出假阳性抑制损失;所述前景增强分支基于所述嵌入特征E使用注意力机制生成片段级前景权重,并作用于所述类激活序列A,获得前景增强类激活序列,再结合所述两种模态的动作序列,获得综合类激活序列,并结合给定的视频级标签计算出前景增强损失;结合所有损失训练所述弱监督视频时序动作检测模型;将待检测视频数据与对应光流数据输入至训练后的弱监督视频时序动作检测模型,利用前景增强分支获得的前景增强类激活序列以及综合类激活序列实现时序动作检测。
[0010]一种弱监督视频时序动作检测系统,包括:模型构建单元,用于构建弱监督视频时序动作检测模型,所述弱监督视频时序动作检测模型包括:基础框架、自训练动作分支、假阳性抑制模块与前景增强分支;训练单元,用于将训练视频数据与对应的光流数据输入至弱监督视频时序动作检测模型,通过基础框架提取获得特征X后,编码为嵌入特征E,再经过分类获得类激活序列A,并结合给定的视频级标签计算基础损失;所述自训练动作分支利用所述特征X获得两种模态的动作序列,并融合后获得综合动作序列与非动作序列,基于两种模态的动作序列以及综合动作序列与非动作序列计算自训练动作损失;所述假阳性抑制模块利用所述类激活序列A与非动作序列,获得假阳性序列,并结合设定的均匀标签计算出假阳性抑制损失;所述前景增强分支基于所述嵌入特征E使用注意力机制生成片段级前景权重,并作用于所述类激活序列A,获得前景增强类激活序列,再结合所述两种模态的动作序列,获得综合类激活
序列,并结合给定的视频级标签计算出前景增强损失;结合所有损失训练所述弱监督视频时序动作检测模型;检测单元,用于将待检测视频数据与对应光流数据输入至训练后的弱监督视频时序动作检测模型,利用前景增强分支获得的前景增强类激活序列以及综合类激活序列实现时序动作检测。
[0011]一种处理设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。
[0012]一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述的方法。
[0013]由上述本专利技术提供的技术方案可以看出,设计了一种脱离分类任务的自训练分支,该分支可以不受动作上下文信息的干扰生成综合动作序列;并且对于预测结果中的假阳性片段做了针对性的设计,通过对假阳性片段的概率进行建模,并对高概率片段进行抑制,从而大幅度减少了假阳性片段的数量;此外,还设计本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种弱监督视频时序动作检测方法,其特征在于,包括:构建弱监督视频时序动作检测模型,所述弱监督视频时序动作检测模型包括:基础框架、自训练动作分支、假阳性抑制模块与前景增强分支;将训练视频数据与对应的光流数据输入至弱监督视频时序动作检测模型,通过基础框架提取获得特征X后,编码为嵌入特征E,再经过分类获得类激活序列A,并结合给定的视频级标签计算基础损失;所述自训练动作分支利用所述特征X获得两种模态的动作序列,并融合后获得综合动作序列与非动作序列,基于两种模态的动作序列以及综合动作序列与非动作序列计算自训练动作损失;所述假阳性抑制模块利用所述类激活序列A与非动作序列,获得假阳性序列,并结合设定的均匀标签计算出假阳性抑制损失;所述前景增强分支基于所述嵌入特征E使用注意力机制生成片段级前景权重,并作用于所述类激活序列A,获得前景增强类激活序列,再结合所述两种模态的动作序列,获得综合类激活序列,并结合给定的视频级标签计算出前景增强损失;结合所有损失训练所述弱监督视频时序动作检测模型;将待检测视频数据与对应光流数据输入至训练后的弱监督视频时序动作检测模型,利用前景增强分支获得的前景增强类激活序列以及综合类激活序列实现时序动作检测。2.根据权利要求1所述的一种弱监督视频时序动作检测方法,其特征在于,所述通过基础框架提取获得特征X后,编码为嵌入特征E,再经过分类获得类激活序列A包括:所述基础框架包括:预训练的特征提取网络、一维卷积层、分类器;其中,所述预训练的特征提取网络包括:RGB特征提取网络与光流特征提取网络,RGB是指红绿蓝三个通道;通过RGB特征提取网络从训练视频数据中提取出RGB特征,通过光流特征提取网络从对应的光流数据中提取出光流特征,所述RGB特征与光流特征在通道维度上拼接得到特征X;所述特征X通过一维卷积层处理,获得嵌入特征E,所述嵌入特征E经分类器分类,获得类激活序列A。3.根据权利要求2所述的一种弱监督视频时序动作检测方法,其特征在于,所述结合给定的视频级标签计算基础损失包括:在类激活序列A中聚合每个类别上分数最高的k个片段,得到视频级的分类分数,在类别维度上使用softmax函数生成类别概率,其中,每一片段包含设定数目的帧图像,k为设定的正整数;之后,结合给定的视频级标签计算基础损失,表示为:;;其中,softmax函数为归一化指数函数,表示第i个视频的分类分数,表示第i个视频的类别概率,表示第i个视频的第c个动作类别的概率值,表示第i个视频的视频级标签中对应的第c个动作的标签值,N表示视频数目,C表示动作类别数目,表示基础损失。4.根据权利要求1所述的一种弱监督视频时序动作检测方法,其特征在于,所述自训练动作分支利用所述特征X获得两种模态的动作序列,并融合后获得综合动作序列与非动作序列包括:
所述特征X由RGB特征与光流特征在通道维度上拼接得到,RGB是指红绿蓝三个通道;通过对RGB特征与光流特征分别依次进行卷积、RELU激活函数和Sigmoid激活函数处理,获得对应的RGB动作序列与光流动作序列,表示为:;;其中,表示RGB特征,表示光流特征,与均表示依次进行卷积、RELU激活函数和Sigmoid激活函数的模块,RELU表示修正线性单元,Sigmoid为S型生长曲线,表示RGB动作序列,表示光流动作序列;将RGB动作序列与光流动作序列融合为综合动作序列,并利用综合动作序列得到非动作序列,表示为:;;其中,S表示综合动作序列,为控制两种模态的动作序列融合比例的超参数,表示非动作序列。5.根据权利要求1或4所述的一种弱监督视频时序动作检测方法,其特征在于,所述基于两种模态的动作序列以及综合动作序列与非动作序列计算自训练动作损失包括:将每一种模态的动作序列作为另一种模态的动作序列的软标签,并计算出一致性损失,表示为:;其中,表示一致性损失,表示相似度量函数;表示RGB动作序列,表示光流动作序列,二者即为两种模态的动作序列,RGB...

【专利技术属性】
技术研发人员:王子磊李志林
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1