【技术实现步骤摘要】
弱监督视频时序动作检测方法、系统、设备及存储介质
[0001]本专利技术涉及视频分析理解
,尤其涉及一种弱监督视频时序动作检测方法、系统、设备及存储介质。
技术介绍
[0002]近年来,视频数据爆发式增长,视频理解的应用需求逐渐增加。时序动作检测任务作为视频理解的热门下游任务,因其广泛的实际应用,如安防监控、视频检索、体育视频片段剪辑、视频审核等,受到国内外许多研究者的关注。研究者需要针对不同应用场景的需求设计合适的时序动作检测方案,提供精确的动作定位和动作分类结果。
[0003]时序动作检测任务目前主要有两种学习范式:(1)提供详细帧级标注信息的全监督学习范式;(2)只提供视频级动作类别标注的弱监督学习范式。对于全监督时序动作检测来说,所有的样本视频都需要人工进行逐帧的标注,这种标注工作需要消耗巨大的人工成本,并且精度普遍不高。因此,为了解决标注难和标注误差的问题,弱监督时序动作检测应运而生。这种方法可以将网络上大量的未剪辑的视频标记一个视频级的标签,直接作为模型的训练数据。
[0004]虽然弱监督时序动作检测方法有诸多的好处,但是由于缺少精细的标注,检测性能要远远弱于全监督方法。现阶段弱监督时序动作检测方法大多都使用多实例学习框架,对视频中的所有片段进行分类,生成该视频对应的类激活序列,然后聚合每个类别中分数最高的k个片段进行聚合,得到视频级的分类分数,超过预先设定的类别分数阈值则表示视频中存在该种动作,根据找到的动作类别在类激活序列中找到对应的类别的激活序列,再使用预选设定的动作分数阈值生 ...
【技术保护点】
【技术特征摘要】
1.一种弱监督视频时序动作检测方法,其特征在于,包括:构建弱监督视频时序动作检测模型,所述弱监督视频时序动作检测模型包括:基础框架、自训练动作分支、假阳性抑制模块与前景增强分支;将训练视频数据与对应的光流数据输入至弱监督视频时序动作检测模型,通过基础框架提取获得特征X后,编码为嵌入特征E,再经过分类获得类激活序列A,并结合给定的视频级标签计算基础损失;所述自训练动作分支利用所述特征X获得两种模态的动作序列,并融合后获得综合动作序列与非动作序列,基于两种模态的动作序列以及综合动作序列与非动作序列计算自训练动作损失;所述假阳性抑制模块利用所述类激活序列A与非动作序列,获得假阳性序列,并结合设定的均匀标签计算出假阳性抑制损失;所述前景增强分支基于所述嵌入特征E使用注意力机制生成片段级前景权重,并作用于所述类激活序列A,获得前景增强类激活序列,再结合所述两种模态的动作序列,获得综合类激活序列,并结合给定的视频级标签计算出前景增强损失;结合所有损失训练所述弱监督视频时序动作检测模型;将待检测视频数据与对应光流数据输入至训练后的弱监督视频时序动作检测模型,利用前景增强分支获得的前景增强类激活序列以及综合类激活序列实现时序动作检测。2.根据权利要求1所述的一种弱监督视频时序动作检测方法,其特征在于,所述通过基础框架提取获得特征X后,编码为嵌入特征E,再经过分类获得类激活序列A包括:所述基础框架包括:预训练的特征提取网络、一维卷积层、分类器;其中,所述预训练的特征提取网络包括:RGB特征提取网络与光流特征提取网络,RGB是指红绿蓝三个通道;通过RGB特征提取网络从训练视频数据中提取出RGB特征,通过光流特征提取网络从对应的光流数据中提取出光流特征,所述RGB特征与光流特征在通道维度上拼接得到特征X;所述特征X通过一维卷积层处理,获得嵌入特征E,所述嵌入特征E经分类器分类,获得类激活序列A。3.根据权利要求2所述的一种弱监督视频时序动作检测方法,其特征在于,所述结合给定的视频级标签计算基础损失包括:在类激活序列A中聚合每个类别上分数最高的k个片段,得到视频级的分类分数,在类别维度上使用softmax函数生成类别概率,其中,每一片段包含设定数目的帧图像,k为设定的正整数;之后,结合给定的视频级标签计算基础损失,表示为:;;其中,softmax函数为归一化指数函数,表示第i个视频的分类分数,表示第i个视频的类别概率,表示第i个视频的第c个动作类别的概率值,表示第i个视频的视频级标签中对应的第c个动作的标签值,N表示视频数目,C表示动作类别数目,表示基础损失。4.根据权利要求1所述的一种弱监督视频时序动作检测方法,其特征在于,所述自训练动作分支利用所述特征X获得两种模态的动作序列,并融合后获得综合动作序列与非动作序列包括:
所述特征X由RGB特征与光流特征在通道维度上拼接得到,RGB是指红绿蓝三个通道;通过对RGB特征与光流特征分别依次进行卷积、RELU激活函数和Sigmoid激活函数处理,获得对应的RGB动作序列与光流动作序列,表示为:;;其中,表示RGB特征,表示光流特征,与均表示依次进行卷积、RELU激活函数和Sigmoid激活函数的模块,RELU表示修正线性单元,Sigmoid为S型生长曲线,表示RGB动作序列,表示光流动作序列;将RGB动作序列与光流动作序列融合为综合动作序列,并利用综合动作序列得到非动作序列,表示为:;;其中,S表示综合动作序列,为控制两种模态的动作序列融合比例的超参数,表示非动作序列。5.根据权利要求1或4所述的一种弱监督视频时序动作检测方法,其特征在于,所述基于两种模态的动作序列以及综合动作序列与非动作序列计算自训练动作损失包括:将每一种模态的动作序列作为另一种模态的动作序列的软标签,并计算出一致性损失,表示为:;其中,表示一致性损失,表示相似度量函数;表示RGB动作序列,表示光流动作序列,二者即为两种模态的动作序列,RGB...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。