一种基于级联注意力机制的弱监督时序动作检测方法技术

技术编号:38022267 阅读:10 留言:0更新日期:2023-06-30 10:49
本发明专利技术涉及计算机视觉技术领域,尤其涉及一种基于级联注意力机制的弱监督时序动作检测方法,包括通过I3D网络提取视频特征,投影到另一向量空间,获得嵌入特征;通过分类器预测类激活序列;计算基线分支熵损失函数;使用注意力阈值擦除的方法确定视频中的其他片段是否包含次显著的动作片段;生成不同显著层次的动作注意力池化特征;融合形成级联的类激活序列;计算级联分支熵分类损失函数值;将基线分支的类激活序列中bottom

【技术实现步骤摘要】
一种基于级联注意力机制的弱监督时序动作检测方法


[0001]本专利技术涉及计算机视觉
,尤其涉及一种基于级联注意力机制的弱监督时序动作检测方法。

技术介绍

[0002]视频动作检测是计算机视觉和多媒体领域的重要研究课题之一,在自动驾驶、人机交互、等领域都有着潜在的应用价值。该任务是对实际场景中的视频进行分析,目的是:检测出视频中的人物所做的动作,以及动作发生的起止时间,让计算机代替人工更好地检测出视频中的活动和动作,减少昂贵的人力、物力成本。由于其便宜的标注成本,视频级别的弱监督时序动作检测方法成了研究者们关注的主流方法。
[0003]在训练阶段,视频级别的弱监督时序动作检测方法仅提供了视频级别的标签信息,其工作原理是采用分类指导定位。具体来说,用视频级别的分类标签来指导片段级别的分类预测,即生成类激活序列,用于最终的动作定位。目前,现有的方法主要采用top

k多实例学习或动作注意力机制两种方法来提取视频中最显著的动作片段,而忽略了视频中动作实例的其余部分,以确保最小化视频级别的分类损失。然而,定位与分类是矛盾的,分类任务只需要检测出视频中最具鉴别能力的动作片段,而定位任务则需要检测出所有包含动作的片段,从而保证动作实例的完整性。因此,现有的方法忽略了视频中次显著的动作片段以及背景片段的使用,这使得动作定位性能提高有限。

技术实现思路

[0004]针对现有方法的不足,本专利技术解决现有方法忽略了视频中次显著的动作片段以及背景片段的使用,改善动作定位性能提升有限的问题。
[0005]本专利技术所采用的技术方案是:一种基于级联注意力机制的弱监督时序动作检测方法包括以下步骤:
[0006]步骤一、获取视频帧序列,并通过I3D网络对视频片段提取特征,得到特征提取后的视频特征;
[0007]进一步的,视频片段提取特征包括:RGB特征和光流特征,并将RGB特征和光流特征进行拼接。
[0008]步骤二、利用由一维时序卷积层和激活层组成的特征嵌入模块将I3D特征投影到向量空间;
[0009]进一步的,嵌入特征模块表达式为:
[0010]F=f
emb
(X,φ
emb
)
[0011]其中,f
emb
为卷积运算,φ
emb
为模型学习参数,E为嵌入特征的维数。
[0012]步骤三、将嵌入特征输入到一个由一维时序卷积层组成的分类器中,获得片段级别的类激活序列;并通过基线分支网络计算基线熵损失函数;
[0013]进一步的,步骤三具体包括:
[0014]将嵌入特征F输入到一个由一维时序卷积层组成的分类器中,获得片段级别的类激活序列,表达式如下:
[0015]Α
base
=f
cls
(F,φ
cls
)
[0016]其中,f
cls
为卷积运算,φ
cls
为模型需要学习的参数,C为动作类别的数量;
[0017]采用top

k均值法,沿时序维度聚合片段级别的类激活分数,公式如下:
[0018][0019]其中,T为视频采样长度;k
base
为控制系数;a为基线分支的类激活分数中最大的k
base
个值;为基线分支在动作类别c上的片段级类激活分数;
[0020]沿类别维度用softmax激活函数,计算视频属于每个类别的概率,表达式如下:
[0021][0022]其中,其中,为视频在动作类别c上的视频级激活分数;
[0023]使用交叉熵损失函数将获得的概率与真值进行对比,得到基线分支熵分类损失函数值,公式为:
[0024][0025]其中,N为视频数量,为视频属于每个类别的概率,为正则化操作后的视频级标签。
[0026]步骤四、将嵌入特征输入一个由卷积层和激活层组成的注意力模块;使用阈值擦除的方法来确定视频中的其他片段是否包含次显著的动作片段;将级联的动作注意力权重与嵌入特征沿时间维度相乘,生成动作注意力池化过的特征;送入分类器生成类激活序列,融合形成级联的类激活序列;通过级联动作注意力分支网络计算级联分支熵分类损失函数值;
[0027]进一步的,步骤四具体包括:
[0028]将嵌入特征F输入一个由卷积层和激活层组成的注意力模块中,输出表达如下:
[0029]λ1=f
att
(F,φ
att
)
[0030]其中,f
att
为卷积运算,φ
att
为模型需要学习的参数;表示视频中最具判别能力的动作注意力权重值;
[0031]使用阈值擦除的方法确定视频中其他片段是否包含次显著的动作片段,级联的动作注意力权重表示为:
[0032][0033]其中,γ
i
∈[0,1],i≥1,λ
i+1
∈R
T
表示第i+1个级联的动作注意力权重;
[0034]将λ
i
与嵌入特征F沿时间维度相乘,生成动作注意力池化过的特征,表达式为:
[0035][0036]其中,
[0037]将动作注意力池化过的特征送入分类器生成类激活序列,公式为:
[0038]A
i
=f
cls
(F
i

cls
)
[0039]其中,φ
cls
与基线分支共享的卷积参数;
[0040]将每次生成的类激活序列A1,A2,

,A
i
进行融合,形成级联的类激活序列A,表达式如下:
[0041][0042]其中,表示第t个片段在级联动作定位图A中相对于类别c的激活值;
[0043]分别获得每个级联分支中每个类别的视频级别的分类分数a
i,c
和分类概率p
i,c
,使用交叉熵分类损失函数,计算级联分支熵分类损失函数值,表达式如下:
[0044][0045]其中,中是第i层级联分支的视频级标签。
[0046]步骤五、将基线分支的类激活序列中bottom

k的动作激活分数视为背景片段;采用softmax激活函数计算每个类别的概率;使用背景熵分类损失函数使得所有动作类别的背景片段的激活值最小;
[0047]进一步的,将基线分支的类激活序列中bottom

k的动作激活分数视为背景片段的表达式为:
[0048][0049]其中,n为超参数,a

为基线分支的类激活分数沿时序维度的最小的k
b
个值。
[0050]进一步的,使用背景熵分类损失函数使得所有动作类别的背景片段的激活值最小,表达式如下:
[0051][0052]其中,q...

【技术保护点】

【技术特征摘要】
1.一种基于级联注意力机制的弱监督时序动作检测方法,其特征在于,包括以下步骤:步骤一、获取视频帧序列,并通过I3D网络对视频片段提取特征,得到特征提取后的视频特征;步骤二、利用由一维时序卷积层和激活层组成的特征嵌入模块将I3D特征投影到向量空间;步骤三、将嵌入特征输入到一个由一维时序卷积层组成的分类器中,获得片段级别的类激活序列;并计算基线分支熵损失函数;步骤四、将嵌入特征输入一个由卷积层和激活层组成的注意力模块;使用阈值擦除的方法来确定视频中的其他片段是否包含次显著的动作片段;将级联的动作注意力权重与嵌入特征沿时间维度相乘,生成动作注意力池化过的特征;送入分类器生成类激活序列,融合形成级联的类激活序列;通过级联动作注意力分支网络计算级联分支熵分类损失函数值;步骤五、将基线分支的类激活序列中bottom

k的动作激活分数视为背景片段;采用softmax激活函数计算每个类别的概率;使用背景熵分类损失函数使得所有动作类别的背景片段的激活值最小;步骤六、结合基线分支、级联分支和背景分支的损失函数值,计算总损失函数值。2.根据权利要求1所述的基于级联注意力机制的弱监督时序动作检测方法,其特征在于,视频片段提取特征包括:RGB特征和光流特征,并将RGB特征和光流特征进行拼接。3.根据权利要求1所述的基于级联注意力机制的弱监督时序动作检测方法,其特征在于,嵌入特征模块表达式为:F=f
emb
(X,φ
emb
)其中,f
emb
为卷积运算,φ
emb
为模型学习参数,E为嵌入特征的维数。4.根据权利要求1所述的基于级联注意力机制的弱监督时序动作检测方法,其特征在于,步骤三具体包括:将嵌入特征F输入到一个由一维时序卷积层组成的分类器中,获得片段级别的类激活序列,表达式如下:Α
base
=f
cls
(F,φ
cls
)其中,f
cls
为卷积运算,φ
cls
为模型需要学习的参数,C为动作类别的数量;采用top

k均值法,沿时序维度聚合片段级别的类激活分数,公式如下:其中,k
base
为控制系数;a为基线分支的类激活分数中最大的k
base
个值;为基线分支在动作类别c上的片段级类激活分数;沿类别维度用softmax激活函数,计算视频属于每个类别的概率,表达式如下:其中,其中,为视频在动作类别c上的视频级激活分数;使用交叉熵损失函数将获得的概率与真值进行对比,得到基线熵分类损失函数值,公
式为:其中,N为视频数量,为...

【专利技术属性】
技术研发人员:夏惠芬金旭栋史二颖
申请(专利权)人:常州机电职业技术学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1