当前位置: 首页 > 专利查询>同济大学专利>正文

基于上下文感知拓扑注意力增强的无监督3D动作识别方法技术

技术编号:37791342 阅读:25 留言:0更新日期:2023-06-09 09:21
本发明专利技术涉及一种基于上下文感知拓扑注意力增强的无监督3D动作识别方法,该方法包括以下步骤:步骤S1、从骨架图组中获取骨架动作序列集预处理后划分为T

【技术实现步骤摘要】
基于上下文感知拓扑注意力增强的无监督3D动作识别方法


[0001]本专利技术涉及动作识别
,尤其是涉及一种基于上下文感知拓扑注意力增强的无监督3D动作识别方法。

技术介绍

[0002]近年来,基于骨架的动作识别一直是一个重要的新兴话题。然而,现有的方法大多通过重建每个身体关节的坐标来建模详细但冗余的信息,或者将动作视为一个整体,并忽略在空间和时间上变化的动作单元的语义局部性。
[0003]此外,由于人类个体具有独特的步态模式,而动作的类内变化可能大到足以识别个体,进而显著影响动作识别性能。具体体现在识别未出现在训练集中个体执行的动作时表现出性能下降。个体适应性行为在上层出现新的规律和模式,导致整个系统的复杂性。复杂的系统通常具有明显的层次,不同层次的规律不能顺利转移到其他层次。另外,这些独特的规律之间可能有些关联,难以看清这种关联,也就是所谓的隐规律。
[0004]因此,受到动作在空间和时间上具有局部性这一事实的启发,并观察到一个完整的动作可以在时间上分为不同的剪辑,在空间上可以分为不同人体部位的运动(在骨骼数据中的拓扑上)。与整个动作相比,这些单元动态具有较少的类内相似性和较少的类内变化。在这种情况下,关节级运动构成了高级身体级运动,身体级运动构成了高级人类行为。例如,如图1所示,敬礼可以分为多个动作单元(身体级动作),这些动作单元由关节级动作组成。人类可以很自然地从主要参与动作的不同身体部位和关节的位置变化来推断构成行为的基本规律。
[0005]然而,在没有专门设计的框架的情况下,自监督学习模型很难从未标记的数据中学习这些隐藏的规律。

技术实现思路

[0006]本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供了一种基于上下文感知拓扑注意力增强的无监督3D动作识别方法,该方法基于对视频中的人体进行姿态识别后提取的骨架序列进行识别,对目标的行为动作进行判断。
[0007]本专利技术的目的可以通过以下技术方案来实现:
[0008]本专利技术给出了一种基于上下文感知拓扑注意力增强的无监督3D动作识别方法,该方法包括以下步骤:
[0009]步骤S1、从骨架图组中获取骨架动作序列集预处理后划分为T
clip
剪辑;
[0010]步骤S2、采用编码器从预处理后得到的T
cliip
剪辑中提取得到具备时空局部性的动作单元集合ε;
[0011]步骤S3、构建自监督识别模型,基于上下文感知拓扑注意机制对动作单元集合进行数据增强,聚合得到上下文集合其中,自监督识别模型采用最大化上下文集合和动作单元集合ε互信息的对比损失L
contrast
进行训练;
[0012]步骤S4、采用训练好的自监督识别模型进行动作识别。
[0013]优选地,所述步骤S1包括以下子步骤:
[0014]步骤S11、将每个骨架图视为无向图从骨架图组中获取骨架动作序列表达式为:
[0015][0016]式中,为样本集;X
i
为第i个骨架序列,表示单个样本,N为骨架序列的个数;x
t
为第t帧中的关节骨架图,T为骨架序列的帧数;C为关节位置维度;V为关节数;
[0017]步骤S12、对骨架动作序列进行数据增强预处理,划分为T
clip
剪辑,预处理后的骨架序列集表达式为:
[0018][0019]U
i
=Preprocess(X
i
)
[0020]式中,U
i
为预处理后的骨架序列样本,Preprocess(X
i
)表示骨架序列样本X
i
的预处理过程,N为骨架序列的个数;每个剪辑u
t
包含窗口大小为K的骨架帧,下标为T
clip
为clip的数量。
[0021]优选地,所述步骤S2中的数据增强预处理包括对原始骨架动作序列进行位移、旋转、缩放或倾斜的随机增强处理,以及采用双线性插值的预处理。
[0022]优选地,所述步骤S2中的编码器为图卷积RNN网络,具备时空局部性的动作单元集合ε的表达式为:
[0023][0024]式中,E
i
为从预处理后的骨架序列样本U
i
提取出的动作单元,ε为动作单元,e
t
为从剪辑u
t
提取出的动作单元,C
emb
为图卷积RNN网络的参数。
[0025]优选地,所述图卷积RNN包括图卷积扩展GRU单元,所示图卷积扩展GRU单元使用图卷积算子代替全连接算子ω
·
z
t
,具体表达式为:
[0026][0027][0028][0029][0030]式中,z
t
表示更新门,r
t
表示重置门,是候选激活向量;是图卷积算子;运算符

表示Hadamard积;σ为sigmoid激活函数,ψ为tanh激活函数。
[0031]优选地,所述步骤S3具体为:将经过上下文感知拓扑注意模块增强后的动作单元嵌入循环输入到聚合器,得到聚合后的时空上下文,表达式为:
[0032][0033][0034][0035]式中,表示骨架序列样本集合聚合得到的上下文集合,C
cell
表示聚合器GraphGRU每一层的单元个数;Att(e,h)为上下文感知拓扑注意模块的计算过程,e
t
表示动作单元嵌入特征,表示增强后的动作单元嵌入特征,表示上一时刻的GraphGRU的第一层隐含层特征,C
i
表示在N个样本中的第i个样本的上下文集合,c
t
表示前t个剪辑聚合得到的上下文信息,V表示骨骼关节图中的图节点个数,即关节数。
[0036]优选地,所述上下文感知拓扑注意模块具体为:
[0037]将聚合器的输入特征图和隐藏状态输入到上下文感知拓扑注意模块中,生成注意图,然后一个用1填充的向量被添加到注意力图中,然后再与原始特征图相乘,具体表达式为:
[0038]α
i,t
=softmax(σ)W
ca
·
concat(h
i,t
‑1,e
i,t
))+b
ca
)
[0039][0040]式中,concat表示连接操作,是第i个样本的第t个动作词编码;是来自GraphGRU的当前状态,即编码的上下文信息;α
i,t
是对应的注意力图,σ是Tanh激活函数,表示线性层权重,b
ca
是线性层的偏差。
[0041]优选地,所述步骤S3中的对比损失的表达式为:
[0042][0043][0044]式中,分别表示来自训练批次中第i个样本的预测嵌入和实际编码嵌入e
k
;计算嵌入对的点积相似度。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于上下文感知拓扑注意力增强的无监督3D动作识别方法,其特征在于,该方法包括以下步骤:步骤S1、从骨架图组中获取骨架动作序列集预处理后划分为T
clip
剪辑;步骤S2、采用编码器从预处理后得到的T
clip
剪辑中提取得到具备时空局部性的动作单元集合ε;步骤S3、构建自监督识别模型,基于上下文感知拓扑注意机制对动作单元集合进行数据增强,聚合得到上下文集合其中,自监督识别模型采用最大化上下文集合和动作单元集合ε互信息的对比损失l
comtrast
进行训练;步骤S4、采用训练好的自监督识别模型进行动作识别。2.根据权利要求1所述的一种基于上下文感知拓扑注意力增强的无监督3D动作识别方法,其特征在于,所述步骤S1包括以下子步骤:步骤S11、将每个骨架图视为无向图从骨架图组中获取骨架动作序列表达式为:式中,为样本集;X
i
为第i个骨架序列,表示单个样本,N为骨架序列的个数;x
t
为第t帧中的关节骨架图,T为骨架序列的帧数;C为关节位置维度;V为关节数;步骤S12、对骨架动作序列进行数据增强预处理,划分为T
clip
剪辑,预处理后的骨架序列集表达式为:U
i
=Preprocess(X
i
)式中,U
i
为预处理后的骨架序列样本,Preprocess(X
i
)表示骨架序列样本X
i
的预处理过程,N为骨架序列的个数;每个剪辑u
t
包含窗口大小为K的骨架帧,下标为T
clip
为clip的数量。3.根据权利要求2所述的一种基于上下文感知拓扑注意力增强的无监督3D动作识别方法,其特征在于,所述步骤S2中的数据增强预处理包括对原始骨架动作序列进行位移、旋转、缩放或倾斜的随机增强处理,以及采用双线性插值的预处理。4.根据权利要求2所述的一种基于上下文感知拓扑注意力增强的无监督3D动作识别方法,其特征在于,所述步骤S2中的编码器为图卷积RNN网络,具备时空局部性的动作单元集合ε的表达式为:E
i
=f(U
i
)式中,E
i
为从预处理后的骨架序列样本U
i
提取出的动作单元,ε为动作单元,e
t
为从剪辑u
t
提取出的动作单元,C
emb
为图卷积RNN网络的参数。5.根据权利要求4所述的一种基于上下文感知拓扑注意力增强的无监督3D动作识别方法,其特征在于,所述图卷积RNN包括图卷积扩展GRU单元,所述图卷积扩展GRU单元使用图卷积算子代替全连接算子ω
·
z
t
,具体表达式为:
式中,z
t
表示更新门,r
t
表示重置门,是候选激活向量;是图卷积算子;运算符

表示Hadamard积;σ为sigmoid激活函数,ψ为tanh激活函数。6.根据权利要求1所述的一种基于上下文感知拓扑注意力增强的无监督3D动作识别方法,其特征在于,所述步骤S3具体为:将经过上下文感知拓扑注意模块增强后的动作单元嵌入循环输入到...

【专利技术属性】
技术研发人员:赵生捷梁爽叶珂男
申请(专利权)人:同济大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1