【技术实现步骤摘要】
一种基于片段驱动对比学习的骨骼动作识别方法
[0001]本专利技术涉及动作识别分析
,具体为一种基于片段驱动对比学习的骨骼动作识别方法。
技术介绍
[0002]动作识别利用机器学习的方法使计算机能够识别各种人类活动。现有的研究已经探索了许多不同模态的动作特征提取,如RGB图像、深度图像、光流和骨骼。随着深度传感器的发展,越来越多的人关注到了基于骨骼数据的动作识别,与传统的基于RGB的方法不同,因为这类数据更加轻量级且对于动作的背景、光照的变化、演员的衣着外貌等更加鲁棒。
[0003]在过去的几年中,大多数基于骨架的动作识别方法都是基于监督学习框架的,早期的方法一直试图对图(graph)数据进行建模。这些方法使用人类关节在一段时间内的坐标作为一个向量,并作为循环神经网络(RNN)和长期和短期记忆(LSTM)的输入来预测人类的行为。这类方法可以很好地表示动作的语义信息,对时间维度的长程建模表现更好,但不能很好地表示关节之间的结构关系。随后,大量基于图卷积网络(GCN)的方法被提出,广泛应用于基于骨架的动作识别,并将人体骨骼序列建模为时空图(Spatial
‑
Temporal Graph)。这类方法将每一步时间内的每个关节作为一个节点,通过空间和时间维度的边缘连接相邻节点。这样就可以学习骨骼节点的结构关系和相邻帧之间的位移信息,从而获得更好的识别性能,但相应的在长程的时序信息建模上存在一定的缺陷。
[0004]目前,在基于骨架的动作识别方面已经有了大量的研究工作被提出,并取得了良好的 ...
【技术保护点】
【技术特征摘要】
1.一种基于片段驱动对比学习的骨骼动作识别方法,其特征在于,包括以下步骤:S1、对骨骼数据进行预处理,通过随机抽取的方法从骨骼序列中抽取三个长度不同的片段,对所抽取的三个片段按照起点顺序排序后,将三个片段补齐到相同长度,然后随机抽取其中的首片段或尾片段作为锚片段;S2、将S1中所得的锚片段输入到两个不同的增广器中,进行不同的增广,得到查询片段和键值片段;将除锚片段之外的两个片段输入到与锚片段不同的增广器中得到其他的两个键值片段,共计获得一个查询片段和三个键值片段;S3、将S2中所得的查询片段和键值片段分别输入到查询编码器和键值编码器,所述查询编码器和键值编码器的权重不同,其中,键值编码器采取动量更新的方式更新其中的权重;S4、构建动态字典,以先入先出的方式存储片段特征;S5、利用查询编码器得到查询向量,利用键值编码器得到键值向量;S6、将查询向量与键值向量输入到序列识别模块,得到序列级别损失;S7、将查询向量与键值向量输入到片段识别模块,得到片段级别损失;S8、将查询向量与两个非锚片段增广所得的键值向量拼接在一起后输入到片段顺序验证模块,得到片段顺序损失;S9、对S6~S8中所得的损失进行联合优化;S10、冻结对比学习网络,训练一个简单的分类器完成动作识别任务;S11、将待判别序列抽取一个片段输入到分类器中,得到识别结果。2.根据权利要求1所述的一种基于片段驱动对比学习的骨骼动作识别方法,其特征在于,所述S2中片段增广操作采用姿态增广和节点震动两种增广方法。3.根据权利要求1所述的一种基于片段驱动对比学习的骨骼动作识别方法,其特征在于,所述S3中提到的查询编码器与键值编码器均基于双向门控循环神经网络构建;所述双向门控循环神经网络包含更新门z
t
、重置门r
t
、当前时刻候选隐藏状态和当前时刻隐藏状态h
t
;所述更新门z
t
用于控制t
‑
1的隐藏状态h
t
‑1以及当前时刻下的隐藏状态输入多少将会流入到h
t
中,更新门的前向计算公式如下:Z
t
=σ(x
t
W
xz
+h
t
‑1W
hz
+b
z
)其中,σ是门控信号,为sigmoid函数,该函数用于将数据变换到[0,1]之间;x
t
为双向门控循环神经网络的当前输入;W
xz
与W
hz
为可学习的权重参数矩阵,b
z
为可学习的偏置参数矩阵;所述更新门z
t
还用于捕捉长期依赖关系,流入信息越多,更新门z
t
的值越大;所述重置门r
t
用于控制h
t
‑1有多少流入当前时刻下的候选隐藏状态中,重置门r
t
的前向计算公式如下:r
t
=σ(x
t
W
xr
+H
t
‑1W
hr
+b
r
)所述重置门r
t
还用于捕捉短期依赖关系,流入信息越少,重置门r
t
的值越大;式中,x
t
为双向门控循环神经网络的当前输入;W
xr
与W
hr
为可学习的权重参数矩阵,b
r
为可学习的偏置
参数矩阵;所述候选隐藏状态的前向计算公式如下:其中,
⨀
表示按元素相乘;W
hh
与W
hx
为可学习的权重参数矩阵,b
h
为可学习的偏置参数矩阵;所述当前时刻隐藏状态h
t
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。