当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于片段驱动对比学习的骨骼动作识别方法技术

技术编号:34903891 阅读:30 留言:0更新日期:2022-09-10 14:15
本发明专利技术公开了一种基于片段驱动对比学习的骨骼动作识别方法,属于动作识别分析技术领域。本发明专利技术实现了基于骨骼的动作识别的同时挖掘序列中隐含的自然的正/负样本和固有的监督信号,更具体的是提出了一种基于序列驱动的对比学习的骨骼动作识别方法;不同于将整个序列视为实例的方法,本发明专利技术打破了这种固有的思维,深入到序列内部,以序列中的片段为实例,利用序列自身具有时空延续性的特性,构建了片段级别的正负样本和序列级别的正负样本,并利用了序列自身含有的监督信号来辅助对比学习挖掘更好的骨骼序列特征,从而解决骨骼动作识别的问题。的问题。的问题。

【技术实现步骤摘要】
一种基于片段驱动对比学习的骨骼动作识别方法


[0001]本专利技术涉及动作识别分析
,具体为一种基于片段驱动对比学习的骨骼动作识别方法。

技术介绍

[0002]动作识别利用机器学习的方法使计算机能够识别各种人类活动。现有的研究已经探索了许多不同模态的动作特征提取,如RGB图像、深度图像、光流和骨骼。随着深度传感器的发展,越来越多的人关注到了基于骨骼数据的动作识别,与传统的基于RGB的方法不同,因为这类数据更加轻量级且对于动作的背景、光照的变化、演员的衣着外貌等更加鲁棒。
[0003]在过去的几年中,大多数基于骨架的动作识别方法都是基于监督学习框架的,早期的方法一直试图对图(graph)数据进行建模。这些方法使用人类关节在一段时间内的坐标作为一个向量,并作为循环神经网络(RNN)和长期和短期记忆(LSTM)的输入来预测人类的行为。这类方法可以很好地表示动作的语义信息,对时间维度的长程建模表现更好,但不能很好地表示关节之间的结构关系。随后,大量基于图卷积网络(GCN)的方法被提出,广泛应用于基于骨架的动作识别,并将人体骨骼序列建模为时空图(Spatial

Temporal Graph)。这类方法将每一步时间内的每个关节作为一个节点,通过空间和时间维度的边缘连接相邻节点。这样就可以学习骨骼节点的结构关系和相邻帧之间的位移信息,从而获得更好的识别性能,但相应的在长程的时序信息建模上存在一定的缺陷。
[0004]目前,在基于骨架的动作识别方面已经有了大量的研究工作被提出,并取得了良好的效果。图卷积网络(GCNs)将中枢神经网络扩展到更一般的非欧几里得结构,在基于骨架的动作识别中取得了显著的性能。然而,不论是基于RNN的还是GCN的方法,之前的方法大多是基于监督学习的方法,它们大多依赖于大型的标记数据集,需要耗费大量的时间和人力成本,往往十分昂贵这。此外,目前大多数基于无监督的动作识别的研究都是基于RGB模态的,而基于无监督骨架数据的动作识别仅在少数研究中被进一步探索。近年来,出现了一些基于无监督框架下的骨架动作识别的研究。
[0005]延续了基于监督学习的动作识别的传统,现有的无监督方法可以根据不同的输入数据组织方式,分为两大类。第一类是基于GCN的方法,它们将骨架数据组织成Graph的形式,从而在非欧几里得结构中探索骨骼的空间特征。第二类是基于序列的方法,它将骨架数据作为时间序列进行处理。除此之外,大多数早期的方法都是基于编码器

解码器(Encoder

Decoder)的结构。这类方法通过解码器重新生成骨架序列,而编码器和解码器之间的语义关联常常被忽略。随着对比学习方法在自监督领域的兴起,有一些基于对比学习的方法被提出。有些方法设计了以动量LSTM作为骨架编码器的对比学习。为了融合多视图的信息,一些方法尝试采用交叉视图的知识挖掘方法来辅助对比学习融合多视图的信息。同时,为了能够同时汲取对比学习与编解码结构的优点,一些方法尝试探索融合二者的学习方法。
[0006]之前的方法并没有探索“骨架序列”中的“监督信号”,并且忽略了数据本身所固有
的正、负对的丰富性,这些方法存在着一些不容忽视的局限性:1)忽略了序列内的正/负对。以前的方法将序列视为实例(instance),并通过增广从外部引入额外的正/负对。然而,序列是一组动作帧的集合,其连续的子集也可以构成动作片段,它们虽然属于同一序列但彼此不同,基于此我们能够挖掘出大量的天然存在于序列中的正/负对。2)忽视固有的监督信号。以前的方法通过时间增广(例如,翻转序列)使模型对时间变化具有鲁棒性。但是它们却忽视了序列本身是有序帧的集合,包含天然的时序信息,片段之间有明确的顺序语义,存在丰富的内在监督信息。
[0007]总之,目前尚未提出能够挖掘序列中包含的自然的正/负样本和固有的监督信号的基于骨骼序列的动作识别的高效处理算法。

技术实现思路

[0008]1、本专利技术要解决的技术问题本专利技术的目的在于提供一种能够挖掘序列中包含的自然的正/负样本和固有的监督信号的基于片段驱动对比学习的骨骼动作识别方法。
[0009]2、技术方案为实现上述目的,本专利技术提供如下技术方案:本专利技术意在实现基于骨骼的动作识别的同时挖掘序列中隐含的自然的正/负样本和固有的监督信号,所采取的技术方案是:基于序列驱动的对比学习的骨骼动作识别方法。不同于将整个序列视为实例的方法,本专利技术打破了这种固有的思维,深入到序列内部,以序列中的片段为实例,利用序列自身具有时空延续性的特性,构建了片段级别的正负样本和序列级别的正负样本,并利用了序列自身含有的监督信号来辅助对比学习挖掘更好的骨骼序列特征,从而解决骨骼动作识别的问题,具体包括以下内容:S1、对骨骼数据进行视角调整等预处理,通过随机抽取的方法从骨骼序列中抽取三个长度不同的片段,对所抽取的三个片段按照起点顺序排序后,将三个片段补齐到相同长度,然后随机抽取其中的首片段或尾片段作为锚片段;S2、将S1中所得的锚片段输入到两个不同的增广器中,进行不同的增广,得到查询片段和键值片段;将除锚片段之外的两个片段输入到与锚片段不同的增广器中得到其他的两个键值片段,共计获得一个查询片段和三个键值片段;S3、将S2中所得的查询片段和键值片段分别输入到查询编码器和键值编码器,所述查询编码器和键值编码器的权重不同,其中,键值编码器采取动量更新的方式更新其中的权重;S4、构建动态字典,以先入先出的方式存储片段特征;S5、利用查询编码器得到查询向量,利用键值编码器得到键值向量;S6、将查询向量与键值向量输入到序列识别模块,得到序列级别损失;S7、将查询向量与键值向量输入到片段识别模块,得到片段级别损失;S8、将查询向量与两个非锚片段增广所得的键值向量拼接在一起后输入到片段顺序验证模块,得到片段顺序损失;S9、对S6~S8中所得的损失进行联合优化;S10、冻结对比学习网络,训练一个简单的分类器完成动作识别任务;
S11、将待判别序列抽取一个片段输入到分类器中,得到识别结果。
[0010]优选地,所述S1中提到的片段抽取,具体包括以下内容:对于一个给定的序列s,其长度为L;在[0,L]中随机选择三个长度为l1、l2、l3的片段,在[0,L

l
i
]中分别选择三个起点b1,b2,b3,从而得到三个原始片段;对于这些不等长的片段,将它们插值成相同的长度,并进行排序,得到经过处理的片段序列(c1,c2,c3);随机选择c1或c3作为锚片段。
[0011]优选地,所述S2中片段增广操作采用姿态增广和节点震动两种增广方法;在对比学习中,增广是常常使用的构建正样本的方法;对于同一个输入实例而言,分别对其进行姿态增广和节点震动增广,并将增广后的结果作为正样本对;对于基于实例的对比学习而言,仅有实例的姿态增广和节点震动增广被看做是正样本对,在投影的特征空间中被拉近距离;而对于其他的实例的增广,将其看做是负样本对,在投影的特征空间中被推远距离。
[0012]姿态本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于片段驱动对比学习的骨骼动作识别方法,其特征在于,包括以下步骤:S1、对骨骼数据进行预处理,通过随机抽取的方法从骨骼序列中抽取三个长度不同的片段,对所抽取的三个片段按照起点顺序排序后,将三个片段补齐到相同长度,然后随机抽取其中的首片段或尾片段作为锚片段;S2、将S1中所得的锚片段输入到两个不同的增广器中,进行不同的增广,得到查询片段和键值片段;将除锚片段之外的两个片段输入到与锚片段不同的增广器中得到其他的两个键值片段,共计获得一个查询片段和三个键值片段;S3、将S2中所得的查询片段和键值片段分别输入到查询编码器和键值编码器,所述查询编码器和键值编码器的权重不同,其中,键值编码器采取动量更新的方式更新其中的权重;S4、构建动态字典,以先入先出的方式存储片段特征;S5、利用查询编码器得到查询向量,利用键值编码器得到键值向量;S6、将查询向量与键值向量输入到序列识别模块,得到序列级别损失;S7、将查询向量与键值向量输入到片段识别模块,得到片段级别损失;S8、将查询向量与两个非锚片段增广所得的键值向量拼接在一起后输入到片段顺序验证模块,得到片段顺序损失;S9、对S6~S8中所得的损失进行联合优化;S10、冻结对比学习网络,训练一个简单的分类器完成动作识别任务;S11、将待判别序列抽取一个片段输入到分类器中,得到识别结果。2.根据权利要求1所述的一种基于片段驱动对比学习的骨骼动作识别方法,其特征在于,所述S2中片段增广操作采用姿态增广和节点震动两种增广方法。3.根据权利要求1所述的一种基于片段驱动对比学习的骨骼动作识别方法,其特征在于,所述S3中提到的查询编码器与键值编码器均基于双向门控循环神经网络构建;所述双向门控循环神经网络包含更新门z
t
、重置门r
t
、当前时刻候选隐藏状态和当前时刻隐藏状态h
t
;所述更新门z
t
用于控制t

1的隐藏状态h
t
‑1以及当前时刻下的隐藏状态输入多少将会流入到h
t
中,更新门的前向计算公式如下:Z
t
=σ(x
t
W
xz
+h
t
‑1W
hz
+b
z
)其中,σ是门控信号,为sigmoid函数,该函数用于将数据变换到[0,1]之间;x
t
为双向门控循环神经网络的当前输入;W
xz
与W
hz
为可学习的权重参数矩阵,b
z
为可学习的偏置参数矩阵;所述更新门z
t
还用于捕捉长期依赖关系,流入信息越多,更新门z
t
的值越大;所述重置门r
t
用于控制h
t
‑1有多少流入当前时刻下的候选隐藏状态中,重置门r
t
的前向计算公式如下:r
t
=σ(x
t
W
xr
+H
t
‑1W
hr
+b
r
)所述重置门r
t
还用于捕捉短期依赖关系,流入信息越少,重置门r
t
的值越大;式中,x
t
为双向门控循环神经网络的当前输入;W
xr
与W
hr
为可学习的权重参数矩阵,b
r
为可学习的偏置
参数矩阵;所述候选隐藏状态的前向计算公式如下:其中,

表示按元素相乘;W
hh
与W
hx
为可学习的权重参数矩阵,b
h
为可学习的偏置参数矩阵;所述当前时刻隐藏状态h
t
...

【专利技术属性】
技术研发人员:刘鑫高榕杨敬钰岳焕景
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1