本发明专利技术公开了基于Transformer的行为识别算法。它完全基于一种避免重复和卷积的注意机制,它利用了计算机视觉和自然语言处理的最新进展,并将它们应用于视频理解,可以识别微妙的动作。我们首先从视频中提取人体姿态信息,然后进行位置编码,把提取的信息放到Transformer的编码模块,编码模块中的输出变成解码模块的输入,然后通过前馈网络模块进行行为识别。每个解码器都有一个自注意层和一个完全连接的网络层。每个解码器都有一个自注意层、一个正常注意层和一个完全连接层。普通注意层使解码器在解码时考虑到最后一层编码器的所有时刻的输出,所以最后一层编码器的输出需要馈给所有解码器来完成这个普通注意。同时,自我注意不包含位置关系,需要进行位置编码。从姿态估计部分提取原始视频的时空信息,输入神经网络进行提取,然后对骨架数据的时空信息进行处理,最后输出,从而实现更好的动作识别。识别。识别。
【技术实现步骤摘要】
基于Transformer的行为识别算法
[0001]本专利技术涉及关于姿态的人体识别方面的技术,尤其设计在一个场景下,人体行为姿态过多,存在冗余的情况下对人体姿态识别的方法改进。
技术介绍
[0002]随着人体姿态估计和动作识别在智能监控、人机交互等领域的广泛应用,计算机视觉越来越受到人们的关注。现有的一些方法,其本质特性是将视频转换为动作标签,不能直接区分视频中的人体,因此来自背景的杂波和非动作动作容易导致效果不佳。为了解决这个限制,一个替代的解决方案是检测一个人,并估计在每帧的身体姿势。众所周知,一系列连续的人体姿势,为识别人类行为提供了微妙而可信的线索,有助于人类行为的形成。因此,我们可以将人体姿态估计作为人体动作识别的基础。然而,常见的动作识别方法过分强调视频中整体特征的重要性,往往忽略了人体关节的细微差异,因为视频中包含了很多不重要的信息。据我们所知,人类的行为是复杂的,并且建立在不受约束的背景之上。为了避免复杂背景和拍摄角度的负面影响,从人体姿态中提取的骨骼关节可以更有效地表征人体动作。
[0003]目前基于深度学习的方法通常将骨架构造成联合坐标向量或伪图像,然后输入到递归神经网络(RNNs)或卷积神经网络(CNNs)中。递归神经网络,尤其是长短时间记忆,已被确立为序列建模中最先进的方法,但这些基于rnn的方法往往过分强调时间信息。为此,我们提出了一种新的基于姿态的动作识别模型——Transformer。
[0004]与卷积神经网络(CNNs)和递归神经网络(RNNs)相比,卷积神经网络引入了卷积层和池化层来处理图像不变数据,递归神经网络使用循环单元来处理时间序列数据。Transformer性能更好。注意机制代替了RNN和CNN,具有较高的并行度。从注意力上看,长距离依赖强于RNN。Transformer网络连接要简单得多.它最显著的特征是多头注意机制,可以看作是一个整体。它们可以将相同的输入向量映射到不同的表达式空间,从而提高模型的表达能力。
技术实现思路
[0005]本专利技术要解决的技术问题在于,现有的基于姿态的动作识别方法很难从视频中捕捉到姿态,也不能解决人体边界帧不准确的困难。目前最先进的动作识别方法是基于CNN或LSTM的。虽然有一定的前景,但是通过实验发现在对骨架信息进行编码时,通常会丢失CNN中重要的时间信息。CNN引入的卷积层和池化层只能处理位移恒定的数据。同时,LSTM也忽略了骨架序列的空间特性,只使用循环单元来处理顺序数据或时间序列数据。与此同时,并行计算也很难获得有效的并行计算能力。因此,目前主要目的是探索新的网络架构,提高姿态识别的准确率。
[0006]本专利技术解决其技术问题所采用的关键技术是:
[0007](1)基于人体姿态的行为识别
[0008]近年来,高精度的姿态估计算法和精确的深度传感器的发展为动作识别做出了许多贡献,这些方法在图像和视频的二维姿态估计方面取得了显著的改进。为了解决来自背景的杂波和非动作运动所带来的问题,检测并在每一帧中估计身体姿势作为替代解决方案,该方法在深度视频中的人体动作识别领域有很好的性能。
[0009](2)基于骨架点的行为识别
[0010]与基于姿态的动作识别相比,基于骨骼的动作识别由于骨骼信息能够简单、明确地表示人体动作而得到了广泛的应用。它类似于主成分分析
‑
尺度不变特征变换。有两类基于骨骼的动作识别:用于骨骼动作识别的手工制作特征和基于深度学习骨骼动作识别。它采用编码器递归网络重建骨架序列,同时进行动作识别,它在动作捕捉序列上的性能是有前途的。它设计了一种端到端时间空间注意力模型,对输入帧内的骨骼区分关节给予不同程度的注意,并有选择地关注不同帧的输出。
[0011](3)提出新模块Transformer用于行为识别
[0012]Transformer在很大程度上是自然语言处理(NLP)的主要神经模型。然而,它已被提出,作为递归网络的替代方案。目前,大多数文章使用CNN提取空间信息,LSTM提取时间信息。与CNN相比,Transformer可以同时从输入和相互关系中提取我们需要的所有信息。虽然CNN结构对于传统的分类任务具有强大的功能,但是对于很多任务来说,它并没有必要的空间信息。对于LSTM来说,很难具备高效的并行计算能力。而Transformer没有这种顺序依赖性问题。Transformer可以比LSTM更容易地处理非常长的序列。它最大的优点是使用了自注意机制和位置编码代替了RNN中的序列对序列编码。Transformer遵循通常的编译码结构,但它仅依赖于多头自注意来增强标准的卷积。
[0013]本专利技术的有益效果是,本专利技术提出了一种更好地提取行为姿态信息的网络。我们的网络增加了一个过滤器之间的姿势估计模块和姿势识别模块,过滤掉无用的功能,从而提高姿态估计的性能,使运动识别的输入和结果更准确。同时,我们利用相对距离和相对速度来模拟骨骼动作序列的时空特征。相对距离可以提供全球层面上所有关节的空间信息,相对速度具有较强的捕获动态信息的能力。最后,我们将相对距离数据转移到相对位置,这有助于提取局部和全局层次的骨架数据。最重要的是,这个新模型主要利用位置函数来编码位置,并采用自我注意机制来提取内在特征,在可视化基准测试中显示了更好的性能。
附图说明
[0014]下面结合附图对本专利技术的具体实施方式作进一步详细的描述。
[0015]图1为本专利技术示意图(即Transformer整体框架图);
[0016]图2为基于骨骼的动作建模结构;
[0017]图3为多头注意力建模结构;
具体实施方式
[0018]【实施例1】
[0019]图1是Transformer的整体框架图用于姿态动作识别。它完全基于一种避免重复和卷积的注意机制。我们首先从视频中提取人体姿态信息,然后进行位置编码,把提取的信息放到Transformer的编码模块,编码模块中的输出变成解码模块的输入,然后通过前馈网络
模块进行行为识别。图1可看到每个解码器都有一个自注意层和一个完全连接的网络层。每个解码器都有一个自注意层、一个正常注意层和一个完全连接层。普通注意层使解码器在解码时考虑到最后一层编码器的所有时刻的输出,所以最后一层编码器的输出需要馈给所有解码器来完成这个普通注意。同时,自我注意不包含位置关系,需要进行位置编码。从姿态估计部分提取原始视频的时空信息,输入神经网络进行提取,然后对骨架数据的时空信息进行处理,最后输出,从而实现更好的动作识别。
[0020]【实施例2】
[0021]众所周知,身体的所有部位都是相互连接的。为了展示身体不同部位之间的关系,我们用身体不同部位之间的关系来描述人体动作。我们把整个骨骼分为头部、身体、左臂、右臂、左腿和右腿。从J1到J18共标记了18个连接点,如图2所示。这些数字表示它们的位置。线和顺时针箭头表示操作行程位置的功能。移动位置意味着网络按照这个顺序读取骨架上的信息。我们顺时针连接相邻的骨架点本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于Transformer的行为识别算法,其特征在于,包括以下步骤:步骤1:从原始视频中提取姿态特征并进行处理过滤;步骤2:对提取的姿态特征进行人体建模生成骨架点并进行位置编码;步骤3:将时间信息和空间信息融合输入Transformer网络进行行为识别。2.根据权利要求1所述的基于Transformer的行为识别算法,其特征在于:在步骤1当中,对原始视频首先进行预处理,包括从原始视频中将每个视频截取图片作为帧的形式,对图片进行预处理,包括将图像进行归一化,提取姿态特征并进行过滤。3.根据权利要求1所述的基于Transformer的行为识别算法,其特征在于:在步骤2当中,将处理好的图片利用多人位姿估计框架AlphaPose进行姿态估计提取骨架信息,消除重复动作中的冗余姿态,提取出高质量的单人区域,同时身体的不同部位之间存在着某种关联或依赖关系,为了更好地反映出四肢与躯干之间的的关系,并根据身体不同部位之间的联系来描述人体的动作,所以基于人体动作进行人体建模生成骨架点,从J1到J18,共标记18个关节点,接着对提取的骨架点要进行位置编码,以[x1,y1;x2,y2;...x
18
,y
18
]矩阵形式输入网络。4.根据权利要求1所述的基于Transformer的行为识别算法,其特征在于:在步骤3当中,在姿态估计中得到的...
【专利技术属性】
技术研发人员:徐曹洁,王紫旋,朱艾春,胡方强,李义丰,
申请(专利权)人:南京工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。