基于Transformer的行为识别算法制造技术

技术编号：30653086 阅读：31 留言：0更新日期：2021-11-04 01:16

本发明专利技术公开了基于Transformer的行为识别算法。它完全基于一种避免重复和卷积的注意机制，它利用了计算机视觉和自然语言处理的最新进展，并将它们应用于视频理解，可以识别微妙的动作。我们首先从视频中提取人体姿态信息，然后进行位置编码，把提取的信息放到Transformer的编码模块，编码模块中的输出变成解码模块的输入，然后通过前馈网络模块进行行为识别。每个解码器都有一个自注意层和一个完全连接的网络层。每个解码器都有一个自注意层、一个正常注意层和一个完全连接层。普通注意层使解码器在解码时考虑到最后一层编码器的所有时刻的输出，所以最后一层编码器的输出需要馈给所有解码器来完成这个普通注意。同时，自我注意不包含位置关系，需要进行位置编码。从姿态估计部分提取原始视频的时空信息，输入神经网络进行提取，然后对骨架数据的时空信息进行处理，最后输出，从而实现更好的动作识别。识别。识别。

全部详细技术资料下载

【技术实现步骤摘要】
基于Transformer的行为识别算法

[0001]本专利技术涉及关于姿态的人体识别方面的技术，尤其设计在一个场景下，人体行为姿态过多，存在冗余的情况下对人体姿态识别的方法改进。

技术介绍

[0002]随着人体姿态估计和动作识别在智能监控、人机交互等领域的广泛应用，计算机视觉越来越受到人们的关注。现有的一些方法，其本质特性是将视频转换为动作标签，不能直接区分视频中的人体，因此来自背景的杂波和非动作动作容易导致效果不佳。为了解决这个限制，一个替代的解决方案是检测一个人，并估计在每帧的身体姿势。众所周知，一系列连续的人体姿势，为识别人类行为提供了微妙而可信的线索，有助于人类行为的形成。因此，我们可以将人体姿态估计作为人体动作识别的基础。然而，常见的动作识别方法过分强调视频中整体特征的重要性，往往忽略了人体关节的细微差异，因为视频中包含了很多不重要的信息。据我们所知，人类的行为是复杂的，并且建立在不受约束的背景之上。为了避免复杂背景和拍摄角度的负面影响，从人体姿态中提取的骨骼关节可以更有效地表征人体动作。
[0003]目前基于深度学习的方法通常将骨架构造成联合坐标向量或伪图像，然后输入到递归神经网络(RNNs)或卷积神经网络(CNNs)中。递归神经网络，尤其是长短时间记忆，已被确立为序列建模中最先进的方法，但这些基于rnn的方法往往过分强调时间信息。为此，我们提出了一种新的基于姿态的动作识别模型——Transformer。
[0004]与卷积神经网络(CNNs)和递归神经网络(RNNs)相比，卷积神经网络...

【技术保护点】

【技术特征摘要】
1.一种基于Transformer的行为识别算法，其特征在于，包括以下步骤：步骤1：从原始视频中提取姿态特征并进行处理过滤；步骤2：对提取的姿态特征进行人体建模生成骨架点并进行位置编码；步骤3：将时间信息和空间信息融合输入Transformer网络进行行为识别。2.根据权利要求1所述的基于Transformer的行为识别算法，其特征在于：在步骤1当中，对原始视频首先进行预处理，包括从原始视频中将每个视频截取图片作为帧的形式，对图片进行预处理，包括将图像进行归一化，提取姿态特征并进行过滤。3.根据权利要求1所述的基于Transformer的行为识别算法，其特征在于：在步骤2当中，将处理好的图片利用多人位姿估计框架AlphaPose进行姿态估计提取骨架信息，消除重复动作中的冗余姿态，提取出高质量的单人区域，同时身体的不同部位之间存在着某种关联或依赖关系，为了更好地反映出四肢与躯干之间的的关系，并根据身体不同部位之间的联系来描述人体的动作，所以基于人体动作进行人体建模生成骨架点，从J1到J18，共标记18个关节点，接着对提取的骨架点要进行位置编码，以[x1，y1；x2，y2；...x
18
，y
18
]矩阵形式输入网络。4.根据权利要求1所述的基于Transformer的行为识别算法，其特征在于：在步骤3当中，在姿态估计中得到的...

【专利技术属性】
技术研发人员：徐曹洁，王紫旋，朱艾春，胡方强，李义丰，
申请(专利权)人：南京工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人