一种基于3DCNN与Transformer的动态手势识别方法技术

技术编号：43763415 阅读：4 留言：0更新日期：2024-12-24 16:06

本发明专利技术公开了一种基于3DCNN与Transformer的动态手势识别方法，包括以下步骤：基于摄像头采集动态手势，获取视频帧序列图像，对视频帧序列图像进行预处理；将一段特定长度为m的视频帧序列S，按一个固定数量n分段，共分为k段视频子序列si，这里i＝[1，k]；对每个视频子序列si，分别基于一个3DCNN网络进行特征提取操作；该发明专利技术能够实现视频帧序列中的局部特征与全局特征的全面表示，有更强的特征表征能力，特别地，利用3D卷积网络在时间轴上的滑动，可以实现上下文语义的关联，基于Transformer可以实现更高层上下文语义的关联，在公开的动态手势数据集KSU‑SSL(包含40个不同种类手势)上，可以实现96％以上的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及动态手势识别，具体为一种基于3dcnn与transformer的动态手势识别方法。

技术介绍

1、基于视觉的方法实现人体姿态与手势的自动化识别可以大大提升人机交互的自然性和效率，有着广泛的应用场景与需求。由于手势可以表示丰富的语义信息，如手语等复杂的应用场景，所以如何实现动态的手势识别是研究领域的一个热门研究方向。

2、目前的数据采集普遍有两种手段，即普通的rgb相机和带有深度信息的深度相机。基于深度相机的采集数据含有深度信息，可以提供较好的三维点云数据，在一定程度上可以提升手势识别的精度。但是深度相机的成本高昂，这在一定程度上限制了其应用的范围。随着机器学习，特别是深度学习技术的发展，大量先进的算法可以在没有显式的深度测量数据的情况下，仍然可以实现较高的识别精度，从而降低了对采集设备的要求，大大降低了实际应用的成本。

3、现有的深度学习框架一般采用了端到端的技术来实现输入到输出的直接映射，从而简化了算法的设计流程。现有的动态手势识别方案有的过于简单，只能实现几个或十几个固定手势的识别，且识别的稳定性和精度欠佳。

4、还有一些方案过于关注局部的特征，而忽视了全局特性的表示。如何实现更多手势种类的精确识别，以及如何保障识别的可靠性与稳定性等都是目前迫切需要解决的问题。

5、为此，提出一种基于3dcnn与transformer的动态手势识别方法。

技术实现思路

1、本专利技术的目的在于提供一种基于3dcnn与transfor

2、为实现上述目的，本专利技术提供如下技术方案：一种基于3dcnn与transformer的动态手势识别方法，包括以下步骤：

3、s1、基于摄像头采集动态手势，获取视频帧序列图像，对视频帧序列图像进行预处理；

4、s2、将一段特定长度为m的视频帧序列s，按一个固定数量n分段，共分为k段视频子序列si，这里i＝[1，k]；

5、s3、对每个视频子序列si，分别基于一个3dcnn网络进行特征提取操作；

6、s4、假定每个视频子序列经过3dcnn处理后的特征图通道数为p，将这p个通道的特征图拉平且首尾连接形成一个特征向量v，其维度定义为d；

7、s5、将所有视频子序列的通道特征图按顺序依次堆叠在一起，共形成kp个特征图，也可以直接将视频子序列的最终输出向量v按顺序依次堆叠在一起，共形成k个特征图；

8、s6、将上一步产生的每个特征图都拉平为一个向量表示，并对每个特征图根据其位置特性设定位置编码；

9、s7、将上一步的特征序列及对应的位置编码送入一个transformer的编码器模块，其输出的向量数量与输入相同，将该输出特征序列拉平为一个一维向量；

10、s8、将上一步得到的全局特征向量送入一个分类器网络中进行类别的映射，分类器采用1-2层全连接神经网络，最终通过一个softmax层实现归一化类别概率输出。

11、优选的：在所述步骤s1中，预处理主要包括以下几个方面：

12、1、对人脸区域进行定位，然后基于人体的各部分比例特性及手部活动的范围特性，确定一个能完全包含手部活动区域的矩形框；

13、2、基于手部活动区域矩形框，裁剪图像帧，获得手势图像；

14、3、对所有手势图像进行尺寸的归一化操作。

15、优选的：在所述步骤s2中，相邻的两段子序列之间可以交叠，交叠程度通过滑动步长进行控制，即以一个固定的窗口长度n，以一个特定步长在序列s上进行滑动，提取子序列。

16、优选的：在所述步骤s3中，此操作是一个局部的特征表示环节，可以设置多个3d卷积层进行串行连接，每个卷积层后根据需要添加池化层。

17、优选的：在所述步骤s7中，向量是对视频帧序列的局部特征进行上下文语义融合后的结果，体现了对全局特征和高层语义的表达。

18、与现有技术相比，本专利技术的有益效果是：该专利技术能够实现视频帧序列中的局部特征与全局特征的全面表示，有更强的特征表征能力，特别地，利用3d卷积网络在时间轴上的滑动，可以实现上下文语义的关联，基于transformer可以实现更高层上下文语义的关联，在公开的动态手势数据集ksu-ssl(包含40个不同种类手势)上，可以实现96％以上的准确率。

本文档来自技高网...

【技术保护点】

1.一种基于3DCNN与Transformer的动态手势识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于3DCNN与Transformer的动态手势识别方法，其特征在于：在所述步骤S1中，预处理主要包括以下几个方面：

3.根据权利要求1所述的一种基于3DCNN与Transformer的动态手势识别方法，其特征在于：在所述步骤S2中，相邻的两段子序列之间可以交叠，交叠程度通过滑动步长进行控制，即以一个固定的窗口长度n，以一个特定步长在序列S上进行滑动，提取子序列。

4.根据权利要求1所述的一种基于3DCNN与Transformer的动态手势识别方法，其特征在于：在所述步骤S3中，此操作是一个局部的特征表示环节，可以设置多个3D卷积层进行串行连接，每个卷积层后根据需要添加池化层。

5.根据权利要求1所述的一种基于3DCNN与Transformer的动态手势识别方法，其特征在于：在所述步骤S7中，向量是对视频帧序列的局部特征进行上下文语义融合后的结果，体现了对全局特征和高层语义的表达。

【技术特征摘要】

1.一种基于3dcnn与transformer的动态手势识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于3dcnn与transformer的动态手势识别方法，其特征在于：在所述步骤s1中，预处理主要包括以下几个方面：

3.根据权利要求1所述的一种基于3dcnn与transformer的动态手势识别方法，其特征在于：在所述步骤s2中，相邻的两段子序列之间可以交叠，交叠程度通过滑动步长进行控制，即以一个固定的窗口长度n，以一个特定步长在...

【专利技术属性】
技术研发人员：薛洋，夏勇，张俊，刘孟丽，马郑，蒋子航，徐康瑜，
申请(专利权)人：江苏凯博软件开发有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人