一种基于改进OpenPose网络和深度图像的手部特征提取方法技术

技术编号：40083666 阅读：14 留言：0更新日期：2024-01-23 15:07

本发明专利技术公开了一种基于改进OpenPose网络和深度图像的手部特征提取方法，涉及人体手部特征提取的领域，包括以下步骤：S10，基于改进OpenPose网络估计RGB手部图像的二维骨骼点；S20，将RBG图像和深度图像对齐，根据稀疏采样和取平均值方法获得手部深度图的平均深度；S30，将得到的二维骨骼图像与手部平均深度图进行融合，得到含有深度信息的手部骨骼图像。本发明专利技术的有益效果：改善了手部特征提取过程中计算复杂度高、参数数量大、手部遮挡的问题，从而提高了计算效率和准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人体手部特征提取的领域，更具体的说，涉及一种手语翻译时手部特征提取的方法。

技术介绍

1、手语是一种通过手势和手部动作进行交流的语言，本身较为抽象，不易被未经手语训练的普通人理解和记忆，这大大增加了聋哑人与普通人的沟通障碍，不利于聋哑人融入社会生活。为解决这些问题，聋哑人手语翻译技术得到越来越多国际和国内专家学者的关注。它通过提取聋哑人手部动作特征信息，将其翻译为可读的文本语言或语音。因此，研究手部特征提取是研究手语翻译技术的关键点之一，对解决聋哑人因沟通障碍而引发的社会问题具有重要的意义。

2、传统的手部特征提取方法主要包括基于模板匹配的方法、基于隐马尔克夫模型(hidden markov model，hmm)模型的方法和基于动态时间规整(dynamic time warping，dtw)的方法。尽管基于传统方法的手部特征提取已经取得很多成果，但仍然有很大的局限性，例如基于模板匹配额手势方法在手部特征提取过程中容易受到光照背景影响，同时需要研究人员对手语有一定的研究。而在基于深度学习的手部特征提取中，通过构建多层神经网络，使得计算机能够自动地从手部图像中学习到更加抽象和高级的特征表示，随后根据手部特征进行识别和翻译的任务。深度学习相对于传统方法在手势识别中具有自动特征学习、更好的泛化能力和对复杂手势的适应能力等优点。

3、然而，在手部特征提取过程中，深度网络模型参数过大和层数过多可能导致训练不充分、收敛速度慢等问题。同时，聋哑人手语是由一系列手部动作组合完成，在进行手部动作时不可避免的会出

技术实现思路

1、为了克服现有技术的不足，本专利技术提供一种基于改进openpose网络和深度图像的手部特征提取方法，解决了当前在手部特征提取过程中收敛速度慢、手部存在遮挡不能被完全提取的问题，降低了计算复杂度提高了准确率。

2、本专利技术解决其技术问题所采用的技术方案是：一种基于改进openpose网络和深度图像的手部特征提取方法，所述方法包括以下步骤：

3、s10，基于改进openpose网络估计rgb手部图像的二维骨骼点；

4、s20，将rbg图像和深度图像对齐，根据稀疏采样和取平均值方法获得手部深度图的平均深度；

5、s30，将得到的二维骨骼图像与手部平均深度图进行融合，得到含有深度信息的手部骨骼图像。

6、在步骤s10中，所述改进openpose网络中的改进点在于：将初始的openpose网络中的主干网络vgg19网络替换为了轻量化网络mobilenetv2。mobilenet网络是基于深度可分离卷积的。它将标准卷积分为深度卷积和1*1的逐点卷积。深度卷积针对每个输入信道应用单个卷积，然后逐点卷积利用1*1卷积来结合深度卷积的输出。特别的，mobilenetv2网络mobilenetv1网络的基础上将深度可分离卷积中的最后一层relu激活函数替换成线性激活函数，同时在残差网络resnet结构上进行了优化，提出反向残差网络(invertedresiduals)。在所述估计rgb手部图像的二维骨骼点具体步骤如下：

7、s101，输入rgb手部图像由mobilenetv2进行特征提取，生成一组第一级的特征图f。其中mobilenetv2计算量为：dk×dk×m×df×df+m×n×df×df，其中dk是平方核的空间维度，m是输入通道的数量(输入深度)，n是输出通道的数量，df是输入特征图的空间宽度和高度；

8、s102，在s101过程中网络会产生一组部分亲和域(part affinity fields，paf)，它是一组二维矢量域，在图像域上编码手部的位置和方向。后续的每个阶段的预测结果都根据前一个阶段的特征图f进行预测生成，其计算公式为：其中指的是特征提取过程中第t阶段的卷积神经网络，tp指的是特征提取过程中paf阶段的数量；

9、s103，重复s102过程，同时对置信图(part confidence map，pcm)进行提取，置信图具体操作为：其中ρt指的是置信图提取过程中第t阶段的推断神经网络，tc指的是特征提取过程中pcm阶段的数量。

10、s104，在每个阶段结束时都应用损失函数来指导网络，以此来预测出paf和pcm。在第i阶段表示为ti，在ti阶段paf分支的损失函数公式为在第k阶段表示为tk，在tk阶段pcm分支的损失函数公式为其中是paf的真实值，是pcm的真实值，w是一个二进制掩码。在最终阶段时，对以上两个式子进行求和得到损失函数：

11、在步骤s20中，所述的将rgb图像和深度图像对齐具体步骤如下所示：

12、s201，利用深度相机提取rgb图像和深度图像，其坐标信息表示为：pir＝hir×pir，其中pir是在深度摄像头坐标下手部坐标点的空间坐标，pir为该点在平面上的投影坐标，hir为深度摄像头的内参矩阵。

13、s202，利用一个旋转平移变换将深度摄像头坐标和rgb坐标联系起来，其公式为：prgb＝r×pir+t，其中prgb为在rgb摄像头坐标下同一点的空间坐标，r为旋转矩阵，t为平移向量；

14、s203，用hrgb对s202得到的prgb进行投影，得到该点对应的rgb坐标：prgb＝hrgb×prgb。

15、进一步的，步骤s202中所用到的旋转矩阵r和平移向量t，需要用到摄像头的外参矩阵。该矩阵也是由一个旋转矩阵rir(rrgb)和平移向量tir(trgb)构成的，它表示将一个全局坐标系下的点p变换到摄像头坐标下，有以下关系：pir＝rir×p+tir，prgb＝rrgb×p+trgb。由此公式和s202所述公式可以得到旋转矩阵r和平移向量t的公式：t＝trgb-r×tir。

16、进一步的，步骤s20所述的获得手部深度图的平均深度，即采用稀疏采样和取平均值的方法，提取深度图中每个关键点的两个相邻像素值的坐标点的深度值，这些点的平均深度值即为关键点的深度值，这样做可以减少计算冗余从而获得手部关键点的平滑深度值。

17、在步骤s30中，所述的二维骨骼图像与手部平均深度图进行融合的方法为：将经过s10处理后得到的手部骨骼图像坐标点映射到经过s20处理后得到的手部平均深度图中，最后得到含有深度信息的手部骨骼图。

18、本专利技术的有益效果是：本方案通过使用轻量化网络mobilenetv2替代了原始openpose网络模型主干网络，有效改善了手部特征提取过程中计算复杂度高、参数数量大的问题，并提出一种基于优化后的手部特征融合策略，有效的改善了手部特征提取过程中手部遮挡的问题，从而提高了计算效率和准确率。

本文档来自技高网...

【技术保护点】

1.一种基于改进OpenPose网络和深度图像的手部特征提取方法，其特征在于该方法包括以下步骤：

2.根据权利要求1所述的一种基于改进OpenPose网络和深度图像的手部特征提取方法，其特征在于：步骤S10中，所述改进OpenPose网络中的改进点在于，将初始的OpenPose网络中的主干网络VGG19网络替换为了轻量化网络MobileNetV2。所述估计RGB手部图像的二维骨骼点具体步骤如下：

3.根据权利要求1所述的一种基于改进OpenPose网络和深度图像的手部特征提取方法，其特征在于：步骤S20中，所述的将RBG图像和深度图像对齐具体步骤如下所示：

4.根据权利要求1所述的一种基于改进OpenPose网络和深度图像的手部特征提取方法，其特征在于：步骤S20中，所述的获得手部深度图的平均深度，即采用稀疏采样和取平均值的方法，提取深度图中每个关键点的两个相邻像素值的坐标点的深度值，这些点的平均深度值即为关键点的深度值。

5.根据权利要求1所述的一种基于改进OpenPose网络和深度图像的手部特征提取方法，其特征在于：步骤S30中

...

【技术特征摘要】

1.一种基于改进openpose网络和深度图像的手部特征提取方法，其特征在于该方法包括以下步骤：

2.根据权利要求1所述的一种基于改进openpose网络和深度图像的手部特征提取方法，其特征在于：步骤s10中，所述改进openpose网络中的改进点在于，将初始的openpose网络中的主干网络vgg19网络替换为了轻量化网络mobilenetv2。所述估计rgb手部图像的二维骨骼点具体步骤如下：

3.根据权利要求1所述的一种基于改进openpose网络和深度图像的手部特征提取方法，其特征在于：步骤s20中，所述的将rbg图像和深度图像对齐具体步骤如下所...

【专利技术属性】
技术研发人员：彭鹏，刘雯玲，曾维，王楠，姚光乐，李铜，先昱菡，
申请(专利权)人：成都理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人