当前位置: 首页 > 专利查询>东南大学专利>正文

一种面向移动端的手势识别和跟踪方法及系统技术方案

技术编号:37543772 阅读:13 留言:0更新日期:2023-05-12 16:13
本发明专利技术公开了一种面向移动端的手势识别和跟踪方法及系统,包括:手部图像检测模块至少包括YOLOv5的手部检测模型,将原始图像输入手部检测模型进行处理,输出包括检测框、左手置信度、右手置信度及是否有手的置信度的手部图像检测结果;手势估计模块至少包括手势估计模型,手势估计模型网络的特征提取部分为轻量化网络ShuffleNet V2 0.5x模块,姿态网络部分为3个反卷积层与1个内核大小为1的卷积层,将手部图像检测模块处理后的手部图片输入手势估计模块,输出21个手势关键点估计结果;三维转换模块利用两视图几何,将手势估计模块输出的2D关键点转为3D,使用Levenberg

【技术实现步骤摘要】
一种面向移动端的手势识别和跟踪方法及系统


[0001]本专利技术属于图像处理
,涉及一种手势跟踪及估计的方法,主要涉及了一种面向移动端的手势识别和跟踪方法及系统。

技术介绍

[0002]目前,VR等设备快速发展,对手势交互有着越来越强烈的需求。设备需要根据用户的手势,准确判断其采取的一系列行动,并作出各种丰富的响应。
[0003]然而,现有的手势估计方法往往采用较大的模型,无法部署在资源较少的移动端设备上;当前轻量化的模型往往存在精确度较低,三维预测结果不准确的问题。这些原因,制约着移动端设备上手势估计方法的应用。例如,VR眼镜作为移动端设备的其中一种,要求模型尽可能小,运算速度尽可能快,同时,稳定性、准确率都需要达到较高的水平。

技术实现思路

[0004]本专利技术正是针对现有手势估计方法无法成功部署在移动端设备的问题,提供一种面向移动端的手势识别和跟踪方法及系统,包括手部图像检测模块、手势估计模块及三维转换模块,手部图像检测模块至少包括手部检测模型,所述手部检测模型为YOLOv5,将原始图像输入手部检测模型进行处理,输出手部图像检测结果,所述手部图像检测结果输出包括检测框、左手置信度、右手置信度及是否有手的置信度;手势估计模块,至少包括手势估计模型,手势估计模型网络的特征提取部分为轻量化网络ShuffleNet V2 0.5x模块,姿态网络部分为3个反卷积层与1个内核大小为1的卷积层,将手部图像检测模块处理后的手部图片输入手势估计模块,输出21个手势关键点估计结果;三维转换模块利用两视图几何,将手势估计模块输出的2D关键点转为3D,使用Levenberg

Marquardt算法、相机内外参数以及惯性测量单元参数,生成三维关键点坐标,实现手势的识别和跟踪。本案方法和系统在保证手势准确率的同时,也满足了可部署到移动端要求的问题。
[0005]为了实现上述目的,本专利技术采取的技术方案是:一种面向移动端的手势识别和跟踪系统,包括手部图像检测模块、手势估计模块及三维转换模块,
[0006]所述手部图像检测模块,至少包括手部检测模型,所述手部检测模型为YOLOv5,将原始图像输入手部检测模型进行处理,输出手部图像检测结果,所述手部图像检测结果输出包括检测框、左手置信度、右手置信度及是否有手的置信度;
[0007]所述手势估计模块,至少包括手势估计模型,手势估计模型网络的特征提取部分为轻量化网络ShuffleNet V2 0.5x模块,姿态网络部分为3个反卷积层与1个内核大小为1的卷积层,将手部图像检测模块处理后的手部图片输入手势估计模块,输出21个手势关键点估计结果;
[0008]所述三维转换模块,利用两视图几何,将手势估计模块输出的2D关键点转为3D,使用Levenberg

Marquardt算法、相机内外参数以及惯性测量单元参数,生成三维关键点坐标,实现手势的识别和跟踪。
[0009]为了实现上述目的,本专利技术还采取的技术方案是:一种面向移动端的手势识别和跟踪方法,包括以下步骤:
[0010]S1,手部图像检测:将原始图像输入手部检测模型进行处理,输出手部图像检测结果,所述手部检测模型为YOLOv5,其手部图像检测结果输出包括检测框、左手置信度、右手置信度及是否有手的置信度;
[0011]S2,手部图像预处理:对经过步骤S1检测到的手部图像进行预处理,所属预处理至少包括对检测框裁剪图片、缩放大小并进行图像填充;
[0012]S3,关键点估计:将经过步骤S2预处理后的手部图片输入手势估计模型进行处理,输出21个手势关键点;所述手势估计模型网络的特征提取部分为轻量化网络ShuffleNet V2 0.5x模块,姿态网络部分为3个反卷积层与1个内核大小为1的卷积层;
[0013]S4,坐标转换:将数据增强后的裁剪框作为原裁剪框,模型输入大小作为目标裁剪框,进行仿射变换,从而得到相应的变换矩阵及其逆矩阵,利用逆变换矩阵,模型预测的关键点坐标转换为完整图像对应的关键点坐标;
[0014]S5,结果输出:经过步骤S4的坐标转换,得到左右视图两张完整图像对应的2维关键点坐标,使用Levenberg

Marquardt算法,添加相机内外参数以及惯性测量单元参数,生成3维关键点坐标,得到手势识别和跟踪系统的最终结果;所述Levenberg

Marquardt算法的目标函数为:3维关键点的重投影误差、3维关键点与上一帧3维估计结果的误差以及3维关键点关节长度与标准手势的关节长度的误差。
[0015]作为本专利技术的一种改进,所述步骤S1中的原始图像通过双目鱼眼相机获取,为多帧视频;获取图像时,若第一帧检测到手部的图像,则将此图像直接输入手部检测模型,间隔数帧,再次将图像输入手部检测模型,以此循环,在间隔的数帧中,使用上一帧的检测框。
[0016]作为本专利技术的一种改进,所述步骤S3中,手势估计模型输出结果为21个关键点对应的二维热图,使用soft

argmax算法获取最高点的位置作为关键点的二维坐标。
[0017]作为本专利技术的另一种改进,所述步骤S3的手势估计模型中,将训练数据进行增广,使用均方误差MSE损失函数进行训练模型,所用的MSE函数为:
[0018][0019]其中,y为预测的热图结果;为热图标签值;joint为关键点数量;n为每一批训练的数量;i为输入数据的下标;j为输入数据中相应关键点的下标;为每张图片每个关键点预测热图与标签热图的均方误差;所述数据增广方法包括但不限于随机镂空、旋转、缩放、平移和颜色增强。
[0020]作为本专利技术的另一种改进,所述步骤S3手势估计模型的输入图片为裁剪后的右手图片,若图片中手部为左手,则对图片进行翻转。
[0021]作为本专利技术的又一种改进,所述步骤S3手势估计模型中使用知识蒸馏和半监督学习策略,通过知识蒸馏,教师模型的知识尽可能迁移到学生模型上,利用教师模型,生成未标注数据的伪标签,补充数据集,训练学生模型。
[0022]作为本专利技术的更进一步改进,所述步骤S5中还包括手势运动的关节角度约束。
[0023]与现有技术相比,本专利技术具有的有益效果:提供了一种面向移动端的手势识别和跟踪方法和系统,间隔一定数量帧进行检测,以期在一定时间内处理更多数据;利用随机镂空数据增广、损失函数等方法进行训练,提高准确率、稳定性;利用轻量化组件、量化模型来实现在移动端上的成功部署;利用优化算法最小化重投影误差生成3D关键点坐标,保证射影不变性,并添加时间、运动学约束;利用知识蒸馏算法来进一步提高模型的性能;利用半监督学习来补充数据集,降低标注成本,教师模型生成伪标签来辅助学生模型的训练。
附图说明
[0024]图1是本专利技术一种面向移动端的手势识别和跟踪系统各模块的工作流程图;
[0025]图2是本专利技术一种面向移动端的手势识别和跟踪方法的步骤流程图;
[0026]图3是本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向移动端的手势识别和跟踪系统,包括手部图像检测模块、手势估计模块及三维转换模块,所述手部图像检测模块,至少包括手部检测模型,所述手部检测模型为YOLOv5,将原始图像输入手部检测模型进行处理,输出手部图像检测结果,所述手部图像检测结果输出包括检测框、左手置信度、右手置信度及是否有手的置信度;所述手势估计模块,至少包括手势估计模型,手势估计模型网络的特征提取部分为轻量化网络ShuffleNet V2 0.5x模块,姿态网络部分为3个反卷积层与1个内核大小为1的卷积层,将手部图像检测模块处理后的手部图片输入手势估计模块,输出21个手势关键点估计结果;所述三维转换模块,利用两视图几何,将手势估计模块输出的2D关键点转为3D,使用Levenberg

Marquardt算法、相机内外参数以及惯性测量单元参数,生成三维关键点坐标,实现手势的识别和跟踪。2.一种面向移动端的手势识别和跟踪方法,其特征在于,包括以下步骤:S1,手部图像检测:将原始图像输入手部检测模型进行处理,输出手部图像检测结果,所述手部检测模型为YOLOv5,其手部图像检测结果输出包括检测框、左手置信度、右手置信度及是否有手的置信度;S2,手部图像预处理:对经过步骤S1检测到的手部图像进行预处理,所属预处理至少包括对检测框裁剪图片、缩放大小并进行图像填充;S3,关键点估计:将经过步骤S2预处理后的手部图片输入手势估计模型进行处理,输出21个手势关键点;所述手势估计模型网络的特征提取部分为轻量化网络ShuffleNet V2 0.5x模块,姿态网络部分为3个反卷积层与1个内核大小为1的卷积层;S4,坐标转换:将数据增强后的裁剪框作为原裁剪框,模型输入大小作为目标裁剪框,进行仿射变换,从而得到相应的变换矩阵及其逆矩阵,利用逆变换矩阵,模型预测的关键点坐标转换为完整图像对应的关键点坐标;S5,结果输出:经过步骤S4的坐标转换,得到左右视图两张完整图像对应的2维关键点坐标,使用Levenberg

Marquardt算法,添加相机内外参...

【专利技术属性】
技术研发人员:陈睿明曹邹颖范思远高耕顾枢衡李明泽荣逸鹏杨飞张子腾周浩然宋沫飞耿新
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1