当前位置: 首页 > 专利查询>扬州大学专利>正文

基于单个RGB图像的三维手势识别方法与系统技术方案

技术编号:34726682 阅读:25 留言:0更新日期:2022-08-31 18:14
本发明专利技术公开了一种基于单个RGB图像的三维手势识别方法与系统,首先通过手部分割网络生成只包含手的手部掩膜,原始的RGB图像利用手部掩膜裁剪出只包含手的手部图像;然后利用残差网络提取裁剪的手部图像的特征,减少计算量和防止过拟合;再利用二维关键点检测网络将卷积神经网络整合进可以学习信息丰富的空间信息模型序列化的预测框架,不断对手的关键点位置进行细化;最后重构三维关键点,利用二维关键点生成三维关键点,输出最有可能的手势。本发明专利技术对基于单个RGB图像的三维手势识别方法进行了充分的探索,从而达到可以在虚拟场景通过手势建立最直接的人机交互方式,让机器理解人类的表达。类的表达。类的表达。

【技术实现步骤摘要】
基于单个RGB图像的三维手势识别方法与系统


[0001]本专利技术属于手势识别领域,更具体的说,是一种基于单个RGB图像的三维手势识别方法与系统。

技术介绍

[0002]基于可穿戴设备的手势估计,一般是将集成传感器置于手势估计的可穿戴设备中,完全不受手被遮挡的影响,可以快速的获取数据信息、精确度比较高,常用的可穿戴设备包括运动传感器和数据手套。但因为价格比较昂贵,操作比较复杂,且每次需要穿戴传感器类的设备,非常的不便捷,这导致在日常生活中的使用并不普遍。
[0003]早期的三维手势估计是基于深度图像的,比如,将预定义一个由多个关键点组成的手势模型拟合到输入的深度图像中。首先,创建大量的候选手势模型,然后从创建的大量的手势模型中选择一个和当前深度图像最匹配的手势模型,之后设计一个目标函数比较深度图和手势模型的相似性,通过最小化这个目标函数,找到最好的手模型。在目标函数优化问题上计算量大,手势估计的精确度高度依赖相似性函数的设计,这对手势估计是不利的。一般对静态手势估计达到很好的效果,但如果图像经过旋转、扭曲和大小改变时效果就不是那么理想了;再比如使用多视图进行三维手势估计,直接从深度图中通过二维热图估计二维关键点坐标,之后借助多视图的方式估计三维关键点,生成几何上一致的手的关键点,但是多视图相机系统成本高,一般用在实验室。目前大多数工作从单个RGB图像进行三维手势估计存在局限性,需要借助额外的深度图或多视图图像。

技术实现思路

[0004]专利技术目的:针对现有技术的不足,本专利技术目的在于提供一种基于单个RGB图像的三维手势识别方法与系统,仅使用单个RGB图像作为输入,依次通过手部分割网络、二维关键点检测网络预测二维关键点,再计算手腕关键点的绝对深度,重构出三维关键点,具有成本低、计算量小、准确性高等优点。
[0005]技术方案:为实现上述专利技术目的,本专利技术采用如下技术方案:
[0006]基于单个RGB图像的三维手势识别方法,包括如下步骤:
[0007](1)将单个RGB图像输入手部分割网络,生成只包含手的手部掩膜,并将原始的RGB图像利用手部掩膜裁剪出只包含手的手部图像;
[0008](2)利用残差网络ResNet

50提取裁剪的手部图像的特征;
[0009](3)利用二维关键点检测网络对手的关键点位置进行细化;所述二维关键点检测网络采用序列化结构,分为多个阶段不断缩小关键点检测范围,采用置信度图的方式表示手的关键点结果,后一阶段直接在前一阶段的置信度图操作,输出越来越精细化的手的关键点位置;后一阶段的输入为前一阶段的输出和残差网络提取的手部图像的特征;
[0010](4)基于二维关键点重构三维关键点,得到三维手势;重构过程中先求出手腕关键点的绝对深度值,再利用与手腕关键点的相对坐标进行三维关键点定位;其中手腕关键点
的绝对深度值α
x
,α
y
,A
real
和A
img
分别为焦距乘以x和y轴的像素距离因子、手在真实空间和图像空间的面积。
[0011]作为优先,所述二维关键点检测网络中,在图像每个位置z=(u,v),第p个关键点在阶段t的所有置信度分数为表示为:
[0012][0013]其中,w和h分别为图像的宽和高,t∈{1,...,T}表示T个阶段,p(x,y)表示第p个关键点位置的坐标,是在第t阶段中判定第p个关键点在图像位置z时的置信度分数;
[0014]将所有关键点的置信度集合记为在t>1的阶段,分类器基于两种输入来预测关键点位置的置信度,一是图像特征,二是前一阶段分类器输出上下文内容信息;每个阶段计算置信度对每个关键点的估计越来越精细化,后续阶段所用到的图像特征与第一阶段所用到图像特征是不同的。
[0015]作为优先,设P为三维空间任意一点P(X,Y,Z),p为空间点P在图像平面上的投影p(x,y);二维关键点重构三维关键点表示为:
[0016][0017]其中,f为焦聚,Z
root
是手腕关键点的绝对深度,Z
r
是第p个关键点相对于手腕关键点的深度。
[0018]作为优先,所述手部分割网络将输入的图像经过多层卷积加池化操作,每次池化后的卷积操作的卷积核通道数都变为原来的2倍以弥补池化损失的特征;输出图像只包含手的图像,最后进行上采样,生成手部掩膜。
[0019]作为优先,所述ResNet

50输出特征图大小为46
×
46
×
512,二维关键点检测网络在第一个阶段的输入通道数为512,通过一系列卷积操作输出图像大小为46
×
46
×
21;一系列卷积操作指的是7个卷积层,包括5个卷积核大小都为7
×
7,步长为1,填充为3,通道数为128的卷积层和1个卷积核大小为1
×
1,步长为1,填充为0,通道数为128的卷积层以及1个卷积核大小为1
×
1,步长为1,填充为0,通道数为21的卷积层;在第二阶段之前,将第一阶段的输出46
×
46
×
21和经过ResNet

50的特征图46
×
46
×
512进行拼接,输出通道数为533,弥补损失的特征信息;在第二阶段的输入为46
×
46
×
533,重复第一阶段的过程,以此类推,输出越来越精细化的手势关键点位置。
[0020]基于单个RGB图像的三维手势识别系统,包括:
[0021]手部区域检测模块,用于将单个RGB图像输入手部分割网络,生成只包含手的手部掩膜,并将原始的RGB图像利用手部掩膜裁剪出只包含手的手部图像;
[0022]手部特征提取模块,用于利用残差网络ResNet

50提取裁剪的手部图像的特征;
[0023]二维关键点检测模块,用于利用二维关键点检测网络对手的关键点位置进行细化;所述二维关键点检测网络采用序列化结构,分为多个阶段不断缩小关键点检测范围,采
用置信度图的方式表示手的关键点结果,后一阶段直接在前一阶段的置信度图操作,输出越来越精细化的手的关键点位置;后一阶段的输入为前一阶段的输出和残差网络提取的手部图像的特征;
[0024]以及三维关键点检测模块,用于基于二维关键点重构三维关键点,得到三维手势;重构过程中先求出手腕关键点的绝对深度值,再利用与手腕关键点的相对坐标进行三维关键点定位;其中手腕关键点的绝对深度值α
x
,α
y
,A
real
和A
img
分别为焦距乘以x和y轴的像素距离因子、手在真实空间和图像空间的面积。
[0025]一种计算机系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于单个RGB图像的三维手势识别方法,其特征在于,包括如下步骤:(1)将单个RGB图像输入手部分割网络,生成只包含手的手部掩膜,并将原始的RGB图像利用手部掩膜裁剪出只包含手的手部图像;(2)利用残差网络ResNet

50提取裁剪的手部图像的特征;(3)利用二维关键点检测网络对手的关键点位置进行细化;所述二维关键点检测网络采用序列化结构,分为多个阶段不断缩小关键点检测范围,采用置信度图的方式表示手的关键点结果,后一阶段直接在前一阶段的置信度图操作,输出越来越精细化的手的关键点位置;后一阶段的输入为前一阶段的输出和残差网络提取的手部图像的特征;(4)基于二维关键点重构三维关键点,得到三维手势;重构过程中先求出手腕关键点的绝对深度值,再利用与手腕关键点的相对坐标进行三维关键点定位;其中手腕关键点的绝对深度值α
x
,α
y
,A
real
和A
img
分别为焦距乘以x和y轴的像素距离因子、手在真实空间和图像空间的面积。2.根据权利要求1所述的基于单个RGB图像的三维手势识别方法,其特征在于,所述二维关键点检测网络中,在图像每个位置z=(u,v),第p个关键点在阶段t的所有置信度分数为表示为:其中,w和h分别为图像的宽和高,t∈{1,...,T}表示T个阶段,p(x,y)表示第p个关键点位置的坐标,是在第t阶段中判定第p个关键点在图像位置z时的置信度分数;将所有关键点的置信度集合记为在t>1的阶段,分类器基于两种输入来预测关键点位置的置信度,一是图像特征,二是前一阶段分类器输出上下文内容信息;每个阶段计算置信度对每个关键点的估计越来越精细化,后续阶段所用到的图像特征与第一阶段所用到图像特征是不同的。3.根据权利要求1所述的基于单个RGB图像的三维手势识别方法,其特征在于,设P为三维空间任意一点P(X,Y,Z),p为空间点P在图像平面上的投影p(x,y);二维关键点重构三维关键点表示为:其中,f为焦聚,Z
root
是手腕关键点的绝对深度,Z
r
是第p个关键点相对于手腕关键点的深度。4.根据权利要求1所述的基于单个RGB图像的三维手势识别方法,其特征在于,所述手部分割网络将输入的图像经过多层卷积加池化操作,每次池化后的卷积操作的卷积核通道数都变为原来的2倍以弥补池化损失的特征;输出图像只包含手的图像,最后进行上采样,生成手部掩膜。5.根据权利要求1所述的基于单个RGB图像的三维手势识别方法,其特征在于,所述
ResNet

50输出特征图大小为46
×
46
×
512,二维关键点检测网络在第一个阶段的输入通道数为512,通过一系列卷积操作输出图像大小为46
×
46
×
21;一系列卷积操作指的是7个卷积层,包括5个卷积核大小都为7
×
7,步长为1,填充为3,通道数为128的卷积层和1个卷积核大小为1
×
1,步长为1,填充为0,通道数为128的卷积层以及1个卷积核大小为1
×
1,步长为1,填充为0,通道数为21的卷积层;在第二阶段...

【专利技术属性】
技术研发人员:徐晓华许亭亭何萍夏应玺叶进
申请(专利权)人:扬州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1