一种基于分层卷积神经网络的手势姿态识别方法技术

技术编号:30891326 阅读:24 留言:0更新日期:2021-11-22 23:32
本发明专利技术公开了一种基于分层卷积神经网络的手势姿态识别方法,包括如下步骤:S1、训练数据集与模型预测数据准备;S2、手势姿态估计网络构建;主要包含:手势掩码分割网络、手势初步姿态估计网络和手势分层结构网络;S3、将训练数据输入所述手势姿态估计网络进行学习,输出预测姿态结果;S4、将手势姿态估计网络预测的结果与训练数据集中的对应标签数据进行不断对比,计算对应的损失值;将所述损失值反馈至手势姿态估计网络中并对网络进行不断参数修正;根据视频帧对应的预测手势姿态,确定目标所对应的手势姿态识别结果。本发明专利技术具有精度高的优点,在人机交互、虚拟现实与手语识别等领域具有巨大的应用价值。域具有巨大的应用价值。域具有巨大的应用价值。

【技术实现步骤摘要】
一种基于分层卷积神经网络的手势姿态识别方法


[0001]本专利技术属于AI(Artificial Intelligence,人工智能)
,具体涉及一种基于分层卷积神经网络的手势姿态识别方法。

技术介绍

[0002]手势姿态识别是指从图像中准确识别出手势关键点的位置。手势姿态识别技术在人机交互、虚拟现实(VR)和增强现实(AR)等领域起到重要的作用。过去几年由于深度传感器的发展,手势姿态识别技术从传统的数据手套硬件方案到计算机视觉技术方案转变。由于大量的深度图像数据集的驱动,手势姿态识别技术也迎来了一波高潮。然而,现实生活中大量存在的是RGB图像,并且受限于深度传感器的探测距离与深度图像的低分辨率等问题。
[0003]近些年由于深度神经网络的快速发展,一些学者开始研究基于深度神经网络在RGB图像上手势姿态识别方法。手势姿态识别方法主要有以下三个阶段:首先,利用卷积神经网络预测手势掩码;然后利用手势掩码去获得关键点热图;最后利用关键点热图回归手势关键点位置信息。
[0004]手势姿态识别方法主要从前两个阶段进行创新,第一阶段常用的方法主要有:1.通过目标检测算法去获取手势目标框,然后进行手势裁剪,最后进行二值化。这种方法会造成网络冗余,并且十分复杂、同时也会造成掩码出现较大误差。2.使用带有大量手势掩码的数据集去预测手势掩码。这种方法由于要大量的手势掩码的标注数据,人力成本与时间成本较高。第二阶段常用的方法主要有:1.直接利用卷积神经网络获取手势掩码的特征信息,再对特征信息获取手势关键点热图。2.通过多个结构网络级联获取手势掩码,对获取的手势掩码利用多个估计网络级联形式获取手势热图。第二种方法是在第一种方法基础上进行的创新,由于经过多次级联,方法二精度有一定提升。
[0005]手势姿态识别关键帧提取方法、装置及可读存储介质,申请号为202110345732.4,此专利技术提出了一种手势姿态识别关键帧提取方法、装置及可读存储介质,主要通过目标检测算法,实现目标手势检测,并通过皮肤检测算法,结合深度图,进行手部区域分割,以得到只有手部的中间图像。这种方式适用于手势姿态识别的预处理阶段,对于手势姿态识别很难实现端到端训练,同时采用皮肤检测算法容易受到类似肤色背景干扰,并且实现的方式与本专利技术不同。
[0006]手部姿态识别模型的训练方法,装置,设备及存储介质,申请号为CN202010042559.6,此专利技术提出了一种手部姿态识别模型的训练方法,装置,设备及存储介质,本专利技术主要采用结构预测模型实现手势分割掩码,并通过姿态预测模型实现手势关键点预测。此专利技术有效的解决了手势掩码标注成本高的问题,但对于多尺度目标手势掩码分割与姿态估计具有一定的误差,实现的方式与本专利技术不同。

技术实现思路

[0007]本专利技术的主要目的在于提出一种基于分层卷积神经网络的手势姿态识别方法,主
要在第一、二阶段的创新,以克服现有方法所存在的识别精度不高、手势分割掩码成本大、小尺度难识别的问题。
[0008]本专利技术至少通过如下技术方案之一实现。
[0009]一种基于分层卷积神经网络的手势姿态识别方法,包括如下步骤:
[0010]S1、获取训练数据集与模型预测数据;
[0011]S2、将训练数据输入手势姿态估计网络进行学习,输出预测姿态结果;
[0012]所述手势姿态估计网络包括手势掩码分割网络、手势初步姿态估计网络和手势分层结构网络;
[0013]使用手势掩码分割网络获得手势掩码,并将手势掩码进行融合;
[0014]使用手势初步姿态估计网络预测手势关键点热图;将手势关键点热图通过手势分层结构网络分别估计出各手指与手掌的姿态信息,并将手指中的大拇指与手掌部分进行融合,其他各手指之间进行融合,得到手指与手掌两部分姿态信息,最后进行手指与手掌两部分融合成整体的手部姿态信息;
[0015]S3、将手势姿态估计网络预测的结果与训练数据集中对应的标签数据进行对比,计算对应的损失值;将所述损失值反馈至手势姿态估计网络中进行参数修正;
[0016]S4、将视频帧输入到修正好的手势姿态估计网络,根据视频帧所对应的预测姿态,确定视频帧中目标所对应的手势姿态识别结果。
[0017]优选的,所述手势掩码分割网络主要包括两路结构预测模型,每路结构预测模型包括第一阶段、第二阶段,第一阶段、第二阶段分别采用1*1与5*5、1*1不同的卷积操作,并对输出结果进行二分类,实现手势分割掩码;
[0018]每路结构预测模型采用合成的手势掩码作为标签数据,通过交叉熵损失函数,实现手势分割掩码的预测。
[0019]优选的,采用VGG19网络结构对手部图像提取不同尺度特征信息,将获得的不同尺度特征信息分别输入到手势掩码分割网络的两路结构预测模型,并把结构预测模型输出的手势分割掩码与VGG19最后一层卷积输出的特征图进行融合,将融合后的信息输入到手势初步姿态估计网络。
[0020]优选的,所述手势掩码分割网络的损失函数L
mask(1,2)
为:
[0021][0022]其中,t表示结构预测模型的阶段,t1与t2分别表示第一、二阶段,第二阶段同时接收第一阶段输出的掩码分割图与VGG19输出的特征图进行再分割;G表示包括各个手指对应的分割图、手掌分割图和整体手部分割图在内的分割图集合;g表示分割图集合中的任意一个;p表示像素点,I表示手部像素集合;S~(p|g)表示合成的手部分割图;S
^
(p|g)表示预测的手部分割图。
[0023]优选的,手势初步姿态估计网络包括两个关键点预测模型,每个关键点预测模型包括阶段一与阶段二,阶段一与阶段二分别采用1*1与5*5、1*1不同的卷积操作,并对输出结果进行坐标回归,实现手势初步姿态估计;
[0024]手势初步姿态估计网络采用求和均方误差损失函数计算数据集中关键点标签与预测关键点最小损失,来进行手势初步姿态估计网络参数更新;
[0025]每个关键点预测模型采用跳跃连接方式;将手部分割图与VGG19输出的特征图分别输入到两个关键点预测模型的阶段一与阶段二,阶段二同时融合来自阶段一的输出结果。
[0026]优选的,所述手势初步姿态估计网络的损失函数L
2d
为:
[0027][0028]其中,T表示姿态估计的阶段;k表示手部21个关键点中任意关键点;p表示像素点,I表示手部像素集合;C

(p|k)表示样本手部姿态信息;表示手势初步姿态估计网络预测手势姿态信息;
[0029]所述C

(p|k)表示为:
[0030][0031]其中,表示第k个关键点的真实坐标;σ
KCM
表示高斯宽度的调节超参数。
[0032]优选的,所述手势分层结构网络采用分层式结构,将手势初步姿态估计网络预测结果、手部分割图与特征图作为手势分层结构网络的输入;手势分层结构网络分别估计出各手指与手掌的姿态信息本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于分层卷积神经网络的手势姿态识别方法,其特征在于:包括如下步骤:S1、获取训练数据集与模型预测数据;S2、将训练数据输入手势姿态估计网络进行学习,输出预测姿态结果;所述手势姿态估计网络包括手势掩码分割网络、手势初步姿态估计网络和手势分层结构网络;使用手势掩码分割网络获得手势掩码,并将手势掩码进行融合;使用手势初步姿态估计网络预测手势关键点热图;将手势关键点热图通过手势分层结构网络分别获得各手指与手掌部分热图,并将手指中的大拇指与手掌部分进行融合,其他各手指之间进行融合,得到手指与手掌两部分姿态信息,最后进行手指与手掌两部分融合成整体的手部姿态信息;S3、将手势姿态估计网络预测的结果与训练数据集中对应的标签数据进行对比,计算对应的损失值;将所述损失值反馈至手势姿态估计网络中进行参数修正;S4、将视频帧输入到修正好的手势姿态估计网络,根据视频帧所对应的预测姿态,确定视频帧中目标所对应的手势姿态识别结果。2.如权利要求1所述的一种基于分层卷积神经网络的手势姿态识别方法,其特征在于,所述手势掩码分割网络主要包括两路结构预测模型,每路结构预测模型包括第一阶段、第二阶段,第一阶段、第二阶段分别采用1*1与5*5、1*1不同的卷积操作,并对输出结果进行二分类,实现手势分割掩码;每路结构预测模型采用合成的手势掩码作为标签数据,通过交叉熵损失函数,实现手势分割掩码的预测。3.如权利要求1或2所述的一种基于分层卷积神经网络的手势姿态识别方法,其特征在于,采用VGG19网络结构对手部图像提取不同尺度特征信息,将获得的不同尺度特征信息分别输入到手势掩码分割网络的两路结构预测模型,并把结构预测模型输出的手势分割掩码与VGG19最后一层卷积输出的特征图进行融合,将融合后的信息输入到手势初步姿态估计网络。4.如权利要求3所述的一种基于分层卷积神经网络的手势姿态识别方法,其特征在于,所述手势掩码分割网络的损失函数L
mask(1,2)
为:其中,t表示结构预测模型的阶段,t1与t2分别表示第一、二阶段,第二阶段同时接收第一阶段输出的掩码分割图与VGG19输出的特征图进行再分割;G表示包括各个手指对应的分割图、手掌分割图和整体手部分割图在内的分割图集合;g表示分割图集合中的任意一个;p表示像素点,I表示手部像素集合;S

(p|g)表示合成的手部分割图;S^(p|g)表示预测的手部分割图。5.如权利要求4所述的一种基于分层卷积神经网络的手势姿态识别方法,其特征在于,手势初步姿态估计网络包括两个关键点预测模型,每个关键点预测模型包括阶段一与阶段二...

【专利技术属性】
技术研发人员:周智恒张明月
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1