一种基于深度残差网络的手势识别方法技术

技术编号:15895841 阅读:96 留言:0更新日期:2017-07-28 20:04
本发明专利技术公开了一种基于深度残差网络的手势识别方法。本发明专利技术步骤包括:步骤1.获取手势的原始数据信息,并将其进行N点标记得到2N维的原始标签数据;步骤2.对原始数据信息及2N维的标签数据进行预处理;步骤3、将预处理后的原始数据信息与转化为hdf5格式的2N维的原始标签数据作为原始训练数据,输入到深度残差网络中训练网络参数,得到手势识别模型;步骤4、将待识别手势数据做与步骤1相同的N点标记得到2N维的待识别标签数据;步骤5、对待识别手势数据及2N维的标签数据进行预处理,并将预处理后的手势数据与转化为hdf5格式的2N维的待识别标签数据,输入到上述手势识别模型中进行识别,得到识别结果。本发明专利技术有效解决梯度弥散和网络精度问题。

Hand gesture recognition method based on depth residual network

The invention discloses a gesture recognition method based on a depth residual network. The invention comprises the following steps: step 1. to obtain the original data signals, and its N mark 2N dimensional original label data; tag data step 2. of the original data information and the 2N dimension of the pretreatment; step 3, the original label data after preprocessing the original data and information into the 2N dimension the HDF5 format as the original training data input to train the network parameters in the network to get residual depth, gesture recognition model; step 4, to step 1 and gesture recognition data to do the same N point mark 2N dimensional identification tag to tag data data; step 5, treat gesture recognition data and 2N dimension preprocessing and gesture data and transformation after pretreatment for 2N dimensional HDF5 format to identify tag data, input to the gesture recognition model for recognition, and get the recognition result. The invention effectively solves the problems of gradient dispersion and network accuracy.

【技术实现步骤摘要】
一种基于深度残差网络的手势识别方法
本专利技术涉及图像处理、物体检索领域,尤其涉及一种基于深度残差网络的手势识别方法。
技术介绍
目前,基于视觉的手势交互已经被国内外广泛的研究,但由于手势本身所具有的多义性、时空差异性以及手的高纬度、多自由度及视觉问题本身的不适应性,基于手势识别的人工交互平台一直是一个固有挑战性的研究课题。该课题主要解决的核心点在于对手的形状的识别和对手势的跟踪。在传统方法上主要有两个方向:(1)基于隐马尔可夫链的方法:GRobel从带颜色手套的饰演者的记录视频中提取特征,采用隐马尔夫模型(HiddenMarkovModel,HMM)识别了261个鼓励测绘,其正确率达到了91.3%;(2)基于几何特征的手势识别。但这两种方法和之后所衍生出来的一些其他算法都极大程度上依赖于计算机的处理能力,而且在数据的拟合上存在很大的问题,同时很难达到对于大数据的信息源进行处理。由于手具有高度时空性,以及手势变换种类十分复杂,因此在训练过程中网络结构的好坏在很大程度上决定了训练出来的网络模型对于手势的识别精度。在人工智能迅速发展的今天,大部分人都采用深度学习中的CNN或者RCNN来对手势识别进行改进,在一定程度上提升了准确率。但随着CNN网络的发展,尤其是VGG网络的提出,在网络层数增加到一个临界点后梯度消失或弥散问题随之而来,与此同时网络精度达到饱和后迅速下降。
技术实现思路
本专利技术的目的是提供一种基于深度残差网络的手势识别方法,该方法能有效解决梯度弥散和网络精度问题,同时对于精度下降的问题有效的进行了遏制,降低了深度网络的训练难度,极大的提升了手势识别的精度,为之后手势识别甚至图像检测、物体识别领域提供了一种新的解决方法;同时该方法通过输入多维数据,以保证手势识别的精确度,而且对于输入数据以及数据格式的普适性更加强大,有效解决了输入的手势数据只能为1维的局限。为达上述目的,本专利技术所采用的技术方案为:一种基于深度残差网络的手势识别方法,其步骤包括:步骤1.获取手势的原始数据信息,并将其进行N点标记得到2N维的原始标签数据;其中N≥1;步骤2.对上述原始数据信息及2N维的标签数据进行预处理;步骤3、将上述预处理后的原始数据信息与转化为hdf5格式的2N维的的原始标签数据作为原始训练数据,输入到深度残差网络中训练网络参数,得到手势识别模型;步骤4、将待识别手势数据做与步骤1)相同的N点标记得到2N维的待识别标签数据;步骤5、对上述待识别手势数据及2N维的标签数据进行预处理,并将预处理后的手势数据与转化为hdf5格式的2N维的待识别标签数据,输入到上述手势识别模型中进行识别,得到识别结果。进一步地,所述手势的原始数据信息与所述待识别手势数据是指收集的各类手势图片。进一步地,所述原始数据信息、2N维的原始标签数据、待识别手势数据和2N维的待识别标签数据进行预处理,包括图像正则化、先验条件约束、数据格式及对应图像转换操作。进一步地,所述的预处理是指利用matlab将手势图片的大小进行归一化。进一步地,步骤3)中所述的构建的深度残差网络具体如下:所述的深度残差网络训练时采用自下上升的监督学习方式,具体包括一输入层、一初始卷积层、多个残差模块、一全连接层和一输出层;所述初始卷积层用于对输入的原始训练数据进行卷积;所述多个残差模块用于提取上述卷积后的数据的卷积特征;所述全连接层包括多个节点,用于将上述卷积特征进行分类。更进一步地,所述每个残差模块在一开始分为一条主径和一条捷径,并在结束时重新叠加整合。更进一步地,在第一个残差模块前存在一个max-pooling(最大池化)操作,用于压缩维度,减小卷积层数误差造成估计均值的偏移,更多的保留纹理信息,提高模型的泛化能力;在所述全连接层之后存在一mean-Pooling(平均池化)操作,以降低邻域大小受限造成的估计值方差增大所造成的的影响。更进一步地,在每个残差模块中的每个卷积层和池化层之后存在BatchNormaliztion(批归一化)操作,以使提取后的特征均值为0,方差为1。与现有技术相比,本专利技术具有以下特点:第一,本专利技术采用的是普通手势的RGB手势图片,在适用上具有很强的广泛性。第二,传统的手势识别是基于隐马尔可夫链和基于几何特征的手势识别,数据运算十分复杂,而且准确率难以达到要求,而对于机器学习尤其是深度学习来说,通过卷积、池化、正则化等操作,将原本在源空间的特征变换到新的空间,实现高维到低维的降维效果,自动地学习得到层次化的特征表示,从而更加有利于智能化的检测和分类。同时手势识别在处理数据方面由于信息源众多,数据量巨大,人工方法早已不能满足需求。在人工智能飞速发展的今天,深度学习无疑是解决这类问题的一把利剑。第三,一般来说,随着网络层数的增加,所得到的识别模型的精确度也越高,但随着网络层数的增加,梯度消失或者弥散的问题也随着而来,这导致训练难以熟练。同时,随着网络深度的增加,网络精度达到饱和之后,会产生迅速下滑的现象,然而这并不是过拟合所导致的。除此之外,目前的网络训练都采用反馈的训练方法即反向传播的概念,通过对比输出和标签之前的误差,将误差逐层向上反馈调整整个网络的参数权重。而残差有逐层递减的特点,在网络层数足够大时,会发生权值无法调整,使网络深度失去意义的现象。本专利技术在每个残差模块都增加了一条捷径,并在捷径中加了卷积等处理,而不是简单的一层卷积层,一层简单的卷积层虽然在一定程度上有助于残差的向上传播,但对于高精度作业来说可能精度还是有所欠缺。而通过在捷径中加入这些处理一方面有利于网络对于手势特征的提取,另一方面对于残差在反向传播时优化能够更加的明显。因此,该捷径使整个网络的权值都能够得以调整,达到整个深度残差网络达到全局最优解,同时整个网络泛化能力提升,得到精度更高效果更好的网络模型。第四,普通手势数据输入为1维数据,而且由于leveldb和lmdb只能使用1维数据作为输入,这样经过网络获得的信息不准确,得到的结果也过于单一,而本专利技术采用的深度残差网络在数据处理上使用hdf5格式的数据,其能够支持多维数据输入,且并不像现有技术使用分类的手势图片,这在手势识别上还是首例,对于整个网络以及之后网络模型的应用存在很强的普适性。同时,本专利技术可使用多达152层的网络结构,使得lossfunction(损失函数)降到很小,使得精度能够得到满足。附图说明图1是本专利技术基于深度残差网络的手势识别方法的流程图。图2是本专利技术手势图片标记的具体示意图。图3是本专利技术深度残差网络的总体结构图。其中卷积层和残差模块括号内三个数字分别表示输入维数,卷积核大小,步长;Max-pooling和Mean-pooling括号内数字为卷积核大小和步长。图4是本专利技术一实施例的残差模块内部结构示意图。具体实施方式为使本专利技术的上述特征和优点能更明显易懂,下文特举实施例,并配合所附图作详细说明如下。本专利技术提供一种基于深度残差网络的手势识别方法,如图1所示,该方法包括训练阶段和识别阶段;所述训练阶段包括如下步骤:第一步,获取手势的原始数据信息,其中本专利技术获取了5000张作为手势识别的初期数据库;且在初期收集各类手势图片后,对每张手势图片进行N点标记得到2N维的标签数据,并将手势图片保存为JPG格式,其本文档来自技高网...
一种基于深度残差网络的手势识别方法

【技术保护点】
一种基于深度残差网络的手势识别方法,其特征在于包括如下步骤:步骤1.获取手势的原始数据信息,并将其进行N点标记得到2N维的原始标签数据;其中N≥1;步骤2.对上述原始数据信息及2N维的标签数据进行预处理;步骤3、将上述预处理后的原始数据信息与转化为hdf5格式的2N维的的原始标签数据作为原始训练数据,输入到深度残差网络中训练网络参数,得到手势识别模型;步骤4、将待识别手势数据做与步骤1相同的N点标记得到2N维的待识别标签数据;步骤5、对上述待识别手势数据及2N维的标签数据进行预处理,并将预处理后的手势数据与转化为hdf5格式的2N维的待识别标签数据,输入到上述手势识别模型中进行识别,得到识别结果。

【技术特征摘要】
2017.02.27 CN 20171010793531.一种基于深度残差网络的手势识别方法,其特征在于包括如下步骤:步骤1.获取手势的原始数据信息,并将其进行N点标记得到2N维的原始标签数据;其中N≥1;步骤2.对上述原始数据信息及2N维的标签数据进行预处理;步骤3、将上述预处理后的原始数据信息与转化为hdf5格式的2N维的的原始标签数据作为原始训练数据,输入到深度残差网络中训练网络参数,得到手势识别模型;步骤4、将待识别手势数据做与步骤1相同的N点标记得到2N维的待识别标签数据;步骤5、对上述待识别手势数据及2N维的标签数据进行预处理,并将预处理后的手势数据与转化为hdf5格式的2N维的待识别标签数据,输入到上述手势识别模型中进行识别,得到识别结果。2.如权利要求1所述的一种基于深度残差网络的手势识别方法,其特征在于所述手势的原始数据信息与所述待识别手势数据是指收集的各类手势图片。3.如权利要求1所述的一种基于深度残差网络的手势识别方法,其特征在于所述原始数据信息、2N维的标签数据、待识别手势数据进行预处理包括图像正则化、先验条件约束、数据格式及对应图像转换操作。4.如权利要求2所述的一种基于深度残差网络的手势识别方法,其特征在于对手势图片进行预处理是指利用ma...

【专利技术属性】
技术研发人员:谢益峰颜成钢王雁刚邵碧尧项露萱
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1