一种手势识别方法、装置及存储介质制造方法及图纸

技术编号:35783146 阅读:21 留言:0更新日期:2022-12-01 14:29
本申请公开了一种手势识别方法、装置及存储介质,涉及图像处理技术领域,可用于提高手势识别的准确性,并降低手势识别的计算量。该方法包括:获取多帧图像中每一帧图像的手部关键点特征信息;所述多帧图像根据对运动的手部进行拍摄得到;将多帧图像中每一帧图像的手部关键点特征信息、预设的空间序列序号信息以及预设的时间序列序号信息输入至基于图卷积神经网络的手势识别模型中,得到手势识别结果;其中,空间序列序号信息用于标记多帧图像中每一帧图像的手部关键点的序号,时间序列序号信息用于标记多帧图像中每一帧图像的空间信息对应的帧数。对应的帧数。对应的帧数。

【技术实现步骤摘要】
一种手势识别方法、装置及存储介质


[0001]本申请涉及图像处理
,尤其涉及一种手势识别方法、装置及存储介质。

技术介绍

[0002]随着科学技术的日益发展,手势识别的应用越来越广泛,已经成为人机交互领域的一个研究热点,例如,在家电领域,可以根据用户手势控制家电执行用户手势对应的指令;又例如,在交通领域,可以根据对交警的动作进行识别以获得对应的交通通行指令等。通常地,通过对图像进行处理识别而实现对图像中手势的识别。
[0003]相关技术中,手势识别的一种思路是构造手部关键点特征,并将手部关键点特征直接输入至手势分类模型中,得到手势识别结果。但是这种方式进行手势识别时,模型输入仅包括手部关键点特征,若连续多帧图像中手部关键点特征的变化较小,则难以识别出多帧图像对应的动态手势,因此手势识别的准确度较低。
[0004]此外,手势识别的另一种思路是从图像中获取人手关节序列,基于人手关节序列采用双分支网络获取人手关节之间的关联性,进而进行手势识别。通过这种方式进行手势识别时,由于采用双分支网络搭建网络模型的架构,因此在进行手势识别时需要大量的计算量。

技术实现思路

[0005]本申请实施例提供一种手势识别方法、装置及存储介质,可以以较低的计算量实现较高准确性的手势识别。
[0006]第一方面,提供一种手势识别方法,该方法包括:获取多帧图像中每一帧图像的手部关键点特征信息;所述多帧图像根据对运动的手部进行拍摄得到;一帧图像的手部关键点特征信息包括该帧图像的手部关键点坐标以及手部关键点运动信息,一帧图像的手部关键点运动信息用于表征该帧图像的手部关键点坐标相对于该帧图像的前一帧图像中对应的手部关键点坐标的变化情况;将多帧图像中每一帧图像的手部关键点特征信息、预设的空间序列序号信息以及预设的时间序列序号信息输入至基于图卷积神经网络的手势识别模型中,得到手势识别结果;其中,空间序列序号信息用于标记多帧图像中每一帧图像的手部关键点的序号,时间序列序号信息用于标记多帧图像中每一帧图像的空间信息对应的帧数。
[0007]本申请实施例提供的技术方案至少带来以下有益效果:将多帧图像的手部关键点特征信息、空间序列序号信息以及时间序列序号信息共同作为手势识别模型的输入,这样,相比于输入单一的手部关键点特征,这种多信息输入的方式引入了更多的多帧图像的源数据信息,因此可以提高手势识别的准确度。此外,本申请在构建手势识别模型时不需要构建复杂的双分支网络,因此可以降低手势识别过程中的计算量。
[0008]在一些实施例中,上述基于图卷积神经网络的手势识别模型包括基于图卷积神经网络的空间信息提取子模型、时序信息提取子模型以及分类子模型;上述将多帧图像中每
一帧图像的手部关键点特征信息、预设的空间序列序号信息以及预设的时间序列序号信息输入至基于图卷积神经网络的手势识别模型中,得到手势识别结果,包括:将多帧图像中每一帧图像的手部关键点特征信息以及预设的空间序列序号信息输入至空间信息提取子模型,得到每一帧图像的手部关键点邻接矩阵;每一帧图像的手部关键点邻接矩阵用于表征每一帧图像中任意两个手部关键点之间的连接关系;通过空间信息提取子模型的图卷积神经网络对每一帧图像的手部关键点邻接矩阵进行处理,得到多帧图像中每一帧图像的空间信息;将多帧图像中每一帧图像的空间信息以及时间序列序号信息输入至时序信息提取子模型,得到多帧图像的时序信息;多帧图像的时序信息用于表征多帧图像从第一帧图像到最后一帧图像的空间信息变化情况;将多帧图像的时序信息输入至分类子模型,得到手势识别结果。
[0009]应理解,上述手部关键点邻接矩阵是根据图卷积神经网络生成的邻接矩阵,因此相比于人工设计的邻接矩阵,这种由图卷积神经网络手部关键点邻接矩阵更适应于不同场景下的手势识别,泛化性强。此外,上述多帧图像中每一帧图像的空间信息包含了待识别的手势的相关信息,但是由于手势是一个动态连续的过程,因此需要通过时序信息提取子模型构建多帧图像之间的依赖关系,进而得到多帧图像的时序信息。进一步地,根据建立了依赖关系后的多帧图像的时序信息进行手势识别,以提高手势识别的准确性。
[0010]在一些实施例中,上述将多帧图像中每一帧图像的手部关键点特征信息以及预设的空间序列序号信息输入至空间信息提取子模型,得到每一帧图像的手部关键点邻接矩阵,包括:对于多帧图像中每一帧图像,通过空间信息提取子模型将该帧图像的手部关键点特征信息以及空间序列序号信息进行融合处理,得到该帧图像的融合信息;将该帧图像的融合信息分别输入至空间信息提取子模型的第一卷积层和第二卷积层中,得到第一卷积层输出的该帧图像的融合信息的矩阵和第二卷积层输出的该帧图像的融合信息的矩阵;将第一卷积层输出的该帧图像的融合信息的矩阵转置后与第二卷积层输出的该帧图像的融合信息的矩阵相乘,得到该帧图像的手部关键点邻接矩阵。
[0011]在一些实施例中,上述将多帧图像中每一帧图像的空间信息以及时间序列序号信息输入至时序信息提取子模型,得到多帧图像的时序信息,包括:根据预设的时间序列序号信息,对多帧图像中每一帧图像对应的帧数进行标记;将标记帧数后的多帧图像的空间信息输入至所述时序信息提取子模型中的空间信息池化层,得到池化处理后的多帧图像的空间信息;将池化处理后的多帧图像的空间信息依次输入至第三卷积层和第四卷积层,进而通过第三卷积层和第四卷积层建立多帧图像中每帧图像之间的依赖关系,得到建立依赖关系后的多帧图像的空间信息;将建立依赖关系后的多帧图像的空间信息输入至所述时序信息提取子模型中的时间信息池化层,得到多帧图像的时序信息。
[0012]在一些实施例中,上述获取多帧图像中每一帧图像的手部关键点特征信息,包括:对于预设帧数的多帧图像中的每一帧图像,将该帧图像输入至回归模型,得到该帧图像的手部关键点坐标;若该帧图像不是多帧图像中的第一帧图像,则对于该帧图像的任一手部关键点坐标,根据该帧图像的手部关键点坐标相比于该帧图像的前一帧图像的该手部关键点坐标的变化量,确定该帧图像的该手部关键点对应的关键点运动信息;或者,若该帧图像是多帧图像中的第一帧图像,则该帧图像对应的关键点运动信息为预设的关键点运动信息。
[0013]在一些实施例中,上述方法还包括:在预设时间段内,对预设时间段内的待检测视频进行多次手势动作识别操作;手势动作识别操作用于获取待检测视频中的多帧图像中的手势识别结果;若在预设时间段内,进行多次手势动作识别操作所获得的多次手势识别结果不一致,则将多次手势识别结果中出现次数最多的手势识别结果确定为最终的手势识别结果。
[0014]应理解,在预设时间段内出现次数越多的手势识别结果,越有可能对应该预设时间段内真实的动态手势,因此,可以在多次手势识别结果不一致时将预设时间段内出现次数最多的手势识别结果确定为最终的手势识别结果,进而提高手势识别的准确性。
[0015]第二方面,提供一种手势识别装置,包括:获取模块,用于获取多帧图像中每一帧图像的手部关键点特征信息;所述多帧图像根据对运动的手部进行拍摄得到;一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种手势识别方法,其特征在于,所述方法包括:获取多帧图像中每一帧图像的手部关键点特征信息;所述多帧图像根据对运动的手部进行拍摄得到;一帧图像的手部关键点特征信息包括该帧图像的手部关键点坐标以及手部关键点运动信息,一帧图像的手部关键点运动信息用于表征该帧图像的手部关键点坐标相对于该帧图像的前一帧图像中对应的手部关键点坐标的变化情况;将所述多帧图像中每一帧图像的手部关键点特征信息、预设的空间序列序号信息以及预设的时间序列序号信息输入至基于图卷积神经网络的手势识别模型中,得到手势识别结果;其中,所述空间序列序号信息用于标记所述多帧图像中每一帧图像的手部关键点的序号,所述时间序列序号信息用于标记所述多帧图像中每一帧图像的空间信息对应的帧数。2.根据权利要求1所述的方法,其特征在于,其特征在于,所述基于图卷积神经网络的手势识别模型包括基于图卷积神经网络的空间信息提取子模型、时序信息提取子模型以及分类子模型;所述将所述多帧图像中每一帧图像的手部关键点特征信息、预设的空间序列序号信息以及预设的时间序列序号信息输入至基于图卷积神经网络的手势识别模型中,得到手势识别结果,包括:将所述多帧图像中每一帧图像的手部关键点特征信息以及预设的空间序列序号信息输入至所述空间信息提取子模型,得到所述每一帧图像的手部关键点邻接矩阵,一帧图像的手部关键点邻接矩阵用于表征该一帧图像中任意两个手部关键点之间的连接关系;通过所述空间信息提取子模型的图卷积神经网络对所述每一帧图像的手部关键点邻接矩阵进行处理,得到所述多帧图像中每一帧图像的空间信息;将所述多帧图像中每一帧图像的空间信息以及所述预设的时间序列序号信息输入至所述时序信息提取子模型,得到所述多帧图像的时序信息;所述多帧图像的时序信息用于表征所述多帧图像从第一帧图像到最后一帧图像的空间信息变化情况;将所述多帧图像的时序信息输入至所述分类子模型,得到所述手势识别结果。3.根据权利要求2所述的方法,其特征在于,所述将所述多帧图像中每一帧图像的手部关键点特征信息以及所述预设的空间序列序号信息输入至所述空间信息提取子模型,得到所述每一帧图像的手部关键点邻接矩阵,包括:对于所述多帧图像中每一帧图像,通过所述空间信息提取子模型将该帧图像的手部关键点特征信息以及所述空间序列序号信息进行融合处理,得到该帧图像的融合信息;将该帧图像的融合信息分别输入至所述空间信息提取子模型的第一卷积层和第二卷积层中,得到所述第一卷积层输出的该帧图像的融合信息的矩阵和所述第二卷积层输出的该帧图像的融合信息的矩阵;将所述第一卷积层输出的该帧图像的融合信息的矩阵转置后与所述第二卷积层输出的该帧图像的融合信息的矩阵相乘,得到该帧图像的手部关键点邻接矩阵。4.根据权利要求2所述的方法,其特征在于,所述将所述多帧图像中每一帧图像的空间信息以及所述预设的时间序列序号信息输入至所述时序信息提取子模型,得到所述多帧图像的时序信息,包括:根据所述预设的时间序列序号信息,对所述多帧图像中每一帧图像对应的帧数进行标记;将标记帧数后的所述多帧图像的空间信息输入至所述时序信息提取子模型中的空间
信息池化层,得到池化处理后的多帧图像的空间信息;将所述池化处理后的多帧图像的空间信息依次输入至第三卷积层和第四卷积层,通过所述第三卷积层和所述第四卷积层建立所述多帧图像中每帧图像之间的依赖关系,得到建立依赖关系后的多帧图像的空间信息;将所述建立依赖关系后的多帧图像的空间信息输入至所述时序信息提取子模型中的时间信息池化层,得到所述多帧图像的时序信息。5.根据权利要求1所述的方法,其特征在于,所述获取多帧图像中每一帧图像的手部关键点特征信息,包括:对于预设帧数的多帧图像中的每一帧图像,将该帧图像输入至回归模型,得到该帧图像的手部关键点坐标;若该帧图像不是所述多帧图像中的第一帧图像,则对于该帧图像的任一手部关键点坐标,根据该帧图像的手部关键点坐标相比于该帧图像的前一帧图像的该手部关键点坐标的变化量,确定该帧图像的该手部关键点对应的关键点运动信息;或者,若该帧图像是所述多帧图像中的第一帧图像,则该帧图像对应的关键点运动信息为预设的关键点运动信息。6.根据权利要求1

5任一项所述的方法,其特征在于,所述方法还包括:在预设时间段内,对所述预设时间段内的待检测视频进行多次手势动作识别操作;所述手势动作识别操作用于获取所述待检测视频中的多帧图像的手势识别结果;若在所述预设时间段内,进行所述多次手势动作识别操作所获得的多次手势识别结果不一致,...

【专利技术属性】
技术研发人员:姜秀峰
申请(专利权)人:上海高德威智能交通系统有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1