本发明专利技术公开了一种基于计算机视觉的动态手势识别方法。解决了在复杂背景下手势的动态识别问题。其实现步骤为:采集手势数据集并进行人工标注,对标注的图像集真实框进行聚类获得训练的先验框,构建端到端的可同时预测目标位置、大小和类别的卷积神经网络,训练网络获得权重,加载权重到网络,输入手势图像进行识别,非极大值抑制方法处理获得的位置坐标及所属类别信息,获得最终的识别结果图像,实时记录识别信息获得动态手势解译结果。本发明专利技术克服了现有技术中手势识别中手部检测和类别识别分步进行的缺陷,极大的简化了手势识别的过程,提高了识别的准确度和速度,增强了识别系统的鲁棒性,并且实现了对动态手势解译的功能。
A dynamic gesture recognition method based on computer vision
【技术实现步骤摘要】
基于计算机视觉的动态手势识别方法
本专利技术属于图像处理
,更进一步涉及图像的目标识别技术,具体是一种基于计算机视觉的动态手势识别方法。可用于对图像中手势的位置检测和状态识别,以便为手势识别后续的手语翻译、游戏互动等应用提供更准确的信息。
技术介绍
近年来,随着计算机视觉和机器学习等相关学科的发展,人机交互技术(humancomputerinteraction)正逐渐从以“计算机为中心”向以“人为中心”转变。以人体自身作为交流平台的自然用户界面为操作者提供了更为直观、舒适的交互体验,其中包括人脸识别、手势识别以及体势识别等。其中日常生活中的手势作为自然直观的交流方式,拥有着很好的应用前景:利用规定好的手势对虚拟现实中的智能设备进行控制;用作手语翻译,解决聋哑人的交流问题;无人驾驶自动识别交警手势。因此,手势识别有着很重要的研究价值和意义。手势识别主要集中在两个方面,一种是基于传感设备(如:数据手套+位置跟踪仪)的手势识别,另一种是基于视觉的手势识别。由于基于视觉的手势识别能够使操作者以更加自然的方式进行人机交互,且灵活性更大,所以得到了更多的研究和关注。目前多数手势识别都是基于对图像中的手势进行位置检测及识别,采用先检测手部位置,再确定手势类别的两步识别方法。Zhi-huaChen等人发表的论文“Real-TimeHandGestureRecognitionUsingFingerSegmentation”(Thescientificworldjournal,2014(3):267872)中提出了一种基于手部检测和形状检测的方法。该方法首先利用背景差法提取出手部区域并二值化,然后分割出手指和手掌,再利用手指的数量和内容(内容是指手指的名称,如:大拇指、食指、中指等)从原有的13个模板中对手势目标进行分类。但是,该方法对图像背景要求严格,只有在单一的背景下才能分割出手部位置。另外,此方法识别的手势形状单一,鲁棒性差,难以推广。PeiXu发表的论文“AReal-timeHandGestureRecognitionandHuman-ComputerInteractionSystem”(InCVPR,IEEE,2017)中提出了一种基于手部检测和CNN识别的算法。该方法利用滤波、形态学等基本图像处理方法得到只包含手部的二值化图像,然后将其输入到卷积神经网络LeNet中进行特征提取并识别,以提高准确度。但是,该方法需要对图像进行预处理,对背景颜色要求高,而且手势的检测和识别分两步进行,即先得到手势的位置,再对当前手势进行分类得到状态,识别步骤繁琐且耗时。
技术实现思路
本专利技术的目的在于针对已有技术的不足,提出一种准确率更高、效率更高的基于计算机视觉的动态手势识别方法。本专利技术是一种基于计算机视觉的动态手势识别方法,其特征在于,包括有如下步骤:(1)采集手势图像:将采集的手势图像划分为训练集和测试集,分别对其中的手势进行人工标注,得到真实数据框的类别和坐标数据;(2)聚类获得先验框:对人工标注的真实数据框聚类,以框的面积的重叠程度作为损失度量,得到几个初试先验框;(3)构建端到端的可同时预测目标手势的位置、大小及类别的卷积神经网络:以改进的GoogLeNet网络作为网络框架,以同时约束目标位置、类别的损失函数构建端到端的卷积神经网络;(4)训练端到端网络:(4a)批量读入训练集样本的手势图像;(4b)采用双线性插值方法对图像进行随机缩放,尺寸大小选择为32的倍数,得到缩放后的读入的手势图像;(4c)采用双线性插值的方法对输入图像进行尺寸缩放,缩放至固定大小,得到能输入到卷积网络中的图像;(4d)采用步骤(4c)得到的固定大小图像对步骤(3)构建的卷积神经网络进行训练,得到构建的卷积神经网络对应的权重;(5)加载权重:将步骤(4d)得到的卷积神经网络对应的权重加载到步骤(3)构建的卷积神经网络中;(6)预测手势的位置和类别:读入待识别的手势图像,输入到加载好权重的卷积神经网络中进行识别,同时获得待识别的手势目标识别的位置坐标及所属类别信息;(7)去除冗余预测框:采用非极大值抑制方法处理获得的位置坐标及所属类别信息,获得最终的预测框:(7a)将所有预测框的得分降序排列,选中最高分及其对应的框;(7b)遍历其余的框,如果和当前最高分框的重叠面积IOU大于一定阈值,就将此框删除;(7c)从未处理的框中继续选一个得分最高的,重复上述过程,即执行(7a)到(7c),得到保留下来的预测框数据;(8)预测结果的可视化:将预测框数据映射到原图中,在原图中画出预测框并且标出手势目标所属类别标签;(9)记录和分析:实时记录手势的类别和位置信息,分析所得的实时数据,对动态手势进行解译,将解译结果直接显示在屏幕。本专利技术利用深度卷积神经网络对手势进行端到端的识别,不仅能够对动态手势实时识别,而且能在复杂背景下保持较高的准确率。本专利技术与现有的技术相比具有以下优点:1、本专利技术使用卷积神经网络对手势进行识别,图像中手势目标的位置检测与识别一步完成,步骤简洁,识别速度快,克服了现有技术中两步分开处理,先检测手部位置,再识别手势时无法保证实时性的缺陷。同时网络能很好地提取手势图像的特征,在任何角度对手势的识别都有很高的准确率,且对图像的背景没有要求,即使是在复杂的背景下也能准确识别出手势,克服了现有技术中图像背景要求单一的缺陷;2、本专利技术在训练卷积神经网络时采用随机缩放手势图像尺寸的方法,每迭代几次都会改变手势图像的尺寸输入到卷积神经网络中。算法采用每10个批次,网络就会随机地选择一个新的图片尺寸,让网络在不同的输入尺寸上都能达到一个很好的预测效果,同一网络能在不同分辨率上进行检测。从而使得,相同的网络可以预测不同分辨率的检测,鲁棒性和泛化性更强。附图说明图1是本专利技术的流程图;图2是本专利技术在仿真实验中使用的自然场景手势图;图3是在仿真实验中得到的手势目标识别结果图;图4是本专利技术对动态手势的识别结果图,其中图4(a)是手语中语义为“对象”的动态手势的某一帧,图4(b)是该过程检测结果的某一帧;图5是对动态手势识别过程手势中心点坐标的记录图。具体实施方式下面结合附图对本专利技术做详细描述。实施例1手势作为自然直观的交流方式,拥有着很好的应用前景:利用规定好的手势对虚拟现实中的智能设备进行控制;用作手语翻译,解决聋哑人的交流问题;无人驾驶自动识别交警手势等。目前针对基于视觉的手势识别技术大致都采用传统方法,即先分割出手势,再对手势进行分类,这种方式对照片质量要求高,且难以处理在复杂背景下的手势。因此限制了手势识别应用的发展。本专利技术针对上述现状,展开了研究与创新,提出一种基于计算机视觉的动态手势识别方法,参见图1,包括有如下步骤:(1)采集手势图像:将采集的手势图像划分为训练集和测试集,训练集用于训练卷积神经网络、测试集用于计算该网络识别的准确率。标记采集到的手势图像上的手势,得到最贴近手势的矩形框大小和中心点坐标,以及对应手势的类别。实现对其中的手势进行人工标注,得到真实数据框的类别和坐标数据。(2)聚类获得先验框:选取聚类中心数目,对人工标注的真实数据框聚类,按框的面积的重叠程度作为损失度量进行聚类,得到几个初试先验框。在本例中设置聚类中心数设为9,本文档来自技高网...
【技术保护点】
一种基于计算机视觉的动态手势识别方法,其特征在于,包括有如下步骤:(1)采集手势图像:将采集的手势图像划分为训练集和测试集,分别对其中的手势进行人工标注,得到真实数据框的类别和坐标数据;(2)聚类获得先验框:对人工标注的真实数据框聚类,以框的面积的重叠程度作为损失度量,得到几个初试先验框;(3)构建端到端的可同时预测目标手势的位置、大小及类别的卷积神经网络:以改进的GoogLeNet网络作为网络框架,以同时约束目标位置、类别的损失函数构建端到端的卷积神经网络;(4)训练端到端卷积神经网络:为了增强卷积神经网络对图像尺寸的鲁棒性,批量读入手势图像后,对读入的手势图像进行两次缩放。第一次是从原始输入的手势图像随机缩放到任意尺寸,第二次是从缩放后的任意尺寸图像再次缩放到指定尺寸,最后将缩放到指定尺寸的手势图像输入卷积神经网络中进行训练,得到训练权重,具体包括如下步骤:(4a)批量读入训练集样本的手势图像;(4b)采用双线性插值方法对图像进行随机缩放,尺寸大小选择为32的倍数,得到缩放后的读入的手势图像;(4c)采用双线性插值的方法对步骤4(b)得到的缩放后的手势图像再次进行尺寸缩放,缩放至固定大小,得到能输入到卷积网络中的图像;(4d)采用步骤(4c)得到的固定大小图像对步骤(3)构建的卷积神经网络进行训练,得到卷积神经网络对应的权重;(5)加载权重:将步骤(4d)得到的网络权重加载到步骤(3)构建的卷积神经网络中;(6)预测手势的位置和类别:读入待识别的手势图像,输入到加载好权重的网络中进行识别,同时获得手势目标识别的位置坐标及所属类别信息;(7)去除冗余预测框:采用非极大值抑制方法处理获得的位置坐标及所属类别信息,获得最终的预测框:(7a)将所有框的得分降序排列,选中最高分及其对应的框;(7b)从未处理的框中继续选一个得分最高的,重复上述过程,即执行(7a)到(7c),得到保留下来的预测框数据;(7c)从未处理的框中继续选一个得分最高的,重复上述过程,得到保留下来的预测框数据;(8)预测结果的可视化:将预测框数据映射到原图中,在原图中画出预测框并且标出手势目标所属类别标签;(9)记录和分析:实时记录手势的类别和位置信息,分析所得的实时数据,对动态手势进行解译,将解译结果直接显示在屏幕。...
【技术特征摘要】
1.一种基于计算机视觉的动态手势识别方法,其特征在于,包括有如下步骤:(1)采集手势图像:将采集的手势图像划分为训练集和测试集,分别对其中的手势进行人工标注,得到真实数据框的类别和坐标数据;(2)聚类获得先验框:对人工标注的真实数据框聚类,以框的面积的重叠程度作为损失度量,得到几个初试先验框;(3)构建端到端的可同时预测目标手势的位置、大小及类别的卷积神经网络:以改进的GoogLeNet网络作为网络框架,以同时约束目标位置、类别的损失函数构建端到端的卷积神经网络;(4)训练端到端卷积神经网络:为了增强卷积神经网络对图像尺寸的鲁棒性,批量读入手势图像后,对读入的手势图像进行两次缩放。第一次是从原始输入的手势图像随机缩放到任意尺寸,第二次是从缩放后的任意尺寸图像再次缩放到指定尺寸,最后将缩放到指定尺寸的手势图像输入卷积神经网络中进行训练,得到训练权重,具体包括如下步骤:(4a)批量读入训练集样本的手势图像;(4b)采用双线性插值方法对图像进行随机缩放,尺寸大小选择为32的倍数,得到缩放后的读入的手势图像;(4c)采用双线性插值的方法对步骤4(b)得到的缩放后的手势图像再次进行尺寸缩放,缩放至固定大小,得到能输入到卷积网络中的图像;(4d)采用步骤(4c)得到的固定大小图像对步骤(3)构建的卷积神经网络进行训练,得到卷积神经网络对应的权重;(5)加载权重:将步骤(4d)得到的网络权重加载到步骤(3)构建的卷积神经网络中;(6)预测手势的位置和类别:读入待识别的手势图像,输入到加载好权重的网络中进行识别,同时获得手势目标识别的位置坐标及所属类别信息;(7)去除冗余预测框:采用非极大值抑制方法处理获得的位置坐标及所属类别信息,获得最终的预测框:(7a)将所有框的得分降序排列,选中最高分及其对应的框;(7b)从未处理的框中继续选一个得分最高的,重复上述过程,即执行(7a)到(7c),得到保留下来的预测框数据;(7c)从未处理的框中继续选一个得分最高的,重复上述过程,得到保留下来的预测框数据;(8)预测结果的可视化:将预测框数据映射到原图中,在原图中画出预测框并且标出手势目标所属类别标签;(9)记录和分析:实时记录手势的类别和位置信息,分析所得的实时数据,对动态手势进行解译,将解译结果直接显示在屏幕。2.根据权利要求1所述的基于计算机视觉的动态手势识别方法,其特征在于,其中步骤(2)所述的对人工标注的真实数据框聚类,具体包括有如下步骤:(2a)读取手势图像训练集和测试集样本的真实框数据;(2b)采用k-means聚类算法,按照下式的损失度量d(box,centroid)进行聚类,获得先验框:d(box,centroid)=1-IOU(box,centroid)其中,c...
【专利技术属性】
技术研发人员:王爽,焦李成,方帅,王若静,杨孟然,权豆,孙莉,侯彪,马晶晶,刘飞航,
申请(专利权)人:西安电子科技大学,
类型:发明
国别省市:陕西,61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。