基于计算机视觉的动态手势识别方法技术

技术编号：17486483 阅读：66 留言：0更新日期：2018-03-17 10:43

本发明专利技术公开了一种基于计算机视觉的动态手势识别方法。解决了在复杂背景下手势的动态识别问题。其实现步骤为：采集手势数据集并进行人工标注，对标注的图像集真实框进行聚类获得训练的先验框，构建端到端的可同时预测目标位置、大小和类别的卷积神经网络，训练网络获得权重，加载权重到网络，输入手势图像进行识别，非极大值抑制方法处理获得的位置坐标及所属类别信息，获得最终的识别结果图像，实时记录识别信息获得动态手势解译结果。本发明专利技术克服了现有技术中手势识别中手部检测和类别识别分步进行的缺陷，极大的简化了手势识别的过程，提高了识别的准确度和速度，增强了识别系统的鲁棒性，并且实现了对动态手势解译的功能。

A dynamic gesture recognition method based on computer vision

全部详细技术资料下载

【技术实现步骤摘要】
基于计算机视觉的动态手势识别方法
本专利技术属于图像处理
，更进一步涉及图像的目标识别技术，具体是一种基于计算机视觉的动态手势识别方法。可用于对图像中手势的位置检测和状态识别，以便为手势识别后续的手语翻译、游戏互动等应用提供更准确的信息。
技术介绍
近年来，随着计算机视觉和机器学习等相关学科的发展，人机交互技术(humancomputerinteraction)正逐渐从以“计算机为中心”向以“人为中心”转变。以人体自身作为交流平台的自然用户界面为操作者提供了更为直观、舒适的交互体验，其中包括人脸识别、手势识别以及体势识别等。其中日常生活中的手势作为自然直观的交流方式，拥有着很好的应用前景：利用规定好的手势对虚拟现实中的智能设备进行控制；用作手语翻译，解决聋哑人的交流问题；无人驾驶自动识别交警手势。因此，手势识别有着很重要的研究价值和意义。手势识别主要集中在两个方面，一种是基于传感设备(如：数据手套+位置跟踪仪)的手势识别，另一种是基于视觉的手势识别。由于基于视觉的手势识别能够使操作者以更加自然的方式进行人机交互，且灵活性更大，所以得到了更多的研究和关注。目前多数手势识别都是基于对图像中的手势进行位置检测及识别，采用先检测手部位置，再确定手势类别的两步识别方法。Zhi-huaChen等人发表的论文“Real-TimeHandGestureRecognitionUsingFingerSegmentation”(Thescientificworldjournal,2014(3):267872)中提出了一种基于手部检测和形状检测的方法。该方法首先利用背景差法...
基于计算机视觉的动态手势识别方法

【技术保护点】
一种基于计算机视觉的动态手势识别方法，其特征在于，包括有如下步骤：(1)采集手势图像：将采集的手势图像划分为训练集和测试集，分别对其中的手势进行人工标注，得到真实数据框的类别和坐标数据；(2)聚类获得先验框：对人工标注的真实数据框聚类，以框的面积的重叠程度作为损失度量，得到几个初试先验框；(3)构建端到端的可同时预测目标手势的位置、大小及类别的卷积神经网络：以改进的GoogLeNet网络作为网络框架，以同时约束目标位置、类别的损失函数构建端到端的卷积神经网络；(4)训练端到端卷积神经网络：为了增强卷积神经网络对图像尺寸的鲁棒性，批量读入手势图像后，对读入的手势图像进行两次缩放。第一次是从原始输入的手势图像随机缩放到任意尺寸，第二次是从缩放后的任意尺寸图像再次缩放到指定尺寸，最后将缩放到指定尺寸的手势图像输入卷积神经网络中进行训练，得到训练权重，具体包括如下步骤：(4a)批量读入训练集样本的手势图像；(4b)采用双线性插值方法对图像进行随机缩放，尺寸大小选择为32的倍数，得到缩放后的读入的手势图像；(4c)采用双线性插值的方法对步骤4(b)得到的缩放后的手势图像再次进行尺寸缩放，缩放至固...

【技术特征摘要】
1.一种基于计算机视觉的动态手势识别方法，其特征在于，包括有如下步骤：(1)采集手势图像：将采集的手势图像划分为训练集和测试集，分别对其中的手势进行人工标注，得到真实数据框的类别和坐标数据；(2)聚类获得先验框：对人工标注的真实数据框聚类，以框的面积的重叠程度作为损失度量，得到几个初试先验框；(3)构建端到端的可同时预测目标手势的位置、大小及类别的卷积神经网络：以改进的GoogLeNet网络作为网络框架，以同时约束目标位置、类别的损失函数构建端到端的卷积神经网络；(4)训练端到端卷积神经网络：为了增强卷积神经网络对图像尺寸的鲁棒性，批量读入手势图像后，对读入的手势图像进行两次缩放。第一次是从原始输入的手势图像随机缩放到任意尺寸，第二次是从缩放后的任意尺寸图像再次缩放到指定尺寸，最后将缩放到指定尺寸的手势图像输入卷积神经网络中进行训练，得到训练权重，具体包括如下步骤：(4a)批量读入训练集样本的手势图像；(4b)采用双线性插值方法对图像进行随机缩放，尺寸大小选择为32的倍数，得到缩放后的读入的手势图像；(4c)采用双线性插值的方法对步骤4(b)得到的缩放后的手势图像再次进行尺寸缩放，缩放至固定大小，得到能输入到卷积网络中的图像；(4d)采用步骤(4c)得到的固定大小图像对步骤(3)构建的卷积神经网络进行训练，得到卷积神经网络对应的权重；(5)加载权重：将步骤(4d)得到的网络权重加载到步骤(3)构建的卷积神经网络中；(6)预测手势的位置和类别：读入待识别的手势图像，输入到加载好权重的网络中进行识别，同时获得手势目标识别的位置坐标及所属类别信息；(7)去除冗余预测框：采用非极大值抑制方法处理获得的位置坐标及所属类别信息，获得最终的预测框：(7a)将所有框的得分降序排列，选中最高分及其对应的框；(7b)从未处理的框中继续选一个得分最高的，重复上述过程，即执行(7a)到(7c)，得到保留下来的预测框数据；(7c)从未处理的框中继续选一个得分最高的，重复上述过程，得到保留下来的预测框数据；(8)预测结果的可视化：将预测框数据映射到原图中，在原图中画出预测框并且标出手势目标所属类别标签；(9)记录和分析：实时记录手势的类别和位置信息，分析所得的实时数据，对动态手势进行解译，将解译结果直接显示在屏幕。2.根据权利要求1所述的基于计算机视觉的动态手势识别方法，其特征在于，其中步骤(2)所述的对人工标注的真实数据框聚类，具体包括有如下步骤：(2a)读取手势图像训练集和测试集样本的真实框数据；(2b)采用k-means聚类算法，按照下式的损失度量d(box,centroid)进行聚类，获得先验框：d(box,centroid)＝1-IOU(box,centroid)其中，c...

【专利技术属性】
技术研发人员：王爽，焦李成，方帅，王若静，杨孟然，权豆，孙莉，侯彪，马晶晶，刘飞航，
申请(专利权)人：西安电子科技大学，
类型：发明
国别省市：陕西,61

全部详细技术资料下载我是这个专利的主人