基于自适应空间监督的动态手势识别方法技术

技术编号:24496857 阅读:60 留言:0更新日期:2020-06-13 03:23
本发明专利技术涉及视频分析与模式识别领域,具体涉及一种动态手势识别方法。该方法首先通过卷积网络模型对视频序列进行高层视觉特征提取,并通过YOLO模型得到手势区域的位置信息,将位置信息转化为特征向量后,将手势位置特征和高层视觉特征分别输入到双流长短期记忆网络模型(LSTM)对手势轨迹进行时序模型跟踪,以手势位置特征作为主要跟踪环节,高层视觉特征对识别结果进行空间监督,并利用YOLO输出结果中的平均置信度作为自适应融合控制器参数,实现自适应融合权重调节,促进跟踪网络的回归,实现手势快速跟踪识别。

Dynamic gesture recognition based on adaptive spatial supervision

【技术实现步骤摘要】
基于自适应空间监督的动态手势识别方法
本专利技术涉及视频分析与模式识别领域,具体涉及一种动态手势识别方法。
技术介绍
伴随着人机交互方式的快速革新,手势识别以其广泛的应用性使得其有着重要的研究意义,近年来基于计算机视觉的手势识别逐渐成为了研究热点。手势识别作为一种新型的人机交互方式,可以取代原有的传统触摸交互方式,在家庭娱乐、智能驾驶、教学应用、智能穿戴等多个领域都有着重要的应用前景。手势识别是通过数学算法来识别人类手势动作的一个议题,手势可以分为静态手势和动态手势。静态手势识别往往考虑某一时刻手的姿态信息,多利用单帧图片中的手的形状或关键点的静态坐标,无法考虑时序问题,在实际应用场景中有很大的局限性。而动态手势识别考虑手势的时序关系,结合帧与帧之间的相关性,多采用模型参数空间的轨迹信息,应用面广,可识别的手势类别丰富,实际应用性高。
技术实现思路
针对传统的动态手势识别中手势跟踪算法在目标短暂丢失情况下跟踪效果差的缺点以及长序列模型依赖问题,本专利技术提出一种基于空间监督的动态手势识别算法,利用双流LSTM网络模型,以视觉特征对识别结果进行识别监督,有效的提高手势区域跟踪效果,提高识别率。本专利技术的目的可以通过以下技术方案实现:一种基于自适应空间监督的动态手势识别方法,该方法首先通过卷积网络模型对视频序列进行高层视觉特征提取,并通过YOLO模型得到手势区域的位置信息,将位置信息转化为特征向量后,将手势位置特征和高层视觉特征分别输入到双流长短期记忆网络模型(LSTM)对手势轨迹进行时序模型跟踪,以手势位置特征作为主要跟踪环节,高层视觉特征对识别结果进行空间监督,并利用YOLO输出结果中的平均置信度作为自适应融合控制器参数,实现自适应融合权重调节,促进跟踪网络的回归,实现手势快速跟踪识别。进一步地,具体包括以下步骤:步骤1:读取动态手势视频序列;步骤2:基于卷积层神经网络模型,分别提取视频序列中每帧图像的高层视觉特征,通过第一个全连接层输出一组视觉特征特征向量U用来训练LSTM模型;步骤3:利用手势检测器对视频序列中的标志手势区域进行检测定位;步骤4:将步骤3中得到的手势区域特征转化为一组新的特征特征向量V用来训练新的LSTM模型;步骤5:设计一个自适应融合控制器M用来控制决策级融合权重,并提取步骤4中得到的特征向量V中的置信度信息p作为自适应控制器控制参数;步骤6:将步骤3、步骤4得到的两组特征向量输入到双流LSTM模型,结合前后帧特征信息,建立时序模型,对手势区域进行跟踪识别;步骤7:利用步骤5得到的自适应控制器控制双流LSTM模型做决策级融合;步骤:8:根据LSTM网络的融合结果得到动态手势的识别结果。进一步地,所述步骤1中需要预先定义一个静态标签手势“Point”作为动态手势跟踪器的启用手势。进一步地,所述步骤2中的卷积层神经网络模型以视频作为输入来进行特征学习训练,通过YOLOv2的第一个全连接层生成整幅图像的4096维向量U作为视觉特征的密集表示,完成对可视手势的广义理解。进一步地,在步骤3中选择YOLOv2网络结构作为手势检测器,在卷积层的基础上,通过全连接层将特征表示回归到区域预测,得到手势区域标签特征向量V,其中V包含五维信息[xywhp],其中(xy)为手势区域中心坐标,(wh)为手势区域尺寸,p为手势置信度。进一步地,在步骤5中,自适应融合控制器是与LSTM模型等步长的控制模块M,初始时,M=[00…00],将每帧图像的特征向量V中的置信度p依次按位输入到控制器M中,此时M=[plpl-1…p3p2p1];自适应控制率公式:进一步地,在步骤7中,将特征向量U、V分别输入双流LSTM网络做时序建模,两个LSTM模型分别得到手势识别结果后在自适应融合控制器控制下做决策级融合,其中以手势区域特征V为输入的LSTM模型的融合权重为η,另一个LSTM模型权重为1-η。本专利技术的有益效果:本专利技术将YOLO模型与LSTM模型相结合,保留YOLO对特定物体快速检测的优点的同时,利用LSTM神经网络对手势区域进行时序模型跟踪,有效的解决动态手势存在的长序列模型依赖问题,达到在短暂时间序列手势丢失情况下跟踪的目的,有效的提高动态手势的识别率。附图说明为了便于本领域技术人员理解,下面结合附图对本专利技术作进一步的说明。图1是本专利技术基于空间监督的动态手势识别方法的算法流程图;图2是本专利技术中基于YOLO模型的特征提取流程图;图3是本专利技术中LSTM模型中基础结构图;图4是本专利技术中决策级融合框图;图5是本专利技术中定义的6种动态手势轨迹示意图;图6为本专利技术中动态手势识别率混淆矩阵。具体实施方式本专利技术主要关注动态手势识别,利用深度学习网络融合来识别6种动态手势,YOLO模型预先检测起始标志手势,再提取的手势区域特征训练LSTM模型做时序模型跟踪,卷积层提取的全局视觉特征训练LSTM模型对最终结果进行监督,通过双流LSTM模型的做决策级融合对动态手势进行识别。一种基于自适应空间监督的动态手势识别方法,包括以下步骤:步骤1:读取动态手势视频序列;预先定义一个静态标签手势“Point”作为动态手势跟踪器的启用手势。步骤2:基于卷积层神经网络模型,分别提取视频序列中每帧图像的高层视觉特征,通过第一个全连接层输出一组视觉特征特征向量U用来训练LSTM模型;传统卷积层网络以视频作为输入来进行特征学习训练,通过YOLOv2的第一个全连接层生成整幅图像的4096维向量U作为视觉特征的密集表示,完成对可视手势的广义理解。步骤3:利用手势检测器对视频序列中的标志手势区域进行检测定位;步骤4:将步骤3中得到的手势区域特征转化为一组新的特征特征向量V用来训练新的LSTM模型;选择YOLOv2网络结构作为手势检测器,在卷积层的基础上,通过全连接层将特征表示回归到区域预测,得到手势区域标签特征向量V,其中V包含五维信息[xywhp],其中(xy)为手势区域中心坐标,(wh)为手势区域尺寸,p为手势置信度。步骤5:设计一个自适应融合控制器M用来控制决策级融合权重,并提取步骤4中得到的特征向量V中的置信度信息p作为自适应控制器控制参数;自适应融合控制器用来控制后期特征融合,控制器是与LSTM模型等步长的控制模块M,初始时,M=[00…00],将每帧图像的特征向量V中的置信度p依次按位输入到控制器M中,此时M=[plpl-1…p3p2p1];自适应控制率公式:步骤6:将步骤3、步骤4得到的两组特征向量输入到双流LSTM模型,结合前后帧特征信息,建立时序模型,对手势区域进行跟踪识别;步骤7:利用步骤5得到的自适应控制器控制双流LSTM模型做决策级融合;将特征向量U、V分别输入双流LSTM网络做时序建模,两个LSTM模型分别得到手势识别结果后在自适应融合控制器控制下做决策级融合,其中以手势区本文档来自技高网...

【技术保护点】
1.基于自适应空间监督的动态手势识别方法,其特征在于,该方法首先通过卷积网络模型对视频序列进行高层视觉特征提取,并通过YOLO模型得到手势区域的位置信息,将位置信息转化为特征向量后,将手势位置特征和高层视觉特征分别输入到双流长短期记忆网络模型(LSTM)对手势轨迹进行时序模型跟踪,以手势位置特征作为主要跟踪环节,高层视觉特征对识别结果进行空间监督,并利用YOLO输出结果中的平均置信度作为自适应融合控制器参数,实现自适应融合权重调节,促进跟踪网络的回归,实现手势快速跟踪识别。/n

【技术特征摘要】
1.基于自适应空间监督的动态手势识别方法,其特征在于,该方法首先通过卷积网络模型对视频序列进行高层视觉特征提取,并通过YOLO模型得到手势区域的位置信息,将位置信息转化为特征向量后,将手势位置特征和高层视觉特征分别输入到双流长短期记忆网络模型(LSTM)对手势轨迹进行时序模型跟踪,以手势位置特征作为主要跟踪环节,高层视觉特征对识别结果进行空间监督,并利用YOLO输出结果中的平均置信度作为自适应融合控制器参数,实现自适应融合权重调节,促进跟踪网络的回归,实现手势快速跟踪识别。


2.根据权利要求1所述的基于自适应空间监督的动态手势识别方法,其特征在于:具体包括以下步骤:
步骤1:读取动态手势视频序列;
步骤2:基于卷积层神经网络模型,分别提取视频序列中每帧图像的高层视觉特征,通过第一个全连接层输出一组视觉特征特征向量U用来训练LSTM模型;
步骤3:利用手势检测器对视频序列中的标志手势区域进行检测定位;
步骤4:将步骤3中得到的手势区域特征转化为一组新的特征特征向量V用来训练新的LSTM模型;
步骤5:设计一个自适应融合控制器M用来控制决策级融合权重,并提取步骤4中得到的特征向量V中的置信度信息p作为自适应控制器控制参数;
步骤6:将步骤3、步骤4得到的两组特征向量输入到双流LSTM模型,结合前后帧特征信息,建立时序模型,对手势区域进行跟踪识别;
步骤7:利用步骤5得到的自适应控制器控制双流LSTM模型做决策级融合;
步骤:8:根据LSTM网络的融合结果得到动态手势的识别结果。


3.根据...

【专利技术属性】
技术研发人员:姬晓飞张旭李晨宇王艳辉田晓鸥
申请(专利权)人:沈阳航空航天大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1