一种融合图像和生理信号双通道的体感动态手势识别方法技术

技术编号:25087888 阅读:18 留言:0更新日期:2020-07-31 23:32
一种融合图像和生理信号双通道的体感动态手势识别方法,具体步骤如下:Step1:采集动态手势生理信号和图像样本;Step2:生理信号降噪和降频处理;Step3:图像通道卷积神经网络提取图像特征;Step4:建立多通道体感手势LSTM识别模型;Step5:基于最优体感动态手势识别模型的实时测试。本发明专利技术基于深度学习理论构建融合识别框架,通过卷积神经网络和长短时记忆网络搭建体感动态手势识别模型,识别精度高,实时性好,识别鲁棒性较好。

【技术实现步骤摘要】
一种融合图像和生理信号双通道的体感动态手势识别方法
本专利技术涉及动态手势识别领域,特别涉及一种融合图像和生理信号双通道的体感动态手势识别方法。
技术介绍
随着经济和科技的发展,人们对生活质量的要求越来越高。体感交互方式满足自然友好、人性化等特点,能够在任何时间、任何地点、以任何方式进行信息获取与处理,彰显着“以人为中心”的核心思想,对发展普适智能计算和人机智能交互技术都有重要意义,从而直接在虚拟现实、运动康复、智能家居等领域发挥着重要的作用。其中,体感动态手势识别是体感交互技术的关键模块之一,同时也是重要的支撑技术。传统的体感动态手势识别可分为几大类,分别是惯性传感器/数据手套捕获、基于图像/视频的动作捕获,还有以及近几年兴起的基于生理信号动作捕获等。其中现今最为主流的两种的方法是基于图像和生理信号的体感手势识别技术,但基于图像的方法观察范围有限且容易受到光照条件、遮挡等多种因素的影响,而基于生理信号对测量噪声十分敏感并且信号个体差异较大,可见这两种主流方法并不能完全满足体感动态手势识别的需求,针对此需要一种融合的体感手势识别方案,从多传感器融合的角度将这两种方法结合起来,优势互补。近年来,随着深度学习框架革命性的提出,深度学习理论被广泛应用于图像处理、动作识别、机器翻译、语音识别等领域。卷积神经网络(CNN),CNN的本质在于构建多个能够提取数据特征的滤波器,对输入数据进行逐层卷积和池化操作来提取数据之间隐藏的,可以提取高维数据在不同层次上的特征,在体感手势图像处理上有着显著的优势。循环神经网络(RNN)将时序的概念引入到网络结构设计中,隐藏层之间的互连结构反映出时间序列之间的相互影响关系,长短期记忆(LSTM)模型是RNN的一种变体,它通过在网络中加入细胞结构(cell)弥补RNN的不足,从而对时序数据具有更强地适用性,可以捕获动态手势的时序性特征。受此启发,
技术实现思路
为了解决以上问题,本专利技术提供一种融合图像和生理信号双通道的体感动态手势识别方法,基于深度学习理论构建融合识别框架,通过卷积神经网络和长短时记忆网络搭建体感动态手势识别模型,识别精度高,实时性好,识别鲁棒性较好。为达此目的:本专利技术提供一种融合图像和生理信号双通道的体感动态手势识别方法,具体步骤如下:Step1:采集动态手势生理信号和图像样本;选择生理信号和图像两个通道的数据做体感手势识别的样本,其中生理信号为表面肌电信号sEMG,图像为RGB图像,选取多个身体状况健康的志愿者作为实验研究对象,每个实验者都佩戴有可穿戴智能交互设备,设备有表面肌电传感器,同时采用Kinect摄像机实时采集动态手势图像,实验者分别多次做出相应动态手势,生理信号通道上,表面肌电传感器收集每次手势的表面肌电信号;图像上,采用阈值分割方法,利用深度信息映射到彩色信息上,Kinect平台可以将手部的信息与背景分离出来,以避免了背景信息的干扰,最终根据手势类别将每组序列进行标注;Step2:生理信号降噪和降频处理;生理信号中存在部分高频噪声,对后续的识别模型有干扰,采用五点三次多项式法对生理信号进行降噪处理,具体如下:建立生理信号与采集时间t的三次项关系式y=a0+a1x+a2x2+a3x3其中a0、a1、a2、a3为多项式各系数,y对应生理信号数值,x对应采集时间t,设定动态时窗为0.5s,即每个时窗内包含5个点,生理信号采集间隔为0.1s,五个点分别为(x-2,y-2),(x-1,y-1),(x0,y0),(x1,y1),(x2,y2),将五个点的坐标一一代入,即有方程组基于最小二乘法,方程组可转为每个上列方程组可用矩阵表示Y5×1=X5×4·A4×1+E5×1;解得A的最小二乘解则降噪后的值;从而对生理信号完成数据平滑与降噪;生理信号采集间隔为0.1s,而图像的采集间隔为0.5s,生理信号每五个点取平均值,则采集每个动态手势样本,对应的输入特征为X=[X1,X2,X3,...,X20],其中为每个时步的RGB图像通道特征,为每个时步的生理信号通道特征;Step3:图像通道卷积神经网络提取图像特征;图像通道部分,Kinect平台采集的图像尺寸往往太大,为加快训练速度,将图像转为小尺寸图像,则CNN输入特征图的大小为110*110,图像通道的流程为第一卷积层→第一池化层→第二卷积层→第二池化层→扁平层→全连接层,其中卷积层计算方法为其中,Hi,Hi为第i-1,i层特征图;f(x)为非线性激励函数Relu,为卷积核与特征图的卷积操作,wi为第i层卷积核的权值向量,bi为第i层的偏置量,池化层采用最大池化层,计算方法为Hj=f(maxpooling(Hj-1)+bj),其中,Hj-1,Hj为第j,j-1层特征图;f(x)为非线性激励函数Relu,maxpooling(x)为最大池化操作,bj为第j层的偏置量,扁平层将数据扁平化,将数据转化为一维向量,并通过含有5个神经元点的全连接层,最终获取图像通道每张图片的高层次特征向量Qi=[qi1,qi2,......,qi5],最终可将双通道提取的特征表示为其中作为LSTM模型的输入特征矩阵;Step4:建立多通道体感手势LSTM识别模型;多通道体感手势LSTM识别模型,由4个LSTM循环体组成,每层循环体之间有Dropout以防止过拟合,所述的每层LSTM网络由四个部分组成,分别为输入门即决定让多少新信息加入到细胞状态中,忘记门即决定从细胞状态中丢弃什么信息、输出门即决定最终输出什么信息和细胞状态即在整个循环周期内定义和维护一个内部记忆单元状态,其中LSTM神经元细胞中每个时刻不同门的更新公式如下:遗忘门:ft=sigmoid(wf*[ht-1,xt]+bf)输入门:it=sigmoid(wi*[ht-1,xt]+bi)输入的候选状态:记忆细胞的输出:输出门:ot=sigmoid(wo*[ht-1,xt]+bo)单元输出:ht=ot*tanh(ct)其中,wi、wf、wo、wc分别为输入门、遗忘门、输出门以及细胞状态的权值矩阵;bi、bf、bo、bc为对应的偏置项;ht-1为t-1时刻的隐藏层状态;xt为t时刻的输入向量;tanh为双曲正切激活函数;最后一层LSTM循环体后接全连接层,激活函数为Softmax函数,神经元节点对应所需分类的动态手势类别数,所以该层的节点数为9,softmax表达式为式中,t=9为类别数,θi(1≤i≤t)为分类层参数;基于Pytorch深度学习框架选取每批训练大小N为100,即每个Epoch选取100个样本,Dropout层系数选取0.2,以最小化对数似然损失为目标对融合识别模型进行训练,本专利技术采用交叉熵损失函数,其表达式如下:式中,t为样本数,y(i)为实际样本标签,为模型判别的标签。采用Adam为优化器,直到测试集的交叉熵损失小于一定阈值本文档来自技高网
...

【技术保护点】
1.一种融合图像和生理信号双通道的体感动态手势识别方法,具体步骤如下,其特征在于:/nStep1:采集动态手势生理信号和图像样本;/n选择生理信号和图像两个通道的数据做体感手势识别的样本,其中生理信号为表面肌电信号sEMG,图像为RGB图像,选取多个身体状况健康的志愿者作为实验研究对象,每个实验者都佩戴有可穿戴智能交互设备,设备有表面肌电传感器,同时采用Kinect摄像机实时采集动态手势图像,实验者分别多次做出相应动态手势,生理信号通道上,表面肌电传感器收集每次手势的表面肌电信号;图像上,采用阈值分割方法,利用深度信息映射到彩色信息上,Kinect平台可以将手部的信息与背景分离出来,以避免了背景信息的干扰,最终根据手势类别将每组序列进行标注;/nStep2:生理信号降噪和降频处理;/n生理信号中存在部分高频噪声,对后续的识别模型有干扰,采用五点三次多项式法对生理信号进行降噪处理,具体如下:/n建立生理信号与采集时间t的三次项关系式/ny=a

【技术特征摘要】
1.一种融合图像和生理信号双通道的体感动态手势识别方法,具体步骤如下,其特征在于:
Step1:采集动态手势生理信号和图像样本;
选择生理信号和图像两个通道的数据做体感手势识别的样本,其中生理信号为表面肌电信号sEMG,图像为RGB图像,选取多个身体状况健康的志愿者作为实验研究对象,每个实验者都佩戴有可穿戴智能交互设备,设备有表面肌电传感器,同时采用Kinect摄像机实时采集动态手势图像,实验者分别多次做出相应动态手势,生理信号通道上,表面肌电传感器收集每次手势的表面肌电信号;图像上,采用阈值分割方法,利用深度信息映射到彩色信息上,Kinect平台可以将手部的信息与背景分离出来,以避免了背景信息的干扰,最终根据手势类别将每组序列进行标注;
Step2:生理信号降噪和降频处理;
生理信号中存在部分高频噪声,对后续的识别模型有干扰,采用五点三次多项式法对生理信号进行降噪处理,具体如下:
建立生理信号与采集时间t的三次项关系式
y=a0+a1x+a2x2+a3x3
其中a0、a1、a2、a3为多项式各系数,y对应生理信号数值,x对应采集时间t,设定动态时窗为0.5s,即每个时窗内包含5个点,生理信号采集间隔为0.1s,五个点分别为(x-2,y-2),(x-1,y-1),(x0,y0),(x1,y1),(x2,y2),将五个点的坐标一一代入,即有方程组



基于最小二乘法,方程组可转为每个上列方程组可用矩阵表示Y5×1=X5×4·A4×1+E5×1;
解得A的最小二乘解则降噪后的值;

从而对生理信号完成数据平滑与降噪;
生理信号采集间隔为0.1s,而图像的采集间隔为0.5s,生理信号每五个点取平均值,则采集每个动态手势样本,对应的输入特征为X=[X1,X2,X3,...,X20],其中为每个时步的RGB图像通道特征,为每个时步的生理信号通道特征;
Step3:图像通道卷积神经网络提取图像特征;
图像通道部分,Kinect平台采集的图像尺寸往往太大,为加快训练速度,将图像转为小尺寸图像,则CNN输入特征图的大小为110*110,图像通道的流程为第一卷积层→第一池化层→第二卷积层→第二池化层→扁平层→全连接层,
其中卷积层计算方法为其中,Hi,Hi为第i-1,i层特征图;f(x)为非线性激励函数Relu,为卷积核与特征图的卷积操作,wi为第i层卷积核的权值向量,bi为第i层的偏置量,池化层采用最大池化层,计算方法为Hj=f(maxpooling(Hj-1)+bj),其中,Hj-1,Hj为第j,j-1层特征图;f(x)为非线性激励函数Relu,maxpooling(x)为最大池化操作,bj为第j层的偏置量,扁平层将数据扁平化,...

【专利技术属性】
技术研发人员:杨忠宋爱国徐宝国翟力欣王逸之
申请(专利权)人:金陵科技学院
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1