当前位置: 首页 > 专利查询>南昌大学专利>正文

一种基于三维残差神经网络和视频序列的动态手语识别方法技术

技术编号:21833757 阅读:47 留言:0更新日期:2019-08-10 18:24
本发明专利技术提供了一种基于三维残差神经网络和视频序列的动态手语识别方法,所述方法提出了基于三维残差神经网络的新模型B3D ResNet,包括以下步骤:步骤1,在视频帧中,采用Faster R‑CNN模型检测手的位置,并从背景中分割出手;步骤2,利用B3D ResNet模型对输入的视频序列进行手势的时空特征提取和特征序列分析;步骤3,通过对输入的视频序列进行分类,可以识别手势,有效地实现动态手语识别。本发明专利技术通过分析视频序列的时空特征,可以提取有效的动态手势时空特征序列,从而达到识别不同手势的目的,并且在复杂或类似的手语识别上也获得了良好的性能。通过测试数据集的实验结果表明,本发明专利技术可以准确有效地区分不同的手语,以及相似的手势对。

A Dynamic Sign Language Recognition Method Based on Three-dimensional Residual Neural Network and Video Sequence

【技术实现步骤摘要】
一种基于三维残差神经网络和视频序列的动态手语识别方法
本专利技术涉及手语识别
,具体为一种基于三维残差神经网络和视频序列的动态手语识别方法。
技术介绍
手语识别是聋哑人与非聋哑人交流的一种有效技术,随着人机交互研究的不断深入,手语识别已成为一个热门话题。近年来,手语自动识别系统通过将手势转换为文本或语音,为人机交互创造了一种新的方式,这种技术可以通过计算机辅助技术来实现。目前,在这方面已经有许多成功的应用,如分配语言翻译、手语导师和特殊教育,这些都可以帮助聋哑人与他人进行流利的交流。另一方面,手语普遍是由一系列动作构成的,是一种具有相似特征的快速运动。因此,静态手语识别技术很难解决手语动作的复杂性和变化性问题。因此,研究动态手语识别技术是解决此类问题的有效方法。基于视觉的动态手势识别技术具有灵活性、可扩展性和低成本等特点,是当前手势交互技术研究的热点。然而,动态手语识别技术在解决身体背景下手指运动的复杂性问题方面也面临着挑战。另一个困难是如何从图像或视频序列中提取最有效的特征。此外,如何选择合适的分类器也是获得准确识别结果的关键因素。为了帮助聋哑人在日常生活中进行正常的交流,越来越多的研究者致力于改善上述问题,在动态手语识别方面已经取得了许多成果。解决动态手语识别问题的方法主要有两种:一种是基于手势形状和运动轨迹的识别方法,另一种是基于手语视频序列的识别方法。在传统的动态手语识别中,主要利用手势的形状特征和运动轨迹特征来识别手势。但是这些特征不能完全满足实际动态手语识别的要求。随着深度学习理论的迅速发展,数据驱动方法在目标检测和手势识别方面表现出了突出的优异性。与基于手势形状和运动轨迹的手语识别方法不同,基于视频序列的手语识别能够充分利用时间信息,与整个场景相比,手的尺寸相对较小,因此手语动作的有效空间特征会被不相干信息所覆盖。因此,同时学习手语动作的时空特征将会是动态手语识别的一种有效方法。
技术实现思路
本专利技术的目的在于提供一种基于三维残差神经网络和视频序列的动态手语识别方法,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种基于三维残差神经网络和视频序列的动态手语识别方法,所述方法提出了基于三维残差神经网络的新模型B3DResNet,包括以下步骤:步骤1,在视频帧中,采用FasterR-CNN模型检测手的位置,并从背景中分割出手;步骤2,利用B3DResNet模型对输入的视频序列进行手势的时空特征提取和特征序列分析;步骤3,通过对输入的视频序列进行分类,可以识别手势,有效地实现动态手语识别。进一步的,所述采用FasterR-CNN模型检测手的位置的步骤如下:(1)当图像序列输入卷积神经网络时,将会生成特征图,区域提议网络在以核大小为n×n的网络窗口在特征图上滑动;(2)区域生成网络推荐候选区域,输出多个符合条件的候选区域;(3)感兴趣区域池化层将不同大小的候选区域转换为固定长度的候选区域,然后输出固定长度的候选区域;(4)对每个感兴趣区域进行分类和边界框回归,输出候选区域所属的类,和候选区域在图像中的精确位置。进一步的,所述B3DResNet模型主要包括17个卷积层,2个双向LSTM层,1个全连接层;在输入层中,有八个大小为112×112的图像帧,以当前帧为中心,并通过三个具有三维通道输入L×H×W,其中L,H和W是时间长度,高度和宽度;然后,分别在三个通道运用三维卷积,其内核大小为7×7×3,其中7×7在空间维度中,在时间维度上为3;核大小为2×2×1的下采样作用于卷积层中的每个特征图,来降低特征图维数;通过在三个通道上应用具有内核大小3×3×3的3D卷积来获得下一个卷积层C2_x,下一层C3_x,C4_x和C5_x具有相同的操作;之后,在每两层卷积神经网络之间插入直连接将网络转换为其对应的残差版本;然后特征向量被送到在两个方向上运行的长短期记忆网络;将每个方向长短期记忆网络的隐藏状态层,完全连接层和软最大层组合以获得对应于每个动作的中间分数;最后,将两个长短期记忆网络的分数平均以获得当前序列的类别预测分数。进一步的,所述B3DResNet模型对输入的视频序列进行手势的时空特征提取包括:首先提取输入视频序列的特征向量,通过构建三维卷积,卷积层中的特征映射连接到前一层中的多个连续帧,然后捕获运动信息;三维卷积网络层的设计原理是利用三维卷积核进行的,它可以从帧立方体中提取一种类型的特征;在任何单个网络层的每个要素中,任意位置处的特征向量值由以下公式给出:其中,tanh()是双曲正切函数,参数t和x是当前层的连接参数,H、W和D是三维卷积内核的高度,宽度和时间维度,z是特征层的偏差值。本专利技术利用输入的加性残差函数,通过快捷连接,学习时空特征;为了将二维残差单元用于编码时空视频信息的三维体系结构,基本的残余单元按照三维卷积网络层的设计原理进行修改,三维卷积分别在三个通道中的每一个通道具有卷积核大小为3×3×3的相同核尺寸,B3DResNet模型可以通过将残差连接应用于三维卷积网络,并且自动地从输入视频序列中提取时空特征。进一步的,所述B3DResNet模型对输入的视频序列进行手势的特征序列分析包括:利用双向长短期记忆单元,其包含六个共享权重并整合来自未来和过去的信息,以对视频序列中的每个块进行预测;在双向长短期记忆单元中,前向传播层和后向传播层连接到输出层;从概念上讲,存储器单元存储过去的上下文,输入门和输出门单元允许长时间存储上下文;同时,可以通过遗忘门清除单元中的存储器;从形式上讲,包括输入序列x={x1,x2,...,xt},单元状态c={c1,c2,...,ct}和隐藏状态h={h1,h2,...,ht},it,ft,ot,ct,gt,ht分别是输入门,遗忘门,输出门,存储器单元激活矢量,状态函数,隐藏函数;双向长短期记忆单元的方程如下:it=σ(wxixt+whiht-1+bi)(2)ft=σ(wxfxt+whfht-1+bf)(3)ot=σ(wxoxt+whoht-1+bo)(4)gt=tanh(wxcxt+whcht-1+bx)(5)ct=ftct-1+itgt(6)ht=ottanh(ct)(7)其中tanh()是双曲正切函数,遗忘门决定何时应从存储器单元清除信息,输入门决定何时应将新的形成结合到存储器中,该层生成一组候选值,如果输入门允许,它们将被添加到存储器单元中;参考公式(6),基于遗忘门,输入门和新候选值的输出,更新存储器单元;在公式(7)中,输出门控制隐藏状态和存储信息;最后,隐藏状态表示为存储器单元状态的函数和输出门之间的乘积。与现有技术相比,本专利技术的有益效果是:本专利技术提出了一种用于动态手语识别的新模型B3DResNet。该模型通过分析视频序列的时空特征,可以提取有效的动态手势时空特征序列,从而达到识别不同手势的目的,并且在复杂或类似的手语识别上也获得了良好的性能。通过测试数据集DEVISIGN-D和SLR_dataset的实验结果表明,本专利技术可以准确有效地区分不同的手语,以及相似的手势对。此外,本专利技术充分利用了动态手语的时空特征,提高了动态手语识别的准确性和整体性能。附图说明图1为本专利技术结构框架图;图2为本专利技术B3DResNet模型结本文档来自技高网
...

【技术保护点】
1.一种基于三维残差神经网络和视频序列的动态手语识别方法,其特征在于:所述方法提出了基于三维残差神经网络的新模型B3D ResNet,包括以下步骤:步骤1,在视频帧中,采用Faster R‑CNN模型检测手的位置,并从背景中分割出手;步骤2,利用B3D ResNet模型对输入的视频序列进行手势的时空特征提取和特征序列分析;步骤3,通过对输入的视频序列进行分类,可以识别手势,有效地实现动态手语识别。

【技术特征摘要】
1.一种基于三维残差神经网络和视频序列的动态手语识别方法,其特征在于:所述方法提出了基于三维残差神经网络的新模型B3DResNet,包括以下步骤:步骤1,在视频帧中,采用FasterR-CNN模型检测手的位置,并从背景中分割出手;步骤2,利用B3DResNet模型对输入的视频序列进行手势的时空特征提取和特征序列分析;步骤3,通过对输入的视频序列进行分类,可以识别手势,有效地实现动态手语识别。2.根据权利要求1所述的一种基于三维残差神经网络和视频序列的动态手语识别方法,其特征在于:所述采用FasterR-CNN模型检测手的位置的步骤如下:(1)当图像序列输入卷积神经网络时,将会生成特征图,区域提议网络在以核大小为n×n的网络窗口在特征图上滑动;(2)区域生成网络推荐候选区域,输出多个符合条件的候选区域;(3)感兴趣区域池化层将不同大小的候选区域转换为固定长度的候选区域,然后输出固定长度的候选区域;(4)对每个感兴趣区域进行分类和边界框回归,输出候选区域所属的类,和候选区域在图像中的精确位置。3.根据权利要求1所述的一种基于三维残差神经网络和视频序列的动态手语识别方法,其特征在于:所述B3DResNet模型主要包括17个卷积层,2个双向LSTM层,1个全连接层;在输入层中,有八个大小为112×112的图像帧,以当前帧为中心,并通过三个具有三维通道输入L×H×W,其中L,H和W是时间长度,高度和宽度;然后,分别在三个通道运用三维卷积,其内核大小为7×7×3,其中7×7在空间维度中,在时间维度上为3;核大小为2×2×1的下采样作用于卷积层中的每个特征图,来降低特征图维数;通过在三个通道上应用具有内核大小3×3×3的3D卷积来获得下一个卷积层C2_x,下一层C3_x,C4_x和C5_x具有相同的操作;之后,在每两层卷积神经网络之间插入直连接将网络转换为其对应的残差版本;然后特征向量被送到在两个方向上运行的长短期记忆网络;将每个方向长短期记忆网络的隐藏状态层,完全连接层和软最大层组合以获得对应于每个动作的中间分数;最后,将两个长短期记忆网络的分数平均以获得当前序列的类别预测分数。4.根据权利要求1所述的一种基于三维残差神经网络和视频序列的动态手语识别方法,其特征在于:所述B3DResNet模型对输入的视频序列进行手势的时空特征提取包括:首先提取输入视频序列的特征向量,通过构建三维卷积,卷积层中的...

【专利技术属性】
技术研发人员:闵卫东廖艳秋熊鹏文韩清张愚徐剑强邹松熊辛汪琦
申请(专利权)人:南昌大学
类型:发明
国别省市:江西,36

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1