一种基于三维残差神经网络和视频序列的动态手语识别方法技术

技术编号：21833757 阅读：47 留言：0更新日期：2019-08-10 18:24

本发明专利技术提供了一种基于三维残差神经网络和视频序列的动态手语识别方法，所述方法提出了基于三维残差神经网络的新模型B3D ResNet，包括以下步骤：步骤1，在视频帧中，采用Faster R‑CNN模型检测手的位置，并从背景中分割出手；步骤2，利用B3D ResNet模型对输入的视频序列进行手势的时空特征提取和特征序列分析；步骤3，通过对输入的视频序列进行分类，可以识别手势，有效地实现动态手语识别。本发明专利技术通过分析视频序列的时空特征，可以提取有效的动态手势时空特征序列，从而达到识别不同手势的目的，并且在复杂或类似的手语识别上也获得了良好的性能。通过测试数据集的实验结果表明，本发明专利技术可以准确有效地区分不同的手语，以及相似的手势对。

A Dynamic Sign Language Recognition Method Based on Three-dimensional Residual Neural Network and Video Sequence

全部详细技术资料下载

【技术实现步骤摘要】
一种基于三维残差神经网络和视频序列的动态手语识别方法
本专利技术涉及手语识别
，具体为一种基于三维残差神经网络和视频序列的动态手语识别方法。
技术介绍
手语识别是聋哑人与非聋哑人交流的一种有效技术，随着人机交互研究的不断深入，手语识别已成为一个热门话题。近年来，手语自动识别系统通过将手势转换为文本或语音，为人机交互创造了一种新的方式，这种技术可以通过计算机辅助技术来实现。目前，在这方面已经有许多成功的应用，如分配语言翻译、手语导师和特殊教育，这些都可以帮助聋哑人与他人进行流利的交流。另一方面，手语普遍是由一系列动作构成的，是一种具有相似特征的快速运动。因此，静态手语识别技术很难解决手语动作的复杂性和变化性问题。因此，研究动态手语识别技术是解决此类问题的有效方法。基于视觉的动态手势识别技术具有灵活性、可扩展性和低成本等特点，是当前手势交互技术研究的热点。然而，动态手语识别技术在解决身体背景下手指运动的复杂性问题方面也面临着挑战。另一个困难是如何从图像或视频序列中提取最有效的特征。此外，如何选择合适的分类器也是获得准确识别结果的关键因素。为了帮助聋哑人在日常生活中进行正常的交流，越来越多的研究者致力于改善上述问题，在动态手语识别方面已经取得了许多成果。解决动态手语识别问题的方法主要有两种：一种是基于手势形状和运动轨迹的识别方法，另一种是基于手语视频序列的识别方法。在传统的动态手语识别中，主要利用手势的形状特征和运动轨迹特征来识别手势。但是这些特征不能完全满足实际动态手语识别的要求。随着深度学习理论的迅速发展，数据驱动方法在目标检测和手势识别方面表现出了突...

【技术保护点】
1.一种基于三维残差神经网络和视频序列的动态手语识别方法，其特征在于：所述方法提出了基于三维残差神经网络的新模型B3D ResNet，包括以下步骤：步骤1，在视频帧中，采用Faster R‑CNN模型检测手的位置，并从背景中分割出手；步骤2，利用B3D ResNet模型对输入的视频序列进行手势的时空特征提取和特征序列分析；步骤3，通过对输入的视频序列进行分类，可以识别手势，有效地实现动态手语识别。

【技术特征摘要】
1.一种基于三维残差神经网络和视频序列的动态手语识别方法，其特征在于：所述方法提出了基于三维残差神经网络的新模型B3DResNet，包括以下步骤：步骤1，在视频帧中，采用FasterR-CNN模型检测手的位置，并从背景中分割出手；步骤2，利用B3DResNet模型对输入的视频序列进行手势的时空特征提取和特征序列分析；步骤3，通过对输入的视频序列进行分类，可以识别手势，有效地实现动态手语识别。2.根据权利要求1所述的一种基于三维残差神经网络和视频序列的动态手语识别方法，其特征在于：所述采用FasterR-CNN模型检测手的位置的步骤如下：(1)当图像序列输入卷积神经网络时，将会生成特征图，区域提议网络在以核大小为n×n的网络窗口在特征图上滑动；(2)区域生成网络推荐候选区域，输出多个符合条件的候选区域；(3)感兴趣区域池化层将不同大小的候选区域转换为固定长度的候选区域，然后输出固定长度的候选区域；(4)对每个感兴趣区域进行分类和边界框回归，输出候选区域所属的类，和候选区域在图像中的精确位置。3.根据权利要求1所述的一种基于三维残差神经网络和视频序列的动态手语识别方法，其特征在于：所述B3DResNet模型主要包括17个卷积层，2个双向LSTM层，1个全连接层；在输入层中，有八个大小为112×112的图像帧，以当前帧为中心，并通过三个具有三维通道输入L×H×W，其中L，H和W是时间长度，高度和宽度；然后，分别在三个通道运用三维卷积，其内核大小为7×7×3，其中7×7在空间维度中，在时间维度上为3；核大小为2×2×1的下采样作用于卷积层中的每个特征图，来降低特征图维数；通过在三个通道上应用具有内核大小3×3×3的3D卷积来获得下一个卷积层C2_x，下一层C3_x，C4_x和C5_x具有相同的操作；之后，在每两层卷积神经网络之间插入直连接将网络转换为其对应的残差版本；然后特征向量被送到在两个方向上运行的长短期记忆网络；将每个方向长短期记忆网络的隐藏状态层，完全连接层和软最大层组合以获得对应于每个动作的中间分数；最后，将两个长短期记忆网络的分数平均以获得当前序列的类别预测分数。4.根据权利要求1所述的一种基于三维残差神经网络和视频序列的动态手语识别方法，其特征在于：所述B3DResNet模型对输入的视频序列进行手势的时空特征提取包括：首先提取输入视频序列的特征向量，通过构建三维卷积，卷积层中的...

【专利技术属性】
技术研发人员：闵卫东，廖艳秋，熊鹏文，韩清，张愚，徐剑强，邹松，熊辛，汪琦，
申请(专利权)人：南昌大学，
类型：发明
国别省市：江西,36

全部详细技术资料下载我是这个专利的主人