当前位置: 首页 > 专利查询>东华大学专利>正文

基于改进型单次多目标检测器的静态手语实时识别方法技术

技术编号:17196618 阅读:33 留言:0更新日期:2018-02-03 23:09
本发明专利技术涉及一种基于改进型单次多目标检测器的静态手语实时识别方法,包括以下步骤:对静态手语样本图像进行预处理;构建并强化静态手语图像数据集;构建基于改进的单次多目标检测器的深度学习网络,该深度学习网络分为基础网络层和额外卷积特征层;其中,基础网络层用于特征提取,将输入的图像转换成多维度的特征表示;额外卷积层是一种特征选择策略,用小卷积滤波器来预测特征图上固定的一组默认边界框的类别分数和位置偏移,同时从不同尺度的特征图产生不同尺度的预测;利用静态手语数据集训练此网络,将摄像头实时采集手语视频输入训练好的网络,实现静态手语实时识别。本发明专利技术在保证识别精度的同时大大提高了识别速度。

【技术实现步骤摘要】
基于改进型单次多目标检测器的静态手语实时识别方法
本专利技术涉及手语识别
,特别是涉及一种基于改进型单次多目标检测器的静态手语实时识别方法。
技术介绍
手语是聋哑人用手势代替正常言语进行交流的一种有效方式。研究手语识别能帮助聋哑人,尤其是一些未得到良好教育的聋哑人之间的交流,同时也能帮助聋哑人与正常人之间的交流;手语识别也是人机交互的一种便利的方式,研究手语识别能促进机械智能运作、移动设备终端的操作、门禁系统、远程控制等其他领域的发展;更进一步,研究手语识别能辅助计算机对人类语言的理解。基于单目视觉识别的手语识别,是使用一个普通摄像头进行信息输入利用计算机算法进行识别,相对于基于传感器等数字设备输入信息再通过计算机识别的方法,其对于设备的要求低、调教便利、投入资金低等优点,越来越受到研究者的关注。在手语识别领域,一个传统的完整识别方法通常包括了三个过程:分割、特征提取、识别。1)分割,常用方法是基于运动信息的模型、基于运动模板的模型、基于肤色信息的模型等;2)特征提取,常见方法是基于方向梯度直方图(HOG)的特征提取方法、基于局部二值模式纹理(LBP)的特征提取方法、基于卷积神经网络(CNN)特征提取的方法等;3)手势识别,常见方法有基于人工神经网络的多层感知器(MLP)、基于监督学习模型的支持向量机(SVM)等。静态手语识别技术虽然很早就有相关研究者进行了研究,但是面对人手骨架不统一、手型多变、手语词汇量大的特点,其特征信息很难灵活的获得,而且手工设计语言来描述手语特征的过程繁琐,并且无法挖掘深层次的特征信息,这就导致模型范性差、很难在基于视觉的手语识别中达到实时性好、识别准确的要求。深度学习(DeepLearning)方法正好解决了以上痛点。深度学习模型被认为是一项机器学习领域的突破性技术,通过多层非线性的组合实现有监督和无监督的特征提取和转换,来达到模式分析和分类的目的。大量的科研院所和企业的研究人员对深度学习技术及其应用进行了广泛的研究,并在语音、图像等领域取得了显著的成效。网络层次越深的结构能够学习到更多更复杂的特征,这些抽象表达可以更灵活的更准确的描述图像的变化。为了满足检测的实时性好和准确率高的目的,研究者做着各种努力。RossB.Girshick等人提出区域卷积神经网络(R-CNN),该方法对图像生成的若干候选区域用卷积神经网络进行特征提取,后通过分类器进行分类得到边界,将目标检测问题转化为分类问题,虽然在目标检测问题上得到突破,但分别训练特征提取网络和分类网络十分耗时,实时性得不到保证。RossB.Girshick对R-CNN网络进行了改进,将特征提取和分类进行合并为一个网络,使用搜索性算法,发表快速区域卷积神经网络(FastR-CNN),进一步提高了模型训练速度和检测准确率。后来,RossB.Girshick利用区域建议网络(RPN)来优化候选区域的生成,进一步提高速率,发表了加速区域卷积神经网络(FasterR-CNN)。以上方法成为检测识别领域的里程碑,尽管准确率比较不错,但这些方法对于嵌入式系统来说计算量过大,即使对于高端硬件,对于实时或接近实时的应用来说也太慢,或者是牺牲检测精度来换取时间。
技术实现思路
本专利技术所要解决的技术问题是提供一种基于改进型单次多目标检测器的静态手语实时识别方法,在保证识别精度的同时大大提高了识别速度,满足实时性要求。本专利技术解决其技术问题所采用的技术方案是:提供一种基于改进型单次多目标检测器的静态手语实时识别方法,包括以下步骤:(1)对静态手语样本图像进行预处理;(2)构建并强化静态手语图像数据集;(3)构建基于改进的单次多目标检测器的深度学习网络,该深度学习网络分为基础网络层和额外卷积特征层;其中,基础网络层用于特征提取,将输入的图像转换成多维度的特征表示;额外卷积层是一种特征选择策略,用小卷积滤波器来预测特征图上固定的一组默认边界框的类别分数和位置偏移,同时从不同尺度的特征图产生不同尺度的预测;(4)利用静态手语数据集训练此网络,将摄像头实时采集手语视频输入训练好的网络,实现静态手语实时识别。所述步骤(1)具体为:录制静态手语视频,并将视频抽帧为图像,手动去除拖影严重和遮挡严重的图像,并对图像采用高通滤波的方法进行增强处理。所述步骤(2)中构建的静态手语数据集包含原始样本图像及对原始样本图像进行手工标注后的标签图像,标注信息记录的图像标记框与原始图像一一对应;采用对原始图像做镜面对称处理的方式,并重新标记对应图像,达到强化静态手语数据集的目的。所述步骤(3)中的基础网络层为采用去掉全连接层的AlexNet网络层,共计5层,池化采用最大值池化;所述额外卷积网络为9层网络,其中分为8层卷积网络层和1层均值池化层。所述额外卷积特征层添加到截断的基础网络末尾,且逐层减小得到多个尺度检测的预测值;在每个添加的特征层用一组卷积滤波器产生预测集合,得到类别分数或者是相对于默认框的坐标偏移;坐标偏移是相对于默认框测量,默认框位置则相对于特征图。所述预测集合产生的规则是:对于具有p个通道的大小为m*n的特征层,使用3*3*p卷积核做卷积,产生类别分数或者是相对于默认框的坐标偏移,并在每个应用卷积核运算的m*n大小位置,产生一个输出值。所述步骤(3)的深度学习网络训练时包括以下步骤:(31)匹配策略:训练时,需建立真实标签和默认框之间的对应关系,用匹配默认框与真实标签重叠高于某一阈值的默认框;(32)训练目标:目标函数为源自MultiBox的目标函数,总目标损失函数是位置损失和置信损失的加权和,其中,位置损失是预测框和真实标签值框参数之间的SmoothL1损失,置信损失是一个softmax损失对多类别置信和权重项设置为1的交叉验证(33)选择默认框的比例以及横宽比:通过组合许多特征图在所有位置的不同尺寸和宽高比的所有默认框进行预测以覆盖各种输入对象尺寸和形状。所述步骤(4)具体为:用单目摄像头实时获取手语图像,将图像输入改进的单次多目标检测器的深度学习网络后,得到分类检测结果,实现静态手语实时识别。有益效果由于采用了上述的技术方案,本专利技术与现有技术相比,具有以下的优点和积极效果:本专利技术不需要使用手工设计语言来描述静态手语特征,采用的卷积神经网络能得到更深层次的特征信息,使得模型的范性好;并且,采用小卷积滤波器来预测特征图上固定的一组默认边界框的类别分数和位置偏移,同时从不同尺度的特征图产生不同尺度的预测,这样可以大大的提高识别速度,满足静态手语识别实时性的要求。附图说明图1是本专利技术的流程图;图2是改进的单次多目标检测器的深度学习网络ASSD整体结构图;图3是本专利技术网络ASSD的基础网络层的结构示意图;图4是本专利技术静态手语识别的实验结果图。具体实施方式下面结合具体实施例,进一步阐述本专利技术。应理解,这些实施例仅用于说明本专利技术而不用于限制本专利技术的范围。此外应理解,在阅读了本专利技术讲授的内容之后,本领域技术人员可以对本专利技术作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。本专利技术的实施方式涉及一种基于改进型单次多目标检测器的静态手语实时识别方法,如图1所示,包括以下步骤:首先要对静态手语图像进行人工标记,得到手语图像对应的标签图;然后构建改进本文档来自技高网
...
基于改进型单次多目标检测器的静态手语实时识别方法

【技术保护点】
一种基于改进型单次多目标检测器的静态手语实时识别方法,其特征在于,包括以下步骤:(1)对静态手语样本图像进行预处理;(2)构建并强化静态手语图像数据集;(3)构建基于改进的单次多目标检测器的深度学习网络,该深度学习网络分为基础网络层和额外卷积特征层;其中,基础网络层用于特征提取,将输入的图像转换成多维度的特征表示;额外卷积层是一种特征选择策略,用小卷积滤波器来预测特征图上固定的一组默认边界框的类别分数和位置偏移,同时从不同尺度的特征图产生不同尺度的预测;(4)利用静态手语数据集训练此网络,将摄像头实时采集手语视频输入训练好的网络,实现静态手语实时识别。

【技术特征摘要】
1.一种基于改进型单次多目标检测器的静态手语实时识别方法,其特征在于,包括以下步骤:(1)对静态手语样本图像进行预处理;(2)构建并强化静态手语图像数据集;(3)构建基于改进的单次多目标检测器的深度学习网络,该深度学习网络分为基础网络层和额外卷积特征层;其中,基础网络层用于特征提取,将输入的图像转换成多维度的特征表示;额外卷积层是一种特征选择策略,用小卷积滤波器来预测特征图上固定的一组默认边界框的类别分数和位置偏移,同时从不同尺度的特征图产生不同尺度的预测;(4)利用静态手语数据集训练此网络,将摄像头实时采集手语视频输入训练好的网络,实现静态手语实时识别。2.根据权利要求1所述的基于改进型单次多目标检测器的静态手语实时识别方法,其特征在于,所述步骤(1)具体为:录制静态手语视频,并将视频抽帧为图像,手动去除拖影严重和遮挡严重的图像,并对图像采用高通滤波的方法进行增强处理。3.根据权利要求1所述的基于改进型单次多目标检测器的静态手语实时识别方法,其特征在于,所述步骤(2)中构建的静态手语数据集包含原始样本图像及对原始样本图像进行手工标注后的标签图像,标注信息记录的图像标记框与原始图像一一对应;采用对原始图像做镜面对称处理的方式,并重新标记对应图像,达到强化静态手语数据集的目的。4.根据权利要求1所述的基于改进型单次多目标检测器的静态手语实时识别方法,其特征在于,所述步骤(3)中的基础网络层为采用去掉全连接层的AlexNet网络层,共计5层,池化采用最大值池化;所述额外卷积网络为9层网络,其中分为8层卷积网络层和1层均值池化层。5.根据权利要求4所述的基于改进型单次多目标...

【专利技术属性】
技术研发人员:张勋陈亮
申请(专利权)人:东华大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1