当前位置: 首页 > 专利查询>东北大学专利>正文

一种基于混合卷积神经网络的中文唇语识别方法及装置制造方法及图纸

技术编号:24855196 阅读:67 留言:0更新日期:2020-07-10 19:08
本发明专利技术公开了一种基于混合卷积神经网络的中文唇语识别方法及装置,属于机器视觉与深度学习领域,方法包括以下步骤:通过摄像机获取说话人的面部图像信息,利用人脸检测器从面部图像信息中检测切割出唇部图像序列,利用混合卷积神经网络对唇部图像序列进行唇部特征提取,将所述唇部特征输入Bi‑GRU模型,获得音素单元的识别概率结果,将所述音素单元的识别概率结果输入连接时序分类器CTC,获得音素单元分类结果,对所述音素单元的分类结果采用引入注意力机制的解码方法进行处理,获得唇语识别结果,该方法解决了现有网络框架不能对中文这类图形语言文字进行识别的问题,为实际场景中应用唇语识别技术提供了可能,可在计算机视觉领域广泛推广。

【技术实现步骤摘要】
一种基于混合卷积神经网络的中文唇语识别方法及装置
本专利技术涉及机器视觉与深度学习领域尤其涉及一种基于混合卷积神经网络的中文唇语识别方法及装置。
技术介绍
随着人工智能技术的发展以及安全防范意识的提升,语音交互、身份识别成为一种应用广泛的技术。但这些技术仍然存在一些弊端,例如语音交互易受环境影响,容易出现噪声干扰,导致语音识别不准确。静态身份识别技术容易被复制模仿,导致个人信息泄露以及身份认证信息被窃取。为了改善语音识别不准确,增强动态身份认证技术,出现了唇语识别技术。唇语识别是指在没有语音信息的情况下,通过观察说话人的脸部、唇部和舌部的一系列运动变化,得到说话人的讲话内容。唇语识别算法可以分为传统的唇语识别算法和基于深度学习的唇语识别算法。传统的唇语识别技术主要采用人工提取说话人的唇部特征,将提取到的动态特征送入特征分类器,如SVM,Adaboost,HMM等,完成词级的唇语识别。传统的识别方法虽然计算量小,但是人工提取特征却非常费时,并且实际操作过程中受限于光照、投影变换等因素,不能满足真实场景中的实际语言环境。基于深度学习的唇语识别算法优点在于可以通过训练网络直接提取唇部的运动特征,并且操作过程不受环境的影响,算法准确性和稳定性高。现有技术中,存在一些优秀的英文唇语识别网络模型,比如牛津大学等人工智能实验室联合提出了一种Lipnet架构,该架构可以完成句子级的英文唇语识别,并且准确率高达93.4%。但这些成熟优秀的网络架构只能对英文唇语进行识别,由于中文这样的图形语言文字与英文等字母系语言文字的差异,上述网络架构无法应用到中文唇语识别上。
技术实现思路
根据现有技术存在的问题,本专利技术公开了一种基于混合卷积神经网络的中文唇语识别方法,包括以下步骤:S1:通过摄像机获取说话人的面部图像信息;S2:利用人脸检测器从面部图像信息中检测切割出唇部图像序列;S3:利用混合卷积神经网络对唇部图像序列进行唇部特征提取;S4:将所述唇部特征输入Bi-GRU模型,获得音素单元的识别概率结果;S5:将所述音素单元的识别概率结果输入连接时序分类器CTC,获得音素单元分类结果;S6:对所述音素单元的分类结果采用引入注意力机制的解码方法进行处理,获得唇语识别结果。进一步地,所述混合卷积神经网络由改进的3D卷积神经网络和MST(多时空信息融合)残差网络组成;所述改进的3D卷积神经网络是将3D卷积操作分解为两个接连进行的子卷积块,分别是2D卷积神经网络和1D卷积神经网络。所述2D卷积神经网络对唇部图像序列进行唇部运动的空间特征提取,得到唇部的空间特征信息;所述1D卷积神经网络对唇部图像序列进行唇部运动的时间维度特征提取,得到唇部运动的时域特征信息;所述MST(多时空信息融合)残差网络对所述唇部的空间特征和时间特征进行多尺度的信息融合。进一步地:所述引入注意力机制的解码方法处理过程为:通过注意力得到音素单元每个时刻的隐藏状态,通过为每个隐藏状态打分,获取注意力的得分状态,通过使用音素单元的隐藏状态和注意力得分的加权和,来聚合音素单元的隐藏状态,获得语境向量,将语境向量输入到解码器中进行联合训练,得到唇语识别结果。一种基于混合卷积神经网络的中文唇语识别装置,包括图像获取单元、唇部检测单元、唇部特征提取单元和唇语识别单元;所述图像获取单元用于获取说话人的面部图像信息;所述唇部检测单元根据所述图像获取单元输入的面部图像信息中检测切割出唇部图像序列;所述唇部特征提取单元根据所述唇部检测单元输入的唇部图像序列利用混合卷积神经网络完成唇部特征提取;所述唇语识别单元根据所述唇部特征提取单元提取的唇部特征输入Bi-GRU模型,获得音素单元的识别概率结果,再连接时序分类器CTC,获得音素单元分类结果,之后通过引入注意力机制的解码方法处理所述音素单元的分类结果,获得唇语识别结果。由于采用了上述技术方案,本专利技术提供的一种基于混合卷积神经网络的中文唇语识别方法,具有以下优点:(1)相比于人工标注唇部区域,手动提取唇部运动特征的唇语识别方法及装置,节省了大量的人力、物力资源,使唇语识别过程更加快捷,提高了整个识别过程的效率,相比于基于卷积神经网络的唇语识别方法,本专利技术可以提取到唇部运动的长期时空特征,在识别过程中减少特征丢失,提高了唇语识别的速度以及准确率;(2)通过采用编码器-解码器算法框架,解决了现有唇语识别架构不能对图形类语言文字进行识别的问题,通过获取音素序列与目标文字的对应关系,完成中文的唇语识别。引入该算法框架使系统具有通用性和可扩展性,同时在编码器-解码器算法框架中引入注意力机制,提高了唇语识别系统的鲁棒性;(3)通用性强,在智能电视、平板电脑或PC(PersonalComputer,个人计算机)等具有显示屏与摄像头的终端设备上,都能适用;综上,应用本专利技术的技术方案,解决了现有网络框架不能对中文这类图形语言文字进行识别的问题,为实际场景中应用唇语识别技术提供了可能,本专利技术可在计算机视觉领域广泛推广。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一种基于混合卷积神经网络的中文唇语识别方法流程示意图;图2是改进MST(多时空信息融合)单元示意图;图3是唇部时空特征提取网络的结构示意图;图4是门递归单元GRU的结构示意图;图5是注意力机制示意图。具体实施方式为了使本领域的技术人员更好的理解本专利技术方案,下面将结合本专利技术实施中的附图,对本专利技术进行清晰、完整的描述。图1是本专利技术一种基于混合卷积神经网络的中文唇语识别方法流程示意图;一种基于混合卷积神经网络的中文唇语识别方法,包括以下步骤:S1:通过摄像机获取说话人的面部图像信息;使用USB摄像头固定在说话者面前,距离说话者45cm,从接收到语音信号开始,获取摄像头采集的实时视频中的每一帧图像;S2:利用人脸检测模型器获得面部区域,提取人脸检测模型唇部固定点的位置进而得到唇部图像序列;本专利技术采用dlib库人脸68特征点提取器提取唇读数据集中说话人唇部区域,利用dlib库人脸检测模型可以快速捕捉人脸的大幅度晃动,灵敏度高;将步骤S1采集到的图像输入网络,最终输出包围人脸68个关键点的图像,通过提取46~68唇部关键点的坐标,得到唇部矩形区域的中心点坐标(xi,yi),以及矩形宽度wi,矩形高度hi;S3:利用混合卷积神经网络对唇部图像序列进行特征提取;采用混合卷积神经网络((2+1)D+MST)进行唇部序列不同空间幅度和不同时间周期的特征提取;所述(2+1)D卷本文档来自技高网
...

【技术保护点】
1.一种基于混合卷积神经网络的中文唇语识别方法,其特征在于:包括以下步骤:/nS1:通过摄像机获取说话人的面部图像信息;/nS2:利用人脸检测器从面部图像信息中检测切割出唇部图像序列;/nS3:利用混合卷积神经网络对唇部图像序列进行唇部特征提取;/nS4:将所述唇部特征输入Bi-GRU模型,获得音素单元的识别概率结果;/nS5:将所述音素单元的识别概率结果输入连接时序分类器CTC,获得音素单元分类结果;/nS6:对所述音素单元的分类结果采用引入注意力机制的解码方法进行处理,获得唇语识别结果。/n

【技术特征摘要】
1.一种基于混合卷积神经网络的中文唇语识别方法,其特征在于:包括以下步骤:
S1:通过摄像机获取说话人的面部图像信息;
S2:利用人脸检测器从面部图像信息中检测切割出唇部图像序列;
S3:利用混合卷积神经网络对唇部图像序列进行唇部特征提取;
S4:将所述唇部特征输入Bi-GRU模型,获得音素单元的识别概率结果;
S5:将所述音素单元的识别概率结果输入连接时序分类器CTC,获得音素单元分类结果;
S6:对所述音素单元的分类结果采用引入注意力机制的解码方法进行处理,获得唇语识别结果。


2.根据权利要求1所述的一种基于混合卷积神经网络的中文唇语识别方法,其特征在于:所述混合卷积神经网络由改进的3D卷积神经网络和多时空信息融合残差网络组成;
所述改进的3D卷积神经网络是将3D卷积操作分解为两个接连进行的子卷积块,分别是2D卷积神经网络和1D卷积神经网络。
所述2D卷积神经网络对唇部图像序列进行唇部运动的空间特征提取,得到唇部的空间特征信息;
所述1D卷积神经网络对唇部图像序列进行唇部运动的时间维度特征提取,得到唇部运动的时域特征信息;
所述多时空信息融合残差网络对所述唇...

【专利技术属性】
技术研发人员:李晶皎聂雅昆闫爱云王爱侠
申请(专利权)人:东北大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1