一种基于混合卷积神经网络的中文唇语识别方法及装置制造方法及图纸

技术编号：24855196 阅读：67 留言：0更新日期：2020-07-10 19:08

本发明专利技术公开了一种基于混合卷积神经网络的中文唇语识别方法及装置，属于机器视觉与深度学习领域，方法包括以下步骤：通过摄像机获取说话人的面部图像信息，利用人脸检测器从面部图像信息中检测切割出唇部图像序列，利用混合卷积神经网络对唇部图像序列进行唇部特征提取，将所述唇部特征输入Bi‑GRU模型，获得音素单元的识别概率结果，将所述音素单元的识别概率结果输入连接时序分类器CTC，获得音素单元分类结果，对所述音素单元的分类结果采用引入注意力机制的解码方法进行处理，获得唇语识别结果，该方法解决了现有网络框架不能对中文这类图形语言文字进行识别的问题，为实际场景中应用唇语识别技术提供了可能，可在计算机视觉领域广泛推广。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于混合卷积神经网络的中文唇语识别方法及装置
本专利技术涉及机器视觉与深度学习领域尤其涉及一种基于混合卷积神经网络的中文唇语识别方法及装置。
技术介绍
随着人工智能技术的发展以及安全防范意识的提升，语音交互、身份识别成为一种应用广泛的技术。但这些技术仍然存在一些弊端，例如语音交互易受环境影响，容易出现噪声干扰，导致语音识别不准确。静态身份识别技术容易被复制模仿，导致个人信息泄露以及身份认证信息被窃取。为了改善语音识别不准确，增强动态身份认证技术，出现了唇语识别技术。唇语识别是指在没有语音信息的情况下，通过观察说话人的脸部、唇部和舌部的一系列运动变化，得到说话人的讲话内容。唇语识别算法可以分为传统的唇语识别算法和基于深度学习的唇语识别算法。传统的唇语识别技术主要采用人工提取说话人的唇部特征，将提取到的动态特征送入特征分类器，如SVM，Adaboost，HMM等，完成词级的唇语识别。传统的识别方法虽然计算量小，但是人工提取特征却非常费时，并且实际操作过程中受限于光照、投影变换等因素，不能满足真实场景中的实际语言环境。基于深度学习的唇语识别算法优点在于可以通过训练网络直接提取唇部的运动特征，并且操作过程不受环境的影响，算法准确性和稳定性高。现有技术中，存在一些优秀的英文唇语识别网络模型，比如牛津大学等人工智能实验室联合提出了一种Lipnet架构，该架构可以完成句子级的英文唇语识别，并且准确率高达93.4％。但这些成熟优秀的网络架构只能对英文唇语进行识别，由于中文这样的图形语言文字与英文等字母系语言文字的...

【技术保护点】
1.一种基于混合卷积神经网络的中文唇语识别方法，其特征在于：包括以下步骤：/nS1：通过摄像机获取说话人的面部图像信息；/nS2：利用人脸检测器从面部图像信息中检测切割出唇部图像序列；/nS3：利用混合卷积神经网络对唇部图像序列进行唇部特征提取；/nS4：将所述唇部特征输入Bi-GRU模型，获得音素单元的识别概率结果；/nS5：将所述音素单元的识别概率结果输入连接时序分类器CTC，获得音素单元分类结果；/nS6：对所述音素单元的分类结果采用引入注意力机制的解码方法进行处理，获得唇语识别结果。/n

【技术特征摘要】
1.一种基于混合卷积神经网络的中文唇语识别方法，其特征在于：包括以下步骤：
S1：通过摄像机获取说话人的面部图像信息；
S2：利用人脸检测器从面部图像信息中检测切割出唇部图像序列；
S3：利用混合卷积神经网络对唇部图像序列进行唇部特征提取；
S4：将所述唇部特征输入Bi-GRU模型，获得音素单元的识别概率结果；
S5：将所述音素单元的识别概率结果输入连接时序分类器CTC，获得音素单元分类结果；
S6：对所述音素单元的分类结果采用引入注意力机制的解码方法进行处理，获得唇语识别结果。

2.根据权利要求1所述的一种基于混合卷积神经网络的中文唇语识别方法，其特征在于：所述混合卷积神经网络由改进的3D卷积神经网络和多时空信息融合残差网络组成；
所述改进的3D卷积神经网络是将3D卷积操作分解为两个接连进行的子卷积块，分别是2D卷积神经网络和1D卷积神经网络。
所述2D卷积神经网络对唇部图像序列进行唇部运动的空间特征提取，得到唇部的空间特征信息；
所述1D卷积神经网络对唇部图像序列进行唇部运动的时间维度特征提取，得到唇部运动的时域特征信息；
所述多时空信息融合残差网络对所述唇...

【专利技术属性】
技术研发人员：李晶皎，聂雅昆，闫爱云，王爱侠，
申请(专利权)人：东北大学，
类型：发明
国别省市：辽宁;21

全部详细技术资料下载我是这个专利的主人