一种唇语识别方法和系统技术方案

技术编号：34726477 阅读：26 留言：0更新日期：2022-08-31 18:13

本发明专利技术公开了一种唇语识别方法和系统，其中方法包括：获取视频帧中人脸图像及其真实唇部语言，提取人脸图像的唇部区域，组成ROI序列，将ROI序列以及差分后ROI序列分别输入前端特征提取网络的两个分支，输出拼接差分特征的唇部区域特征，将拼接差分特征的唇部区域特征输入后端分类网络，输出预测字符，以预测字符与真实唇部语言之间的误差最小为目标训练至收敛，得到唇语识别模型。提取连续帧人脸图像的唇部区域输入唇语识别模型进行唇语识别，得到各帧人脸图像对应的字符，组成语言文本。本发明专利技术唇语识别方法识别效率高，准确率高，泛化性能较好，可以很好的应用于听障人士的辅助设备中，适用于多种场景，如超市、车站、医院、学校。校。校。

全部详细技术资料下载

【技术实现步骤摘要】
一种唇语识别方法和系统

[0001]本专利技术属于计算机视觉、自然语言处理和智能穿戴设备领域，更具体地，涉及一种唇语识别方法和系统。

技术介绍

[0002]目前，听障人士的辅助设备主要如下：
[0003](1)助听器：助听器是一个小型扩音器，把原本听不到的声音加以扩大，再利用听障者的残余听力，使声音能送到大脑听觉中枢，从而感受到声音。助听器主要由麦克风、放大器、受话器、电池、各种音量音调控制旋钮等元件组成。但由于助听器是用来提高听力的一种设备，如果使用者彻底丧失听力，则该产品无效，对使用群体存在限制；其次，扩大有效的声音的同时，噪音也会扩大，使用者会听到很多杂音噪音，无法在全场景下保证使用效果。
[0004](2)人工耳蜗：人工耳蜗是一种电子装置，由体外言语处理器将声音转换为一定编码形式的电信号，通过植入体内的电极系统，直接兴奋听神经来恢复或重建聋人的听觉功能。人工耳蜗的仪器需要定期的保养和清理，且使用寿命有限，需要通过手术的方式进行安装，风险高且花销庞大。而且植入人工耳蜗会引起一系列的并发症，比如皮下血肿，急性中耳炎等，给患者带来更多的痛苦。
[0005](3)电子手套：电子手套可以将聋哑人打出的手语或者手势，翻译成普通人可以看懂、听懂的语言和文字。但由于电子手套对于使用群体有一定要求，如必须熟练掌握手语等；而且成本过高，给使用者带来了一定的经济压力。除此之外，在日常使用过程中，还会出现误读误报的可能，降低了用户的使用体验。
[0006]唇读，也称为视觉语言识别，是一种从不包含音频的...

【技术保护点】

【技术特征摘要】
1.一种唇语识别方法，其特征在于，包括：提取连续帧人脸图像的唇部区域输入唇语识别模型进行唇语识别，得到各帧人脸图像对应的字符，组成语言文本；所述唇语识别模型包括前端特征提取网络和后端分类网络，通过如下方式训练得到：获取视频帧中人脸图像及其真实唇部语言，提取人脸图像的唇部区域，组成ROI序列，将ROI序列以及差分后ROI序列分别输入前端特征提取网络的两个分支，输出拼接差分特征的唇部区域特征，将拼接差分特征的唇部区域特征输入后端分类网络，输出预测字符，以预测字符与真实唇部语言之间的误差最小为目标训练至收敛，得到唇语识别模型。2.如权利要求1所述的一种唇语识别方法，其特征在于，所述唇部区域的提取方式包括：从人脸图像中提取3D人脸关键点，对于检测不到人脸或者关键点检测错误的某帧人脸图像，获取该帧人脸图像前后最近的一个检测到人脸且正确检测到人脸关键点的帧，计算前后两帧之间，每个3D人脸关键点的差值，从靠前的一帧对应的3D人脸关键点开始进行线性插值，得到该帧人脸图像的3D人脸关键点，从3D人脸关键点中提取以唇部为中心形成的唇部区域。3.如权利要求2所述的一种唇语识别方法，其特征在于，所述唇部区域的提取还包括：选择人脸图像为正脸时提取的3D人脸关键点的均值作为参考脸，计算人脸图像中多个3D人脸关键点到参考脸中多个关键点之间的仿射矩阵，通过仿射矩阵校正人脸图像的3D人脸关键点，从校正后的3D人脸关键点中提取以唇部为中心形成的唇部区域。4.如权利要求2所述的一种唇语识别方法，其特征在于，所述唇部区域的提取还包括：将静态人脸图像输入关键点检测模型，生成多个旋转后的人脸图像以及3D人脸关键点，以生成的3D人脸关键点与静态人脸图像的实际3D人脸关键点之间的误差最小为目标训练至收敛，得到训练好的关键点检测模型，利用训练好的关键点检测模型从人脸图像中提取3D人脸关键点。5.如权利要求1
‑
4任一所述的一种唇语识别方法，其特征在于，所述训练之前对ROI序列进行如下预处理：对ROI序列进行随机裁剪和随机水平翻转后，得到预处理ROI序列，在预处理ROI序列的张量形状的第一个维度上打乱其顺序，并且随机取一个范围在[1/5，4/5]之间的随机数，该随机数代表要在预处理ROI序列上竖直裁切，所得到的数据占预处理ROI序列的比例，1减去该随机数代表打乱后的预处理ROI序列竖直裁切所得到的数据占打乱后的预处理ROI序列的比例，将两次裁切后的数据合并后作为增强ROI序列，将增强ROI序列作为训练数据。6.如权利要求1
‑
4任一所述的一种唇语识别方法，其特征在于，所述前端特征提取网络的训练包括：将ROI序列以及差分后ROI序列分别输入前端特征提取网...

【专利技术属性】
技术研发人员：樊翀宇，钟盛涛，刘思辰，肖阳，王然，
申请(专利权)人：华中科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人