一种唇语识别方法和系统技术方案

技术编号:34726477 阅读:26 留言:0更新日期:2022-08-31 18:13
本发明专利技术公开了一种唇语识别方法和系统,其中方法包括:获取视频帧中人脸图像及其真实唇部语言,提取人脸图像的唇部区域,组成ROI序列,将ROI序列以及差分后ROI序列分别输入前端特征提取网络的两个分支,输出拼接差分特征的唇部区域特征,将拼接差分特征的唇部区域特征输入后端分类网络,输出预测字符,以预测字符与真实唇部语言之间的误差最小为目标训练至收敛,得到唇语识别模型。提取连续帧人脸图像的唇部区域输入唇语识别模型进行唇语识别,得到各帧人脸图像对应的字符,组成语言文本。本发明专利技术唇语识别方法识别效率高,准确率高,泛化性能较好,可以很好的应用于听障人士的辅助设备中,适用于多种场景,如超市、车站、医院、学校。校。校。

【技术实现步骤摘要】
一种唇语识别方法和系统


[0001]本专利技术属于计算机视觉、自然语言处理和智能穿戴设备领域,更具体地,涉及一种唇语识别方法和系统。

技术介绍

[0002]目前,听障人士的辅助设备主要如下:
[0003](1)助听器:助听器是一个小型扩音器,把原本听不到的声音加以扩大,再利用听障者的残余听力,使声音能送到大脑听觉中枢,从而感受到声音。助听器主要由麦克风、放大器、受话器、电池、各种音量音调控制旋钮等元件组成。但由于助听器是用来提高听力的一种设备,如果使用者彻底丧失听力,则该产品无效,对使用群体存在限制;其次,扩大有效的声音的同时,噪音也会扩大,使用者会听到很多杂音噪音,无法在全场景下保证使用效果。
[0004](2)人工耳蜗:人工耳蜗是一种电子装置,由体外言语处理器将声音转换为一定编码形式的电信号,通过植入体内的电极系统,直接兴奋听神经来恢复或重建聋人的听觉功能。人工耳蜗的仪器需要定期的保养和清理,且使用寿命有限,需要通过手术的方式进行安装,风险高且花销庞大。而且植入人工耳蜗会引起一系列的并发症,比如皮下血肿,急性中耳炎等,给患者带来更多的痛苦。
[0005](3)电子手套:电子手套可以将聋哑人打出的手语或者手势,翻译成普通人可以看懂、听懂的语言和文字。但由于电子手套对于使用群体有一定要求,如必须熟练掌握手语等;而且成本过高,给使用者带来了一定的经济压力。除此之外,在日常使用过程中,还会出现误读误报的可能,降低了用户的使用体验。
[0006]唇读,也称为视觉语言识别,是一种从不包含音频的视频中识别其中人物说话内容的一种技术,其所涉及的技术主要包括计算机视觉和自然语言处理这两大方向。唇读技术的应用场景广泛,不会受到声音信号信噪比高低的影响,在语音识别中能辅助嘈杂环境下的识别效果,在健康医疗领域中能有效辅助患有听力障碍人士的交流。但唇读同时也是一种十分具有挑战的任务,目前的主流模型识别准确率仍然较低。因此,如何提高唇读技术的识别准确率,以及对特定场景下的唇读技术的优化具有十分重要的理论和实用价值。
[0007]传统的人脸检测方法主要使用基于Adaboost的人脸检测算法,该算法主要基于积分图、级联检测器和Adaboost分类器,能够快速检测出正面人脸,且速度非常快。其核心思想为自动从多个弱分类器空间中挑选出若干个分类器组合成为一个强分类器。但该算法缺点也较为明显,对噪声敏感,鲁棒性不够强,在复杂背景下容易误检且错误率较高。
[0008]在人脸检测后,需要对检测到的区域进行特征提取。传统特征提取与识别方法通常包含三类算法:基于表观的,基于形状的以及二者结合的。基于表观的代表性方法为HOG特征检测和全局图像线性变换等,其特点为特征提取速度快且不需要复杂的人工建模,但这类方法对于环境和姿态变换十分敏感,对唇部区域的提取精度要求非常高,且泛化性较差。基于形状的特征提取代表性方法包括轮廓描述、AFS和形状模型等,其特点为具有良好
的可解释性,且能有效去除冗余信息,泛化性较好,但同时这类方法需要大量的人工标注,且会损失部分有用信息,对姿势变换十分敏感。除此以外,基于以上两种结合的方法,例如形状表观模型等方法,通常具有较强的特征表达能力,且泛化性较强。但相对的,这类方法需要大量的人工标注以及复杂的运算。
[0009]在得到人脸区域的特征后,我们需要对特征进行分类或者解码,以得到预测的单词或句子。通常来说,我们可以使用SVM、MAP等模型进行模型分类,使用HMM或GMM等模型进行特征序列解码,但这两类方法通常效率和准确率都较低,且泛化性能较差,难以实际应用。
[0010]由此可见,现有技术存在效率低、准确率低、泛化性能较差、难以实际应用的技术问题。

技术实现思路

[0011]针对现有技术的以上缺陷或改进需求,本专利技术提供了一种唇语识别方法和系统,由此解决现有技术存在效率低、准确率低、泛化性能较差、难以实际应用的技术问题。
[0012]为实现上述目的,按照本专利技术的一个方面,提供了一种唇语识别方法,包括:
[0013]提取连续帧人脸图像的唇部区域输入唇语识别模型进行唇语识别,得到各帧人脸图像对应的字符,组成语言文本;
[0014]所述唇语识别模型包括前端特征提取网络和后端分类网络,通过如下方式训练得到:
[0015]获取视频帧中人脸图像及其真实唇部语言,提取人脸图像的唇部区域,组成ROI序列,将ROI序列以及差分后ROI序列分别输入前端特征提取网络的两个分支,输出拼接差分特征的唇部区域特征,将拼接差分特征的唇部区域特征输入后端分类网络,输出预测字符,以预测字符与真实唇部语言之间的误差最小为目标训练至收敛,得到唇语识别模型。
[0016]进一步地,所述唇部区域的提取方式包括:
[0017]从人脸图像中提取3D人脸关键点,对于检测不到人脸或者关键点检测错误的某帧人脸图像,获取该帧人脸图像前后最近的一个检测到人脸且正确检测到人脸关键点的帧,计算前后两帧之间,每个3D人脸关键点的差值,从靠前的一帧对应的3D人脸关键点开始进行线性插值,得到该帧人脸图像的3D人脸关键点,从3D人脸关键点中提取以唇部为中心形成的唇部区域。
[0018]进一步地,所述唇部区域的提取还包括:
[0019]选择人脸图像为正脸时提取的3D人脸关键点的均值作为参考脸,计算人脸图像中多个3D人脸关键点到参考脸中多个关键点之间的仿射矩阵,通过仿射矩阵校正人脸图像的3D人脸关键点,从校正后的3D人脸关键点中提取以唇部为中心形成的唇部区域。
[0020]进一步地,所述唇部区域的提取还包括:
[0021]将静态人脸图像输入关键点检测模型,生成多个旋转后的人脸图像以及3D人脸关键点,以生成的3D人脸关键点与静态人脸图像的实际3D人脸关键点之间的误差最小为目标训练至收敛,得到训练好的关键点检测模型,利用训练好的关键点检测模型从人脸图像中提取3D人脸关键点。
[0022]进一步地,所述训练之前对ROI序列进行如下预处理:
[0023]对ROI序列进行随机裁剪和随机水平翻转后,得到预处理ROI序列,在预处理ROI序列的张量形状的第一个维度上打乱其顺序,并且随机取一个范围在[1/5,4/5]之间的随机数,该随机数代表要在预处理ROI序列上竖直裁切,所得到的数据占预处理ROI序列的比例,1减去该随机数代表打乱后的预处理ROI序列竖直裁切所得到的数据占打乱后的预处理ROI序列的比例,将两次裁切后的数据合并后作为增强ROI序列,将增强ROI序列作为训练数据。
[0024]进一步地,所述前端特征提取网络的训练包括:
[0025]将ROI序列以及差分后ROI序列分别输入前端特征提取网络的两个分支,输出拼接差分特征的唇部区域特征,将拼接差分特征的唇部区域特征输入临时后端网络中,得到ROI序列的预测字符文本,将ROI序列的预测字符文本与ROI序列的真实文本之间的误差作为损失函数,反向传播损失函数更新前端特征提取网络的权重,训练至收敛,得到训练好的前端特征提本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种唇语识别方法,其特征在于,包括:提取连续帧人脸图像的唇部区域输入唇语识别模型进行唇语识别,得到各帧人脸图像对应的字符,组成语言文本;所述唇语识别模型包括前端特征提取网络和后端分类网络,通过如下方式训练得到:获取视频帧中人脸图像及其真实唇部语言,提取人脸图像的唇部区域,组成ROI序列,将ROI序列以及差分后ROI序列分别输入前端特征提取网络的两个分支,输出拼接差分特征的唇部区域特征,将拼接差分特征的唇部区域特征输入后端分类网络,输出预测字符,以预测字符与真实唇部语言之间的误差最小为目标训练至收敛,得到唇语识别模型。2.如权利要求1所述的一种唇语识别方法,其特征在于,所述唇部区域的提取方式包括:从人脸图像中提取3D人脸关键点,对于检测不到人脸或者关键点检测错误的某帧人脸图像,获取该帧人脸图像前后最近的一个检测到人脸且正确检测到人脸关键点的帧,计算前后两帧之间,每个3D人脸关键点的差值,从靠前的一帧对应的3D人脸关键点开始进行线性插值,得到该帧人脸图像的3D人脸关键点,从3D人脸关键点中提取以唇部为中心形成的唇部区域。3.如权利要求2所述的一种唇语识别方法,其特征在于,所述唇部区域的提取还包括:选择人脸图像为正脸时提取的3D人脸关键点的均值作为参考脸,计算人脸图像中多个3D人脸关键点到参考脸中多个关键点之间的仿射矩阵,通过仿射矩阵校正人脸图像的3D人脸关键点,从校正后的3D人脸关键点中提取以唇部为中心形成的唇部区域。4.如权利要求2所述的一种唇语识别方法,其特征在于,所述唇部区域的提取还包括:将静态人脸图像输入关键点检测模型,生成多个旋转后的人脸图像以及3D人脸关键点,以生成的3D人脸关键点与静态人脸图像的实际3D人脸关键点之间的误差最小为目标训练至收敛,得到训练好的关键点检测模型,利用训练好的关键点检测模型从人脸图像中提取3D人脸关键点。5.如权利要求1

4任一所述的一种唇语识别方法,其特征在于,所述训练之前对ROI序列进行如下预处理:对ROI序列进行随机裁剪和随机水平翻转后,得到预处理ROI序列,在预处理ROI序列的张量形状的第一个维度上打乱其顺序,并且随机取一个范围在[1/5,4/5]之间的随机数,该随机数代表要在预处理ROI序列上竖直裁切,所得到的数据占预处理ROI序列的比例,1减去该随机数代表打乱后的预处理ROI序列竖直裁切所得到的数据占打乱后的预处理ROI序列的比例,将两次裁切后的数据合并后作为增强ROI序列,将增强ROI序列作为训练数据。6.如权利要求1

4任一所述的一种唇语识别方法,其特征在于,所述前端特征提取网络的训练包括:将ROI序列以及差分后ROI序列分别输入前端特征提取网...

【专利技术属性】
技术研发人员:樊翀宇钟盛涛刘思辰肖阳王然
申请(专利权)人:华中科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1