语音识别处理方法、装置及设备制造方法及图纸

技术编号:36735834 阅读:11 留言:0更新日期:2023-03-04 10:06
本发明专利技术提供一种语音识别处理方法、装置及设备。本发明专利技术方法包括:获取第一教师模型和第二教师模型中相同网络层之间的参数相似度,其中第一教师模型的训练数据为纯普通话数据,第二教师模型的训练数据为普通话数据和口音数据混合后的数据;在采用纯口音数据对学生模型进行训练的过程中,根据所述参数相似度,调整所述学生模型中相应网络层的总损失函数,得到完成训练后的学生模型,所述学生模型用于识别带口音的语音信息。本发明专利技术利用普通话数据和口音数据的声学特征上的差异,计算其在教师模型各中间网络层的参数相似度,利用该参数相似度指导学生模型损失函数的调整,从而达到动态指导学生模型训练的目的,进而提高带口音的语音识别准确率。识别准确率。识别准确率。

【技术实现步骤摘要】
语音识别处理方法、装置及设备


[0001]本专利技术涉及信息技术应用
,尤其是涉及一种语音识别处理方法、装置及设备。

技术介绍

[0002]对于多口音地区国家,口音的存在使得不同口音归属地的说话人在发音时会带有不同地区的口音发音特性。口音作为许多说话人的第一语言,在学习标准普通话的过程中对说话人的发音产生一定的影响,导致许多发音偏离标准普通话,使得利用标准普通话建立的语音识别系统在面对带口音的语音时由于不匹配性导致识别率的下降。若单独利用口音数据训练模型,一方面特定口音数据难以获得导致我们无法利用复杂的网络结构对模型进行充分地建模,另一方面若直接采用网络结构简单的轻量级网络对其进行建模,通常难以得到准确度高的识别结果。因此,如何解决带口音语音的识别效果成为语音识别研究的重要方向之一。

技术实现思路

[0003]本专利技术的目的在于提供一种语音识别处理方法、装置及设备,用以解决带口音的语音识别准确率低的问题。
[0004]为了达到上述目的,本专利技术提供一种语音识别处理方法,包括:
[0005]获取第一教师模型和第二教师模型中相同网络层之间的参数相似度,其中第一教师模型的训练数据为纯普通话数据,第二教师模型的训练数据为普通话数据和口音数据混合后的数据;
[0006]在采用纯口音数据对学生模型进行训练的过程中,根据所述参数相似度,调整所述学生模型中相应网络层的总损失函数,得到完成训练后的学生模型,所述学生模型用于识别带口音的语音信息。
[0007]其中,获取第一教师模型和第二教师模型中相同网络层之间的参数相似度,包括:
[0008]采用纯普通话数据对第一教师模型进行训练,得到所述第一教师模型中各个网络层的参数;
[0009]采用普通话数据和口音数据混合后的数据对第二教师模型进行训练,得到所述第二教师模型中各个网络层的参数;
[0010]根据所述第一教师模型中各个网络层的参数和所述第二教师模型中各个网络层的参数,计算得到所述第一教师模型和所述第二教师模型中相同网络层之间的参数相似度。
[0011]其中,根据所述第一教师模型中各个网络层的参数和所述第二教师模型中各个网络层的参数,计算得到所述第一教师模型和所述第二教师模型中相同网络层之间的参数相似度,包括:
[0012]根据所述第一教师模型中各个网络层的参数和所述第二教师模型中各个网络层
的参数,计算得到所述第一教师模型和所述第二教师模型中相同网络层对应的参数之间的距离值;
[0013]计算所述距离值的倒数,得到所述第一教师模型和所述第二教师模型中相同网络层之间的参数相似度。
[0014]其中,根据所述参数相似度,调整所述学生模型中相应网络层的总损失函数,得到完成训练后的学生模型,包括:
[0015]根据所述参数相似度,分别将所述学生模型中各个网络层的总损失函数中的第一损失函数进行加权处理,得到所述学生模型中各个网络层的经调整后的总损失函数;
[0016]利用所述学生模型中各个网络层的经调整后的总损失函数,训练所述学生模型,得到完成训练后的学生模型。
[0017]其中,根据所述参数相似度,分别将所述学生模型中各个网络层的总损失函数中的第一损失函数进行加权处理,得到所述学生模型中各个网络层的经调整后的总损失函数之前,所述方法还包括:
[0018]根据所述学生模型的每个网络层的输出结果以及输入所述纯口音数据的教师模型的每个网络层的输出结果,获得所述学生模型中各个网络层的第一损失函数;
[0019]根据所述学生模型的每个网络层的输出结果以及其对应网络层的纯口音数据的真实标注,获得所述学生模型中各个网络层的第二损失函数;
[0020]分别将所述学生模型中每个网络层的第一损失函数和该网络层的第二损失函数进行求和计算,得到所述学生模型中各个网络层的总损失函数。
[0021]本专利技术还提供一种语音识别处理装置,包括:
[0022]第一获取模块,用于获取第一教师模型和第二教师模型中相同网络层之间的参数相似度,其中第一教师模型的训练数据为纯普通话数据,第二教师模型的训练数据为普通话数据和口音数据混合后的数据;
[0023]第一处理模块,用于在采用纯口音数据对学生模型进行训练的过程中,根据所述参数相似度,调整所述学生模型中相应网络层的总损失函数,得到完成训练后的学生模型,所述学生模型用于识别带口音的语音信息。
[0024]本专利技术还提供一种语音识别处理设备,包括处理器和收发器,所述收发器在处理器的控制下接收和发送数据,所述处理器用于执行以下操作:
[0025]获取第一教师模型和第二教师模型中相同网络层之间的参数相似度,其中第一教师模型的训练数据为纯普通话数据,第二教师模型的训练数据为普通话数据和口音数据混合后的数据;
[0026]在采用纯口音数据对学生模型进行训练的过程中,根据所述参数相似度,调整所述学生模型中相应网络层的总损失函数,得到完成训练后的学生模型,所述学生模型用于识别带口音的语音信息。
[0027]其中,所述处理器还用于:
[0028]采用纯普通话数据对第一教师模型进行训练,得到所述第一教师模型中各个网络层的参数;
[0029]采用普通话数据和口音数据混合后的数据对第二教师模型进行训练,得到所述第二教师模型中各个网络层的参数;
[0030]根据所述第一教师模型中各个网络层的参数和所述第二教师模型中各个网络层的参数,计算得到所述第一教师模型和所述第二教师模型中相同网络层之间的参数相似度。
[0031]其中,所述处理器还用于:
[0032]根据所述第一教师模型中各个网络层的参数和所述第二教师模型中各个网络层的参数,计算得到所述第一教师模型和所述第二教师模型中相同网络层对应的参数之间的距离值;
[0033]计算所述距离值的倒数,得到所述第一教师模型和所述第二教师模型中相同网络层之间的参数相似度。
[0034]其中,所述处理器还用于:
[0035]根据所述参数相似度,分别将所述学生模型中各个网络层的总损失函数中的第一损失函数进行加权处理,得到所述学生模型中各个网络层的经调整后的总损失函数;
[0036]利用所述学生模型中各个网络层的经调整后的总损失函数,训练所述学生模型,得到完成训练后的学生模型。
[0037]其中,所述处理器还用于:
[0038]根据所述学生模型的每个网络层的输出结果以及输入所述纯口音数据的教师模型的每个网络层的输出结果,获得所述学生模型中各个网络层的第一损失函数;
[0039]根据所述学生模型的每个网络层的输出结果以及其对应网络层的纯口音数据的真实标注,获得所述学生模型中各个网络层的第二损失函数;
[0040]分别将所述学生模型中每个网络层的第一损失函数和该网络层的第二损失函数进行求和计算,得到所述学生模型中各个网络层的总损失函数。
[0041]本专利技术还提供一种语音识别处理设备,包括存储器、本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别处理方法,其特征在于,包括:获取第一教师模型和第二教师模型中相同网络层之间的参数相似度,其中第一教师模型的训练数据为纯普通话数据,第二教师模型的训练数据为普通话数据和口音数据混合后的数据;在采用纯口音数据对学生模型进行训练的过程中,根据所述参数相似度,调整所述学生模型中相应网络层的总损失函数,得到完成训练后的学生模型,所述学生模型用于识别带口音的语音信息。2.根据权利要求1所述的方法,其特征在于,获取第一教师模型和第二教师模型中相同网络层之间的参数相似度,包括:采用纯普通话数据对第一教师模型进行训练,得到所述第一教师模型中各个网络层的参数;采用普通话数据和口音数据混合后的数据对第二教师模型进行训练,得到所述第二教师模型中各个网络层的参数;根据所述第一教师模型中各个网络层的参数和所述第二教师模型中各个网络层的参数,计算得到所述第一教师模型和所述第二教师模型中相同网络层之间的参数相似度。3.根据权利要求2所述的方法,其特征在于,根据所述第一教师模型中各个网络层的参数和所述第二教师模型中各个网络层的参数,计算得到所述第一教师模型和所述第二教师模型中相同网络层之间的参数相似度,包括:根据所述第一教师模型中各个网络层的参数和所述第二教师模型中各个网络层的参数,计算得到所述第一教师模型和所述第二教师模型中相同网络层对应的参数之间的距离值;计算所述距离值的倒数,得到所述第一教师模型和所述第二教师模型中相同网络层之间的参数相似度。4.根据权利要求1所述的方法,其特征在于,根据所述参数相似度,调整所述学生模型中相应网络层的总损失函数,得到完成训练后的学生模型,包括:根据所述参数相似度,分别将所述学生模型中各个网络层的总损失函数中的第一损失函数进行加权处理,得到所述学生模型中各个网络层的经调整后的总损失函数,所述第一损失函数为依赖教师模型的损失函数;利用所述学生模型中各个网络层的经调整后的总损失函数,训练所述学生模型,得到完成训练后的学生模型。5.根据权利要求4所述的方法,其特征在于,根据所述参数相似度,分别将所述学生模型中各个网络层的总损失函数中的第一损失函数进行加权处理,得到所述学生模型中各个网络层的经调整后的总损失函数之前,所述方法还包括:根据所述学生模型的每个网络层的输出结果以及输入所述纯口音数据的教师模型的每个网络层的输出结果,获得所述学生模型中各个网络层的第一损失函数;根据所述学生模型的每个网络层的输出结果以及其对应网络层的纯口音数据的真实标注,获得所述学生模型中各个网络层的第二损失函数;分别将所述学生模型中每个网络层的第一损失函数和该网络层的第二损失函数进行求和计算,得到所述学生模型中各个网络层的总损失函数。
6.一种语音识别处理装置,其特征在于,包括:第一获取模块,用于获取第一教师模型和第二教师模型中相同网络层之间的参数相似度,其中第一教师模型的训练数据为纯普通话数据,第二教师模型的训练数据为普通话数据和口音数据混合后的数据;第一处理模块,用于...

【专利技术属性】
技术研发人员:李慧慧高莹莹张世磊
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1