一种DNN模型训练方法及语音识别方法、装置制造方法及图纸

技术编号:32973978 阅读:17 留言:0更新日期:2022-04-09 11:46
本发明专利技术提供了一种DNN模型训练方法及语音识别方法、装置,其中,一种DNN模型训练方法包括:获取训练音频样本对应的语音特征数据及标签序列;将语音特征数据输入DNN模型进行标签预测,确定标签预测路径;计算DNN模型的模型损失函数值;计算DNN模型的峰值损失函数值;确定DNN模型的总损失函数;基于总损失函数对DNN模型进行训练,直至DNN模型满足预设训练要求。通过对DNN模型的模型损失函数、峰值损失函数以及联合得到的总损失函数进行收敛训练,最终得到训练好的DNN模型,通过解决语音识别过程中音频序列与标签序列对齐延迟的问题,大幅提高了解码速度和识别速度。了解码速度和识别速度。了解码速度和识别速度。

【技术实现步骤摘要】
一种DNN模型训练方法及语音识别方法、装置


[0001]本专利技术涉及语音识别
,具体涉及一种DNN模型训练方法及语音识别方法、装置。

技术介绍

[0002]随着人工智能的不断发展,语音识别逐渐成为各种智能设备所具备的必不可少的功能之一。为保证语音识别的准确性,通常需要将输入的声音序列与输出的标签序列的长度进行对齐,但将声音序列的长度与输出的标签序列的长度进行对齐的过程需要耗费大量的时间和人力。为了解决此问题,CTC(Connectionist Temporal Classification)时序分类算法被提出,基于深度神经网络(Deep Neural Networks,DNN)模型,通过CTC时序分类算法可以计算每一帧音频所对应的标签并在输出时将静音帧对应的空白标签去掉,得到最终的标签序列,实现将音频序列与标签序列的直接对齐。但由于CTC时序分类算法中会对静音帧赋予空白标签,在包含CTC时序分类算法的DNN模型训练的过程中,由开始标签到结束标签的路径不止一条,在不同标签路径中,空白标签的数量和位置都不相同,而CTC时序分类算法对于概率最高的标签出现的位置并不在意,导致均方根即Peak值出现的位置不固定,不一定会出现在对应的帧的位置,就会导致对齐延迟,进而造成解码速度慢、识别速度慢的问题。

技术实现思路

[0003]因此,本专利技术要解决的技术问题在于克服现有技术中语音识别过程中由于训练的DNN模型存在对齐延迟,导致解码速度慢、识别速度慢的缺陷,从而提供一种DNN模型训练方法及语音识别方法、装置
[0004]根据第一方面,本专利技术实施例提供了一种DNN模型训练方法,所述方法包括:
[0005]获取训练音频样本对应的语音特征数据及标签序列;
[0006]将所述语音特征数据输入DNN模型进行标签预测,确定标签预测路径;
[0007]基于所述标签预测路径的概率计算所述DNN模型的模型损失函数值;
[0008]基于所述标签预测路径分别计算所述训练音频样本中每个音频帧的位置与其对应的标签序列中心点的距离;
[0009]基于所述训练音频样本中每个音频帧的位置与其对应的标签序列中心点的距离,计算所述DNN模型的峰值损失函数值;
[0010]基于所述模型损失函数值和所述峰值损失函数值,确定所述DNN模型的总损失函数;
[0011]基于所述总损失函数对所述DNN模型进行训练,直至所述DNN模型满足预设训练要求。
[0012]可选地,所述基于所述标签预测路径的概率计算所述DNN模型的模型损失函数值,包括:
[0013]获取当前音频帧对应的各标签预测路径的概率;
[0014]基于每条标签预测路径的概率,确定所述当前音频帧对应的总路径的概率;
[0015]基于每个音频帧对应的总路径的概率,计算所述DNN模型的模型损失函数值。
[0016]可选地,所述基于所述标签预测路径分别计算所述训练音频样本中每个音频帧的位置与其对应的标签序列中心点的距离,包括:
[0017]基于当前音频帧的语音特征数据计算当前音频帧的峰值并获取所述峰值的位置;
[0018]计算与当前音频帧对应的标签序列的中心点位置;
[0019]基于所述峰值的位置和所述标签序列的中心点位置,计算所述当前音频帧对应的峰值位置与其对应的标签序列中心点的距离。
[0020]可选地,所述基于所述训练音频样本中每个音频帧的位置与其对应的标签序列中心点的距离,计算所述DNN模型的峰值损失函数值,包括:
[0021]基于所述训练音频样本中每个音频帧的位置与其对应的标签序列中心点的距离,计算每条标签路径的平均距离;
[0022]基于所述每条标签路径的平均距离,计算所有路径距离损失的平均值;
[0023]基于所有路径距离损失的平均值确定所述DNN模型的峰值损失函数值。
[0024]可选地,所述基于所述峰值损失函数值和所述模型损失函数值确定所述DNN模型的总损失函数,包括:
[0025]分别设置所述峰值损失函数和所述模型损失函数的损失影响参数;
[0026]基于所述损失影响参数、所述峰值损失函数值和所述模型损失函数值确定所述DNN模型的总损失函数。
[0027]可选地,所述方法还包括:
[0028]基于所述语音特征数据中每个音频帧对应的第一语音特征在标签序列中对应的标签与所述DNN模型进行标签预测的预测标签的关系,计算在有空标签的情况下输出非空标签的概率;
[0029]基于在有空标签的情况下输出非空标签的概率,计算所述DNN模型的交叉熵损失。
[0030]可选地,所述基于所述峰值损失函数值和所述模型损失函数值确定所述DNN模型的总损失函数,还包括:
[0031]设置所述DNN模型的交叉熵损失函数、所述峰值损失函数和所述模型损失函数的损失影响参数;
[0032]基于所述损失影响参数、所述DNN模型的交叉熵损失函数值、所述峰值损失函数值和所述模型损失函数值确定所述DNN模型的总损失函数。
[0033]根据第二方面,本专利技术实施例提供了一种语音识别方法,所述方法包括:
[0034]获取待识别音频数据;
[0035]采用如第一方面,或者第一方面任意一种可选实施方式中所述的DNN模型训练方法进行DNN模型训练,得到训练好的DNN模型;
[0036]将所述待识别音频数据输入所述训练好的DNN模型进行识别,得到所述待识别音频数据的识别结果。
[0037]根据第三方面,本专利技术实施例提供了一种DNN模型训练装置,所述装置包括:
[0038]第一获取模块,用于获取训练音频样本对应的语音特征数据及标签序列;
[0039]第一处理模块,用于将所述语音特征数据输入DNN模型进行标签预测,确定标签预测路径;
[0040]第二处理模块,用于基于所述标签预测路径的概率计算所述DNN模型的模型损失函数值;
[0041]第三处理模块,用于基于所述标签预测路径分别计算所述训练音频样本中每个音频帧的位置与其对应的标签序列中心点的距离;
[0042]第四处理模块,用于基于所述训练音频样本中每个音频帧的位置与其对应的标签序列中心点的距离,计算所述DNN模型的峰值损失函数值;
[0043]计算模块,用于基于所述模型损失函数值和所述峰值损失函数值,确定所述DNN模型的总损失函数;
[0044]训练模块,用于基于所述总损失函数对所述DNN模型进行训练,直至所述DNN模型满足预设训练要求。
[0045]根据第四方面,本专利技术实施例提供了一种语音识别装置,所述装置包括:
[0046]第二获取模块,用于获取待识别音频数据;
[0047]执行模块,用于采用如第三方面所述的DNN模型训练装置进行DNN模型训练,得到训练好的DNN模型;
[0048]识别模块,用于将所述待识别音频数据输入所述训练好的DNN模型进行识别,得到所述待识别音本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种DNN模型训练方法,其特征在于,包括:获取训练音频样本对应的语音特征数据及标签序列;将所述语音特征数据输入DNN模型进行标签预测,确定标签预测路径;基于所述标签预测路径的概率计算所述DNN模型的模型损失函数值;基于所述标签预测路径分别计算所述训练音频样本中每个音频帧的位置与其对应的标签序列中心点的距离;基于所述训练音频样本中每个音频帧的位置与其对应的标签序列中心点的距离,计算所述DNN模型的峰值损失函数值;基于所述模型损失函数值和所述峰值损失函数值,确定所述DNN模型的总损失函数;基于所述总损失函数对所述DNN模型进行训练,直至所述DNN模型满足预设训练要求。2.根据权利要求1所述的方法,其特征在于,所述基于所述标签预测路径的概率计算所述DNN模型的模型损失函数值,包括:获取当前音频帧对应的各标签预测路径的概率;基于每条标签预测路径的概率,确定所述当前音频帧对应的总路径的概率;基于每个音频帧对应的总路径的概率,计算所述DNN模型的模型损失函数值。3.根据权利要求2所述的方法,其特征在于,所述基于所述标签预测路径分别计算所述训练音频样本中每个音频帧的位置与其对应的标签序列中心点的距离,包括:基于当前音频帧的语音特征数据计算当前音频帧的峰值并获取所述峰值的位置;计算与当前音频帧对应的标签序列的中心点位置;基于所述峰值的位置和所述标签序列的中心点位置,计算所述当前音频帧对应的峰值位置与其对应的标签序列中心点的距离。4.根据权利要求1所述的方法,其特征在于,所述基于所述训练音频样本中每个音频帧的位置与其对应的标签序列中心点的距离,计算所述DNN模型的峰值损失函数值,包括:基于所述训练音频样本中每个音频帧的位置与其对应的标签序列中心点的距离,计算每条标签路径的平均距离;基于所述每条标签路径的平均距离,计算所有路径距离损失的平均值;基于所有路径距离损失的平均值确定所述DNN模型的峰值损失函数值。5.根据权利要求1所述的方法,其特征在于,所述基于所述峰值损失函数值和所述模型损失函数值确定所述DNN模型的总损失函数,包括:分别设置所述峰值损失函数和所述模型损失函数的损失影响参数;基于所述损失影响参数、所述峰值损失函数值和所述模型损失函数值确定所述DNN模型的总损失函数。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:基于所述语音特征数据中每个音频帧对应的第一语音特征在标签序列中对应的标签与所述DNN模型进行标签预测的预测标签的关系,计算在有空标签的情况下输出非空标签的...

【专利技术属性】
技术研发人员:于丽美梁微
申请(专利权)人:镁佳北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1