语音识别模型训练方法及装置、计算机可读存储介质制造方法及图纸

技术编号:34769978 阅读:16 留言:0更新日期:2022-08-31 19:29
本申请公开了一种语音识别模型训练方法及装置、计算机可读存储介质,本申请提供的方案包括:获取用户对目标语音识别模型输出的语音识别的反馈信息,所述反馈信息包括语音识别的错误文本及错误文本对应的正确文本;获取错误文本对应的语音的说话人语音特征;基于错误文本、错误文本对应的正确文本、错误文本对应的语音的说话人语音特征,确定更新训练样本和对应的标签;基于更新训练样本和对应的标签,对所述目标语音识别模型进行更新训练。对所述目标语音识别模型进行更新训练。对所述目标语音识别模型进行更新训练。

【技术实现步骤摘要】
语音识别模型训练方法及装置、计算机可读存储介质


[0001]本申请涉及语音识别
,尤其涉及一种语音识别模型训练方法及装置、计算机可读存储介质。

技术介绍

[0002]语音识别是将语音转换成文本的技术,良好的语音识别模型需要成千上万小时的语料进行训练。现有语音识别系统是一旦进入系统后就不再更改,如果更新的话,目前有以下几种主流方法:1、根据识别性能购买数据,交由数据公司进行定制,或者直接购买现有的成品数据库;2、人工对识别性能不好的数据进行重新标注后重新加入模型训练。
[0003]上述方式得到的数据,无论是语音时长还是数量都是有限的,并且整个流程很长,造成很高的时间成本和价格成本,且语音识别模型的识别精度改善有限。

技术实现思路

[0004]本申请实施例的目的是提供一种语音识别模型训练方法及装置、计算机可读存储介质,用以解决现有语音识别模型训练存在的问题。
[0005]为了解决上述技术问题,本说明书是这样实现的:
[0006]第一方面,提供了一种语音识别模型训练方法,包括:
[0007]获取用户对目标语音识别模型输出的语音识别的反馈信息,所述反馈信息包括语音识别的错误文本及错误文本对应的正确文本;
[0008]获取错误文本对应的语音的说话人语音特征;
[0009]基于错误文本、错误文本对应的正确文本、错误文本对应的语音的说话人语音特征,确定更新训练样本和对应的标签;
[0010]基于更新训练样本和对应的标签,对所述目标语音识别模型进行更新训练
[0011]可选地,基于错误文本、错误文本对应的正确文本、错误文本对应的语音的说话人语音特征,确定更新训练样本和对应的标签,包括:
[0012]计算错误文本对应的正确文本的困惑度;
[0013]筛选出困惑度超出预设困惑度阈值的第一正确文本和第一正确文本对应的第一错误文本;
[0014]基于第一正确文本与第一错误文本对应的语音的说话人语音特征的任意搭配组合进行语音合成,生成更新训练样本;
[0015]基于第一正确文本,确定更新训练样本对应的标签。
[0016]可选地,所述方法还包括:
[0017]从目标网络上爬取热词;
[0018]将所述热词与所述目标语音识别模型的训练样本库进行匹配;
[0019]在匹配不成功的情况下,确定所述热词为新词;
[0020]基于错误文本、错误文本对应的正确文本、错误文本对应的语音的说话人语音特
征,确定更新训练样本和对应的标签,包括:
[0021]基于新词、错误文本、错误文本对应的正确文本、错误文本对应的语音的说话人语音特征,确定更新训练样本和对应的标签。
[0022]可选地,基于新词、错误文本、错误文本对应的正确文本、错误文本对应的语音的说话人语音特征,确定更新训练样本和对应的标签,包括:
[0023]计算错误文本对应的正确文本的困惑度;
[0024]筛选出困惑度超出预设困惑度阈值的第一正确文本和第一正确文本对应的第一错误文本;
[0025]基于第一正确文本、新词对应的文本分别与第一错误文本对应的语音的说话人语音特征的任意搭配组合进行语音合成,生成更新训练样本;
[0026]基于第一正确文本或新词的文本,确定更新训练样本对应的标签。
[0027]可选地,计算错误文本对应的正确文本的困惑度通过以下公式:
[0028][0029]其中,S表示目标错误文本对应的目标正确文本,k表示所述目标正确文本包括的词语数量,P(Wk)表示所述目标正确文本包括的第k个词语的句子概率。
[0030]可选地,进行语音合成之前,还包括:
[0031]根据第一错误文本对应的语音的说话人语音特征,进行说话人聚类;
[0032]确定聚类后各聚类集合包括的说话人数量;
[0033]筛选出说话人数量低于预设数量的聚类集合中的第一错误文本对应的语音的说话人语音特征,以用于所述语音合成。
[0034]可选地,根据第一错误文本对应的语音的说话人语音特征,进行说话人聚类,包括:
[0035]计算目标第一错误文本对应的语音的目标说话人的语音特征与所述目标语音识别模型的训练样本库中各说话人的语音特征的相似度;
[0036]将所述目标说话人聚类到语音特征相似度高的说话人所属的聚类集合。
[0037]可选地,基于错误文本、错误文本对应的正确文本、错误文本对应的语音的说话人语音特征,确定更新训练样本和对应的标签,包括:
[0038]根据错误文本对应的语音的说话人语音特征,进行说话人聚类;
[0039]确定聚类后各聚类集合包括的说话人数量;
[0040]筛选出说话人数量低于预设数量的聚类集合中的第二错误文本对应的语音的说话人语音特征;
[0041]基于错误文本对应的正确文本与第二错误文本对应的语音的说话人语音特征进行语音合成,生成更新训练样本;
[0042]基于正确文本,确定更新训练样本对应的标签。
[0043]第二方面,提供了一种语音识别模型训练装置,包括存储器和与所述存储器电连接的处理器,所述存储器存储有可在所述处理器运行的计算机程序,该计算机程序被该处理器执行时实现如第一方面所述的方法的步骤。
[0044]第三方面,提供了一种计算机可读存储介质,该计算机可读存储介质上存储计算
机程序,该计算机程序被处理器执行时实现如第一方面所述的方法的步骤。
[0045]在本申请实施例中,通过获取用户对目标语音识别模型输出的语音识别的反馈信息,所述反馈信息包括语音识别的错误文本及错误文本对应的正确文本;获取错误文本对应的语音的说话人语音特征;基于错误文本、错误文本对应的正确文本、错误文本对应的语音的说话人语音特征,确定更新训练样本和对应的标签;基于更新训练样本和对应的标签,对所述目标语音识别模型进行更新训练,由此,动态收集用户反馈的识别不好的语音,并从文本和说话人语音特征两个维度进行语音合成,生成更新训练样本,实时加入目标语音识别模型的更新训练,可以实现更快速度、更强时效性及更低成本的语料增广和模型训练,提高语音识别模型的识别精度。
附图说明
[0046]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0047]图1是本申请实施例的语音识别模型训练方法的流程示意图。
[0048]图2是本申请第一实施例的更新训练样本和标签的确定步骤流程示意图。
[0049]图3是本申请第二实施例的更新训练样本和标签的确定步骤流程示意图。
[0050]图4是本申请第三实施例的更新训练样本和标签的确定步骤流程示意图。
[0051]图5是本申请实施例的语音识别模型训练装置的结构方框图。
具体实施方式
[0052]下面将结合本申请实施例中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别模型训练方法,其特征在于,包括:获取用户对目标语音识别模型输出的语音识别的反馈信息,所述反馈信息包括语音识别的错误文本及错误文本对应的正确文本;获取错误文本对应的语音的说话人语音特征;基于错误文本、错误文本对应的正确文本、错误文本对应的语音的说话人语音特征,确定更新训练样本和对应的标签;基于更新训练样本和对应的标签,对所述目标语音识别模型进行更新训练。2.如权利要求1所述的方法,其特征在于,基于错误文本、错误文本对应的正确文本、错误文本对应的语音的说话人语音特征,确定更新训练样本和对应的标签,包括:计算错误文本对应的正确文本的困惑度;筛选出困惑度超出预设困惑度阈值的第一正确文本和第一正确文本对应的第一错误文本;基于第一正确文本与第一错误文本对应的语音的说话人语音特征的任意搭配组合进行语音合成,生成更新训练样本;基于第一正确文本,确定更新训练样本对应的标签。3.如权利要求1所述的方法,其特征在于,还包括:从目标网络上爬取热词;将所述热词与所述目标语音识别模型的训练样本库进行匹配;在匹配不成功的情况下,确定所述热词为新词;基于错误文本、错误文本对应的正确文本、错误文本对应的语音的说话人语音特征,确定更新训练样本和对应的标签,包括:基于新词、错误文本、错误文本对应的正确文本、错误文本对应的语音的说话人语音特征,确定更新训练样本和对应的标签。4.如权利要求3所述的方法,其特征在于,基于新词、错误文本、错误文本对应的正确文本、错误文本对应的语音的说话人语音特征,确定更新训练样本和对应的标签,包括:计算错误文本对应的正确文本的困惑度;筛选出困惑度超出预设困惑度阈值的第一正确文本和第一正确文本对应的第一错误文本;基于第一正确文本、新词对应的文本分别与第一错误文本对应的语音的说话人语音特征的任意搭配组合进行语音合成,生成更新训练样本;基于第一正确文本或新词的文本,确定更新训练样本对应的标签。5.如权利要求...

【专利技术属性】
技术研发人员:胡洪涛徐景成朱耀磷彭成高刘莹
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1