多方言口音普通话语音识别模型训练方法、装置及设备制造方法及图纸

技术编号:27064124 阅读:16 留言:0更新日期:2021-01-15 14:45
本申请提供一种多方言口音普通话语音识别模型训练方法、装置及设备,涉及语言识别技术领域。该方法包括:获取训练样本;使用带标注的标准普通话语音数据训练得到初始声学模型,使用文本数据训练得到初始语言模型;基于未标注的方言口音普通话语音数据迭代训练初始声学模型,得到目标声学模型;使用由目标声学模型和初始语言模型识别得到的待训练文本,训练得到临时语言模型,将临时语言模型与初始语言模型合并得到目标语言模型;将目标声学模型以及目标语言模型组合为多方言口音普通话语音识别模型。利用大量未标注的方言口音普通话语音数据,进行迭代训练,得到多方言口音普通话语音识别模型,提升了对方言口音普通话语音识别准确率。

【技术实现步骤摘要】
多方言口音普通话语音识别模型训练方法、装置及设备
本专利技术涉及语音识别
,具体而言,涉及一种多方言口音普通话语音识别模型训练方法、装置及设备。
技术介绍
随着互联网和其他移动终端性能的提升,基于语音识别技术的智能产品,越来越受到工业生产和日常生活的青睐,如语音对话机器人、语音助手、互动工具等。但是,我国是一个包含多方言地区国家,生活在各地区的人们,在用普通话进行表达时会存在很大程度的口音现象,进而造成与标准普通话模型不匹配,导致语音识别的准确率低。目前,可以基于时序神经网络进行多模型研究,实现对方言口音普通话的识别。其中,基于多模型识别方法,针对不同区域总结不同发音词典、训练数据;然后,直接训练多个模型,或者微调通用普通话语音识别模型。但是,目前所采用的多模型识别方法,需要耗费大量的时间和人力进行数据收集和样本标注,导致优化的难度增大。
技术实现思路
本专利技术的目的在于,针对上述现有技术中的不足,提供一种多方言口音普通话语音识别模型训练方法、装置及设备,以便充分利用无标注的语音数据来加强模型的训练,避免了在实际应用中由于缺少标注训练样本数据的限制,而导致最终识别精度不高的情况。为实现上述目的,本申请实施例采用的技术方案如下:第一方面,本申请实施例提供了一种多方言口音普通话语音识别模型训练方法,包括:获取训练样本,所述训练样本包括:带标注的标准普通话语音数据、未标注的方言口音普通话语音数据、以及文本数据;使用所述带标注的标准普通话语音数据训练得到初始声学模型,并使用所述文本数据训练得到初始语言模型;基于所述未标注的方言口音普通话语音数据,迭代训练所述初始声学模型,得到目标声学模型,所述目标声学模型用于识别预设种类的方言口音普通话语音数据,每种方言口音普通话语音数据分别对应一类方言口音普通话;使用由所述目标声学模型和所述初始语言模型识别得到的待训练文本,训练得到临时语言模型,将所述临时语言模型与所述初始语言模型进行合并,得到目标语言模型;将所述目标声学模型以及所述目标语言模型组合为多方言口音普通话语音识别模型。可选地,所述基于所述未标注的方言口音普通话语音数据,迭代训练所述初始声学模型,得到目标声学模型,包括:将所述初始声学模型作为初始的临时声学模型;A、使用所述临时声学模型以及所述初始语言模型对所述未标注的方言口音普通话语音数据进行识别处理,得到识别文本;B、根据所述识别文本的置信度、语种信息以及地域标签信息,得到预设数量的数据集合,每个数据集合中包括多个所述识别文本,且同一数据集合中的所述识别文本对应同一类方言口音普通话;C、使用每个所述数据集合,分别对所述临时声学模型进行调整,得到所述预设数量的方言声学模型;D、根据各所述方言声学模型的准确率,从所述各所述方言声学模型中筛选出至少一个备选合并模型;E、将各所述备选合并模型与所述临时声学模型进行合并处理,得到新的临时声学模型;循环执行步骤A-E,直至所述临时声学模型的准确率满足预设条件,并将所述临时声学模型作为所述目标声学模型。可选地,所述使用所述临时声学模型以及所述初始语言模型对所述未标注的方言口音普通话语音数据进行识别处理之前,还包括:使用预设的语种识别引擎确定所述未标注的方言口音普通话语音数据的语种信息。可选地,所述根据所述识别文本的置信度、语种信息以及地域标签信息,得到预设数量的数据集合,包括:从所述识别文本中筛选出置信度大于预设阈值的识别文本;根据所述语种信息以及所述地域标签信息,将所述置信度大于预设阈值的识别文本划分至所述预设数量的数据集合。可选地,所述根据各所述方言声学模型的准确率,从所述各所述方言声学模型中筛选出至少一个备选合并合并模型,包括:分别使用各所述方言声学模型对带标注的语音测试集进行识别处理,得到识别结果;根据所述识别结果以及所述带标注的语音测试集的标注信息,确定所述方言声学模型的准确率;根据各所述方言声学模型的准确率,从所述各所述方言声学模型中筛选出至少一个备选合并模型。可选地,所述使用由所述目标声学模型和所述初始语言模型识别得到的待训练文本,对所述初始语言模型进行训练,得到目标语言模型之前,还包括:使用所述目标声学模型和所述初始语言模型对所述带标注的标准普通话语音数据以及所述未标注的方言口音普通话语音数据进行识处理,得到所述待训练文本。可选地,所述将所述临时语言模型与对所述初始语言模型进行合并,得到目标语言模型,包括:分别使用所述临时语言模型和所述初始语言模型确定带标注的语音测试集的混淆度;根据所述混淆度,对所述临时语言模型和所述初始语言模型进行插值处理,得到所述目标语言模型。第二方面,本申请实施例还提供了一种多方言口音普通话语音识别模型训练装置,所述装置包括:获取模块、训练模块及组合模块;所述获取模块,用于获取训练样本,所述训练样本包括:带标注的标准普通话语音数据、未标注的方言口音普通话语音数据、以及文本数据;所述训练模块,用于使用所述带标注的标准普通话语音数据训练得到初始声学模型,并使用所述文本数据训练得到初始语言模型;基于所述未标注的方言口音普通话语音数据,迭代训练所述初始声学模型,得到目标声学模型,所述目标声学模型用于识别预设种类的方言口音普通话语音数据,每种方言口音普通话语音数据分别对应一类方言口音普通话;使用由所述目标声学模型和所述初始语言模型识别得到的待训练文本,对所述初始语言模型进行训练,得到目标语言模型;所述组合模块,用于将所述目标声学模型以及所述目标语言模型组合为多方言口音普通话语音识别模型。可选地,所述训练模块,还用于:将所述初始声学模型作为初始的临时声学模型;A、使用所述临时声学模型以及所述初始语言模型对所述未标注的方言口音普通话语音数据进行识别处理,得到识别文本;B、根据所述识别文本的置信度、语种信息以及地域标签信息,得到预设数量的数据集合,每个数据集合中包括多个所述识别文本,且同一数据集合中的所述识别文本对应同一类方言口音普通话;C、使用每个所述数据集合,分别对所述临时声学模型进行调整,得到所述预设数量的方言声学模型;D、根据各所述方言声学模型的准确率,从所述各所述方言声学模型中筛选出至少一个备选合并模型;E、将各所述备选合并模型与所述临时声学模型进行合并处理,得到新的临时声学模型;循环执行步骤A-E,直至所述临时声学模型的准确率满足预设条件,并将所述临时声学模型作为所述目标声学模型。可选地,所述训练模块,还用于:使用预设的语种识别引擎确定所述未标注的方言口音普通话语音数据的语种信息。可选地,所述训练模块,还用于:从所述识别文本中筛选出置信度大于预设阈值的识别文本;根据所述语种信息以及所述地域标签信息,将所述置信度大于预设阈值的识别文本划分至所述预设数本文档来自技高网...

【技术保护点】
1.一种多方言口音普通话语音识别模型训练方法,其特征在于,包括:/n获取训练样本,所述训练样本包括:带标注的标准普通话语音数据、未标注的方言口音普通话语音数据、以及文本数据;/n使用所述带标注的标准普通话语音数据训练得到初始声学模型,并使用所述文本数据训练得到初始语言模型;/n基于所述未标注的方言口音普通话语音数据,迭代训练所述初始声学模型,得到目标声学模型,所述目标声学模型用于识别预设种类的方言口音普通话语音数据,每种方言口音普通话语音数据分别对应一类方言口音普通话;/n使用由所述目标声学模型和所述初始语言模型识别得到的待训练文本,训练得到临时语言模型,将所述临时语言模型与所述初始语言模型进行合并,得到目标语言模型;/n将所述目标声学模型以及所述目标语言模型组合为多方言口音普通话语音识别模型。/n

【技术特征摘要】
1.一种多方言口音普通话语音识别模型训练方法,其特征在于,包括:
获取训练样本,所述训练样本包括:带标注的标准普通话语音数据、未标注的方言口音普通话语音数据、以及文本数据;
使用所述带标注的标准普通话语音数据训练得到初始声学模型,并使用所述文本数据训练得到初始语言模型;
基于所述未标注的方言口音普通话语音数据,迭代训练所述初始声学模型,得到目标声学模型,所述目标声学模型用于识别预设种类的方言口音普通话语音数据,每种方言口音普通话语音数据分别对应一类方言口音普通话;
使用由所述目标声学模型和所述初始语言模型识别得到的待训练文本,训练得到临时语言模型,将所述临时语言模型与所述初始语言模型进行合并,得到目标语言模型;
将所述目标声学模型以及所述目标语言模型组合为多方言口音普通话语音识别模型。


2.根据权利要求1所述的方法,其特征在于,所述基于所述未标注的方言口音普通话语音数据,迭代训练所述初始声学模型,得到目标声学模型,包括:
将所述初始声学模型作为初始的临时声学模型;
A、使用所述临时声学模型以及所述初始语言模型对所述未标注的方言口音普通话语音数据进行识别处理,得到识别文本;
B、根据所述识别文本的置信度、语种信息以及地域标签信息,得到预设数量的数据集合,每个数据集合中包括多个所述识别文本,且同一数据集合中的所述识别文本对应同一类方言口音普通话;
C、使用每个所述数据集合,分别对所述临时声学模型进行调整,得到所述预设数量的方言声学模型;
D、根据各所述方言声学模型的准确率,从所述各所述方言声学模型中筛选出至少一个备选合并模型;
E、将各所述备选合并模型与所述临时声学模型进行合并处理,得到新的临时声学模型;
循环执行步骤A-E,直至所述临时声学模型的准确率满足预设条件,并将所述临时声学模型作为所述目标声学模型。


3.根据权利要求2所述的方法,其特征在于,所述使用所述临时声学模型以及所述初始语言模型对所述未标注的方言口音普通话语音数据进行识别处理之前,还包括:
使用预设的语种识别引擎确定所述未标注的方言口音普通话语音数据的语种信息。


4.根据权利要求3所述的方法,其特征在于,所述根据所述识别文本的置信度、语种信息以及地域标签信息,得到预设数量的数据集合,包括:
从所述识别文本中筛选出置信度大于预设阈值的识别文本;
根据所述语种信息以及所述地域标签信息,将所述置信度大于预设阈值的识别文本划分至所述预设数量的数据集合。


5.根据权利要求2所述的方法,其特征在于,所述根据各所述方言声学模型的准确率,从所述各所述方言声学模型中筛选出至少一个备选合并合并模型,包括:
分别使用各所述方言声学模型对带标注的语音测试集进行识别处理,得到识别结果;
根据所述识别结果以及所述带标注的语音测试集的标注信息,确定所述方言声学模型的准确率;
根据各所述方言声学模型的准确率,从所述各所述方言声学模型中筛选出至少一个...

【专利技术属性】
技术研发人员:胡广宇
申请(专利权)人:北京远鉴信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1