语音识别方法、语音识别的模型训练方法以及装置制造方法及图纸

技术编号:29098399 阅读:30 留言:0更新日期:2021-06-30 10:09
本申请公开了一种语音识别方法、语音识别的模型训练方法及装置,涉及人工智能、深度学习和语音识别技术领域。具体实现方案为:获取待识别语音;将待识别语音输入至方言声学模型,获得与待识别语音的特征序列对应的音素后验概率分布和方言声学向量;根据特征序列对应的音素后验概率分布结合经过训练的方言统计语言模型对待识别语音进行解码,得到N个候选词序列;将N个候选词序列输入至经过训练的第一神经网络语言模型,得到N个第一文本向量,并将N个候选词序列输入至经过训练的第二神经网络语言模型,得到N个第二文本向量;根据方言声学向量、N个第一文本向量和N个第二文本向量,从N个候选词序列之中确定出待识别语音的语音识别结果。识别结果。识别结果。

【技术实现步骤摘要】
语音识别方法、语音识别的模型训练方法以及装置


[0001]本申请涉及数据处理
中的人工智能、深度学习和语音识别
,尤其涉及一种语音识别方法、语音识别的模型训练方法、装置、电子设备和存储介质。

技术介绍

[0002]通过语音识别技术,可以将语音输入转换为对应的文字输出。
[0003]由于方言具有一些特殊的语音语调特点,在对方言进行识别的时候,文字输出的准确率较低,而且容易与普通话中相似的音节混淆。

技术实现思路

[0004]本申请提供了一种用于语音识别的方法、语音识别的模型训练方法、装置、设备以及存储介质。
[0005]根据本申请的第一方面,提供了一种语音识别的方法,包括:
[0006]获取待识别语音;
[0007]将所述待识别语音输入至经过训练的方言声学模型,获得与所述待识别语音的特征序列对应的音素后验概率分布和方言声学向量;
[0008]根据所述特征序列对应的音素后验概率分布结合经过训练的方言统计语言模型对所述待识别语音进行解码,得到N个候选词序列;其中,N为正整数;
[0009]将所述N个候选词序列输入至经过训练的第一神经网络语言模型,得到N个第一文本向量,并将所述N个候选词序列输入至经过训练的第二神经网络语言模型,得到N个第二文本向量;以及
[0010]根据所述方言声学向量、所述N个第一文本向量和所述N个第二文本向量,从所述N个候选词序列之中确定出所述待识别语音的语音识别结果。
[0011]根据本申请的第二方面,提供了一种语音识别的装置,包括:
[0012]第一获取模块,用于获取待识别语音;
[0013]处理模块,用于将所述待识别语音输入至经过训练的方言声学模型,获得与所述待识别语音的特征序列对应的音素后验概率分布和方言声学向量;
[0014]解码模块,用于根据所述特征序列对应的音素后验概率分布结合经过训练的方言统计语言模型对所述待识别语音进行解码,得到N个候选词序列;其中,N为正整数;
[0015]生成模块,用于将所述N个候选词序列输入至经过训练的第一神经网络语言模型,得到N个第一文本向量,并将所述N个候选词序列输入至经过训练的第二神经网络语言模型,得到N个第二文本向量;以及
[0016]确定模块,用于根据所述方言声学向量、所述N个第一文本向量和所述N个第二文本向量,从所述N个候选词序列之中确定出所述待识别语音的语音识别结果。
[0017]根据本申请的第三方面,提供了一种语音识别的模型训练方法,包括:
[0018]获取普通话训练数据,所述普通话训练数据包括普通话音频样本及对应的普通话
标注文本;
[0019]获取方言训练数据,所述方言训练数据包括方言音频样本及对应的方言标注文本、方言无监督音频样本;
[0020]根据所述普通话训练数据和所述方言训练数据训练声学模型;所述声学模型包括普通话音频输入层、方言音频输入层、声学共享网络层、普通话声学输出层和方言声学输出层;其中,所述方言音频输入层、所述声学共享网络层和所述方言声学输出层构成方言声学模型;
[0021]将所述方言音频样本输入至所述方言声学模型,获得方言声学向量样本;
[0022]根据所述普通话标注文本、所述方言标注文本和所述方言声学向量样本训练匹配度判别器,并根据所述匹配度判别器、所述方言无监督音频样本和所述方言无监督音频样本对应的文本,获取第一方言置信度;
[0023]根据所述第一方言置信度对所述方言无监督音频样本进行筛选降权,并将经过筛选降权的所述方言无监督音频样本作为新的方言无监督音频样本,返回执行所述根据所述普通话训练数据和所述方言训练数据训练声学模型的步骤,直至所述声学模型的准确率满足预设条件为止。
[0024]根据本申请的第四方面,提供了一种语音识别的模型训练装置,包括:
[0025]第二获取模块,用于获取普通话训练数据,所述普通话训练数据包括普通话音频样本及对应的普通话标注文本;
[0026]第三获取模块,用于获取方言训练数据,所述方言训练数据包括方言音频样本及对应的方言标注文本、方言无监督音频样本;
[0027]第三训练模块,用于根据所述普通话训练数据和所述方言训练数据训练声学模型;所述声学模型包括普通话音频输入层、方言音频输入层、声学共享网络层、普通话声学输出层和方言声学输出层;其中,所述方言音频输入层、所述声学共享网络层和所述方言声学输出层构成方言声学模型;
[0028]第四获取模块,用于将所述方言音频样本输入至所述方言声学模型,获得方言声学向量样本;
[0029]第五获取模块,用于根据所述普通话标注文本、所述方言标注文本和所述方言声学向量样本训练匹配度判别器,并根据所述匹配度判别器、所述方言无监督音频样本和所述方言无监督音频样本对应的文本,获取第一方言置信度;
[0030]迭代训练模块,用于根据所述第一方言置信度对所述方言无监督音频样本进行筛选降权,并将经过筛选降权的所述方言无监督音频样本作为新的方言无监督音频样本,返回执行所述根据所述普通话训练数据和所述方言训练数据训练声学模型的步骤,直至所述声学模型的准确率满足预设条件为止。
[0031]根据本申请的第五方面,提供了一种电子设备,包括:
[0032]至少一个处理器;以及
[0033]与所述至少一个处理器通信连接的存储器;其中,
[0034]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请的第一方面所述的语音识别方法,或执行本申请第三方面所述的语音识别的模型训练方法。
[0035]根据本申请的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行本申请的第一方面所述的语音识别方法,或执行本申请第三方面所述的语音识别的模型训练方法。
[0036]根据本申请的第七方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据第一方面所述的语音识别方法,或实现根据本申请第三方面所述的语音识别的模型训练方法。
[0037]根据本申请的技术方案,可以提高方言的语音输出准确率,并且使得方言与其他语言不易混淆。
[0038]应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0039]附图用于更好地理解本方案,不构成对本申请的限定。其中:
[0040]图1是根据本申请第一实施例的语音识别方法的流程图;
[0041]图2是根据本申请第二实施例的语音识别方法的流程图;
[0042]图3是根据本申请第三实施例的语音识别方法的流程图;
[0043]图4是根据本申请一个实施例的训练过程中的声学模型的结构示意图;
[004本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,包括:获取待识别语音;将所述待识别语音输入至经过训练的方言声学模型,获得与所述待识别语音的特征序列对应的音素后验概率分布和方言声学向量;根据所述特征序列对应的音素后验概率分布结合经过训练的方言统计语言模型对所述待识别语音进行解码,得到N个候选词序列;其中,N为正整数;将所述N个候选词序列输入至经过训练的第一神经网络语言模型,得到N个第一文本向量,并将所述N个候选词序列输入至经过训练的第二神经网络语言模型,得到N个第二文本向量;以及根据所述方言声学向量、所述N个第一文本向量和所述N个第二文本向量,从所述N个候选词序列之中确定出所述待识别语音的语音识别结果。2.根据权利要求1所述的语音识别方法,其中,所述根据所述方言声学向量、所述N个第一文本向量和所述N个第二文本向量,从所述N个候选词序列之中确定出所述待识别语音的语音识别结果,包括:根据所述方言声学向量和所述N个第一文本向量,获取所述N个候选词序列的N个普通话置信度;根据所述方言声学向量和所述N个第二文本向量,获取所述N个候选词序列的N个方言置信度;根据所述N个普通话置信度和所述N个方言置信度,从所述N个候选词序列中找出普通话置信度满足第一条件且方言置信度满足第二条件的候选词序列;将所述普通话置信度满足第一条件且方言置信度满足第二条件的候选词序列,作为所述待识别语音的语音识别结果。3.根据权利要求2所述的语音识别方法,其中,所述根据所述方言声学向量和所述N个第一文本向量,获取所述N个候选词序列的N个普通话置信度,包括:将所述方言声学向量与所述N个第一文本向量输入至经过训练的匹配度判别器,获得所述N个候选词序列的N个普通话置信度;所述根据所述方言声学向量和所述N个第二文本向量,获取所述N个候选词序列的N个方言置信度,包括:将所述方言声学向量和所述N个第二文本向量输入至所述匹配度判别器,获得所述N个候选词序列的N个方言置信度。4.根据权利要求3所述的语音识别方法,其中,所述方言声学模型通过以下方式预先训练而得到的:获取普通话训练数据,所述普通话训练数据包括普通话音频样本及对应的普通话标注文本;获取方言训练数据,所述方言训练数据包括方言音频样本及对应的方言标注文本、方言无监督音频样本;根据所述普通话训练数据和所述方言训练数据训练声学模型;所述声学模型包括普通话音频输入层、方言音频输入层、声学共享网络层、普通话声学输出层和方言声学输出层;其中,所述方言音频输入层、所述声学共享网络层和所述方言声学输出层构成方言声学模
型;将所述方言音频样本输入至所述方言声学模型,获得方言声学向量样本;根据所述普通话标注文本、所述方言标注文本和所述方言声学向量样本训练匹配度判别器,并根据所述匹配度判别器、所述方言无监督音频样本和所述方言无监督音频样本对应的文本,获取第一方言置信度;根据所述第一方言置信度对所述方言无监督音频样本进行筛选降权,并将经过筛选降权的所述方言无监督音频样本作为新的方言无监督音频样本,返回执行所述根据所述普通话训练数据和所述方言训练数据训练声学模型的步骤,直至所述声学模型的准确率满足预设条件为止。5.根据权利要求4所述的语音识别方法,其中,所述根据所述普通话标注文本、所述方言标注文本和所述方言声学向量样本训练匹配度判别器,包括:从所述普通话标注文本中获取目标普通话标注文本,并将所述目标普通话标注文本输入至所述第一神经网络语言模型,获得普通话文本向量;其中,所述第一神经网络语言模型包括第一普通话文本输入层和第一语言共享网络层;将所述方言标注文本输入至所述第二神经网络语言模型,获得方言文本向量;所述第二神经网络语言模型包括第一方言文本输入层和所述第一语言共享网络层;将所述方言声学向量样本、所述普通话文本向量和所述方言文本向量输入至匹配度判别器,获得普通话置信度和第二方言置信度;根据所述第二方言置信度和所述普通话置信度训练所述匹配度判别器。6.根据权利要求4所述的语音识别方法,其中,所述根据所述匹配度判别器、所述方言无监督音频样本和所述方言无监督音频样本对应的文本,获取第一方言置信度,包括:将所述方言无监督音频样本输入至所述方言声学模型,获得方言无监督声学向量;将所述方言无监督音频样本对应的文本输入至所述第二神经网络,获得方言无监督文本向量;将所述方言无监督声学向量和所述方言无监督文本向量输入至所述匹配度判别器,获取所述第一方言置信度。7.根据权利要求4所述的语音识别方法,还包括:在根据所述普通话训练数据和所述方言训练数据训练声学模型时,根据所述普通话标注文本、所述方言标注文本和所述方言无监督音频样本对应的文本,训练统计语言模型;所述统计语言模型包括第二普通话文本输入层、第二方言文本输入层、第二语言共享网络层、普通话语言输出层、方言语言输出层;其中,所述第二方言文本输入层、所述第二语言共享网络层和所述方言语言输出层构成所述方言统计语言模型;在根据所述第一方言置信度对所述方言无监督音频样本进行筛选降权时,根据所述第一方言置信度对所述方言无监督音频样本对应的文本进行筛选降权,并将经过筛选降权的所述方言无监督音频样本对应的文本作为新的方言无监督音频样本对应的文本。8.一种语音识别的模型训练方法,包括:获取普通话训练数据,所述普通话训练数据包括普通话音频样本及对应的普通话标注文本;获取方言训练数据,所述方言训练数据包括方言音频样本及对应的方言标注文本、方
言无监督音频样本;根据所述普通话训练数据和所述方言训练数据训练声学模型;所述声学模型包括普通话音频输入层、方言音频输入层、声学共享网络层、普通话声学输出层和方言声学输出层;其中,所述方言音频输入层、所述声学共享网络层和所述方言声学输出层构成方言声学模型;将所述方言音频样本输入至所述方言声学模型,获得方言声学向量样本;根据所述普通话标注文本、所述方言标注文本和所述方言声学向量样本训练匹配度判别器,并根据所述匹配度判别器、所述方言无监督音频样本和所述方言无监督音频样本对应的文本,获取第一方言置信度;根据所述第一方言置信度对所述方言无监督音频样本进行筛选降权,并将经过筛选降权的所述方言无监督音频样本作为新的方言无监督音频样本,返回执行所述根据所述普通话训练数据和所述方言训练数据训练声学模型的步骤,直至所述声学模型的准确率满足预设条件为止。9.根据权利要求8所述的方法,其中,所述根据所述普通话标注文本、所述方言标注文本和所述方言声学向量样本训练匹配度判别器,包括:从所述普通话标注文本中获取目标普通话标注文本,并将所述目标普通话标注文本输入至所述第一神经网络语言模型,获得普通话文本向量;其中,所述第一神经网络语言模型包括第一普通话文本输入层和第一语言共享网络层;将所述方言标注文本输入至所述第二神经网络语言模型,获得方言文本向量;所述第二神经网络语言模型包括第一方言文本输入层和所述第一语言共享网络层;将所述方言声学向量样本、所述普通话文本向量和所述方言文本向量输入至匹配度判别器,获得普通话置信度和第二方言置信度;根据所述第二方言置信度和所述普通话置信度训练所述匹配度判别器。10.根据权利要求8所述的方法,其中,所述根据所述匹配度判别器、所述方言无监督音频样本和所述方言无监督音频样本对应的文本,获取第一方言置信度,包括:将所述方言无监督音频样本输入至所述方言声学模型,获得方言无监督声学向量;将所述方言无监督音频样本对应的文本输入至所述第二神经网络,获得方言无监督文本向量;将所述方言无监督声学向量和所述方言无监督文本向量输入至所述匹配度判别器,获取所述第一方言置信度。11.根据权利要求8所述的方法,还包括:在根据所述普通话训练数据和所述方言训练数据训练声学模型时,根据所述普通话标注文本、所述方言标注文本和所述方言无监督音频样本对应的文本,训练统计语言模型;所述统计语言模型包括第二普通话文本输入层、第二方言文本输入层、第二语言共享网络层、普通话语言输出层、方言语言输出层;其中,所述第二方言文本输入层、所述第二语言共享网络层和所述方言语言输出层构成所述方言统计语言模型;在根据所述第一方言置信度对所述方言无监督音频样本进行筛选降权时,根据所述第一方言置信度对所述方言无监督音频样本对应的文本进行筛选降权,并将经过筛选降权的所述方言无监督音频样本对应的文本作为新的方言无监督音频样本对应的文本。
12.一种语音识别装置,包括:第一获取模块,用于获取待识别语音;处理模块,用于将所述待识别语音输入至经过训练的方言声学模型,获得与所述待识别语音的特征序列对应的音素后验概率分布和方言声学向量;解码模块,用于根据所述特征序列对应的音素后验概率分布结合经过训练的方言统计语言模型对所述待识别语音进行...

【专利技术属性】
技术研发人员:张辽
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1