语音识别、语音识别模型训练方法、装置、介质及设备制造方法及图纸

技术编号:37369392 阅读:14 留言:0更新日期:2023-04-27 07:15
本申请实施例公开了一种语音识别、语音识别模型训方法、装置、存储介质及设备,该方法包括:通过在语音识别模型的编码网络模块中加入混合专家网络和嵌入模块,利用嵌入模块对目标语音数据的目标声学特征序列进行语音特征提取处理,以得到目标语音嵌入特征,将目标语音嵌入特征和目标声学特征序列输入至混合专家网络的神经网络模块中进行编码处理,使得混合专家网络的神经网络模块中可以得到与语言相关的特征和目标声学特征序列,提高混合专家网络的神经网络模块的输出结果的准确性,将输出结果输入至解码网络模块中进行解码处理,以得到目标语音数据的识别文本,可提高各种语言混说场景中的语音识别的准确率。说场景中的语音识别的准确率。说场景中的语音识别的准确率。

【技术实现步骤摘要】
语音识别、语音识别模型训练方法、装置、介质及设备


[0001]本申请涉及人工智能
,具体涉及一种语音识别方法、语音识别模型训练方法、装置、计算机可读存储介质及计算机设备。

技术介绍

[0002]人机语音交互/语音识别在现代生活已变得非常普遍,典型的人机语音交互场景例如汽车、智慧医疗、智能家居、智能客服、机器人乃至虚拟数字人等,都存在着语音识别的应用。
[0003]而世界上存在着各种语言,甚至在我国,因为幅员辽阔,地域差异较大,也造成了不同地区的人群说着形形色色的方言。方言的书面文字与普通话有所区别,许多地区的方言存在各自的“正字”,不能简单的使用普通话文字来表达。目前大多数的语音交互系统仅能支持普通话对话,而许多人在日常生活中习惯于使用方言,在交互中可能存在普通话和方言混说的场景。
[0004]对于在人机语音交互中,存在着各种语言混说的场景,目前的语音识别方法并不能很好的进行识别,语音识别的准确率较低。

技术实现思路

[0005]本申请实施例提供一种语音识别模型训练方法、语音识别方法、装置、计算机可读存储介质及计算机设备,可以提高各种语言混说场景中的语音识别的准确率。
[0006]本申请实施例提供了一种语音识别方法,包括:
[0007]获取目标语音数据,并调用语音识别模型,所述语音识别模型包括混合专家网络的编码网络模块和解码网络模块,所述编码网络模块中包括混合专家网络的神经网络模块和嵌入模块;
[0008]将所述目标语音数据进行声学特征提取,以得到所述目标语音数据的目标声学特征序列;
[0009]将所述目标声学特征序列输入至所述嵌入模块中进行语音特征提取处理,以得到所述目标语音数据的目标语音嵌入特征;
[0010]将所述目标语音嵌入特征和所述目标声学特征序列输入至所述混合专家网络的神经网络模块中进行编码处理,以得到所述目标语音数据的目标语义编码特征;
[0011]将所述目标语义编码特征和预设文本起始符输入至所述解码网络模块进行解码处理,以得到所述目标语音数据的识别文本。
[0012]本申请实施例还提供了一种语音识别模型训练方法,包括:
[0013]获取多种不同语种的语音数据集和初始语音识别模型,所述语音数据集中包括每种不同语种的语音样本数据、所述语音样本数据的对应语种的语种文本标签、以及所述语音样本数据的目标语种的目标文本标签,所述初始语音识别模型包括混合专家网络的编码网络模块和解码网络模块,所述编码网络模块中包括混合专家网络的神经网络模块和嵌入
模块;
[0014]将所述语音样本数据进行声学特征提取,以得到所述语音样本数据的声学特征序列;
[0015]将所述声学特征序列输入至所述嵌入模块中进行语音特征提取处理,以得到所述语音样本数据的语音嵌入特征,并根据所述语音嵌入特征和所述语种文本标签更新所述嵌入模块的网络参数;
[0016]将所述语音嵌入特征和所述声学特征序列输入至所述混合专家网络的神经网络模块中进行编码处理,以得到所述语音样本数据的语义编码特征;
[0017]将所述语义编码特征和所述目标文本标签输入至所述解码网络模块进行解码处理,以得到所述语音样本数据的预测文本;
[0018]根据所述预测文本和所述目标文本标签更新所述初始语音识别模型的网络参数,以得到语音识别模型。
[0019]本申请实施例还提供一种语音识别模型训练装置,包括:
[0020]第一获取单元,用于获取多种不同语种的语音数据集和初始语音识别模型,所述语音数据集中包括每种不同语种的语音样本数据、所述语音样本数据的对应语种的语种文本标签,所述语音样本数据的目标语种的目标文本标签,所述初始语音识别模型包括混合专家网络的编码网络模块和解码网络模块,所述编码网络模块中包括混合专家网络的神经网络模块和嵌入模块;
[0021]第一声学提取单元,用于将所述语音样本数据进行声学特征提取,以得到所述语音样本数据的声学特征序列;
[0022]第一嵌入提取单元,用于将所述声学特征序列输入至所述嵌入模块中进行语音特征提取处理,以得到所述语音样本数据的语音嵌入特征;
[0023]第一专家编码单元,用于将所述语音嵌入特征和所述声学特征序列输入至所述混合专家网络的神经网络模块中进行编码处理,以得到所述语音样本数据的语义编码特征;
[0024]第一解码单元,用于将所述语义编码特征和所述目标文本标签输入至所述解码网络模块进行解码处理,以得到所述语音样本数据的预测文本;
[0025]第二更新单元,用于根据所述预测文本和所述目标文本标签更新所述初始语音识别模型的网络参数,以得到语音识别模型。
[0026]本申请实施例还提供一种语音识别装置,包括:
[0027]第二获取单元,用于获取目标语音数据,并调用语音识别模型,所述语音识别模型包括嵌入模块、混合专家网络的神经网络模块和解码网络模块;
[0028]第二声学提取单元,用于将所述目标语音数据进行声学特征提取,以得到所述目标语音数据的目标声学特征序列;
[0029]第二嵌入提取单元,用于将所述目标声学特征序列输入至所述嵌入模块中进行语音特征提取处理,以得到所述目标语音数据的目标语音嵌入特征;
[0030]第二专家编码单元,用于将所述目标语音嵌入特征和所述目标声学特征序列输入至所述混合专家网络的神经网络模块中进行编码处理,以得到所述目标语音数据的目标语义编码特征;
[0031]第二解码单元,用于将所述目标语义编码特征和预设文本起始符输入至所述解码
网络模块进行解码处理,以得到所述目标语音数据的识别文本。
[0032]本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于处理器进行加载,以执行如上任一实施例所述的方法中的步骤。
[0033]本申请实施例还提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器通过调用所述存储器中存储的所述计算机程序,执行如上任一实施例所述的方法中的步骤。
[0034]本申请实施例提供的语音识别模型训练方法、语音识别方法、装置、计算机可读存储介质及计算机设备,通过在语音识别模型的编码网络模块中加入混合专家网络和嵌入模块,利用嵌入模块对目标语音数据的目标声学特征序列进行语音特征提取处理,以得到目标语音嵌入特征,该目标语音嵌入特征包括了目标语音数据的浅层的与语言相关的特征,在得到目标语音嵌入特征之后,将目标语音嵌入特征和目标声学特征序列输入至混合专家网络的神经网络模块中进行编码处理,使得混合专家网络的神经网络模块中可以得到与语言相关的目标语音嵌入特征和目标声学特征序列,提高混合专家网络的神经网络模块的输出结果的准确性,而且,在混合专家网络的神经网络模块中,由于混合专家网络的存在,可以使用不同语种的语音数据集的来训练混合专家网络中的不同专家神经网络,不增加整体计算量的前提下,理论上可以对混本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:获取目标语音数据,并调用语音识别模型,所述语音识别模型包括混合专家网络的编码网络模块和解码网络模块,所述编码网络模块中包括混合专家网络的神经网络模块和嵌入模块;将所述目标语音数据进行声学特征提取,以得到所述目标语音数据的目标声学特征序列;将所述目标声学特征序列输入至所述嵌入模块中进行语音特征提取处理,以得到所述目标语音数据的目标语音嵌入特征;将所述目标语音嵌入特征和所述目标声学特征序列输入至所述混合专家网络的神经网络模块中进行编码处理,以得到所述目标语音数据的目标语义编码特征;将所述目标语义编码特征和预设文本起始符输入至所述解码网络模块进行解码处理,以得到所述目标语音数据的识别文本。2.根据权利要求1所述的方法,其特征在于,所述混合专家网络的神经网络模块中包括第一预设神经网络和混合专家网络,所述将所述目标语音嵌入特征和所述目标声学特征序列输入至所述混合专家网络的神经网络模块中进行编码处理,以得到所述目标语音数据的目标语义编码特征的步骤,包括:将所述目标声学特征序列输入至所述第一预设神经网络中进行声学特征提取处理,以得到包括所述目标语音数据时序内容的目标时序声学特征;将所述目标语音嵌入特征和所述目标时序声学特征进行第一融合处理,以得到第一目标融合特征;将所述第一目标融合特征和所述目标时序声学特征输入至所述混合专家网络中进行专家编码处理,以得到所述目标语音数据的目标语义编码特征。3.根据权利要求2所述的方法,其特征在于,所述混合专家网络中包括路由器和多个专家神经网络,所述将所述第一目标融合特征和所述目标时序声学特征输入至所述混合专家网络中进行专家编码处理,以得到所述目标语音数据的目标语义编码特征的步骤,包括:将所述第一目标融合特征输入至所述路由器中进行分类处理,以得到与多个专家神经网络一一对应的专家概率;将所述目标时序声学特征输入至专家概率最大的目标专家神经网络中进行专家编码处理,以得到所述目标语音数据的目标专家语义编码特征;根据所述目标专家语义编码特征和最大的专家概率确定所述目标语音数据的目标语义编码特征。4.根据权利要求2所述的方法,其特征在于,所述混合专家网络的神经网络模块中还包括前向卷积模块和后向卷积模块,在得到所述目标语音数据的目标声学特征序列之后,还包括:将所述目标声学特征序列输入至所述前向卷积模块中进行第一卷积处理,以得到所述第一目标卷积特征;所述将所述目标声学特征序列输入至所述嵌入模块中进行语音特征提取处理的步骤,包括:将所述第一目标卷积特征输入至所述嵌入模块中进行语音特征提取处理;所述将所述目标声学特征序列输入至所述第一预设神经网络中进行声学特征提取处
理的步骤,包括:将所述第一目标卷积特征输入至所述第一预设神经网络中进行声学特征提取处理;在得到所述目标语音数据的目标语义编码特征的步骤之后,还包括:将所述目标语义编码特征输入至所述后向卷积模块中进行第二卷积处理,以得到最终的目标语义编码特征。5.根据权利要求1

4任一项所述的方法,其特征在于,所述语音识别模型通过如下步骤训练得到:获取多种不同语种的语音数据集和初始语音识别模型,所述语音数据集中包括每种不同语种的语音样本数据、所述语音样本数据的对应语种的语种文本标签、以及所述语音样本数据的目标语种的目标文本标签,所述初始语音识别模型包括混合专家网络的编码网络模块和解码网络模块,所述编码网络模块中包括混合专家网络的神经网络模块和嵌入模块;将所述语音样本数据进行声学特征提取,以得到所述语音样本数据的声学特征序列;将所述声学特征序列输入至所述嵌入模块中进行语音特征提取处理,以得到所述语音样本数据的语音嵌入特征;将所述语音嵌入特征和所述声学特征序列输入至所述混合专家网络的神经网络模块中进行编码处理,以得到所述语音样本数据的语义编码特征;将所述语义编码特征和所述目标文本标签输入至所述解码网络模块进行解码处理,以得到所述语音样本数据的预测文本;根据所述预测文本和所述目标文本标签更新所述初始语音识别模型的网络参数,以得到语音识别模型。6.根据权利要求5所述的方法,其特征在于,在得到所述语音样本数据的语音嵌入特征的步骤之后,还包括:根据所述语音嵌入特征和所述语种文本标签确定所述嵌入模块的语音损失值;根据所述语音损失值更新所述嵌入模块的网络参数。7.根据权利要求6所述的方法,其特征在于,所述根据所述语音嵌入特征和所述语种文本标签确定所述嵌入模块的语音损失值的步骤,包括:按照预设解码方式,对所述语音嵌入特征进行预设解码处理,以得到所述语音样本数据的对应语种的语种文本;根据所述语种文本和所述语种文本标签确定所述嵌入模块的语音损失值。8.根据权利要求5所述的方法,其特征在于,所述解码网络模块包括目标解码网络模块和语种解码网络模块;所述将所述语义编码特征和所述目标文本标签输入至所述解码网络模块进行解码处理,以得到所述语音样本数据的预测文本的步骤,包括:将所述语义编码特征和所述语种文本标签输入至所述语种解码网络模块中进行第一解码处理,以得到所述语音样本数据的对应语种的语种预测文本;将所述语义编码特征和所述目标文本标签输入至所述目标解码网络模块中进行第二解码处理,以得到所述语音样本数据的目标语种的目标预测文本;所述根据所述预测文本和所述目标文本标签更新所述初始语音识别模型的网络参数
的步骤,包括...

【专利技术属性】
技术研发人员:徐启航万根顺熊世富高建清潘嘉刘聪
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1