语音识别、语音识别模型训练方法、装置、介质及设备制造方法及图纸

技术编号：37369392 阅读：14 留言：0更新日期：2023-04-27 07:15

本申请实施例公开了一种语音识别、语音识别模型训方法、装置、存储介质及设备，该方法包括：通过在语音识别模型的编码网络模块中加入混合专家网络和嵌入模块，利用嵌入模块对目标语音数据的目标声学特征序列进行语音特征提取处理，以得到目标语音嵌入特征，将目标语音嵌入特征和目标声学特征序列输入至混合专家网络的神经网络模块中进行编码处理，使得混合专家网络的神经网络模块中可以得到与语言相关的特征和目标声学特征序列，提高混合专家网络的神经网络模块的输出结果的准确性，将输出结果输入至解码网络模块中进行解码处理，以得到目标语音数据的识别文本，可提高各种语言混说场景中的语音识别的准确率。说场景中的语音识别的准确率。说场景中的语音识别的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
语音识别、语音识别模型训练方法、装置、介质及设备

[0001]本申请涉及人工智能
，具体涉及一种语音识别方法、语音识别模型训练方法、装置、计算机可读存储介质及计算机设备。

技术介绍

[0002]人机语音交互/语音识别在现代生活已变得非常普遍，典型的人机语音交互场景例如汽车、智慧医疗、智能家居、智能客服、机器人乃至虚拟数字人等，都存在着语音识别的应用。
[0003]而世界上存在着各种语言，甚至在我国，因为幅员辽阔，地域差异较大，也造成了不同地区的人群说着形形色色的方言。方言的书面文字与普通话有所区别，许多地区的方言存在各自的“正字”，不能简单的使用普通话文字来表达。目前大多数的语音交互系统仅能支持普通话对话，而许多人在日常生活中习惯于使用方言，在交互中可能存在普通话和方言混说的场景。
[0004]对于在人机语音交互中，存在着各种语言混说的场景，目前的语音识别方法并不能很好的进行识别，语音识别的准确率较低。

技术实现思路

[0005]本申请实施例提供一种语音识别模型训练方法、语音识别方法、装置、计算机可读存储介质及计算机设备，可以提高各种语言混说场景中的语音识别的准确率。
[0006]本申请实施例提供了一种语音识别方法，包括：
[0007]获取目标语音数据，并调用语音识别模型，所述语音识别模型包括混合专家网络的编码网络模块和解码网络模块，所述编码网络模块中包括混合专家网络的神经网络模块和嵌入模块；
[0008]将所述目标语音数据进行声学特征提取，以得到所述目标...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法，其特征在于，包括：获取目标语音数据，并调用语音识别模型，所述语音识别模型包括混合专家网络的编码网络模块和解码网络模块，所述编码网络模块中包括混合专家网络的神经网络模块和嵌入模块；将所述目标语音数据进行声学特征提取，以得到所述目标语音数据的目标声学特征序列；将所述目标声学特征序列输入至所述嵌入模块中进行语音特征提取处理，以得到所述目标语音数据的目标语音嵌入特征；将所述目标语音嵌入特征和所述目标声学特征序列输入至所述混合专家网络的神经网络模块中进行编码处理，以得到所述目标语音数据的目标语义编码特征；将所述目标语义编码特征和预设文本起始符输入至所述解码网络模块进行解码处理，以得到所述目标语音数据的识别文本。2.根据权利要求1所述的方法，其特征在于，所述混合专家网络的神经网络模块中包括第一预设神经网络和混合专家网络，所述将所述目标语音嵌入特征和所述目标声学特征序列输入至所述混合专家网络的神经网络模块中进行编码处理，以得到所述目标语音数据的目标语义编码特征的步骤，包括：将所述目标声学特征序列输入至所述第一预设神经网络中进行声学特征提取处理，以得到包括所述目标语音数据时序内容的目标时序声学特征；将所述目标语音嵌入特征和所述目标时序声学特征进行第一融合处理，以得到第一目标融合特征；将所述第一目标融合特征和所述目标时序声学特征输入至所述混合专家网络中进行专家编码处理，以得到所述目标语音数据的目标语义编码特征。3.根据权利要求2所述的方法，其特征在于，所述混合专家网络中包括路由器和多个专家神经网络，所述将所述第一目标融合特征和所述目标时序声学特征输入至所述混合专家网络中进行专家编码处理，以得到所述目标语音数据的目标语义编码特征的步骤，包括：将所述第一目标融合特征输入至所述路由器中进行分类处理，以得到与多个专家神经网络一一对应的专家概率；将所述目标时序声学特征输入至专家概率最大的目标专家神经网络中进行专家编码处理，以得到所述目标语音数据的目标专家语义编码特征；根据所述目标专家语义编码特征和最大的专家概率确定所述目标语音数据的目标语义编码特征。4.根据权利要求2所述的方法，其特征在于，所述混合专家网络的神经网络模块中还包括前向卷积模块和后向卷积模块，在得到所述目标语音数据的目标声学特征序列之后，还包括：将所述目标声学特征序列输入至所述前向卷积模块中进行第一卷积处理，以得到所述第一目标卷积特征；所述将所述目标声学特征序列输入至所述嵌入模块中进行语音特征提取处理的步骤，包括：将所述第一目标卷积特征输入至所述嵌入模块中进行语音特征提取处理；所述将所述目标声学特征序列输入至所述第一预设神经网络中进行声学特征提取处
理的步骤，包括：将所述第一目标卷积特征输入至所述第一预设神经网络中进行声学特征提取处理；在得到所述目标语音数据的目标语义编码特征的步骤之后，还包括：将所述目标语义编码特征输入至所述后向卷积模块中进行第二卷积处理，以得到最终的目标语义编码特征。5.根据权利要求1
‑
4任一项所述的方法，其特征在于，所述语音识别模型通过如下步骤训练得到：获取多种不同语种的语音数据集和初始语音识别模型，所述语音数据集中包括每种不同语种的语音样本数据、所述语音样本数据的对应语种的语种文本标签、以及所述语音样本数据的目标语种的目标文本标签，所述初始语音识别模型包括混合专家网络的编码网络模块和解码网络模块，所述编码网络模块中包括混合专家网络的神经网络模块和嵌入模块；将所述语音样本数据进行声学特征提取，以得到所述语音样本数据的声学特征序列；将所述声学特征序列输入至所述嵌入模块中进行语音特征提取处理，以得到所述语音样本数据的语音嵌入特征；将所述语音嵌入特征和所述声学特征序列输入至所述混合专家网络的神经网络模块中进行编码处理，以得到所述语音样本数据的语义编码特征；将所述语义编码特征和所述目标文本标签输入至所述解码网络模块进行解码处理，以得到所述语音样本数据的预测文本；根据所述预测文本和所述目标文本标签更新所述初始语音识别模型的网络参数，以得到语音识别模型。6.根据权利要求5所述的方法，其特征在于，在得到所述语音样本数据的语音嵌入特征的步骤之后，还包括：根据所述语音嵌入特征和所述语种文本标签确定所述嵌入模块的语音损失值；根据所述语音损失值更新所述嵌入模块的网络参数。7.根据权利要求6所述的方法，其特征在于，所述根据所述语音嵌入特征和所述语种文本标签确定所述嵌入模块的语音损失值的步骤，包括：按照预设解码方式，对所述语音嵌入特征进行预设解码处理，以得到所述语音样本数据的对应语种的语种文本；根据所述语种文本和所述语种文本标签确定所述嵌入模块的语音损失值。8.根据权利要求5所述的方法，其特征在于，所述解码网络模块包括目标解码网络模块和语种解码网络模块；所述将所述语义编码特征和所述目标文本标签输入至所述解码网络模块进行解码处理，以得到所述语音样本数据的预测文本的步骤，包括：将所述语义编码特征和所述语种文本标签输入至所述语种解码网络模块中进行第一解码处理，以得到所述语音样本数据的对应语种的语种预测文本；将所述语义编码特征和所述目标文本标签输入至所述目标解码网络模块中进行第二解码处理，以得到所述语音样本数据的目标语种的目标预测文本；所述根据所述预测文本和所述目标文本标签更新所述初始语音识别模型的网络参数
的步骤，包括...

【专利技术属性】
技术研发人员：徐启航，万根顺，熊世富，高建清，潘嘉，刘聪，
申请(专利权)人：科大讯飞股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人