模型训练方法和装置、语音合成方法、设备及存储介质制造方法及图纸

技术编号:38139346 阅读:4 留言:0更新日期:2023-07-08 09:53
本申请实施例提供了一种模型训练方法和装置、语音合成方法、设备及存储介质,属于人工智能技术领域。该方法包括:获取并将训练文本信息和训练音色信息输入预设的原始语音合成模型进行语音合成处理得到初步特征信息和语音频谱预测信息;将初步特征信息输入预设的原始分类模型进行说话对象判别得到初步说话对象判别信息;对语音频谱预测信息、初步说话对象判别信息进行损失计算得到目标损失函数;根据目标损失函数对原始分类模型进行参数调整得到目标分类模型;获取并根据目标分类模型输出的目标说话对象判别信息对原始语音合成模型进行参数调整得到目标语音合成模型。本申请实施例能够训练得到的模型可以增强说话对象音色表达。音色表达。音色表达。

【技术实现步骤摘要】
模型训练方法和装置、语音合成方法、设备及存储介质


[0001]本申请涉及人工智能
,尤其涉及一种模型训练方法和装置、语音合成方法、设备及存储介质。

技术介绍

[0002]语音合成是将文本音素序列转换成声学特征的生成式任务,在传统的语音合成
,通过利用说话对象的音色特征信息来进行多个说话对象语音合成联合训练,以借助不同说话对象的音色特征信息提升对语音合成模型的训练。但是,语音合成模型的训练样本中,每个说话对象可能具有不同数量的训练样本,若某个说话对象的训练样本数量过多,会影响所合成的音色的相似性,从而影响模型的训练效果。

技术实现思路

[0003]本申请实施例的主要目的在于提出一种模型训练方法和装置、语音合成方法、设备及存储介质,训练得到的模型可以增强说话对象的音色表达,从而提高模型训练效果。
[0004]为实现上述目的,本申请实施例的第一方面提出了一种模型训练方法,所述方法包括:
[0005]获取原始数据集;其中,所述原始数据集包括:语音合成训练数据和说话对象验证信息,所述语音合成训练数据包括:训练文本信息、训练音色信息和语音频谱验证信息;
[0006]将所述训练文本信息和所述训练音色信息输入预设的原始语音合成模型进行语音合成处理,得到初步特征信息和语音频谱预测信息;
[0007]将所述初步特征信息输入预设的原始分类模型进行说话对象判别,得到初步说话对象判别信息;
[0008]对所述语音频谱预测信息、所述语音频谱验证信息、所述初步说话对象判别信息和所述说话对象验证信息进行损失计算,得到目标损失函数;
[0009]根据所述目标损失函数对所述原始分类模型进行参数调整,得到目标分类模型;
[0010]获取所述目标分类模型输出的目标说话对象判别信息;
[0011]根据所述目标说话对象判别信息对所述原始语音合成模型进行参数调整,得到目标语音合成模型。
[0012]在一些实施例,所述原始语音合成模型包括:特征提取网络和频谱解码网络;所述将所述训练文本信息和所述训练音色信息输入预设的原始语音合成模型进行语音合成处理,得到初步特征信息和语音频谱预测信息,包括:
[0013]将所述训练文本信息和所述训练音色信息输入所述特征提取网络进行特征提取,得到所述初步特征信息;
[0014]将所述初步特征信息输入所述频谱解码网络进行语音片段选取与拼接,得到所述语音频谱预测信息。
[0015]在一些实施例,所述特征提取网络包括:音色特征提取层、字符串处理层和编码
器;所述将所述训练文本信息和所述训练音色信息输入所述特征提取网络进行特征提取,得到所述初步特征信息,包括:
[0016]将所述训练文本信息输入所述字符串处理层进行字符串处理,得到训练音素信息;
[0017]通过所述编码器对所述训练音素信息进行编码处理,得到音素特征向量;
[0018]将所述训练音色信息输入所述音色特征提取层进行特征提取,得到音色特征向量;
[0019]对所述音素特征向量和所述音色特征向量进行注意力处理,得到所述初步特征信息。
[0020]在一些实施例,所述频谱解码网络包括:第一线性层和解码器;所述将所述初步特征信息输入所述频谱解码网络进行语音片段选取与拼接,得到所述语音频谱预测信息,包括:
[0021]将所述初步特征信息输入所述第一线性层进行特征关联性计算,得到第一特征关联信息;
[0022]通过所述解码器对所述第一特征关联信息进行语音片段选取,得到语音频谱片段;
[0023]通过所述解码器将所述语音频谱片段进行拼接处理,得到所述语音频谱预测信息。
[0024]在一些实施例,所述原始分类模型包括:梯度翻转层、第二线性层和分类层;所述将所述初步特征信息输入预设的原始分类模型进行说话对象判别,得到初步说话对象判别信息,包括:
[0025]将所述初步特征信息输入所述梯度翻转层进行梯度计算,得到线性更新特征信息;
[0026]通过所述第二线性层对所述线性更新特征信息进行特征关联性计算,得到第二特征关联信息;
[0027]通过所述分类层对所述第二特征关联信息进行分类处理,得到所述初步说话对象判别信息。
[0028]在一些实施例,所述根据所述目标说话对象判别信息对所述原始语音合成模型进行参数调节,得到目标语音合成模型,包括:
[0029]将所述目标说话对象判别信息和所述说话对象验证信息进行损失计算,得到判别损失函数;
[0030]根据所述判别损失函数对所述目标损失函数进行更新,得到更新损失函数;
[0031]根据所述更新损失函数对所述原始语音合成模型进行参数调整,得到所述目标语音合成模型。
[0032]为实现上述目的,本申请实施例的第二方面提出了一种语音合成方法,述方法包括:
[0033]获取目标文本信息;
[0034]将所述目标文本信息输入目标语音合成模型进行语音合成,得到目标语音合成数据;所述目标语音合成模型通过如第一方面所述的模型训练方法训练得到。
[0035]为实现上述目的,本申请实施例的第三方面提出了一种模型训练装置,所述装置包括:
[0036]数据获取模块,用于获取原始数据集;其中,所述原始数据集包括:语音合成训练数据和说话对象验证信息,所述语音合成训练数据包括:训练文本信息、训练音色信息和语音频谱验证信息;
[0037]信息输入模块,用于将所述训练文本信息和所述训练音色信息输入预设的原始语音合成模型进行语音合成处理,得到初步特征信息和语音频谱预测信息;
[0038]判别模块,用于将所述初步特征信息输入预设的原始分类模型进行说话对象判别,得到初步说话对象判别信息;
[0039]损失计算模块,用于对所述语音频谱预测信息、所述语音频谱验证信息、所述初步说话对象判别信息和所述说话对象验证信息进行损失计算,得到目标损失函数;
[0040]模型调整模块,用于根据所述目标损失函数对所述原始分类模型进行参数调整,得到目标分类模型;
[0041]信息获取模块,用于获取所述目标分类模型输出的目标说话对象判别信息;
[0042]参数调整模块,用于根据所述目标说话对象判别信息对所述原始语音合成模型进行参数调整,得到目标语音合成模型。
[0043]为实现上述目的,本申请实施例的第四方面提出了一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的模型训练方法,或者如第二方面所述的语音合成方法。
[0044]为实现上述目的,本申请实施例的第五方面提出了一种存储介质所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的模型训练方法,或者如第二方面所述的语音合成方法。
[0045]本申请提出的模型训练方法和装置、语音合成方法、设备及存储介质,其通过将原始语音合成模型与原始分类模型本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,所述方法包括:获取原始数据集;其中,所述原始数据集包括:语音合成训练数据和说话对象验证信息,所述语音合成训练数据包括:训练文本信息、训练音色信息和语音频谱验证信息;将所述训练文本信息和所述训练音色信息输入预设的原始语音合成模型进行语音合成处理,得到初步特征信息和语音频谱预测信息;将所述初步特征信息输入预设的原始分类模型进行说话对象判别,得到初步说话对象判别信息;对所述语音频谱预测信息、所述语音频谱验证信息、所述初步说话对象判别信息和所述说话对象验证信息进行损失计算,得到目标损失函数;根据所述目标损失函数对所述原始分类模型进行参数调整,得到目标分类模型;获取所述目标分类模型输出的目标说话对象判别信息;根据所述目标说话对象判别信息对所述原始语音合成模型进行参数调整,得到目标语音合成模型。2.根据权利要求1所述的方法,其特征在于,所述原始语音合成模型包括:特征提取网络和频谱解码网络;所述将所述训练文本信息和所述训练音色信息输入预设的原始语音合成模型进行语音合成处理,得到初步特征信息和语音频谱预测信息,包括:将所述训练文本信息和所述训练音色信息输入所述特征提取网络进行特征提取,得到所述初步特征信息;将所述初步特征信息输入所述频谱解码网络进行语音片段选取与拼接,得到所述语音频谱预测信息。3.根据权利要求2所述的方法,其特征在于,所述特征提取网络包括:音色特征提取层、字符串处理层和编码器;所述将所述训练文本信息和所述训练音色信息输入所述特征提取网络进行特征提取,得到所述初步特征信息,包括:将所述训练文本信息输入所述字符串处理层进行字符串处理,得到训练音素信息;通过所述编码器对所述训练音素信息进行编码处理,得到音素特征向量;将所述训练音色信息输入所述音色特征提取层进行特征提取,得到音色特征向量;对所述音素特征向量和所述音色特征向量进行注意力处理,得到所述初步特征信息。4.根据权利要求2所述的方法,其特征在于,所述频谱解码网络包括:第一线性层和解码器;所述将所述初步特征信息输入所述频谱解码网络进行语音片段选取与拼接,得到所述语音频谱预测信息,包括:将所述初步特征信息输入所述第一线性层进行特征关联性计算,得到第一特征关联信息;通过所述解码器对所述第一特征关联信息进行语音片段选取,得到语音频谱片段;通过所述解码器将所述语音频谱片段进行拼接处理,得到所述语音频谱预测信息。5.根据权利要求1至3任一项所述的方法,其特征在于,所述原始分类模型包括:梯度翻转层、第二线性层和分类层;所述将所述初步特征信息输入...

【专利技术属性】
技术研发人员:张旭龙王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1