模型训练方法和装置、语音合成方法、设备及存储介质制造方法及图纸

技术编号：38139346 阅读：4 留言：0更新日期：2023-07-08 09:53

本申请实施例提供了一种模型训练方法和装置、语音合成方法、设备及存储介质，属于人工智能技术领域。该方法包括：获取并将训练文本信息和训练音色信息输入预设的原始语音合成模型进行语音合成处理得到初步特征信息和语音频谱预测信息；将初步特征信息输入预设的原始分类模型进行说话对象判别得到初步说话对象判别信息；对语音频谱预测信息、初步说话对象判别信息进行损失计算得到目标损失函数；根据目标损失函数对原始分类模型进行参数调整得到目标分类模型；获取并根据目标分类模型输出的目标说话对象判别信息对原始语音合成模型进行参数调整得到目标语音合成模型。本申请实施例能够训练得到的模型可以增强说话对象音色表达。音色表达。音色表达。

全部详细技术资料下载

【技术实现步骤摘要】
模型训练方法和装置、语音合成方法、设备及存储介质

[0001]本申请涉及人工智能
，尤其涉及一种模型训练方法和装置、语音合成方法、设备及存储介质。

技术介绍

[0002]语音合成是将文本音素序列转换成声学特征的生成式任务，在传统的语音合成
，通过利用说话对象的音色特征信息来进行多个说话对象语音合成联合训练，以借助不同说话对象的音色特征信息提升对语音合成模型的训练。但是，语音合成模型的训练样本中，每个说话对象可能具有不同数量的训练样本，若某个说话对象的训练样本数量过多，会影响所合成的音色的相似性，从而影响模型的训练效果。

技术实现思路

[0003]本申请实施例的主要目的在于提出一种模型训练方法和装置、语音合成方法、设备及存储介质，训练得到的模型可以增强说话对象的音色表达，从而提高模型训练效果。
[0004]为实现上述目的，本申请实施例的第一方面提出了一种模型训练方法，所述方法包括：
[0005]获取原始数据集；其中，所述原始数据集包括：语音合成训练数据和说话对象验证信息，所述语音合成训练数据包括：训练文本信息、训练音色信息和语音频谱验证信息；
[0006]将所述训练文本信息和所述训练音色信息输入预设的原始语音合成模型进行语音合成处理，得到初步特征信息和语音频谱预测信息；
[0007]将所述初步特征信息输入预设的原始分类模型进行说话对象判别，得到初步说话对象判别信息；
[0008]对所述语音频谱预测信息、所述语音频谱验证信息、所述初步说话对象判别信息和所...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法，其特征在于，所述方法包括：获取原始数据集；其中，所述原始数据集包括：语音合成训练数据和说话对象验证信息，所述语音合成训练数据包括：训练文本信息、训练音色信息和语音频谱验证信息；将所述训练文本信息和所述训练音色信息输入预设的原始语音合成模型进行语音合成处理，得到初步特征信息和语音频谱预测信息；将所述初步特征信息输入预设的原始分类模型进行说话对象判别，得到初步说话对象判别信息；对所述语音频谱预测信息、所述语音频谱验证信息、所述初步说话对象判别信息和所述说话对象验证信息进行损失计算，得到目标损失函数；根据所述目标损失函数对所述原始分类模型进行参数调整，得到目标分类模型；获取所述目标分类模型输出的目标说话对象判别信息；根据所述目标说话对象判别信息对所述原始语音合成模型进行参数调整，得到目标语音合成模型。2.根据权利要求1所述的方法，其特征在于，所述原始语音合成模型包括：特征提取网络和频谱解码网络；所述将所述训练文本信息和所述训练音色信息输入预设的原始语音合成模型进行语音合成处理，得到初步特征信息和语音频谱预测信息，包括：将所述训练文本信息和所述训练音色信息输入所述特征提取网络进行特征提取，得到所述初步特征信息；将所述初步特征信息输入所述频谱解码网络进行语音片段选取与拼接，得到所述语音频谱预测信息。3.根据权利要求2所述的方法，其特征在于，所述特征提取网络包括：音色特征提取层、字符串处理层和编码器；所述将所述训练文本信息和所述训练音色信息输入所述特征提取网络进行特征提取，得到所述初步特征信息，包括：将所述训练文本信息输入所述字符串处理层进行字符串处理，得到训练音素信息；通过所述编码器对所述训练音素信息进行编码处理，得到音素特征向量；将所述训练音色信息输入所述音色特征提取层进行特征提取，得到音色特征向量；对所述音素特征向量和所述音色特征向量进行注意力处理，得到所述初步特征信息。4.根据权利要求2所述的方法，其特征在于，所述频谱解码网络包括：第一线性层和解码器；所述将所述初步特征信息输入所述频谱解码网络进行语音片段选取与拼接，得到所述语音频谱预测信息，包括：将所述初步特征信息输入所述第一线性层进行特征关联性计算，得到第一特征关联信息；通过所述解码器对所述第一特征关联信息进行语音片段选取，得到语音频谱片段；通过所述解码器将所述语音频谱片段进行拼接处理，得到所述语音频谱预测信息。5.根据权利要求1至3任一项所述的方法，其特征在于，所述原始分类模型包括：梯度翻转层、第二线性层和分类层；所述将所述初步特征信息输入...

【专利技术属性】
技术研发人员：张旭龙，王健宗，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人