语音合成模型的训练方法、语音合成方法及相关设备技术

技术编号：37595693 阅读：5 留言：0更新日期：2023-05-18 11:42

本申请提供了一种语音合成模型的训练方法、语音合成方法及相关设备，其中方法包括：获取目标语音及音素序列；对目标语音进行预处理得到目标梅尔频谱，并将该目标梅尔频谱输入语音转换模型中得到目标说话人向量；将音素序列以及目标说话人向量输入初始的语音合成模型中进行合成处理，得到预测梅尔频谱，并将预测梅尔频谱输入语音转换模型中，确定预测说话人向量；基于目标说话人向量和预测说话人向量之间的差异，以及目标梅尔频谱和预测梅尔频谱之间的差异，来训练语音合成模型。采用本申请利用目标说话人向量来增加说话人特征信息，可提高语音合成质量。高语音合成质量。高语音合成质量。

全部详细技术资料下载

【技术实现步骤摘要】
语音合成模型的训练方法、语音合成方法及相关设备

[0001]本申请涉及语音处理领域，尤其涉及一种语音合成模型的训练方法、语音合成方法及相关设备。

技术介绍

[0002]智能语音技术作为人工智能技术的重要组成部分，在很多领域得到了应用，比如电子书朗读、数字人工客服等都用到了智能语音合成。随着语音合成应用越来越多，多说话人语音合成模型应运而生，多说话人语音合成模型是一种能够根据不同用户要求将一段文本内容合成具有不同说话人音色的语音，比如将同一段内容可以分别合成具有用户A音色的语音和具有用户B音色的语音。
[0003]目前，训练多说话人语音合成模型一般采用将说话人与说话人音色对应的特征向量直接映射，或者是通过说话人识别模型提取说话人音色对应的特征向量，这两种方式来训练。
[0004]但是，上述方式仅能够简单判断某个语音频段是哪个说话人，使得语音合成模型在训练时依然缺少说话人的某些特定信息，造成其执行语音合成的质量较低。即现有的语音合成模型在训练时存在说话人特征信息不足，导致语音合成的质量较低的技术问题。

技术实现思路

[0005]本申请提供一种语音合成模型的训练方法、语音合成方法及相关设备，以解决现有的语音合成模型在训练时存在说话人特征信息不足，导致语音合成的质量较低的技术问题。
[0006]第一个方面，本申请提供一种语音合成模型的训练方法，包括：
[0007]获取训练数据，训练数据包括目标说话人的目标语音和待合成训练文本对应的音素序列；
[0008]对目标语音进行预...

【技术保护点】

【技术特征摘要】
1.一种语音合成模型的训练方法，其特征在于，包括：获取训练数据，所述训练数据包括目标说话人的目标语音和待合成训练文本对应的音素序列；对所述目标语音进行预处理得到目标梅尔频谱，并将所述目标梅尔频谱输入语音转换模型中进行转换处理，得到目标说话人向量；将所述音素序列以及所述目标说话人向量输入语音合成模型中进行合成处理得到预测梅尔频谱，并将所述预测梅尔频谱输入所述语音转换模型中，确定预测说话人向量；基于所述目标说话人向量和所述预测说话人向量确定第一损失函数值，以及基于所述目标梅尔频谱和所述预测梅尔频谱确定第二损失函数值；根据所述第一损失函数值和所述第二损失函数值训练所述语音合成模型，训练完成的所述语音合成模型将所述待合成训练文本合成为合成语音，所述合成语音与所述目标语音具有相同的声音特征。2.根据权利要求1所述的语音合成模型的训练方法，其特征在于，所述将所述音素序列以及所述目标说话人向量输入语音合成模型中进行合成处理得到预测梅尔频谱，包括：将所述音素序列输入所述语音合成模型中进行合成处理；在合成处理的过程中，将所述目标说话人向量与一个或多个中间过程向量相加计算，并采用相加计算结果替换所述中间过程向量，继续进行合成处理，得到所述预测梅尔频谱。3.根据权利要求2所述的语音合成模型的训练方法，其特征在于，所述语音合成模型包括编码器，所述中间过程向量包括：所述编码器输出的第一特征向量；所述在合成处理的过程中，将所述目标说话人向量与一个或多个中间过程向量相加计算，并采用相加计算结果替换所述中间过程向量，继续进行合成处理，包括：将所述目标说话人向量与所述第一特征向量相加计算得到第一合成向量；将所述第一特征向量替换为所述第一合成向量，继续在所述语音合成模型中进行合成处理。4.根据权利要求2或3所述的语音合成模型的训练方法，其特征在于，所述语音合成模型包括方差调节器，所述中间过程向量包括：所述方差调节器输出的第二特征向量；所述在合成处理的过程中，将所述目标说话人向量与一个或多个中间过程向量相加计算，并采用相加计算结果替换所述中间过程向量，继续进行合成处理，包括：将所述目标说话人向量与所述第二特征向量相加计算得到第二合成向量；将所述第二特征向量替换为所述第二合成向量，继续在所述语音合成模型中进行合成处理。5.根据权利要求4所述的语音合成模型的训练方法，其特征在于，所述方差调节器的输入向量包括第一合成向量，所述第一合成向量是将所述目标说话人向量与第一特征向量相加计算得到的，所述第一特征向量是所述语音合成模型中编码器输出的。6.根据权利要求3所述的语音合成模型的训练方法，其特征在于，所述将所述音素序列输入所述语音合成模型中进行合成处理，包括：将所述音素序列输入所述语音合成模型中的音素提取器中，确定音素特征向量；将所述音素序列输入所述语音合成模型中的位置提取器中，确定位置特征向量；将所述音素特征向量与所述位置特征向量相加后，输入所述编码器进行编码处理，得
到所述第一特征向量。7.根据权利要求4所述的语音合成模型的训练方法，其特征在于，所述将所述音素序列输入所述语音合成模型中进行合成处理，包括：将所述音素序列输入所述语音合成模型中的位置提取器中，确定位置特征向量；所述将所述第二特征向量替换为所述第二合成向量，继续在所述语音合成模型中进行合成处理，包括：将所述第二合成向量与所述位置特征向量相加后，输入所述语音合成模型中的梅尔图谱解码器进行解码处理，得到所述预测梅尔图谱。8.根据权利要求1所述的语音合成模型的训练方法，其特征在于，所述训练数据还包括：多个说话人的语音数据；在所述将所述目标梅尔频谱输入语音转换模型中之前，还包括：对各个语音数据进行预处理，确定各个说话人对应的梅尔频谱；根据所...

【专利技术属性】
技术研发人员：刘鹏飞，蒋宁，吴海英，刘敏，
申请(专利权)人：马上消费金融股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人