语音合成模型的训练方法、语音合成方法及相关设备技术

技术编号:37595693 阅读:5 留言:0更新日期:2023-05-18 11:42
本申请提供了一种语音合成模型的训练方法、语音合成方法及相关设备,其中方法包括:获取目标语音及音素序列;对目标语音进行预处理得到目标梅尔频谱,并将该目标梅尔频谱输入语音转换模型中得到目标说话人向量;将音素序列以及目标说话人向量输入初始的语音合成模型中进行合成处理,得到预测梅尔频谱,并将预测梅尔频谱输入语音转换模型中,确定预测说话人向量;基于目标说话人向量和预测说话人向量之间的差异,以及目标梅尔频谱和预测梅尔频谱之间的差异,来训练语音合成模型。采用本申请利用目标说话人向量来增加说话人特征信息,可提高语音合成质量。高语音合成质量。高语音合成质量。

【技术实现步骤摘要】
语音合成模型的训练方法、语音合成方法及相关设备


[0001]本申请涉及语音处理领域,尤其涉及一种语音合成模型的训练方法、语音合成方法及相关设备。

技术介绍

[0002]智能语音技术作为人工智能技术的重要组成部分,在很多领域得到了应用,比如电子书朗读、数字人工客服等都用到了智能语音合成。随着语音合成应用越来越多,多说话人语音合成模型应运而生,多说话人语音合成模型是一种能够根据不同用户要求将一段文本内容合成具有不同说话人音色的语音,比如将同一段内容可以分别合成具有用户A音色的语音和具有用户B音色的语音。
[0003]目前,训练多说话人语音合成模型一般采用将说话人与说话人音色对应的特征向量直接映射,或者是通过说话人识别模型提取说话人音色对应的特征向量,这两种方式来训练。
[0004]但是,上述方式仅能够简单判断某个语音频段是哪个说话人,使得语音合成模型在训练时依然缺少说话人的某些特定信息,造成其执行语音合成的质量较低。即现有的语音合成模型在训练时存在说话人特征信息不足,导致语音合成的质量较低的技术问题。

技术实现思路

[0005]本申请提供一种语音合成模型的训练方法、语音合成方法及相关设备,以解决现有的语音合成模型在训练时存在说话人特征信息不足,导致语音合成的质量较低的技术问题。
[0006]第一个方面,本申请提供一种语音合成模型的训练方法,包括:
[0007]获取训练数据,训练数据包括目标说话人的目标语音和待合成训练文本对应的音素序列;
[0008]对目标语音进行预处理得到目标梅尔频谱,并将目标梅尔频谱输入语音转换模型中进行转换处理,得到目标说话人向量;
[0009]将音素序列以及目标说话人向量输入语音合成模型中进行合成处理得到预测梅尔频谱,并将预测梅尔频谱输入语音转换模型中,确定预测说话人向量;
[0010]基于目标说话人向量和预测说话人向量确定第一损失函数值,以及基于目标梅尔频谱和预测梅尔频谱确定第二损失函数值;
[0011]根据第一损失函数值和第二损失函数值训练语音合成模型,训练完成的所述语音合成模型将待合成训练文本合成为合成语音,该合成语音与目标语音具有相同的声音特征。
[0012]第二个方面,本申请提供一种语音合成方法,包括:
[0013]响应于执行语音合成的触发事件,获取待合成文本以及获取参考说话人的参考语音;
[0014]若所述参考说话人与目标说话人匹配,则对所述参考语音进行预处理得到参考梅尔频谱,并将所述参考梅尔频谱输入语音转换模型中进行转换处理,得到参考说话人向量;
[0015]将所述参考说话人向量和所述待合成文本对应的音素序列输入语音合成模型进行语音合成处理,得到所述待合成文本对应的合成语音,所述合成语音具有所述参考说话人的声音特征;所述语音合成模型是通过权利要求1

8任一项所述的语音合成模型的训练方法训练得到的。
[0016]第三个方面,本申请提供一种语音合成模型的训练装置,包括:
[0017]获取模块,用于获取训练数据,训练数据包括:目标说话人的目标语音和待合成训练文本对应的音素序列;
[0018]处理模块,用于:
[0019]对所述目标语音进行预处理得到目标梅尔频谱,并将所述目标梅尔频谱输入语音转换模型中进行转换处理,得到目标说话人向量;
[0020]将所述音素序列以及所述目标说话人向量输入语音合成模型中进行合成处理得到预测梅尔频谱,并将所述预测梅尔频谱输入所述语音转换模型中,确定预测说话人向量;
[0021]基于所述目标说话人向量和所述预测说话人向量确定第一损失函数值,以及基于所述目标梅尔频谱和所述预测梅尔频谱确定第二损失函数值;
[0022]根据所述第一损失函数值和所述第二损失函数值训练所述语音合成模型,训练完成的所述语音合成模型将所述待合成训练文本合成为合成语音,所述合成语音与所述目标语音具有相同的声音特征。
[0023]第四个方面,本申请提供一种语音合成装置,包括:
[0024]获取模块,用于响应于执行语音合成的触发事件,获取待合成文本以及获取参考说话人的参考语音;
[0025]处理模块,用于:
[0026]若所述参考说话人与目标说话人匹配,则对所述参考语音进行预处理得到参考梅尔频谱,并将所述参考梅尔频谱输入语音转换模型中进行转换处理,得到参考说话人向量;
[0027]将所述参考说话人向量和所述待合成文本对应的音素序列输入语音合成模型进行语音合成处理,得到所述待合成文本对应的合成语音,所述合成语音具有所述参考说话人的声音特征;所述语音合成模型是通过权利要求1

8任一项所述的语音合成模型的训练方法训练得到的。
[0028]第五个方面,本申请提供一种电子设备,包括:
[0029]存储器,用于存储程序指令;
[0030]处理器,用于调用并执行所述存储器中的程序指令,执行第一方面所提供的任意一种可能的方法,或者执行第二方面所提供的任意一种可能的方法。
[0031]第六个方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,该计算机程序用于执行第一方面所提供的任意一种可能的方法;或者,执行第二方面所提供的任意一种可能的办法。
[0032]第七个方面,本申请还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现第一方面所提供的任意一种可能的方法;或者,实现第二方面所提供的任意一种可能的方法。
[0033]本申请提供了一种语音合成模型的训练方法、语音合成方法及相关设备,在需要对语音合成模型进行训练时,首先获取目标语音和音素序列;然后对目标语音进行预处理得到目标梅尔频谱,并将该目标梅尔频谱输入语音转换模型中进行转换处理,得到目标说话人向量;将音素序列以及目标说话人向量输入语音合成模型中进行合成处理,得到预测梅尔频谱,并将预测梅尔频谱输入语音转换模型中,确定预测说话人向量;基于目标说话人向量和预测说话人向量确定第一损失函数值,以及基于目标梅尔频谱和预测梅尔频谱确定第二损失函数值;根据第一损失函数值和第二损失函数值训练语音合成模型,训练完成的所述语音合成模型将所述待合成训练文本合成为合成语音,所述合成语音与所述目标语音具有相同的声音特征。可见,本申请的语音合成模型的训练方法中是通过语音转换模型提取的说话人特征,由于语音转换模型提取到的说话人特征中包括更加丰富的说话人信息,进而在基于该说话人特征进行语音合成模型训练时,可以提升语音合成模型的准确性。另外,在对语音合成模型的训练过程中,引入了说话人特征,并基于第一损失函数和第二损失函数对语音合成模型进行训练,如此可以保证训练完成的语音合成模型合成的语音与说话人具备相同的音色。
附图说明
[0034]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
[0035]图1为本申请提本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成模型的训练方法,其特征在于,包括:获取训练数据,所述训练数据包括目标说话人的目标语音和待合成训练文本对应的音素序列;对所述目标语音进行预处理得到目标梅尔频谱,并将所述目标梅尔频谱输入语音转换模型中进行转换处理,得到目标说话人向量;将所述音素序列以及所述目标说话人向量输入语音合成模型中进行合成处理得到预测梅尔频谱,并将所述预测梅尔频谱输入所述语音转换模型中,确定预测说话人向量;基于所述目标说话人向量和所述预测说话人向量确定第一损失函数值,以及基于所述目标梅尔频谱和所述预测梅尔频谱确定第二损失函数值;根据所述第一损失函数值和所述第二损失函数值训练所述语音合成模型,训练完成的所述语音合成模型将所述待合成训练文本合成为合成语音,所述合成语音与所述目标语音具有相同的声音特征。2.根据权利要求1所述的语音合成模型的训练方法,其特征在于,所述将所述音素序列以及所述目标说话人向量输入语音合成模型中进行合成处理得到预测梅尔频谱,包括:将所述音素序列输入所述语音合成模型中进行合成处理;在合成处理的过程中,将所述目标说话人向量与一个或多个中间过程向量相加计算,并采用相加计算结果替换所述中间过程向量,继续进行合成处理,得到所述预测梅尔频谱。3.根据权利要求2所述的语音合成模型的训练方法,其特征在于,所述语音合成模型包括编码器,所述中间过程向量包括:所述编码器输出的第一特征向量;所述在合成处理的过程中,将所述目标说话人向量与一个或多个中间过程向量相加计算,并采用相加计算结果替换所述中间过程向量,继续进行合成处理,包括:将所述目标说话人向量与所述第一特征向量相加计算得到第一合成向量;将所述第一特征向量替换为所述第一合成向量,继续在所述语音合成模型中进行合成处理。4.根据权利要求2或3所述的语音合成模型的训练方法,其特征在于,所述语音合成模型包括方差调节器,所述中间过程向量包括:所述方差调节器输出的第二特征向量;所述在合成处理的过程中,将所述目标说话人向量与一个或多个中间过程向量相加计算,并采用相加计算结果替换所述中间过程向量,继续进行合成处理,包括:将所述目标说话人向量与所述第二特征向量相加计算得到第二合成向量;将所述第二特征向量替换为所述第二合成向量,继续在所述语音合成模型中进行合成处理。5.根据权利要求4所述的语音合成模型的训练方法,其特征在于,所述方差调节器的输入向量包括第一合成向量,所述第一合成向量是将所述目标说话人向量与第一特征向量相加计算得到的,所述第一特征向量是所述语音合成模型中编码器输出的。6.根据权利要求3所述的语音合成模型的训练方法,其特征在于,所述将所述音素序列输入所述语音合成模型中进行合成处理,包括:将所述音素序列输入所述语音合成模型中的音素提取器中,确定音素特征向量;将所述音素序列输入所述语音合成模型中的位置提取器中,确定位置特征向量;将所述音素特征向量与所述位置特征向量相加后,输入所述编码器进行编码处理,得
到所述第一特征向量。7.根据权利要求4所述的语音合成模型的训练方法,其特征在于,所述将所述音素序列输入所述语音合成模型中进行合成处理,包括:将所述音素序列输入所述语音合成模型中的位置提取器中,确定位置特征向量;所述将所述第二特征向量替换为所述第二合成向量,继续在所述语音合成模型中进行合成处理,包括:将所述第二合成向量与所述位置特征向量相加后,输入所述语音合成模型中的梅尔图谱解码器进行解码处理,得到所述预测梅尔图谱。8.根据权利要求1所述的语音合成模型的训练方法,其特征在于,所述训练数据还包括:多个说话人的语音数据;在所述将所述目标梅尔频谱输入语音转换模型中之前,还包括:对各个语音数据进行预处理,确定各个说话人对应的梅尔频谱;根据所...

【专利技术属性】
技术研发人员:刘鹏飞蒋宁吴海英刘敏
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1