一种基于对抗生成网络的语音合成模型的训练方法技术

技术编号:35832558 阅读:24 留言:0更新日期:2022-12-03 14:02
本申请提供了一种基于对抗生成网络的语音合成模型的训练方法,所述语音合成模型的训练方法是将样本文本输入至生成器中,由生成器生成第一梅尔频谱,并将第一梅尔频谱和第二梅尔频谱输入至用于判别第一梅尔频谱精度的判别器中,在判别的过程中不断对生成器和判别器的第一判别损失、第二判别损失和第三判别损失进行训练,直至收敛,得到训练好的生成器。通过生成器和判别器之间的不断的对抗以及训练,减小目标梅尔频谱的损失,而根据目标梅尔频谱生成的目标音频的损失也会减小,进而提高语音合成音频的精度。成音频的精度。成音频的精度。

【技术实现步骤摘要】
一种基于对抗生成网络的语音合成模型的训练方法


[0001]本申请涉及语音合成
,尤其涉及一种基于对抗生成网络的语音合成模型的训练方法。

技术介绍

[0002]随着人工智能的发展,在一些软件产品中,例如地图导航软件、有声小说软件或语言翻译软件等,都需要将文本转换成语音,人们对于将文本自动转换成语音的需求越来越大。
[0003]目前,将文本转换成语音主要依赖语音合成技术。而使用语音合成技术时,需要使用到声学模型与声码器。而要达到文本所合成的语音与人声相似,需要对语音合成技术中所使用的声学模型与声码器分别进行训练。
[0004]声学模型和声码器分别进行训练的过程中,声学模型部分会存在一定的损失,从而导致所合成语音的音质存在损失。现有的声学模型都是基于均方误差损失或平均绝对误差损失进行训练,从而导致声学模型在后期使用中会存在很大的偏差。这部分偏差进而导致声学模型在训练过程中,产生的损失越来越大。而且如果声学模型部分的损失过大,声码器部分在训练过程中同样会受到相应的影响,就会造成合成语音的音质无法到达与人声相似的精度。相关技术中,无法解决声学模型训练中所存在的损失,所以依然存在声学模型训练的精度不理想的问题。

技术实现思路

[0005]为了解决声学模型训练中所存在的损失,存在声学模型训练的精度不理想的问题,本申请实施例提供了一种基于对抗生成网络的语音合成模型的训练方法,包括:
[0006]S1,将样本文本输入至生成器中,以得到第一梅尔频谱;
[0007]S2,根据所述第一梅尔频谱与第二梅尔频谱,对第一判别损失进行训练;其中,所述第二梅尔频谱是用于指示所述样本文本对应标注的音频标签的梅尔频谱;
[0008]S3,将所述第一梅尔频谱输入至判别器中,以得到第一判别特征,并根据所述第一判别特征对第二判别损失进行训练;
[0009]S4,根据所述第一梅尔频谱、所述第二梅尔频谱以及所述第一梅尔频谱和所述第二梅尔频谱的判别结果对第三判别损失进行训练;其中,所述第三判别损失用于指示所述判别器的判别损失;所述判别结果用于指示所述第一梅尔频谱与所述第二梅尔频谱之间的关联;
[0010]交替执行上述S2至S4,直至所述第一判别损失、所述第二判别损失、所述第三判别损失收敛,得到训练后的所述生成器。
[0011]在本申请的一个实施例中,所述判别器包括:
[0012]训练模块,被配置为根据所述判别特征对第二判别损失进行训练,以及根据所述第一梅尔频谱、所述第二梅尔频谱以及所述判别结果对第三判别损失进行训练;
[0013]判别模块,被配置为根据所述第一梅尔频谱与所述第二梅尔频谱的关联性,得到所述第一梅尔频谱与所述第二梅尔频谱的判别结果。
[0014]在本申请的一个实施例中,所述方法还包括:
[0015]当所述第一梅尔频谱与所述第二梅尔频谱之间的关联度大于预设值时,停止对所述第一判别损失、所述第二判别损失和所述第三判别损失训练,得到训练后的所述生成器。
[0016]在本申请的一个实施例中,获取所述第三判别损失的步骤,包括:
[0017]将所述第二梅尔频谱输入至判别器,得到第二判别特征;
[0018]计算所述第一判别特征与1的第一均方误差和所述第二判别特征与0的第二均方误差,得到第一均方误差结果和第二均方误差结果。
[0019]在本申请的一个实施例中,第一判别损失用于表征生成器在训练过程中所造成的频谱损失,第二判别损失用于判断第一梅尔频谱的频谱损失;将所述第一梅尔频谱输入至判别器中,以得到第一判别特征的步骤中,所述方法还包括:
[0020]获取所述第二梅尔频谱的频谱损失;
[0021]将第一梅尔频谱的频谱损失与第二梅尔频谱的频谱损失进行比对;
[0022]当所述第一梅尔频谱的频谱损失与所述第二梅尔频谱的频谱损失的差距值为0时,得到第一判别特征。
[0023]在本申请的一个实施例中,所述方法还包括:
[0024]设置预设值;所述预设值用于指示所述第一梅尔频谱的频谱损失与所述第二梅尔频谱的频谱损失的差距程度;
[0025]当所述第一梅尔频谱的频谱损失与所述第二梅尔频谱的频谱损失的差距值大于所述预设值时,输出判别结果为假;
[0026]根据所述判别结果,重新获取第一梅尔频谱。
[0027]在本申请的一个实施例中,所述方法还包括:
[0028]当所述第一梅尔频谱的频谱损失与所述第二梅尔频谱的频谱损失的差距值小于所述预设值时,输出判别结果为真;
[0029]根据所述判别结果,将所述第一梅尔频谱设置为目标梅尔频谱。
[0030]由上述方案可知,本申请提供一种基于对抗生成网络的语音合成模型的训练方法。所述语音合成模型的训练方法是将样本文本输入至生成器中,由生成器生成第一梅尔频谱,并将第一梅尔频谱和第二梅尔频谱输入至判别器中,在判别的过程中不断对生成器和判别器的第一判别损失、第二判别损失和第三判别损失进行训练,直至收敛,得到训练好的生成器。在使用训练好的生成器生成目标梅尔频谱时,所生成的目标梅尔频谱的精度是能够达到标准梅尔频谱的精度。通过生成器和判别器之间的不断的对抗以及训练,减小目标梅尔频谱的损失,而根据目标梅尔频谱生成的目标音频的损失也会减小,进而提高语音合成音频的精度。
附图说明
[0031]为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0032]图1为本申请实施例提供的一种基于对抗生成网络的语音合成模型结构示意图;
[0033]图2为本申请实施例提供的一种基于对抗生成网络的语音合成模型的工作流程示意图;
[0034]图3为本申请一种实施例中语音合成模型执行的语音合成方法流程图;
[0035]图4为本申请实施例提供的一种基于对抗生成网络的语音合成模型的训练方法的流程图。
具体实施方式
[0036]下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
[0037]需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
[0038]近年来,随着人工智能的发展,在很多场景中,都需要将文本转换成语音,人们对于将文本转换成语音的需求越来越大。而将文本转换成语音依赖于语音合成技术,现有的语音合成技术在将文本转换成语音的过程中,需要对声学模型和声码器进行训练。在声学模型的训练过程中,会产生损失,进而造成声学模型部分的训练精度不理想,导致合成的语音音质较差。
[0039]为了解决声学模型的训练过程中,会产生损失,进而造成声学模型部分的训练精度不理想,导致合成的语音音质较差的问题,本申请提供了一种基于对抗生成网络的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于对抗生成网络的语音合成模型的训练方法,其特征在于,包括:S1,将样本文本输入至生成器中,以得到第一梅尔频谱;S2,根据所述第一梅尔频谱与第二梅尔频谱,对第一判别损失进行训练;其中,所述第二梅尔频谱是用于指示所述样本文本对应标注的音频标签的梅尔频谱;S3,将所述第一梅尔频谱输入至判别器中,以得到第一判别特征,并根据所述第一判别特征对第二判别损失进行训练;S4,根据所述第一梅尔频谱、所述第二梅尔频谱以及所述第一梅尔频谱和所述第二梅尔频谱的判别结果对第三判别损失进行训练;其中,所述第三判别损失用于指示所述判别器的判别损失;所述判别结果用于指示所述第一梅尔频谱与所述第二梅尔频谱之间的关联;交替执行上述S2至S4,直至所述第一判别损失、所述第二判别损失、所述第三判别损失收敛,得到训练后的所述生成器。2.根据权利要求1所述的基于对抗生成网络的语音合成模型的训练方法,其特征在于,所述判别器包括:训练模块,被配置为根据所述判别特征对第二判别损失进行训练,以及根据所述第一梅尔频谱、所述第二梅尔频谱以及所述判别结果对第三判别损失进行训练;判别模块,被配置为根据所述第一梅尔频谱与所述第二梅尔频谱的关联性,得到所述第一梅尔频谱与所述第二梅尔频谱的判别结果。3.根据权利要求2所述的基于对抗生成网络的语音合成模型的训练方法,其特征在于,所述方法还包括:当所述第一梅尔频谱与所述第二梅尔频谱之间的关联度大于预设值时,停止对所述第一判别损失、所述第二判别损失和所述第三判别损失训练,得到训练后的所述生成器。4.根据...

【专利技术属性】
技术研发人员:司马华鹏毛志强
申请(专利权)人:南京硅基智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1