一种基于对抗生成网络的语音合成模型的训练方法技术

技术编号：35832558 阅读：34 留言：0更新日期：2022-12-03 14:02

本申请提供了一种基于对抗生成网络的语音合成模型的训练方法，所述语音合成模型的训练方法是将样本文本输入至生成器中，由生成器生成第一梅尔频谱，并将第一梅尔频谱和第二梅尔频谱输入至用于判别第一梅尔频谱精度的判别器中，在判别的过程中不断对生成器和判别器的第一判别损失、第二判别损失和第三判别损失进行训练，直至收敛，得到训练好的生成器。通过生成器和判别器之间的不断的对抗以及训练，减小目标梅尔频谱的损失，而根据目标梅尔频谱生成的目标音频的损失也会减小，进而提高语音合成音频的精度。成音频的精度。成音频的精度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于对抗生成网络的语音合成模型的训练方法

[0001]本申请涉及语音合成
，尤其涉及一种基于对抗生成网络的语音合成模型的训练方法。

技术介绍

[0002]随着人工智能的发展，在一些软件产品中，例如地图导航软件、有声小说软件或语言翻译软件等，都需要将文本转换成语音，人们对于将文本自动转换成语音的需求越来越大。
[0003]目前，将文本转换成语音主要依赖语音合成技术。而使用语音合成技术时，需要使用到声学模型与声码器。而要达到文本所合成的语音与人声相似，需要对语音合成技术中所使用的声学模型与声码器分别进行训练。
[0004]声学模型和声码器分别进行训练的过程中，声学模型部分会存在一定的损失，从而导致所合成语音的音质存在损失。现有的声学模型都是基于均方误差损失或平均绝对误差损失进行训练，从而导致声学模型在后期使用中会存在很大的偏差。这部分偏差进而导致声学模型在训练过程中，产生的损失越来越大。而且如果声学模型部分的损失过大，声码器部分在训练过程中同样会受到相应的影响，就会造成合成语音的音质无法到达与人声相似的精度。相关技术中，无法解决声学模型训练中所存在的损失，所以依然存在声学模型训练的精度不理想的问题。

技术实现思路

[0005]为了解决声学模型训练中所存在的损失，存在声学模型训练的精度不理想的问题，本申请实施例提供了一种基于对抗生成网络的语音合成模型的训练方法，包括：
[0006]S1，将样本文本输入至生成器中，以得到第一梅尔频谱；
[0007]S2，根据所述第一梅...

【技术保护点】

【技术特征摘要】
1.一种基于对抗生成网络的语音合成模型的训练方法，其特征在于，包括：S1，将样本文本输入至生成器中，以得到第一梅尔频谱；S2，根据所述第一梅尔频谱与第二梅尔频谱，对第一判别损失进行训练；其中，所述第二梅尔频谱是用于指示所述样本文本对应标注的音频标签的梅尔频谱；S3，将所述第一梅尔频谱输入至判别器中，以得到第一判别特征，并根据所述第一判别特征对第二判别损失进行训练；S4，根据所述第一梅尔频谱、所述第二梅尔频谱以及所述第一梅尔频谱和所述第二梅尔频谱的判别结果对第三判别损失进行训练；其中，所述第三判别损失用于指示所述判别器的判别损失；所述判别结果用于指示所述第一梅尔频谱与所述第二梅尔频谱之间的关联；交替执行上述S2至S4，直至所述第一判别损失、所述第二判别损失、所述第三判别损失收敛，得到训练后的所述生成器。2.根据权利要求1所述的基于对抗生成网络的语音合成模型的训练方法，其特征在于，所述判别器包括：训练模块，被配置为根据所述判别特征对第二判别损失进行训练，以及根据所述第一梅尔频谱、所述第二梅尔频谱以及所述判别结果对第三判别损失进行训练；判别模块，被配置为根据所述第一梅尔频谱与所述第二梅尔频谱的关联性，得到所述第一梅尔频谱与所述第二梅尔频谱的判别结果。3.根据权利要求2所述的基于对抗生成网络的语音合成模型的训练方法，其特征在于，所述方法还包括：当所述第一梅尔频谱与所述第二梅尔频谱之间的关联度大于预设值时，停止对所述第一判别损失、所述第二判别损失和所述第三判别损失训练，得到训练后的所述生成器。4.根据...

【专利技术属性】
技术研发人员：司马华鹏，毛志强，
申请(专利权)人：南京硅基智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人