语音合成模型的训练方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37545975 阅读:18 留言:0更新日期:2023-05-12 16:18
本公开提供了一种语音合成模型的训练方法、装置、电子设备及存储介质,所述方法包括:将文本音素样本对应的文本样本特征输入至语音合成模型包括的生成器中,输出文本样本特征对应的多维预测语音子信号;其中,多维预测语音子信号中每一维度的预测语音子信号的子频带均不同;将多维预测语音子信号输入至子频带编码模块中,获得全部维度的预测语音子信号对应的预测语音信号;将预测语音信号输入至判别器中,确认判别器的输出为预测语音信号的预测属性标识;基于文本音素样本对应的全部维度的标注语音子信号、全部维度的预测语音子信号、预测语音信号的预测属性标识和标注语音标识,调整生成器和/或判别器的参数。调整生成器和/或判别器的参数。调整生成器和/或判别器的参数。

【技术实现步骤摘要】
语音合成模型的训练方法、装置、电子设备及存储介质


[0001]本公开涉及语音合成
,尤其涉及一种语音合成模型的训练方法、装置、电子设备及存储介质。

技术介绍

[0002]相关技术中,通常是采用两阶段语音合成模型实现语音合成,但在声学模型和声码器之间存在不匹配(mismatch)导致合成语音的自然度或音质不足;此外,复杂度搞的模型合成时间久,实际应用中用户体验差。

技术实现思路

[0003]本公开提供了一种语音合成模型的训练方法、装置、电子设备及存储介质,以至少解决现有技术中存在的以上技术问题。
[0004]根据本公开的第一方面,提供了一种语音合成模型的训练方法,包括:
[0005]将文本音素样本对应的文本样本特征输入至语音合成模型包括的生成器中,输出所述文本样本特征对应的多维预测语音子信号;其中,所述多维预测语音子信号中每一维度的预测语音子信号的子频带均不同;
[0006]将所述多维预测语音子信号输入至子频带编码模块中,获得全部维度的预测语音子信号对应的预测语音信号;
[0007]将所述预测语音信号输入至判别器中,确认所述判别器的输出为所述预测语音信号的预测属性标识;
[0008]基于所述文本音素样本对应的全部维度的标注语音子信号、所述全部维度的预测语音子信号、所述预测语音信号的预测属性标识和标注语音标识,调整所述生成器和/或所述判别器的参数。
[0009]上述方案中,所述将文本音素样本对应的文本样本特征输入至语音合成模型包括的生成器之前,所述方法还包括:
[0010]将文本音素样本输入至语音合成模型包括的编码模块中,确认所述编码模块的输出为文本样本特征。
[0011]上述方案中,所述方法还包括:
[0012]基于所述样本文本音素对应的文本标注特征和所述文本样本特征调整所述编码模块的参数。
[0013]上述方案中,所述生成器包括多频带网络,所述多频带网络用于对所述文本样本特征,或者所述文本样本特征经所述生成器包括的生成网络处理后得到的语音信号进行多频带处理,生成所述文本样本特征对应的多维预测语音子信号。
[0014]上述方案中,所述将所述多维预测语音子信号输入至子频带编码模块中,获得全部维度的预测语音子信号对应的预测语音信号,包括:
[0015]对所述每一维预测语音子信号进行傅里叶变换处理,获得每一维预测语音子信号
对应的频域结果;
[0016]在频域上,对所述每一维预测语音子信号对应的频域结果进行叠加处理,获得频域预测语音信号;
[0017]对所述频域预测语音信号进行逆傅里叶变换处理,获得所述预测语音信号。
[0018]上述方案中,所述基于所述文本音素样本对应的全部维度的标注语音子信号、所述全部维度的预测语音子信号、所述预测语音信号的预测属性标识和标注语音标识,调整所述生成器和/或所述判别器的参数,包括:
[0019]基于所述文本音素样本对应的全部维度的标注语音子信号和所述全部维度的预测语音子信号,确认所述生成器对应的损失函数;
[0020]基于所述预测语音信号的预测属性标识和标注语音标识,确认得到判别器的损失函数;
[0021]基于所述生成器对应的损失函数调整所述生成器的参数,基于所述判别器的损失函数调整所述判别器的参数。
[0022]上述方案中,所述基于所述样本文本音素对应的文本标注特征和所述文本样本特征调整所述编码模块的参数,包括:
[0023]基于所述样本文本音素对应的文本标注特征和所述文本样本特征确认所述编码模块的损失函数;
[0024]基于所述编码模块的损失函数调整所述编码模块的参数。
[0025]根据本公开的第二方面,提供了一种语音合成模型的训练装置,所述装置包括:
[0026]第一训练单元,用于将文本音素样本对应的文本样本特征输入至语音合成模型包括的生成器中,输出所述文本样本特征对应的多维预测语音子信号;其中,所述多维预测语音子信号中每一维度的预测语音子信号的子频带均不同;
[0027]编码单元,用于将所述多维预测语音子信号输入至子频带编码模块中,获得全部维度的预测语音子信号对应的预测语音信号;
[0028]第二训练单元,用于将所述预测语音信号输入至判别器中,确认所述判别器的输出为所述预测语音信号的预测属性标识;
[0029]调整单元,用于基于所述文本音素样本对应的全部维度的标注语音子信号、所述全部维度的预测语音子信号、所述预测语音信号的预测属性标识和标注语音标识,调整所述生成器和/或所述判别器的参数。
[0030]根据本公开的第三方面,提供了一种电子设备,包括:
[0031]至少一个处理器;以及
[0032]与所述至少一个处理器通信连接的存储器;其中,
[0033]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开所述的方法。
[0034]根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本公开所述的方法。
[0035]本公开的语音合成模型的训练方法,通过将文本音素样本对应的文本样本特征输入至语音合成模型包括的生成器中,输出所述文本样本特征对应的多维预测语音子信号;其中,所述多维预测语音子信号中每一维度的预测语音子信号的子频带均不同;将所述多
维预测语音子信号输入至子频带编码模块中,获得全部维度的预测语音子信号对应的预测语音信号;将所述预测语音信号输入至判别器中,确认所述判别器的输出为所述预测语音信号的预测属性标识;基于所述文本音素样本对应的全部维度的标注语音子信号、所述全部维度的预测语音子信号、所述预测语音信号的预测属性标识和标注语音标识,调整所述生成器和/或所述判别器的参数;如此,可以提升语音合成速度,同时保证合成效果,提升客户体验。
[0036]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0037]通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,其中:
[0038]在附图中,相同或对应的标号表示相同或对应的部分。
[0039]图1示出了本公开实施例提供的语音合成模型的训练方法;
[0040]图2示出了本公开实施例提供的语音合成模型的可选结构示意图;
[0041]图3示出了本公开实施例提供的语音合成方法的可选流程示意图;
[0042]图4示出了本公开实施例提供的语音合成模型的训练装置的可选结构示意图;
[0043]图5示出了本公开实施例提供的语音合成装置的可选结构示意图;
[0044]图6示出了本公开实施本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成模型的训练方法,其特征在于,所述方法包括:将文本音素样本对应的文本样本特征输入至语音合成模型包括的生成器中,输出所述文本样本特征对应的多维预测语音子信号;其中,所述多维预测语音子信号中每一维度的预测语音子信号的子频带均不同;将所述多维预测语音子信号输入至子频带编码模块中,获得全部维度的预测语音子信号对应的预测语音信号;将所述预测语音信号输入至判别器中,确认所述判别器的输出为所述预测语音信号的预测属性标识;基于所述文本音素样本对应的全部维度的标注语音子信号、所述全部维度的预测语音子信号、所述预测语音信号的预测属性标识和标注语音标识,调整所述生成器和/或所述判别器的参数。2.根据权利要求1所述的方法,其特征在于,所述将文本音素样本对应的文本样本特征输入至语音合成模型包括的生成器之前,所述方法还包括:将文本音素样本输入至语音合成模型包括的编码模块中,确认所述编码模块的输出为文本样本特征。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:基于所述样本文本音素对应的文本标注特征和所述文本样本特征调整所述编码模块的参数。4.根据权利要求1所述的方法,其特征在于,所述生成器包括多频带网络,所述多频带网络用于对所述文本样本特征,或者所述文本样本特征经所述生成器包括的生成网络处理后得到的语音信号进行多频带处理,生成所述文本样本特征对应的多维预测语音子信号。5.根据权利要求1所述的方法,其特征在于,所述将所述多维预测语音子信号输入至子频带编码模块中,获得全部维度的预测语音子信号对应的预测语音信号,包括:对所述每一维预测语音子信号进行傅里叶变换处理,获得每一维预测语音子信号对应的频域结果;在频域上,对所述每一维预测语音子信号对应的频域结果进行叠加处理,获得频域预测语音信号;对所述频域预测语音信号进行逆傅里叶变换处理,获得所述预测语音信号。6.根据权利要求1所述的方法,其特征在于,所述基于所述文本音素样本对应的全部维度的标注语音子信号、所述全部维度的预测语音子信号、所述预测语音信号的预测属性标识和...

【专利技术属性】
技术研发人员:殷昊陈云琳李媛媛
申请(专利权)人:上海墨百意信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1