System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 歌声合成模型的处理方法、歌声合成方法、设备和介质技术_技高网

歌声合成模型的处理方法、歌声合成方法、设备和介质技术

技术编号:42915769 阅读:8 留言:0更新日期:2024-10-11 15:45
本申请涉及一种歌声合成模型处理方法、歌声合成方法、设备和存储介质。歌声合成模型的处理方法包括:将样本特征输入待训练的歌声合成模型中歌声特征预测器,得到预测歌声特征,并通过预测歌声特征训练歌声特征预测器;将样本歌声信号对应的样本频谱信息输入歌声合成模型中的频谱生成模块,得到预测频谱信息,通过预测频谱信息训练频谱生成模块;将样本歌词文本对应的语义信息输入歌声合成模型的扩散模块,得到样本歌声信号对应的先验特征,并利用先验特征训练扩散模块;根据训练完成的歌声特征预测器、频谱生成模块以及扩散模块,得到训练完成的歌声合成模型。采用本方法不需要依赖于曲谱信息的标注,能降低模型标注的成本。

【技术实现步骤摘要】

本申请涉及音频处理,特别是涉及一种歌声合成模型的处理方法、歌声合成方法、计算机设备、计算机可读存储介质和计算机程序产品。


技术介绍

1、随着音频处理技术的发展,出现了一种歌声合成的技术,该技术可以利用语音合成相关技术,让计算机能够像人一样发出优美动听的歌声,可应用于虚拟歌手、唱片制作、数字音乐创作等领域。

2、传统技术中,可通过预先训练用于合成歌声的神经网络模型,即歌声合成模型来实现歌声合成,该模型可以通过对与音频信息对齐的语音文本以及曲谱标注,来实现歌声的合成。然而,目前的歌声合成模型在训练过程中,需要依赖于曲谱信息的标注,因此模型标注成本较高。


技术实现思路

1、基于此,有必要针对上述技术问题,提供一种能够减少模型标注成本的歌声合成模型的处理方法、歌声合成方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

2、第一方面,本申请提供了一种歌声合成模型的处理方法,包括:

3、将样本歌声信号的样本歌声特征,以及样本歌词文本的歌词文本特征输入待训练的歌声合成模型中的歌声特征预测器,得到预测歌声特征,并通过所述预测歌声特征训练所述歌声特征预测器,得到训练完成的歌声特征预测器;所述样本歌词文本为所述样本歌声信号对应的歌词文本;

4、将所述样本歌声信号对应的样本频谱信息输入所述歌声合成模型中的频谱生成模块,得到预测频谱信息,通过所述预测频谱信息训练所述频谱生成模块,得到训练完成的频谱生成模块;

5、将所述样本歌词文本对应的语义信息输入所述歌声合成模型的扩散模块,得到所述样本歌声信号对应的先验特征,并利用所述先验特征训练所述扩散模块,得到训练完成的扩散模块;

6、根据所述训练完成的歌声特征预测器、训练完成的频谱生成模块以及训练完成的扩散模块,得到训练完成的歌声合成模型。

7、在其中一个实施例中,所述将样本歌声信号的样本歌声特征,以及样本歌词文本的歌词文本特征输入待训练的歌声合成模型中的歌声特征预测器,得到预测歌声特征,并通过所述预测歌声特征训练所述歌声特征预测器,包括:

8、将所述样本歌声特征以及所述歌词文本特征输入所述歌声特征预测器,通过所述歌声特征预测器从所述样本歌声特征中获取第一目标帧对应的子歌声特征,以及与所述第一目标帧匹配的第二目标帧对应的子歌声特征;所述第二目标帧的帧序列位于所述第一目标帧之后;根据所述第一目标帧对应的子歌声特征以及所述歌词文本特征,得到所述第二目标帧对应的预测歌声特征,并根据所述第二目标帧对应的预测歌声特征,与所述第二目标帧对应的子歌声特征之间的损失,训练所述歌声特征预测器。

9、在其中一个实施例中,所述将所述样本歌声特征以及所述歌词文本特征输入所述歌声特征预测器之前,还包括:获取样本歌声信号,以及所述样本歌声信号对应的样本歌词文本;将所述样本歌声信号输入预先训练的歌声特征提取模型,得到与所述样本歌声信号匹配的初始歌声特征,并对所述初始歌声特征进行离散化处理,得到所述样本歌声特征;获取与所述样本歌词文本相匹配的音素信息,根据所述音素信息得到所述歌词文本特征。

10、在其中一个实施例中,所述频谱生成模块包括编码器与解码器;所述将所述样本歌声信号对应的样本频谱信息输入所述歌声合成模型中的频谱生成模块,得到预测频谱信息,通过所述预测频谱信息训练所述频谱生成模块,包括:将所述样本歌声信号对应的样本频谱信息输入所述频谱生成模块中的编码器,通过所述编码器得到所述样本频谱信息的第一编码特征;将所述样本频谱信息的第一编码特征输入所述频谱生成模块中的解码器,得到所述样本频谱信息对应的预测频谱信息;根据所述样本频谱信息与所述样本频谱信息对应的预测频谱信息之间的损失,训练所述频谱生成模块。

11、在其中一个实施例中,所述频谱生成模块还包括:鉴别器;所述根据所述样本频谱信息与所述样本频谱信息对应的预测频谱信息之间的损失,训练所述频谱生成模块,包括:将所述样本频谱信息以及所述样本频谱信息对应的预测频谱信息输入所述频谱生成模块中的鉴别器,得到鉴别器损失;根据所述样本频谱信息与所述预测频谱信息之间的损失及所述鉴别器损失,训练所述频谱生成模块。

12、在其中一个实施例中,所述将所述样本歌词文本对应的语义信息输入所述歌声合成模型的扩散模块,得到所述样本歌声信号对应的先验特征,并利用所述先验特征训练所述扩散模块,包括:将所述样本频谱信息输入所述训练完成的频谱生成模块中的编码器,得到所述样本频谱信息的第二编码特征;将所述样本歌词文本的语义信息以及所述样本频谱信息的第二编码特征输入所述扩散模块,得到所述先验特征;根据所述样本频谱信息的第二编码特征以及先验特征之间的损失,训练所述扩散模块。

13、在其中一个实施例中,所述将所述样本歌词文本的语义信息以及所述样本频谱信息的第二编码特征输入所述扩散模块,得到所述先验特征,包括:将所述样本歌词文本的语义信息以及所述样本频谱信息的第二编码特征输入所述扩散模块,通过所述扩散模块对所述第二编码特征进行加噪处理,得到噪声特征;利用所述样本歌词文本的语义信息对所述噪声特征进行去噪处理,得到所述先验特征。

14、第二方面,本申请还提供了一种歌声合成方法,包括:

15、获取用于合成歌声的歌词文本;

16、将所述歌词文本输入训练完成的歌声合成模型,通过所述歌声合成模型得到与所述歌词文本相匹配的预测频谱信息;所述歌声合成模型通过如第一方面任一项实施例所述的歌声合成模型的处理方法训练得到;

17、将所述预测频谱信息输入预先构建的声码器模块,通过所述声码器模块得到与所述歌词文本匹配的歌声信号。

18、在其中一个实施例中,所述歌声合成模型包括:歌声特征预测器、频谱生成模块以及扩散模块;所述将所述歌词文本输入训练完成的歌声合成模型,通过所述歌声合成模型得到与所述歌词文本相匹配的预测频谱信息,包括:将所述歌词文本输入所述歌声合成模型中的歌声特征预测器,得到与所述歌词文本匹配的预测歌声特征;将所述预测歌声特征输入所述歌声合成模型中的扩散模块,得到先验特征;将所述先验特征输入所述歌声合成模型中频谱生成模块包含的解码器,通过所述解码器输出所述预测频谱信息。

19、第三方面,本申请还提供了一种歌声合成模型的处理装置,包括:

20、歌声预测器训练模块,用于将样本歌声信号的样本歌声特征,以及样本歌词文本的歌词文本特征输入待训练的歌声合成模型中的歌声特征预测器,得到预测歌声特征,并通过所述预测歌声特征训练所述歌声特征预测器,得到训练完成的歌声特征预测器;所述样本歌词文本为所述样本歌声信号对应的歌词文本;

21、频谱生成训练模块,用于将所述样本歌声信号对应的样本频谱信息输入所述歌声合成模型中的频谱生成模块,得到预测频谱信息,通过所述预测频谱信息训练所述频谱生成模块,得到训练完成的频谱生成模块;

22、扩散模块训练模块,用于将所述样本歌词文本对应的语义信息输入所述歌本文档来自技高网...

【技术保护点】

1.一种歌声合成模型的处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述将样本歌声信号的样本歌声特征以及样本歌词文本的歌词文本特征输入待训练的歌声合成模型中的歌声特征预测器,得到预测歌声特征,并通过所述预测歌声特征训练所述歌声特征预测器,包括:

3.根据权利要求2所述的方法,其特征在于,所述将所述样本歌声特征以及所述歌词文本特征输入所述歌声特征预测器之前,还包括:

4.根据权利要求1所述的方法,其特征在于,所述频谱生成模块包括编码器与解码器;所述将所述样本歌声信号对应的样本频谱信息输入所述歌声合成模型中的频谱生成模块,得到预测频谱信息,通过所述预测频谱信息训练所述频谱生成模块,包括:

5.根据权利要求4所述的方法,其特征在于,所述频谱生成模块还包括:鉴别器;所述根据所述样本频谱信息与所述样本频谱信息对应的预测频谱信息之间的损失,训练所述频谱生成模块,包括:

6.根据权利要求4所述的方法,其特征在于,所述将所述样本歌词文本对应的语义信息输入所述歌声合成模型的扩散模块,得到所述样本歌声信号对应的先验特征,并利用所述先验特征训练所述扩散模块,包括:

7.一种歌声合成方法,其特征在于,所述方法包括:

8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

...

【技术特征摘要】

1.一种歌声合成模型的处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述将样本歌声信号的样本歌声特征以及样本歌词文本的歌词文本特征输入待训练的歌声合成模型中的歌声特征预测器,得到预测歌声特征,并通过所述预测歌声特征训练所述歌声特征预测器,包括:

3.根据权利要求2所述的方法,其特征在于,所述将所述样本歌声特征以及所述歌词文本特征输入所述歌声特征预测器之前,还包括:

4.根据权利要求1所述的方法,其特征在于,所述频谱生成模块包括编码器与解码器;所述将所述样本歌声信号对应的样本频谱信息输入所述歌声合成模型中的频谱生成模块,得到预测频谱信息,通过所述预测频谱信息训练所述频谱生成模块,包括:

5.根据权利要求4所述的方法,其特征在于,所述频谱生成模块还包括:鉴别器;所述根据所述样本频谱信息与所述样本频...

【专利技术属性】
技术研发人员:陈梦刘若澜
申请(专利权)人:腾讯音乐娱乐科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1