歌声转换模型训练方法、歌曲音色转换方法及相关产品技术

技术编号：44701365 阅读：1 留言：0更新日期：2025-03-21 17:36

本申请涉及一种歌声转换模型训练方法、歌曲音色转换方法、计算机设备、计算机可读存储介质和计算机程序产品，涉及歌声合成技术领域，能够提高用户转换歌曲音色的效率。歌声转换模型训练方法包括：获取样本歌曲及与样本歌曲配对的歌唱人音色描述文本；由歌声转换模型中的音频编码模块获取样本歌曲的音色特征，以及，由歌声转换模型中的文本编码模块获取歌唱人音色描述文本对应的文本特征；根据音色特征与文本特征的差异，调整歌声转换模型的模型参数，得到训练好的歌声转换模型；训练好的歌声转换模型用于通过文本编码模块提取输入的音色描述文本对应的文本特征，并根据音色描述文本对应的文本特征得到目标音色特征，进行歌曲音色转换。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及歌声合成，特别是涉及一种歌声转换模型训练方法、歌曲音色转换方法、计算机设备、计算机可读存储介质和计算机程序产品。

技术介绍

1、随着计算机技术发展，歌声转换技术愈发普及。歌声转换是一种将音频中的歌唱声音从一个声源转换到另一个目标声源的过程，同时可以保持歌曲的内容和节奏不变。

2、在相关技术中，在进行歌声转换时会从示例录音中得到表征音色特点的特征信息，然后利用该信息控制歌声转换过程。然而，这种方法虽然有效，但是需要用户先查找或录制具有指定音色的现成录音，降低了歌声转换效率。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种歌声转换模型训练方法、歌曲音色转换方、计算机设备、计算机可读存储介质和计算机程序产品。

2、第一方面，本申请提供了一种歌声转换模训练型方法，包括：

3、获取样本歌曲及与所述样本歌曲配对的歌唱人音色描述文本；

4、由歌声转换模型中的音频编码模块获取所述样本歌曲的音色特征，以及，由所述歌声转换模型中的文本编码模块获取所述歌唱人音色描述文本对应的文本特征；

5、根据所述音色特征与所述文本特征的差异，调整所述歌声转换模型的模型参数，得到训练好的歌声转换模型；训练好的所述歌声转换模型用于通过所述文本编码模块提取输入的音色描述文本对应的文本特征，并根据所述音色描述文本对应的文本特征得到目标音色特征，进行歌曲音色转换。

6、在其中一个实施例中，所述根据所述音色特征与所述文本特征的差异，调整

7、根据所述文本特征和所述样本歌曲的发音信息，获取所述样本歌曲的音素发音特征分布信息；

8、获取用于解码出所述样本歌曲的音频特征分布信息，由所述歌声转换模型中的分布映射模块对所述音素发音特征分布信息与所述音频特征分布信息进行分布映射，得到分布映射结果；

9、根据所述音色特征与所述文本特征的差异，以及所述分布映射结果与参考分布映射结果的差异，调整所述歌声转换模型的模型参数，得到训练好的歌声转换模型。

10、在其中一个实施例中，所述根据所述音色特征与所述文本特征的差异，以及所述分布映射结果与参考分布映射结果的差异，调整所述歌声转换模型的模型参数，包括：

11、由所述歌声转换模型中的分布解码模块，根据所述音频特征分布信息解码出对应的预测歌曲；

12、根据所述音色特征与所述文本特征的差异确定第一损失值，根据所述分布映射结果与参考分布映射结果的差异，确定第二损失值，根据所述预测歌曲与所述样本歌曲的差异，确定第三损失值；

13、根据所述第一损失值、所述第二损失值和所述第三损失值确定模型损失值，根据所述模型损失值调整所述歌声转换模型的模型参数。

14、在其中一个实施例中，所述由所述歌声转换模型中的分布解码模块，根据所述音频特征分布信息解码出对应的预测歌曲，包括：

15、将所述音频特征分布信息、所述文本特征和所述样本歌曲的音高信息输入到所述歌声转换模型中的分布解码模块，根据所述分布解码模块的输出结果得到预测歌曲。

16、在其中一个实施例中，所述参考分布映射结果包括所述音素发音特征分布信息或所述音频特征分布信息；

17、所述分布映射结果与参考分布映射结果的差异，通过如下步骤确定：

18、若所述分布映射结果为所述分布映射模块对所述音频特征分布信息进行正向映射得到的音频特征分布映射结果，则确定所述音频特征分布映射结果与所述音素发音特征分布信息的差异；

19、若所述分布映射结果为所述分布映射模块对所述音素发音特征分布信息进行逆向映射得到的音素特征分布映射结果，则确定所述音素特征分布映射结果与所述音频特征分布信息的差异。

20、在其中一个实施例中，所述样本歌曲的发音信息包括所述样本歌曲的音高信息和所述样本歌曲的音素特征；

21、所述根据所述文本特征和所述样本歌曲的发音信息，获取所述样本歌曲的音素发音特征分布信息，包括：

22、将所述文本特征、所述样本歌曲的音高信息和所述样本歌曲的音素特征输入到所述文本编码模块，得到所述文本编码模块输出的音素先验分布；

23、将所述音素先验分布作为所述样本歌曲的音素发音特征分布信息。

24、第二方面，本申请还提供了一种歌曲音色转换方法，包括：

25、获取待转换歌曲，以及至少包括音色描述文本的音色配置信息；

26、将所述待转换歌曲的发音信息和所述音色配置信息输入到训练好的歌声转换模型，得到所述歌声转换模型输出音色转换后的歌曲；

27、其中，所述歌声转换模型根据如上任一项所述的歌声转换模训练型方法训练得到。

28、在其中一个实施例中，所述音色配置信息还包括具有指定音色的素材音频；

29、所述将所述待转换歌曲的发音信息和所述音色配置信息输入到训练好的歌声转换模型，得到所述歌声转换模型输出音色转换后的歌曲，包括：

30、由所述歌声转换模型中的文本编码模块对所述音色描述文本进行特征提取，得到所述音色描述文本的文本特征，及由所述歌声转换模型中的音频编码模块对所述素材音频进行特征提取，得到所述素材音频的音色特征；

31、根据所述音色描述文本的文本特征和所述素材音频的音色特征各自的特征权重，对所述音色描述文本的文本特征和所述素材音频的音色特征进行特征融合，得到目标音色特征；

32、根据所述目标音色特征和所述待转换歌曲的发音信息，输出音色转换后的歌曲。

33、第三方面，本申请还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如上任一项所述的歌声转换模型训练方法的步骤或如上任一项所述的歌曲音色转换方法的步骤。

34、第四方面，本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上任一项所述的歌声转换模型训练方法的步骤或如上任一项所述的歌曲音色转换方法的步骤。

35、第五方面，本申请还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如上任一项所述的歌声转换模型训练方法的步骤或如上任一项所述的歌曲音色转换方法的步骤。

36、上述歌声转换模型训练方法、歌曲音色转换方法、计算机设备、计算机可读存储介质和计算机程序产品，通过利用配对的样本歌曲和歌唱人音色描述对歌声转换模型中的音频编码模块和文本编码模块进行训练，能够使文本编码模块输出的文本特征与音频编码模块输出的音色特征尽可能接近，从而在训练完成后可以利用文本特征替代音色特征，当需要进行音色转换时，只需输入与目标音色相关的任意音色描述文本即可，无需用户提前录制或查找示例录音，有效提升歌声转换效率。

本文档来自技高网...

【技术保护点】

1.一种歌声转换模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述音色特征与所述文本特征的差异，调整所述歌声转换模型的模型参数，得到训练好的歌声转换模型，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述音色特征与所述文本特征的差异，以及所述分布映射结果与参考分布映射结果的差异，调整所述歌声转换模型的模型参数，包括：

4.根据权利要求3所述的方法，其特征在于，所述由所述歌声转换模型中的分布解码模块，根据所述音频特征分布信息解码出对应的预测歌曲，包括：

5.根据权利要求2所述的方法，其特征在于，所述参考分布映射结果包括所述音素发音特征分布信息或所述音频特征分布信息；

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述样本歌曲的发音信息包括所述样本歌曲的音高信息和所述样本歌曲的音素特征；

7.一种歌曲音色转换方法，其特征在于，所述方法包括：

8.根据权利要求7所述的方法，其特征在于，所述音色配置信息还包括具有指定音色的素材音频；

...

【技术特征摘要】

1.一种歌声转换模型训练方法，其特征在于，所述方法包括：

4.根据权利要求3所述的方法，其特征在于，所述由所述歌声转换模型中的分布解码模块，根据所述音频特征分布信息解码出对应的预测歌曲，包括：

5.根据权利要求2所述的方法，其特征在于，所述参考分布映射结果包括所述音素发音特征分布信息或所述音频特征分布信息；

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述样本歌曲的发音信息包括所述样本歌曲的音高信息和所述样本歌曲的音素特征；

【专利技术属性】
技术研发人员：陈梦，刘若澜，
申请(专利权)人：腾讯音乐娱乐科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人