一种训练方法、语音合成方法、装置、设备及介质制造方法及图纸

技术编号：44370734 阅读：4 留言：0更新日期：2025-02-25 09:49

本发明专利技术涉及人工智能技术领域，尤其涉及一种训练方法、语音合成方法、装置、设备及介质。获取训练样本组包括待合成语音的文本嵌入信息、参考语音的参考情感特征和参考音色特征、语种嵌入信息与目标语音，将文本嵌入信息、参考情感特征、参考音色特征与语种嵌入信息输入至初始语音合成模型中，输出预测语音，根据预测语音与目标语音，计算目标损失，根据目标损失，对初始语音合成模型进行训练，得到训练好的语音合成模型。将参考语音的情感特征与音色特征，输入至初始语音合成模型中，即将情感特征与音色特征嵌入到模型中，使训练好的语音合成模型结合对应说话人的情感与音色，输出更加自然、生动，更具表现力的合成语音。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，尤其涉及一种训练方法、语音合成方法、装置、设备及介质。

技术介绍

1、语音合成中语音转换的目的是改变源说话人的声音，使其听起来像目标说话人。例如，在银行、保险公司或其他金融机构中，往往由智能客服通过语音引导用户办理相应的业务。在对用户进行语音引导时，为了提高引导效果或基于用户定制化需求，往往需要更换语音中的源说话人为目标说话人。当前，随着声学模型和高质量的神经网络声码器的快速发展，语音合成中的说话人转换取得了显著的进步。但在结合目标说话人情感和语音身份方面的工作还很有限，现有的语音合成系统在处理语音身份和情感风格的同步控制、保持语音自然度、以及跨语言情感迁移等方面存在不足，因此，在语音合成的过程中，如何提高合成语音中的跨语言情感迁移，成为亟待解决的问题。

技术实现思路

1、有鉴于此，本专利技术实施例提供了一种训练方法、语音合成方法、装置、设备及介质，以解决在语音合成的过程中，跨语言情感迁移等方面存在的不足。

2、第一方面，本专利技术实施例提供了一种语音合成模型的训练方法，所述训练方法包括：

3、获取训练样本组与初始语音合成模型，所述训练样本组包括待合成语音的文本嵌入信息、参考语音、语种嵌入信息与目标语音；

4、将所述文本嵌入信息、所述参考情感特征、所述参考音色特征与所述语种嵌入信息输入至所述初始语音合成模型中，输出预测语音；

5、根据所述预测语音与所述目标语音，计算目标损失；

6、根据所述第一损失，

7、第二方面，本专利技术实施例提供一种语音合成方法，所述语音合成方法包括：

8、获取待合成文本嵌入信息、待合成语种嵌入信息与原始语音；

9、将所述待合成文本嵌入信息、待合成语种嵌入信息与原始语音输入至使用上述训练方法训练得到的训练好的语音合成模型中，输出目标合成语音。

10、第三方面，本专利技术实施例提供一种语音合成模型的训练装置，所述训练装置包括：

11、第一获取模块，用于获取训练样本组与初始语音合成模型，所述训练样本组包括待合成语音的文本嵌入信息、参考语音、语种嵌入信息与目标语音；

12、第一输出模块，用于将所述文本嵌入信息、所述参考情感特征、所述参考音色特征与所述语种嵌入信息输入至所述初始语音合成模型中，输出预测语音；

13、计算模块，用于根据所述预测语音与所述目标语音，计算目标损失；

14、训练模块，用于根据所述第一损失，对所述初始语音合成模型进行训练，得到训练好的语音合成模型。

15、第四方面，本专利技术实施例提供一种语音合成装置，所述语音合成装置包括：

16、第二获取模块，用于获取待合成文本嵌入信息、待合成语种嵌入信息与原始语音；

17、第二输出模块，用于将所述待合成文本嵌入信息、待合成语种嵌入信息与原始语音输入至使用上述训练方法训练得到的训练好的语音合成模型中，输出目标合成语音。

18、第五方面，本专利技术实施例提供一种计算机设备，所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述的训练方法与第二方面所述的语音合成方法。

19、第六方面，本专利技术实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的训练方法与第二方面所述的语音合成方法。

20、本专利技术与现有技术相比存在的有益效果是：

21、获取训练样本组与初始语音合成模型，训练样本组包括待合成语音的文本嵌入信息、参考语音的参考情感特征和参考音色特征、语种嵌入信息与目标语音，将文本嵌入信息、参考情感特征、参考音色特征与语种嵌入信息输入至初始语音合成模型中，输出预测语音，根据预测语音与目标语音，计算目标损失，根据目标损失，对初始语音合成模型进行训练，得到训练好的语音合成模型。本申请中，将参考语音的情感特征与音色特征，输入至初始语音合成模型中，即将情感特征与音色特征嵌入到模型中，使训练好的语音合成模型结合对应说话人的情感与音色，输出更加自然、生动，更具表现力的合成语音。

本文档来自技高网...

【技术保护点】

1.一种语音合成模型的训练方法，其特征在于，所述训练方法包括：

2.如权利要求1所述的训练方法，其特征在于，所述初始语音合成模型包括第一编码器、随机时长预测器、第一解码支路与声码器；

3.如权利要求2所述的训练方法，其特征在于，所述第一解码支路包括线性投影层、单调对齐模块与标准流解码器；

4.如权利要求3所述的训练方法，其特征在于，所述初始语音合成模型还包括后验编码器；

5.如权利要求4所述的训练方法，其特征在于，所述计算目标损失还包括：

6.一种语音合成方法，其特征在于，所述语音合成方法包括：

7.一种语音合成模型的训练装置，其特征在于，所述训练装置包括：

8.一种语音合成装置，其特征在于，所述语音合成装置包括：

9.一种计算机设备，其特征在于，所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的训练方法与权利要求6所述的语音合成方法。

10.一种计算机可读存储介质，所述计

...

【技术特征摘要】

1.一种语音合成模型的训练方法，其特征在于，所述训练方法包括：

2.如权利要求1所述的训练方法，其特征在于，所述初始语音合成模型包括第一编码器、随机时长预测器、第一解码支路与声码器；

3.如权利要求2所述的训练方法，其特征在于，所述第一解码支路包括线性投影层、单调对齐模块与标准流解码器；

4.如权利要求3所述的训练方法，其特征在于，所述初始语音合成模型还包括后验编码器；

5.如权利要求4所述的训练方法，其特征在于，所述计算目标损失还包括：

6.一种语音合成方法，其特征在于，所述语音合成方法包括：

<...

【专利技术属性】
技术研发人员：张旭龙，王健宗，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人