一种语音转换方法、装置、设备及介质制造方法及图纸

技术编号：44699160 阅读：14 留言：0更新日期：2025-03-19 20:50

本发明专利技术涉及人工智能技术领域，尤其涉及一种语音转换方法、装置、设备及介质。将内容文本输入至训练好的内容编码器中，输出待转换内容特征，将目标转换语音输入至训练好的音律编码器中，输出待转换音律特征，将目标转换语音输入至训练好的音色编码器中，输出待转换音色特征，将待转换内容特征、待转换音律特征与待转换音色特征输入至解码器中进行解码重构，得到转换后的语音。使用训练好的语音转换模型进行语音转换时，将目标转换语音的音律特征融合到转换后的语音中，使转换后的语音带有目标转换语音的音律特征，在使用语音转换模型将客服声音转换为不同音色声音的过程中，避免了转换后的语音过于机械化的问题，提高了服务质量。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，尤其涉及一种语音转换方法、装置、设备及介质。

技术介绍

1、随着金融科技的快速发展，银行客服正朝着智能化、个性化的方向发展。然而，传统的银行智能客服系统在处理客户需求时，一般通过语音转换模型将客服声音转换为不同音色的声音，为客户提供语音解答，然而由于说话内容的韵律都是千篇一律，缺乏变化，过于机械化，容易使客户审美疲劳，不利于服务质量的提高，因此，在使用语音转换模型将客服声音转换为不同音色声音的过程中，如何提高转换后语音的个性化服务成为亟需解决的问题。

技术实现思路

1、有鉴于此，本专利技术实施例提供了一种语音转换方法、装置、设备及介质，以解决，在使用语音转换模型将客服声音转换为不同音色声音的过程中，过于机械化的问题。

2、第一方面，本专利技术实施例提供了一种语音转换方法，所述语音转换方法包括：

3、获取待转换语音的内容文本与目标转换语音，以及训练好的语音转换模型，所述训练好的语音转换模型包括训练好的音色编码器、训练好的音律编码器与训练好的内容编码器；

4、将所述内容文本输入至所述训练好的内容编码器中，输出待转换内容特征；

5、将所述目标转换语音输入至所述训练好的音律编码器中，输出待转换音律特征；

6、将所述目标转换语音输入至所述训练好的音色编码器中，输出待转换音色特征；

7、将所述待转换内容特征、所述待转换音律特征与所述待转换音色特征输入至解码器中进行解码重构，得到转换后的语音。

8、第二方面，本专利技术实施例提供一种语音转换装置，所述语音转换装置包括：

9、第二获取模块，用于获取待转换语音的内容文本与目标转换语音，以及训练好的语音转换模型，所述训练好的语音转换模型包括训练好的音色编码器、训练好的音律编码器与训练好的内容编码器；

10、内容特征提取模块，用于将所述内容文本输入至所述训练好的内容编码器中，输出待转换内容特征；

11、音律特征提取模块，用于将所述目标转换语音输入至所述训练好的音律编码器中，输出待转换音律特征；

12、音色特征提取模块，用于将所述目标转换语音输入至所述训练好的音色编码器中，输出待转换音色特征；

13、重构模块，用于将所述待转换内容特征、所述待转换音律特征与所述待转换音色特征输入至解码器中进行解码重构，得到转换后的语音。

14、第三方面，本专利技术实施例提供一种计算机设备，所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述的语音转换方法。

15、第四方面，本专利技术实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的语音转换方法。

16、本专利技术与现有技术相比存在的有益效果是：

17、本申请中，获取待转换语音的内容文本与目标转换语音，以及训练好的语音转换模型，训练好的语音转换模型包括训练好的音色编码器、训练好的音律编码器与训练好的内容编码器，将内容文本输入至训练好的内容编码器中，输出待转换内容特征，将目标转换语音输入至训练好的音律编码器中，输出待转换音律特征，将目标转换语音输入至训练好的音色编码器中，输出待转换音色特征，将待转换内容特征、待转换音律特征与待转换音色特征输入至解码器中进行解码重构，得到转换后的语音。本申请中，使用训练好的语音转换模型进行语音转换时，引入音律编码器提取目标转换语音的音律特征，将目标转换语音的音律特征融合到转换后的语音中，使转换后的语音带有目标转换语音的音律特征，在使用语音转换模型将客服声音转换为不同音色声音的过程中，避免了转换后的语音过于机械化的问题，提高了服务质量。

本文档来自技高网...

【技术保护点】

1.一种语音转换方法，其特征在于，所述语音转换方法包括：

2.如权利要求1所述的语音转换方法，其特征在于，所述训练好的语音转换模型的训练方法包括：

3.如权利要求2所述的语音转换方法，其特征在于，所述对抗模块包括梯度反转层与内容预测器；

4.如权利要求2所述的语音转换方法，其特征在于，所述根据所述第一韵律特征、所述第二韵律特征与所述源语音韵律特征，计算得到韵律损失，包括：

5.如权利要求2所述的语音转换方法，其特征在于，所述根据所述音色损失、所述韵律损失与所述对抗损失，对所述初始语音转换模型进行训练，得到训练好的语音转换模型，包括：

6.如权利要求5所述的语音转换方法，其特征在于，所述初始语音转换模型还包括解码器；

7.一种语音转换装置，其特征在于，所述语音转换装置包括：

8.如权利要求7所述的语音转换装置，其特征在于，所述语音转换装置还包括：

9.一种计算机设备，其特征在于，所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的语音转换方法。

...

【技术特征摘要】

1.一种语音转换方法，其特征在于，所述语音转换方法包括：

2.如权利要求1所述的语音转换方法，其特征在于，所述训练好的语音转换模型的训练方法包括：

3.如权利要求2所述的语音转换方法，其特征在于，所述对抗模块包括梯度反转层与内容预测器；

4.如权利要求2所述的语音转换方法，其特征在于，所述根据所述第一韵律特征、所述第二韵律特征与所述源语音韵律特征，计算得到韵律损失，包括：

6.如权利...

【专利技术属性】
技术研发人员：张旭龙，王健宗，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人