System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 情感语音转换方法、装置、计算机设备及存储介质制造方法及图纸_技高网

情感语音转换方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:44697170 阅读:1 留言:0更新日期:2025-03-19 20:47
本发明专利技术涉及语音处理技术领域,公开了一种情感语音转换方法、装置、计算机设备及存储介质,具体可适用于金融领域和医疗养老领域的语音转换,包括:获取原始音频和情感控制信息;利用预设身份保持器提取所述原始音频对应的说话人特征向量;将所述情感控制信息输入至预设情感映射器进行情感映射,得到所述情感控制信息对应的情感向量;利用预设内容编码器对所述原始音频中的纯文本内容进行编码,得到内容编码向量;根据所述说话人特征向量、所述情感向量和所述内容编码向量,生成所述原始音频对应的转换后音频。本发明专利技术能够保证转换后音频的情感控制效果。

【技术实现步骤摘要】

本专利技术涉及语音处理,尤其涉及一种情感语音转换方法、装置、计算机设备及存储介质,具体可适用于金融领域和医疗养老领域的语音转换。


技术介绍

1、当前的情感语音转换系统主要基于自动编码器和序列到序列(seq2seq)框架,虽然在语音质量方面取得了显著进步,但转换后的音频缺乏情感多样性,难以满足真实语音合成的需求。为了解决这个问题,一些研究尝试将情感强度控制模块融入情感语音转换框架。

2、目前,在进行语音转换时,通常从参考音频中学习情感,然后将学习到的情感加入至原始音频中,或者直接基于情感标签生成情感特征,将情感特征叠加至原始音频中,从而达到语音情感控制的目的。然而,原始音频本来就携带有情感,现有技术的上述方式相当于在原始音频情感的基础上直接进行情感叠加或者覆盖,其并没有考虑原始音频本身的情感波动带来的影响,因此难以保证转换后音频的情感控制效果。


技术实现思路

1、本专利技术提供一种情感语音转换方法、装置、计算机设备及存储介质,主要在于能够保证转换后音频的情感控制效果。

2、第一方面,提供了一种情感语音转换方法,包括:

3、获取原始音频和情感控制信息;

4、利用预设身份保持器提取所述原始音频对应的说话人特征向量;

5、将所述情感控制信息输入至预设情感映射器进行情感映射,得到所述情感控制信息对应的情感向量;

6、利用预设内容编码器对所述原始音频中的纯文本内容进行编码,得到内容编码向量;

7、根据所述说话人特征向量、所述情感向量和所述内容编码向量,生成所述原始音频对应的转换后音频。

8、第二方面,提供了一种情感语音转换装置,包括:

9、获取单元,用于获取原始音频和情感控制信息;

10、提取单元,用于利用预设身份保持器提取所述原始音频对应的说话人特征向量;

11、映射单元,用于所述情感控制信息输入至预设情感映射器进行情感映射,得到所述情感控制信息对应的情感向量;

12、编码单元,用于利用预设内容编码器对所述原始音频中的纯文本内容进行编码,得到内容编码向量;

13、生成单元,用于根据所述说话人特征向量、所述情感向量和所述内容编码向量,生成所述原始音频对应的转换后音频。

14、第三方面,提供了一种计算机设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述情感语音转换方法的步骤。

15、第四方面,提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述情感语音转换方法的步骤。

16、本申请提供了一种情感语音转换方法、装置、计算机设备及存储介质,与现有技术相比,本申请利用预设身份保持器提取原始音频对应的说话人特征向量,并将情感控制信息输入至预设情感映射器进行情感映射,以实现语音转换过程中的情感控制,与此同时,利用预设内容编码器对原始音频中的纯文本内容进行编码,得到内容编码向量,最终根据说话人特征向量、情感向量和内容编码向量,生成原始音频对应的转换后音频。由于本申请在进行情感控制时能够利用预设内容编码器将内容从原始音频中剥离出来,仅对纯文本内容进行编码,因此能够将原始情感信息从原始音频中剔除,然后再与情感控制信息和说话人特征结合,生成转换后音频,由此能够保证转换后音频不受原始音频本身的情感波动影响,进而能够保证情感控制效果。

本文档来自技高网...

【技术保护点】

1.一种情感语音转换方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述根据所述说话人特征向量、所述情感向量和所述内容编码向量,生成所述原始音频对应的转换后音频,包括:

3.根据权利要求2所述的方法,其特征在于,所述将所述情感向量和所述内容编码向量输入至预设时长预测器进行时长预测和内容扩展,得到携带有相应情感的内容扩展序列,包括:

4.根据权利要求2所述的方法,其特征在于,所述根据所述携带有相应情感的内容扩展序列和所述说话人特征向量,生成所述原始音频对应的转换后音频,包括:

5.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:

6.根据权利要求5所述的方法,其特征在于,所述基于所述原始音频以及所述样本原始音频对应的情感标签,共同对所述初始身份保持器、所述初始情感映射器、所述初始情感评估器、所述初始内容编码器、所述初始时长预测器、所述初始流模型、所述初始解码器、所述初始重构分类器和所述初始情感分类器进行迭代训练,包括:

7.根据权利要求6所述的方法,其特征在于,所述根据所述重构分类结果、所述预测情感标签、所述预测情感强度、所述目标音频和所述携带有相应情感的样本内容扩展序列,构建总损失函数,包括:

8.一种情感语音转换装置,其特征在于,包括:

9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述情感语音转换方法的步骤。

10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述情感语音转换方法的步骤。

...

【技术特征摘要】

1.一种情感语音转换方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述根据所述说话人特征向量、所述情感向量和所述内容编码向量,生成所述原始音频对应的转换后音频,包括:

3.根据权利要求2所述的方法,其特征在于,所述将所述情感向量和所述内容编码向量输入至预设时长预测器进行时长预测和内容扩展,得到携带有相应情感的内容扩展序列,包括:

4.根据权利要求2所述的方法,其特征在于,所述根据所述携带有相应情感的内容扩展序列和所述说话人特征向量,生成所述原始音频对应的转换后音频,包括:

5.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:

6.根据权利要求5所述的方法,其特征在于,所述基于所述原始音频以及所述样本原始音频对应的情感标签,共同对所述初始身份保持器、所述初始情感映射器、所述初...

【专利技术属性】
技术研发人员:张旭龙王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1