本申请实施例提供了一种语音风格转换方法和装置、电子设备及存储介质,属于人工智能及金融技术领域。该方法包括:对样本源语音数据、样本参考语音数据及样本说话人描述文本进行特征提取,得到样本源语音嵌入特征、样本说话人嵌入特征和样本说话人描述嵌入特征;利用样本源语音嵌入特征、样本说话人嵌入特征和样本说话人描述嵌入特征对原始语音风格转换模型进行训练,得到目标语音风格转换模型;对目标参考语音数据和目标源语音数据进行特征提取,得到目标说话人嵌入特征和目标源语音嵌入特征;利用目标语音风格转换模型对目标说话人嵌入特征和目标源语音嵌入特征进行风格转换,得到目标合成语音数据,本申请实施例能够提高语音风格转换的准确性。
【技术实现步骤摘要】
本申请涉及人工智能及金融,尤其涉及一种语音风格转换方法和装置、电子设备及存储介质。
技术介绍
1、语音风格转换是一种将一段语音的说话人风格转换为另一说话人风格的技术,可以应用于多种场景,例如在金融领域中,用于在虚拟主播、智能客服、教程视频制作等场景中进行语音风格转换。
2、目前,主要使用特定说话人的风格描述文本来对语音的说话人风格进行调整,然而在实际应用场景中,文字往往难以全面而精确地描述出特定说话人独特的语音风格,从而导致转换后的语音风格与特定说话人的真实风格间存在偏差,影响了语音风格转换的准确性。
3、因此,如何提高语音风格转换的准确性,成为了亟待解决的技术问题。
技术实现思路
1、本申请实施例的主要目的在于提出一种语音风格转换方法和装置、电子设备及存储介质,旨在提高语音风格转换的准确性。
2、为实现上述目的,本申请实施例的第一方面提出了一种语音风格转换方法,所述方法包括:
3、获取语音合成样本;其中,所述语音合成样本包括样本源语音数据、样本参考语音数据和样本说话人描述文本;其中,所述样本参考语音数据具有样本参考说话人特征,所述样本说话人描述文本用于描述所述样本参考说话人特征;
4、对所述样本源语音数据进行语音特征提取,得到样本源语音嵌入特征;
5、对所述样本参考语音数据进行说话人提取,得到样本说话人嵌入特征;
6、对所述样本说话人描述文本进行文本特征提取,得到样本说话人描述嵌入特征;
<
p>7、基于所述样本源语音嵌入特征、所述样本说话人嵌入特征和所述样本说话人描述嵌入特征对预设的原始语音风格转换模型进行训练,得到目标语音风格转换模型;8、对预先获取的目标参考语音数据进行说话人提取,得到目标说话人嵌入特征;其中,所述目标参考语音数据具有目标参考说话人特征;
9、对预先获取的目标源语音数据进行语音特征提取,得到目标源语音嵌入特征;
10、通过所述目标语音风格转换模型对所述目标说话人嵌入特征和所述目标源语音嵌入特征进行风格转换,得到目标合成语音数据;其中,所述目标合成语音数据具有所述目标参考说话人特征。
11、在一些实施例,所述基于所述样本源语音嵌入特征、所述样本说话人嵌入特征和所述样本说话人描述嵌入特征对预设的原始语音风格转换模型进行训练,得到目标语音风格转换模型,包括:
12、对所述样本参考语音数据进行语音特征提取,得到样本目标语音嵌入特征;
13、通过所述原始语音风格转换模型对所述样本源语音嵌入特征和所述样本说话人嵌入特征进行特征变换,得到样本变换语音嵌入特征;
14、基于所述样本说话人嵌入特征和所述样本说话人描述嵌入特征进行对比学习,得到对比损失数据;
15、基于所述样本目标语音嵌入特征、所述样本变换语音嵌入特征和所述对比损失数据对所述原始语音风格转换模型进行模型优化,得到所述目标语音风格转换模型。
16、在一些实施例,所述通过所述原始语音风格转换模型对所述样本源语音嵌入特征和所述样本说话人嵌入特征进行特征变换,得到样本变换语音嵌入特征,包括:
17、通过所述原始语音风格转换模型对所述样本源语音嵌入特征进行特征映射,得到样本语音映射特征;
18、基于所述样本说话人嵌入特征对所述样本语音映射特征进行特征调整,得到原始样本语音嵌入特征;
19、对所述原始样本语音嵌入特征进行采样处理,得到所述样本变换语音嵌入特征。
20、在一些实施例,所述基于所述样本说话人嵌入特征和所述样本说话人描述嵌入特征进行对比学习,得到对比损失数据,包括:
21、对所述样本说话人描述嵌入特征进行负样本采样,得到负样本说话人嵌入特征;
22、基于所述负样本说话人嵌入特征与所述样本说话人嵌入特征进行对比损失计算,得到对比损失数据。
23、在一些实施例,所述基于所述样本目标语音嵌入特征、所述样本变换语音嵌入特征和所述对比损失数据对所述原始语音风格转换模型进行模型优化,得到所述目标语音风格转换模型,包括:
24、对所述样本目标语音嵌入特征、所述样本变换语音嵌入特征进行散度损失计算,得到样本散度损失数据;
25、基于所述样本散度损失数据和所述对比损失数据对所述原始语音风格转换模型进行参数调整,得到所述目标语音风格转换模型。
26、在一些实施例,所述通过所述目标语音风格转换模型对所述目标说话人嵌入特征和所述目标源语音嵌入特征进行风格转换,得到目标合成语音数据,包括:
27、通过所述目标语音风格转换模型对所述目标说话人嵌入特征和所述目标源语音嵌入特征进行特征变换,得到目标语音合成嵌入特征;
28、对所述目标语音合成嵌入特征进行解码处理,得到目标合成语音数据。
29、在一些实施例,所述对所述样本参考语音数据进行说话人提取,得到样本说话人嵌入特征,包括:
30、对所述样本参考语音数据进行频谱转换,得到样本语音频谱数据;
31、对所述样本语音频谱数据进行风格特征提取,得到所述样本说话人嵌入特征。
32、为实现上述目的,本申请实施例的第二方面提出了一种语音风格转换装置,所述装置包括:
33、样本数据获取模块,用于获取语音合成样本;其中,所述语音合成样本包括样本源语音数据、样本参考语音数据和样本说话人描述文本;其中,所述样本参考语音数据具有样本参考说话人特征,所述样本说话人描述文本用于描述所述样本参考说话人特征;
34、样本语音特征提取模块,用于对所述样本源语音数据进行语音特征提取,得到样本源语音嵌入特征;
35、样本说话人提取模块,用于对所述样本参考语音数据进行说话人提取,得到样本说话人嵌入特征;
36、样本文本特征提取模块,用于对所述样本说话人描述文本进行文本特征提取,得到样本说话人描述嵌入特征;
37、原始模型训练模块,用于基于所述样本源语音嵌入特征、所述样本说话人嵌入特征和所述样本说话人描述嵌入特征对预设的原始语音风格转换模型进行训练,得到目标语音风格转换模型;
38、目标说话人提取模块,用于对预先获取的目标参考语音数据进行说话人提取,得到目标说话人嵌入特征;其中,所述目标参考语音数据具有目标参考说话人特征;
39、目标语音特征提取模块,用于对预先获取的目标源语音数据进行语音特征提取,得到目标源语音嵌入特征;
40、目标语音风格转换模块,用于通过所述目标语音风格转换模型对所述目标说话人嵌入特征和所述目标源语音嵌入特征进行风格转换,得到目标合成语音数据;其中,所述目标合成语音数据具有所述目标参考说话人特征。
41、为实现上述目的,本申请实施例的第三方面提出了一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时本文档来自技高网
...
【技术保护点】
1.一种语音风格转换方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述样本源语音嵌入特征、所述样本说话人嵌入特征和所述样本说话人描述嵌入特征对预设的原始语音风格转换模型进行训练,得到目标语音风格转换模型,包括:
3.根据权利要求2所述的方法,其特征在于,所述通过所述原始语音风格转换模型对所述样本源语音嵌入特征和所述样本说话人嵌入特征进行特征变换,得到样本变换语音嵌入特征,包括:
4.根据权利要求2所述的方法,其特征在于,所述基于所述样本说话人嵌入特征和所述样本说话人描述嵌入特征进行对比学习,得到对比损失数据,包括:
5.根据权利要求2所述的方法,其特征在于,所述基于所述样本目标语音嵌入特征、所述样本变换语音嵌入特征和所述对比损失数据对所述原始语音风格转换模型进行模型优化,得到所述目标语音风格转换模型,包括:
6.根据权利要求1-5任一项所述的方法,其特征在于,所述通过所述目标语音风格转换模型对所述目标说话人嵌入特征和所述目标源语音嵌入特征进行风格转换,得到目标合成语音数据,包括:p>7.根据权利要求1-5任一项所述的方法,其特征在于,所述对所述样本参考语音数据进行说话人提取,得到样本说话人嵌入特征,包括:
8.一种语音风格转换装置,其特征在于,所述装置包括:
9.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法。
...
【技术特征摘要】
1.一种语音风格转换方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述样本源语音嵌入特征、所述样本说话人嵌入特征和所述样本说话人描述嵌入特征对预设的原始语音风格转换模型进行训练,得到目标语音风格转换模型,包括:
3.根据权利要求2所述的方法,其特征在于,所述通过所述原始语音风格转换模型对所述样本源语音嵌入特征和所述样本说话人嵌入特征进行特征变换,得到样本变换语音嵌入特征,包括:
4.根据权利要求2所述的方法,其特征在于,所述基于所述样本说话人嵌入特征和所述样本说话人描述嵌入特征进行对比学习,得到对比损失数据,包括:
5.根据权利要求2所述的方法,其特征在于,所述基于所述样本目标语音嵌入特征、所述样本变换语音嵌入特征和所述对比损失数据对所述原始语音风格转换模型进行模型优化...
【专利技术属性】
技术研发人员:张旭龙,王健宗,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。