语音转换方法、装置、电子设备及存储介质制造方法及图纸

技术编号：43317524 阅读：11 留言：0更新日期：2024-11-15 20:18

本申请提供了一种语音转换方法、装置、电子设备及存储介质，属于金融科技领域，方法包括：获取待处理的客服音频，通过预训练的转换模型的语音转换得到目标客服音频；转换模型训练步骤如下：获取包括多个训练音频及其标签内容特征的音频训练集；基于梅尔谱图转换和图像变换得到每个训练音频的目标梅尔谱图，音频训练集中的训练音频交替选择图像伸展或者图像压缩中的一种进行图像变换；通过初始模型得到每个训练音频的目标内容特征；当未满足预设训练结束条件，根据多个目标内容特征及其标签内容特征对初始模型的内容编码器进行第一调参；基于音频训练集对调参后的初始模型继续进行训练，直至得到转换模型。本申请能够提高语音转换的稳定性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及金融科技领域，尤其涉及一种语音转换方法、装置、电子设备及存储介质。

技术介绍

1、随着人工智能技术的迅速发展，传统金融行业逐步向金融科技转变，各种金融服务系统正在通过人工智能技术不断进行升级与更新。而在金融行业存在着客服环节，由于金融行业的特殊属性，需要为大量的用户提供电话客服服务，以往的电话客服服务需要人工与客户的交流信息，当电话客服服务经过人工智能技术的升级后，可以基于与客户的交流信息，自动回答相关咨询信息。

2、现有的智能电话客服服务(也称为智能坐席)一般是事先将某名客服人员根据不同的业务场景所录制不同的客服音频存储至预设的数据库中，然后，在实际客服过程中，通过语音识别模型对客服所说的内容进行语音识别，得到识别内容，然后根据语音识别的内容从数据库提取对应的客服音频，然后通过语音转换模型对该客服音频进行语音转换，从而生成回复客户的音频。

3、随着金融业务的发展，可能会让不同的客服人员录制更为内容复杂的客服音频，以此更新预设的数据库。然而，语音转换模型的内容提取能力会受到音色的影响，当语音转换模型对预设的数据库中这种新增的客服音频进行语音转换，提取的内容质量并不稳定，无法输出质量较好的用于回复客户的客服音频，从而影响了客户的客服体验。

技术实现思路

1、本申请实施例的主要目的在于提出一种语音转换方法、装置、电子设备及存储介质，旨在提高客服音频的内容提取能力，从而在新增不同音色的客服音频的情况下，降低音色对内容提取能力所带来的影响。

3、获取待处理的客服音频；

4、通过预训练的转换模型对所述客服音频进行语音转换处理，输出目标客服音频；

5、其中，所述转换模型通过以下步骤训练得到：

6、获取音频训练集，所述音频训练集包括多个训练音频、每个所述训练音频对应的标签内容特征；

7、对多个所述训练音频分别进行梅尔谱图转换处理，得到每个所述训练音频对应的梅尔谱图；

8、对于每个所述训练音频，对所述训练音频对应的所述梅尔谱图进行图像变换，得到目标梅尔谱图，所述图像变换为图像伸展或者图像压缩，所述音频训练集中的训练音频交替选择图像伸展和图像压缩中的一种进行图像变换；

9、将多个所述目标梅尔谱图分别输入至初始模型，得到每个所述训练音频对应的目标内容特征，所述初始模型包括内容编码器；

10、在当前的所述初始模型未满足预设训练结束条件的情况下，根据多个所述训练音频对应的目标内容特征和标签内容特征对所述内容编码器进行第一调参；

11、基于所述音频训练集对调参后的所述初始模型继续进行训练，直至满足所述预设训练结束条件，得到所述转换模型。

12、在一些实施例，每个所述训练音频对应的梅尔谱图包括多个分割梅尔谱图；所述音频训练集还包括每个所述训练音频对应的标签音色特征；所述初始模型还包括说话人编码器，所述说话人编码器与所述内容编码器相并行；

13、所述对所述音频训练集进行梅尔谱图转换处理，得到多个梅尔谱图，包括：

14、对每个所述训练音频进行随机音频分割处理，得到每个所述训练音频对应的多个分割音频；

15、对多个所述分割音频分别进行梅尔谱图转换处理，得到每个所述分割音频对应的所述分割梅尔谱图；

16、在将多个所述目标梅尔谱图分别输入至所述初始模型后，所述方法还包括：

17、通过所述说话人编码器分别对每个所述分割梅尔谱图所对应的所述目标梅尔谱图进行音色特征提取，得到每个所述分割梅尔谱图对应的分割音色特征；

18、对每个所述训练音频，根据预设组合比例系数，对所述训练音频对应的多个所述分割音色特征进行特征组合处理，得到目标音色特征；

19、在当前的所述初始模型未满足所述预设训练结束条件的情况下，所述方法还包括：

20、根据每个所述训练音频对应的所述目标音色特征和所述标签音色特征对所述说话人编码器进行第二调参。

21、在一些实施例，在当前的所述图像变换包括所述图像压缩的情况下，所述对所对应的所述梅尔谱图进行图像变换，得到目标梅尔谱图，包括：

22、获取当前的压缩比例系数；

23、根据所述压缩比例系数，对所述训练音频所对应的所述梅尔谱图在频域维度上进行图像压缩，得到第一梅尔谱图；

24、对所述第一梅尔谱图进行预测补全处理，得到与所述梅尔谱图尺寸相同的所述目标梅尔谱图。

25、在一些实施例，当所述图像变换包括所述图像伸展，所述对所对应的所述梅尔谱图进行图像变换，得到目标梅尔谱图，包括：

26、获取当前的伸展比例系数；

27、根据所述伸展比例系数，对所述训练音频所对应的所述梅尔谱图在频域维度上进行图像伸展，得到第二梅尔谱图；

28、根据所述梅尔谱图的尺寸，对所述第二梅尔谱图进行裁剪处理，得到与所述梅尔谱图尺寸相同的所述目标梅尔谱图。

29、在一些实施例，所述音频训练集还包括每个所述训练音频对应的标签音频；所述初始模型还包括说话人编码器；每个所述训练音频对应的目标梅尔谱图包括用于进行音色特征提取的所述目标梅尔谱图；

30、所述获取当前的压缩比例系数包括：

31、根据融合系数与当前的预设压缩比例系数确定所述压缩比例系数，其中，所述训练音频的融合系数，通过所述说话人编码器对上一训练音频所对应的用于进行音色特征提取的所述目标梅尔谱图进行音色特征提取而得到；

32、在得到每个所述训练音频对应的所述目标内容特征后，所述方法还包括：

33、对多个所述目标内容特征分别进行音频转换处理，得到每个所述训练音频对应的目标音频；

34、在当前的所述初始模型未满足所述预设训练结束条件的情况下，所述方法还包括：

35、根据每个所述训练音频对应的所述目标音频和所述标签音频对所述初始模型进行第三调参。

36、在一些实施例，所述根据多个所述训练音频对应的目标内容特征和标签内容特征对所述内容编码器进行第一调参，包括：

37、根据多个所述训练音频对应的目标内容特征和标签内容特征进行最小化损失分析，确定第一损失值；

38、对所述内容编码器进行针对所述第一损失值的第一调参。

39、在一些实施例，所述根据每个所述训练音频对应的所述目标音色特征和所述标签音色特征对所述说话人编码器进行第二调参，包括：

40、根据每个所述训练音频对应的多个所述分割音色特征进行角性边缘损失分析，确定第二损失值；

41、根据每个所述训练音频对应的目标音色特征和所述标签音色特征进行最大化损失分析，确定第三损失值；

42、对所述说话人编码器进行针对所述第二损失值和所述第三损失值的第二调参。

43、为实现上述目的，本申请本文档来自技高网...

【技术保护点】

1.一种语音转换方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，每个所述训练音频对应的梅尔谱图包括多个分割梅尔谱图；所述音频训练集还包括每个所述训练音频对应的标签音色特征；所述初始模型还包括说话人编码器，所述说话人编码器与所述内容编码器相并行；

3.根据权利要求1所述的方法，其特征在于，在当前的所述图像变换包括所述图像压缩的情况下，所述对所对应的所述梅尔谱图进行图像变换，得到目标梅尔谱图，包括：

4.根据权利要求1所述的方法，其特征在于，当所述图像变换包括所述图像伸展，所述对所对应的所述梅尔谱图进行图像变换，得到目标梅尔谱图，包括：

5.根据权利要求3所述的方法，其特征在于，所述音频训练集还包括每个所述训练音频对应的标签音频；所述初始模型还包括说话人编码器；每个所述训练音频对应的目标梅尔谱图包括用于进行音色特征提取的所述目标梅尔谱图；

6.根据权利要求1所述的方法，其特征在于，所述根据多个所述训练音频对应的目标内容特征和标签内容特征对所述内容编码器进行第一调参，包括：

7.根据权利

8.一种语音转换装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的语音转换方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的语音转换方法。

...

【技术特征摘要】

1.一种语音转换方法，其特征在于，所述方法包括：

5.根据权利要求3所述的方法，其特征在于，所述音频训练集还包括每个所述训练音频对应的标签音频；所述初始模型还包括说话人编码器；每个所述训练音频对应的目标...

【专利技术属性】
技术研发人员：张旭龙，王健宗，程宁，邓钇敏，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人