一种音频的解耦方法及装置、存储介质、计算机设备制造方法及图纸

技术编号：41483427 阅读：19 留言：0更新日期：2024-05-30 14:32

本发明专利技术公开了一种音频的解耦方法及装置、存储介质、计算机设备，属于金融语音信息处理技术领域，主要解决现有技术中音频解耦效果不理想，用于解耦的神经网络模型性能不稳定的问题，包括获取待解耦金融服务音频，并提取所述待解耦金融服务音频的目标梅尔倒谱特征；基于风格编码器和内容编码器分别对所述目标梅尔倒谱特征进行编码处理，得到与所述待解耦金融服务音频对应的目标风格特征和目标内容特征，并将所述目标风格特征和所述目标内容特征作为对所述待解耦金融服务音频的解耦；其中，所述风格编码器和所述内容编码器均为基于生成对抗网络预先训练神经网络模型的网络参数得到的。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及金融语音信息处理，特别是涉及一种音频的解耦方法及装置、存储介质、计算机设备。

技术介绍

1、基于语音特征的人工智能技术已应用于各行各业，例如在银行、保险等金融行业中被广泛应用的虚拟客服。通过虚拟客服可以辅助员工对顾客进行操作指引，还可以将常用的对话语音内容进行提前录制，作为虚拟客服的驱动源，实现虚拟客服与顾客之间的沟通对话。

2、但是，音频内容中不可避免的包含一些与发音无关的信息，例如情绪和强度，这些与发音无关的信息可以体现为不同说话人的风格，然而采用风格与内容相互耦合在一起的音频对虚拟客服进行人脸唇部动作的驱动，可能会在一定程度上造成偏差，使得虚拟客服的人脸唇部动作与音频内容不匹配。因此，需要对音频信息进行解耦处理，获取音频中的内容，舍弃说话人的风格。

3、现有技术中，在银行、保险等金融行业中采用人工经验设置神经网络模型的网络参数对音频进行解耦处理，从而获取音频的内容特征和风格特征。但是，人工经验设置的网络参数受人为因素影响较大，从而影响音频解耦的效果及稳定性。

技术实现思路

1、有鉴于此，本专利技术提供一种音频的解耦方法及装置、存储介质、计算机设备，主要目的在于解决现有技术中金融行业内的虚拟客服由于用于解耦的神经网络模型性能不稳定导致的音频解耦效果不理想的问题。

2、依据本专利技术一个方面，提供了一种音频的解耦方法，包括：

3、获取待解耦金融服务音频，并提取所述待解耦金融服务音频的目标梅尔倒谱特征；

4、

5、进一步的，所述基于生成对抗网络预先训练神经网络模型的网络参数包括：

6、从金融服务音频数据集中随机获取包含相同语音内容的第一金融服务音频和第二金融服务音频；所述第一金融服务音频与所述第二金融服务音频具有不同的风格特征；

7、提取所述第一金融服务音频的第一梅尔倒谱特征，并提取所述第二金融服务音频的第二梅尔倒谱特征；

8、基于所述第一梅尔倒谱特征、所述第二梅尔倒谱特征和所述生成对抗网络，对所述神经网络模型的网络参数进行训练操作。

9、进一步的，所述基于所述第一梅尔倒谱特征、所述第二梅尔倒谱特征和所述生成对抗网络，对所述神经网络模型的网络参数进行训练操作，得到训练后的网络参数包括：

10、初始化所述风格编码器和所述内容编码器对应的所述神经网络模型的网络参数；

11、基于所述第一梅尔倒谱特征、所述第二梅尔倒谱特征和所述生成对抗网络确定目标损失函数；

12、基于所述目标损失函数对所述网络参数进行训练操作，分别得到与所述风格编码器和所述内容编码器相对应的训练后的网络参数。

13、进一步的，所述目标损失函数包含平均绝对误差损失，所述基于所述第一梅尔倒谱特征、所述第二梅尔倒谱特征和所述生成对抗网络确定目标损失函数之前，还包括：

14、基于所述内容编码器分别对所述第一梅尔倒谱特征和所述第二梅尔倒谱特征进行编码处理，得到与所述第一梅尔倒谱特征相对应的第一内容特征，以及与所述第二梅尔倒谱特征相对应的第二内容特征；

15、通过计算第一内容特征与第二内容特征之间的平均绝对误差，确定所述平均绝对误差损失。

16、进一步的，所述目标损失函数包含总对抗损失，所述基于所述第一梅尔倒谱特征、所述第二梅尔倒谱特征和所述生成对抗网络确定目标损失函数之前，还包括：

17、基于所述风格编码器分别对所述第一梅尔倒谱特征和所述第二梅尔倒谱特征进行编码处理，得到与所述第一梅尔倒谱特征相对应的第一风格特征，以及与所述第二梅尔倒谱特征相对应的第二风格特征；

18、基于所述第一风格特征和所述第二内容特征，采用所述生成对抗网络的生成器生成第一伪梅尔倒谱特征；并基于所述第二风格特征和所述第一内容特征，采用所述生成器生成第二伪梅尔倒谱特征；

19、采用所述生成对抗网络的判别器计算所述第一梅尔倒谱特征与所述第一伪梅尔倒谱特征之间的第一对抗损失，以及计算所述第二梅尔倒谱特征与所述第二伪梅尔倒谱特征之间的第二对抗损失；

20、将所述第一对抗损失与所述第二对抗损失进行求和处理，确定所述总对抗损失。

21、进一步的，所述目标损失函数包含总均方误差损失，所述基于所述第一梅尔倒谱特征、所述第二梅尔倒谱特征和所述生成对抗网络确定目标损失函数之前，还包括：

22、计算所述第一梅尔倒谱特征与所述第一伪梅尔倒谱特征之间的第一均方误差，以及所述第二梅尔倒谱特征与所述第二伪梅尔倒谱特征之间的第二均方误差；

23、将所述第一均方误差与所述第二均方误差进行求和处理，确定所述总均方误差损失。

24、进一步的，所述方法还包括：

25、当所述解耦结果未达标时，从所述金融服务音频数据集中随机获取包含相同语音内容的第三金融服务音频和第四金融服务音频；所述第三金融服务音频与所述第四金融服务音频具有不同的风格特征；

26、提取所述第三金融服务音频的第三梅尔倒谱特征，并提取所述第四金融服务音频的第四梅尔倒谱特征；

27、基于所述第三梅尔倒谱特征、所述第四梅尔倒谱特征和所述生成对抗网络，对所述风格编码器和所述内容编码器进行更新操作，得到更新后的风格编码器和内容编码器。

28、依据本专利技术另一个方面，提供了一种音频的解耦装置，包括：

29、特征提取模块，用于获取待解耦金融服务音频，并提取所述待解耦金融服务音频的目标梅尔倒谱特征；

30、特征解耦模块，用于基于风格编码器和内容编码器分别对所述目标梅尔倒谱特征进行编码处理，得到与所述待解耦金融服务音频对应的目标风格特征和目标内容特征，并将所述目标风格特征和所述目标内容特征作为对所述待解耦金融服务音频的解耦；其中，所述风格编码器和所述内容编码器均为基于生成对抗网络预先训练神经网络模型的网络参数得到的。

31、进一步的，所述装置还包括训练模块，用于：

32、从金融服务音频数据集中随机获取包含相同语音内容的第一金融服务音频和第二金融服务音频；所述第一金融服务音频与所述第二金融服务音频具有不同的风格特征；

33、提取所述第一金融服务音频的第一梅尔倒谱特征，并提取所述第二金融服务音频的第二梅尔倒谱特征；

34、基于所述第一梅尔倒谱特征、所述第二梅尔倒谱特征和所述生成对抗网络，对所述神经网络模型的网络参数进行训练操作，得到训练后的网络参数。

35、进一步的，所述训练模块包括：

36、初始化单元，用于初始化所述风格编码器和所述内容编码器对应的所述神本文档来自技高网...

【技术保护点】

1.一种音频的解耦方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于生成对抗网络预先训练神经网络模型的网络参数包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述第一梅尔倒谱特征、所述第二梅尔倒谱特征和所述生成对抗网络，对所述神经网络模型的网络参数进行训练操作，得到训练后的网络参数包括：

4.根据权利要求3所述的方法，其特征在于，所述目标损失函数包含平均绝对误差损失，所述基于所述第一梅尔倒谱特征、所述第二梅尔倒谱特征和所述生成对抗网络确定目标损失函数之前，还包括：

5.根据权利要求4所述的方法，其特征在于，所述目标损失函数包含总对抗损失，所述基于所述第一梅尔倒谱特征、所述第二梅尔倒谱特征和所述生成对抗网络确定目标损失函数之前，还包括：

6.根据权利要求5所述的方法，其特征在于，所述目标损失函数包含总均方误差损失，所述基于所述第一梅尔倒谱特征、所述第二梅尔倒谱特征和所述生成对抗网络确定目标损失函数之前，还包括：

7.根据权利要求1～6任一项所述的方法，其特征在于，所述方法还包括：

8.一种音频的解耦装置，其特征在于，包括：

9.一种存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令执行如权利要求1-7中任一项所述的音频的解耦方法对应的操作。

10.一种计算机设备，包括处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

...

【技术特征摘要】

1.一种音频的解耦方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于生成对抗网络预先训练神经网络模型的网络参数包括：

5.根据权利要求4所述的方法，其特征在于，所述目标损失函数包含总对抗损失，所述基于所述第一梅尔倒谱特征、所述第二梅尔倒...

【专利技术属性】
技术研发人员：郑喜民，高见，舒畅，陈又新，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人