语音解耦方法、装置、电子设备及计算机可读存储介质制造方法及图纸

技术编号：42680214 阅读：1 留言：0更新日期：2024-09-10 12:30

本申请涉及金融科技技术领域，提供了一种语音解耦方法、装置、电子设备及计算机可读存储介质，方法包括：获取待解耦语音信号；将所解耦语音信号输入至预训练的编码器进行编码处理得到隐藏状态向量；对隐藏状态向量进行量化融合处理得到声学特征；以及对隐藏状态向量进行向量编码处理得到编码向量；对编码向量进行掩码处理得到掩码向量，将掩码向量输入至预训练的网络模型得到隐藏状态信息；对声学特征进行解码处理得到重构声学信息；以及对隐藏状态信息进行转换处理得到语义标识信息。通过上述技术方案，使得声学信息和语义信息得到解耦，从而提高了智能回答系统的语义反馈的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请实施例涉及但不限于金融科技，尤其涉及一种语音解耦方法、装置、电子设备及计算机可读存储介质。

技术介绍

1、随着社会经济的不断发展，科技的不断进步，人们的生活水平也得到了很大的提升。在金融行业中，金融机构为了减轻工作人员的工作负担，已经越来越多地利用智能对话系统对用户的咨询问题进行回复处理；然而，用户在向智能对话系统发出咨询语音的时候，如果现场存在着音乐、婴语或者动物叫声等噪音的情况下，就会使得智能对话系统不能够准确地对用户所咨询的问题进行回答，给用户带来了不良好的使用体验。

技术实现思路

1、以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

2、为了解决上述
技术介绍
中提到的问题，本申请实施例提供了一种语音解耦方法、装置、电子设备及计算机可读存储介质，使得声学信息和语义信息得到解耦，从而提高了智能回答系统的语义反馈的准确性。

3、第一方面，本申请实施例提供了一种语音解耦方法，包括：

4、获取待解耦语音信号；

5、将所述待解耦语音信号输入至预训练的编码器进行编码处理得到隐藏状态向量；

6、对所述隐藏状态向量进行量化融合处理得到声学特征；以及对所述隐藏状态向量进行向量编码处理得到编码向量；

7、对所述编码向量进行掩码处理得到掩码向量，将所述掩码向量输入至预训练的网络模型得到隐藏状态信息；

8、对所述声学特征进行解码处理得到重构声学信息；以及对所述隐藏状态信息进行转换处理得到语义标识信息。

9、根据本申请的一些实施例，所述编码器包括第一卷积模块、卷积块模块、长短期记忆递归网络模型和第二卷积模块，所述将所述待解耦语音信号输入至预训练的编码器进行编码处理得到隐藏状态向量，包括：

10、根据所述第一卷积模块对所述待解耦语音信号进行第一特征提取得到初始语音特征；

11、根据所述卷积块模块对所述初始语音特征进行向量化处理得到向量化语音特征；

12、根据所述长短期记忆递归网络模型对所述向量化语音特征进行分析处理得到语音向量化分析信息；

13、根据所述第二卷积模块对所述语音向量化分析信息进行第二特征提取得到所述隐藏状态向量。

14、根据本申请的一些实施例，所述对所述隐藏状态向量进行量化融合处理得到声学特征，包括：

15、对所述隐藏状态向量进行并行向量量化处理得到多个量化编码；

16、对多个所述量化编码进行融合处理得到所述声学特征。

17、根据本申请的一些实施例，所述网络模型包括预处理模块、编码模块和译码模块，所述将所述掩码向量输入至预训练的网络模型得到隐藏状态信息，包括：

18、根据所述预处理模块对所述掩码向量进行数据预处理得到预处理向量；

19、根据所述编码模块对所述预处理向量进行特征提取得到向量特征信息；

20、根据所述译码模块对所述向量特征信息进行数据提取得到所述隐藏状态信息。

21、根据本申请的一些实施例，所述对所述隐藏状态信息进行转换处理得到语义标识信息，包括：

22、基于预训练的掩码层对所述隐藏状态信息进行掩码处理得到掩码语义信息；

23、对所述掩码语义信息进行序列转化处理得到所述语义标识信息。

24、根据本申请的一些实施例，所述对所述隐藏状态信息进行转换处理得到语义标识信息后，所述方法还包括：

25、将所述语义标识信息与预设的问题数据库进行匹配处理，得到匹配结果；

26、根据所述匹配结果确定为与所述语义标识信息对应的回答结果。

27、根据本申请的一些实施例，所述根据所述匹配结果确定为与所述语义标识信息对应的回答结果，包括：

28、在所述匹配结果表征所述问题数据库中存在与所述语义标识信息对应的回答信息的情况下，将所述回答信息确定为所述回答结果；

29、在所述匹配结果表征所述问题数据库中不存在与所述语义标识信息对应的回答信息的情况下，将预设的告知信息作为所述回答结果。

30、第二方面，本申请实施例还提供了一种语音解耦装置，所述装置包括：

31、第一处理模块，用于获取待解耦语音信号；

32、第二处理模块，用于将所述待解耦语音信号输入至预训练的编码器进行编码处理得到隐藏状态向量；

33、第三处理模块，用于对所述隐藏状态向量进行量化融合处理得到声学特征；以及对所述隐藏状态向量进行向量编码处理得到编码向量；

34、第四处理模块，用于对所述编码向量进行掩码处理得到掩码向量，将所述掩码向量输入至预训练的网络模型得到隐藏状态信息；

35、第五处理模块，用于对所述声学特征进行解码处理得到重构声学信息；以及对所述隐藏状态信息进行转换处理得到语义标识信息。

36、第三方面，本申请实施例还提供了一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上第一方面所述的语音解耦方法。

37、第四方面，本申请实施例还提供了一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行如上第一方面所述的语音解耦方法。

38、根据本申请提供的实施例的语音解耦方法，至少具有如下有益效果：在进行语音解耦处理的过程中，首先获取待解耦语音信号；接着将待解耦语音信号输入到预训练的编码器进行编码处理得到隐藏状态向量；接着对隐藏状向量进行量化融合处理就可以得到声学特征；以及对隐藏状态向量进行向量编码处理就可以得到编码向量；接着对编码向量进行掩码处理就可以得到掩码向量，接着将掩码向量输入到预训练的网络模型就可以得到隐藏状态信息；最后对声学特征进行解码处理得到重构声学信息；以及对隐藏状态信息进行转换处理就可以得到语义标识信息。通过上述技术方案，能够将待解耦语音信号解耦为重构声学信息以及语义标识信息，使得声学信息和语义信息得到解耦，从而提高了智能回答系统的语义反馈的准确性。

本文档来自技高网...

【技术保护点】

1.一种语音解耦方法，其特征在于，包括：

2.根据权利要求1所述的语音解耦方法，其特征在于，所述编码器包括第一卷积模块、卷积块模块、长短期记忆递归网络模型和第二卷积模块，所述将所述待解耦语音信号输入至预训练的编码器进行编码处理得到隐藏状态向量，包括：

3.根据权利要求1所述的语音解耦方法，其特征在于，所述对所述隐藏状态向量进行量化融合处理得到声学特征，包括：

4.根据权利要求1所述的语音解耦方法，其特征在于，所述网络模型包括预处理模块、编码模块和译码模块，所述将所述掩码向量输入至预训练的网络模型得到隐藏状态信息，包括：

5.根据权利要求1所述的语音解耦方法，其特征在于，所述对所述隐藏状态信息进行转换处理得到语义标识信息，包括：

6.根据权利要求1所述的语音解耦方法，其特征在于，所述对所述隐藏状态信息进行转换处理得到语义标识信息后，所述方法还包括：

7.根据权利要求6所述的语音解耦方法，其特征在于，所述根据所述匹配结果确定为与所述语义标识信息对应的回答结果，包括：

8.一种语音解耦装置，其特征在于，包括：

9.一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的语音解耦方法。

10.一种计算机可读存储介质，存储有计算机可执行指令，其特征在于，所述计算机可执行指令用于执行权利要求1至7中任意一项所述的语音解耦方法。

...

【技术特征摘要】

1.一种语音解耦方法，其特征在于，包括：

3.根据权利要求1所述的语音解耦方法，其特征在于，所述对所述隐藏状态向量进行量化融合处理得到声学特征，包括：

5.根据权利要求1所述的语音解耦方法，其特征在于，所述对所述隐藏状态信息进行转换处理得到语义标识信...

【专利技术属性】
技术研发人员：孙奥兰，王健宗，程宁，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人