用于对话中语音识别方法和装置、电子设备及存储介质制造方法及图纸

技术编号：44178098 阅读：1 留言：0更新日期：2025-02-06 18:22

本申请实施例提供了一种用于对话中语音识别方法和装置、电子设备及存储介质，属于金融科技技术领域。该方法包括：取对话中的原始说话人语音，对原始说话人语音进行声纹特征提取，得到原始声纹特征，对预先构建的声纹特征数据库的样本声纹特征进行聚类，得到声纹特征簇，根据声纹特征簇的样本声纹特征，确定簇中心的参考声纹特征，计算原始声纹特征与参考声纹特征之间的相似度，根据相似度对原始说话人语音进行语音识别，得到语音类别，语音类别用于指示原始说话人语音为异常语音或者正常语音，能够对语音进行识别，以抵抗异常语音的语音攻击。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及金融科技，尤其涉及一种用于对话中语音识别方法和装置、电子设备及存储介质。

技术介绍

1、相关技术中，金融机构如银行、保险公司采用智能语音助手远程为用户办理各项业务。例如，用户可向智能语音助手发送购买金融产品的语音，以办理购买金融产品的业务。但是，智能语音助手的语音识别能力较低，无法区分正常语音和异常语音，当对异常语音进行应答，容易受到异常语音的语音攻击。

技术实现思路

1、本申请实施例的主要目的在于提出一种用于对话中语音识别方法和装置、电子设备及存储介质，旨在对语音进行识别，以区分语音为正常语音或者异常语音。

2、为实现上述目的，本申请实施例的第一方面提出了一种用于对话中语音识别方法，所述方法包括：

3、获取对话中的原始说话人语音；

4、对所述原始说话人语音进行声纹特征提取，得到原始声纹特征；

5、对预先构建的声纹特征数据库的样本声纹特征进行聚类，得到声纹特征簇；所述声纹特征簇具有簇中心；

6、根据所述声纹特征簇的所述样本声纹特征，确定所述簇中心的参考声纹特征；

7、计算所述原始声纹特征与所述参考声纹特征之间的相似度；

8、根据所述相似度对所述原始说话人语音进行语音识别，得到语音类别；所述语音类别用于指示所述原始说话人语音为异常语音或者正常语音。

9、在一些实施例，所述对话包括说话对象，所述对所述原始说话人语音进行声纹特征提取，得到原始声纹特征，包括：

10、对所述

11、对所述说话人文本进行词语识别，得到目标说话词语；

12、根据所述目标说话词语对所述原始说话人语音进行语音分割，得到所述说话对象的说话人语音片段；

13、对所述说话人语音片段进行声纹特征提取，得到候选声纹特征；

14、对所述候选声纹特征进行特征融合，得到所述原始声纹特征。

15、在一些实施例，所述对所述说话人语音片段进行声纹特征提取，得到候选声纹特征，包括：

16、对所述说话人语音片段进行语音去噪，得到候选语音片段；

17、对所述候选语音片段进行频谱特征提取，得到梅尔频谱特征；

18、对所述梅尔频谱特征进行第一声纹特征提取，得到初步声纹特征；

19、对所述初步声纹特征进行第二声纹特征提取，得到所述候选声纹特征。

20、在一些实施例，所述对所述候选声纹特征进行特征融合，得到所述原始声纹特征，包括：

21、计算所述候选声纹特征的特征权重；

22、根据所述特征权重对所述候选声纹特征进行特征加权，得到所述原始声纹特征。

23、在一些实施例，所述计算所述候选声纹特征的特征权重，包括：

24、获取所述候选声纹特征的平均值，得到平均声纹特征；

25、根据所述平均声纹特征获取所述候选声纹特征的标准差，得到标准差声纹特征；

26、根据所述平均声纹特征和所述标准差声纹特征，确定所述特征权重。

27、在一些实施例，所述对所述候选声纹特征进行特征融合，得到所述原始声纹特征，包括：

28、计算所述候选声纹特征的特征评分；

29、根据所述特征评分对所述候选声纹特征进行筛选，得到基准声纹特征；

30、对所述基准声纹特征进行特征拼接，得到所述原始声纹特征。

31、在一些实施例，在所述对预先构建的声纹特征数据库的样本声纹特征进行聚类，得到声纹特征簇之前，所述方法还包括：

32、获取样本说话人语音；

33、对所述样本说话人语音进行特征提取，得到样本声纹特征；

34、根据所述样本声纹特征构建所述声纹特征数据库。

35、为实现上述目的，本申请实施例的第二方面提出了一种用于对话中语音识别装置，所述装置包括：

36、获取模块，用于获取对话中的原始说话人语音；

37、特征提取模块，用于对所述原始说话人语音进行声纹特征提取，得到原始声纹特征；

38、聚类模块，用于对预先构建的声纹特征数据库的样本声纹特征进行聚类，得到声纹特征簇；所述声纹特征簇具有簇中心；

39、确定模块，用于根据所述声纹特征簇的所述样本声纹特征，确定所述簇中心的参考声纹特征；

40、计算模块，用于计算所述原始声纹特征与所述参考声纹特征之间的相似度；

41、语音识别模块，用于根据所述相似度对所述原始说话人语音进行语音识别，得到语音类别；所述语音类别用于指示所述原始说话人语音为异常语音或者正常语音。

42、为实现上述目的，本申请实施例的第三方面提出了一种电子设备，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的方法。

43、为实现上述目的，本申请实施例的第四方面提出了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的方法。

44、本申请实施例提出的用于对话中语音识别方法、用于对话中语音识别装置、电子设备及计算机可读存储介质，通过获取对话中的原始说话人语音，对原始说话人语音进行声纹特征提取，以提取原始说话人语音中对语音识别起到关键作用的区分性信息，得到原始声纹特征，使得可以根据原始声纹特征与声纹特征数据库中各个样本声纹特征的相似度，区分原始说话人语音为正常语音或者异常语音。为了提高语音识别的效率，避免原始声纹特征与声纹特征数据库中每个样本声纹特征的相似度计算，对声纹特征数据库的样本声纹特征进行聚类，以将大量的样本声纹特征简化为少量的簇，得到声纹特征簇。簇中心的特征可以作为声纹特征簇内所有样本声纹特征的代表，为了简化特征表示，并降低计算复杂度，根据声纹特征簇的样本声纹特征，确定簇中心的参考声纹特征，以利用簇中心的特征替代整个声纹特征簇的特征。计算原始声纹特征与参考声纹特征之间的相似度，根据相似度对原始说话人语音进行语音识别，得到语音类别，语音类别用于指示原始说话人语音为异常语音或者正常语音，使得能够根据语音类别区分原始说话人语音为正常语音或者异常语音，以抵抗异常语音的语音攻击。

本文档来自技高网...

【技术保护点】

1.一种用于对话中语音识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对话包括说话对象，所述对所述原始说话人语音进行声纹特征提取，得到原始声纹特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述说话人语音片段进行声纹特征提取，得到候选声纹特征，包括：

4.根据权利要求2所述的方法，其特征在于，所述对所述候选声纹特征进行特征融合，得到所述原始声纹特征，包括：

5.根据权利要求4所述的方法，其特征在于，所述计算所述候选声纹特征的特征权重，包括：

6.根据权利要求2所述的方法，其特征在于，所述对所述候选声纹特征进行特征融合，得到所述原始声纹特征，包括：

7.根据权利要求1至6任一项所述的方法，其特征在于，在所述对预先构建的声纹特征数据库的样本声纹特征进行聚类，得到声纹特征簇之前，所述方法还包括：

8.一种用于对话中语音识别装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述的方法。

...

【技术特征摘要】

1.一种用于对话中语音识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对话包括说话对象，所述对所述原始说话人语音进行声纹特征提取，得到原始声纹特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述说话人语音片段进行声纹特征提取，得到候选声纹特征，包括：

4.根据权利要求2所述的方法，其特征在于，所述对所述候选声纹特征进行特征融合，得到所述原始声纹特征，包括：

5.根据权利要求4所述的方法，其特征在于，所述计算所述候选声纹特征的特征权重，包括：

6.根据权利要求2所述的方法，其特征在于，所述对所述候选...

【专利技术属性】
技术研发人员：周定军，彭俊清，王健宗，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人