一种语音处理方法及装置制造方法及图纸

技术编号：44850594 阅读：8 留言：0更新日期：2025-04-01 19:44

本发明专利技术公开了一种语音处理方法及装置，涉及语音处理技术领域。该方法的具体实施方式包括：对语音数据进行分离，得到非重叠语音和重叠语音；从非重叠语音中识别出多个主声纹，并从重叠语音中提取出声纹特征；根据声纹特征，从多个主声纹中，确定出重叠语音对应的目标主声纹；根据多个主声纹对非重叠语音进行切分，得到多个第一语音片段，根据目标主声纹对重叠语音进行分离，得到多个第二语音片段，以及，对多个第一语音片段和多个第二语音片段进行拼接，得到多个目标语音片段。该实施方式解决了对重叠语音和非重叠语音整体进行声纹识别造成的准确度较低的问题，提高了声纹识别的准确度，实现了准确地确定说话人信息的技术效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音处理，尤其涉及一种语音处理方法及装置。

技术介绍

1、当前，在多人会话场景下，采集到的音频信息可能会存在多人同时说话的重叠语音。对于重叠语音，说话人日志服务通常采用以下两种方法：1、将与该重叠语音片段在时间上最接近的说话人，确定为该重叠语音对应的说话人；2、将采集到的音频信息直接输入到神经网络模型中，该模型通过聚类直接输出说话人信息，无需单独考虑重叠语音。

2、然而，专利技术人在实践中发现上述两种方法存在以下问题：第一种方法，单纯地根据时间距离确定说话人信息，准确度较低；第二种方法，为了提高对重叠语音识别的准确性，需要大量的重叠语音训练数据对模型进行训练，并且该重叠语音训练数据也会被用于该模型的声纹聚类，这样会影响该模型对于非重叠语音聚类的效果。

技术实现思路

1、有鉴于此，本专利技术实施例提供一种语音处理方法及装置，通过对语音数据进行分离，得到非重叠语音和重叠语音；从非重叠语音中识别出多个主声纹，并从重叠语音中提取出声纹特征；根据声纹特征，从多个主声纹中，确定出重叠语音对应的目标主声纹；根据多个主声纹对非重叠语音进行切分，得到多个第一语音片段，根据目标主声纹对重叠语音进行分离，得到多个第二语音片段，以及，对多个第一语音片段和多个第二语音片段进行拼接，得到多个目标语音片段。由此通过对重叠语音和非重叠语音分别分离并分别对其进行声纹识别，并根据非重叠语音对应多个主声纹以及重叠语音对应的目标主声纹，将语音数据进行切分或分离，得到多个说话人在不同时间段说话的语

2、为实现上述目的，根据本专利技术实施例的一个方面，提供了一种语音处理方法。

3、本专利技术实施例的一种语音处理方法，包括：对语音数据进行分离，得到非重叠语音和重叠语音；从非重叠语音中识别出多个主声纹，并从重叠语音中提取出声纹特征；根据声纹特征，从多个主声纹中，确定出重叠语音对应的目标主声纹；根据多个主声纹对非重叠语音进行切分，得到多个第一语音片段，根据目标主声纹对重叠语音进行分离，得到多个第二语音片段，以及，对多个第一语音片段和多个第二语音片段进行拼接，得到多个目标语音片段。

4、可选地，所述根据所述声纹特征，从多个所述主声纹中，确定出所述重叠语音对应的目标主声纹，包括：分别计算所述声纹特征与多个所述主声纹之间的第一相似度；对于每个主声纹对应的第一相似度，响应于所述第一相似度大于第一阈值，将所述主声纹作为目标主声纹。

5、可选地，所述根据多个所述主声纹对所述非重叠语音进行切分，得到多个第一语音片段，包括：从所述非重叠语音的时间起点开始，检测所述非重叠语音对应的主声纹；响应于检测到目标时间点与上一时间点所述非重叠语音对应的主声纹不同，在所述目标时间点，对所述非重叠语音进行切分，得到多个第一语音片段。

6、可选地，所述目标主声纹的数量至少为两个；所述根据所述目标主声纹对所述重叠语音进行分离，得到多个第二语音片段，包括：从所述重叠语音中，提取出每个目标主声纹对应的语音数据；将每个目标主声纹对应的、在时间上连续的语音数据，作为一个第二语音片段。

7、可选地，所述对所述多个第一语音片段和所述多个第二语音片段进行拼接，得到多个目标语音片段，包括：确定每个第二语音片段对应的起始时间和结束时间；根据所述起始时间和所述结束时间，从所述多个第一语音片段中，确定出与所述第二语音片段在时间上相邻的第一语音片段；响应于所述相邻的第一语音片段与所述第二语音片段对应的主声纹相同，将所述第一语音片段与所述第二语音片段进行拼接，得到拼接后语音片段；将除去所述相邻的第一语音片段之外的其他第一语音片段与所述拼接后语音片段，作为所述多个目标语音片段。

8、可选地，所述从所述非重叠语音中识别出多个主声纹，包括：提取所述非重叠语音的声纹特征；对所述声纹特征进行聚类，得到多个声纹特征集合；根据每个所述声纹特征集合，生成表征每个所述声纹特征集合的主声纹。

9、可选地，本专利技术提供的方法还包括：根据多个所述主声纹，将所述非重叠语音切分为多个目标语音片段；计算每两个相邻的第一语音片段分别对应的声纹特征之间的第二相似度；响应于所述第二相似度大于第二阈值，将两个相邻的所述第一语音片段合并；针对合并后的第一语音片段，确定对应的主声纹。

10、可选地，所述计算每两个相邻的第一语音片段分别对应的声纹特征之间的第二相似度，包括：确定出两个相邻的所述第一语音片段的衔接区域，所述衔接区域包括第一部分和第二部分；计算所述第一部分的声纹特征与所述第二部分的声纹特征之间的相似度，并将所述相似度确定为所述第二相似度。

11、可选地，本专利技术提供的方法还包括：将所述语音数据转换为文本数据及其对应的第一时间戳；根据所述第一时间戳以及所述多个目标语音片段对应的第二时间戳，为所述多个目标语音片段分配对应的文本数据；根据所述第二时间戳、所述多个目标语音片段对应的文本数据以及所述多个目标语音片段对应的说话人标识，生成说话人日志；所述说话人标识是根据所述多个目标语音片段分别对应的主声纹确定的。

12、可选地，所述根据所述第一时间戳以及所述多个目标语音片段对应的第二时间戳，为所述多个目标语音片段分配对应的文本数据，包括：确定每个语音片段对应的第二时间戳；将与所述第二时间戳相同的第一时间戳对应的文本数据，确定为所述语音片段对应的文本数据。

13、可选地，本专利技术提供的方法还包括：针对所述文本数据中的每一个独立语句：响应于所述独立语句对应至少两个相邻语音片段，根据所述独立语句的文本含义以及所述相邻语音片段的分界线，对所述独立语句进行修正。

14、为实现上述目的，根据本专利技术实施例的又一方面，提供了一种语音处理装置。

15、本专利技术实施例的一种语音处理装置，包括：语音分离模块，用于对语音数据进行分离，得到非重叠语音和重叠语音；声纹提取模块，用于从所述非重叠语音中识别出多个主声纹，并从所述重叠语音中提取出声纹特征；语音分析模块，用于根据所述声纹特征，从多个所述主声纹中确定出所述重叠语音对应的目标主声纹；语音切分模块，用于根据多个所述主声纹对所述非重叠语音进行切分，得到多个第一语音片段，根据所述目标主声纹对所述重叠语音进行分离，得到多个第二语音片段，以及，对所述多个第一语音片段和所述多个第二语音片段进行拼接，得到多个目标语音片段。

16、为实现上述目的，根据本专利技术实施例的又一方面，提供了一种用于语音处理的电子设备。

17、本专利技术实施例的一种用于语音处理的电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当上述一个或多个程序被上述一个或多个处理器执行，使得上述一个或多个处理器实现本专利技术实施例的一种语音处理方法。

18、为实现上述目的，根据本专利技术实施例的再一方面，提供了一种计算机可读存储介质。

本文档来自技高网...

【技术保护点】

1.一种语音处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述声纹特征，从多个所述主声纹中，确定出所述重叠语音对应的目标主声纹，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据多个所述主声纹对所述非重叠语音进行切分，得到多个第一语音片段，包括：

4.根据权利要求3所述的方法，其特征在于，所述目标主声纹的数量至少为两个；所述根据所述目标主声纹对所述重叠语音进行分离，得到多个第二语音片段，包括：

5.根据权利要求4所述的方法，其特征在于，所述对所述多个第一语音片段和所述多个第二语音片段进行拼接，得到多个目标语音片段，包括：

6.根据权利要求1所述的方法，其特征在于，所述从所述非重叠语音中识别出多个主声纹，包括：

7.根据权利要求3所述的方法，其特征在于，还包括：

8.根据权利要求7所述的方法，其特征在于，所述计算每两个相邻的第一语音片段分别对应的声纹特征之间的第二相似度，包括：

9.根据权利要求1所述的方法，其特征在于，还包括：

11.根据权利要求10所述的方法，其特征在于，还包括：

12.一种语音处理装置，其特征在于，包括：

13.一种用于语音处理的电子设备，其特征在于，包括：

14.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-11中任一所述的方法。

15.一种计算机程序产品，包括计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-11中任一所述的方法。

...

【技术特征摘要】

1.一种语音处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述声纹特征，从多个所述主声纹中，确定出所述重叠语音对应的目标主声纹，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据多个所述主声纹对所述非重叠语音进行切分，得到多个第一语音片段，包括：

5.根据权利要求4所述的方法，其特征在于，所述对所述多个第一语音片段和所述多个第二语音片段进行拼接，得到多个目标语音片段，包括：

6.根据权利要求1所述的方法，其特征在于，所述从所述非重叠语音中识别出多个主声纹，包括：

7.根据权利要求3所述的方法，其特征在于，还包括：

8.根...

【专利技术属性】
技术研发人员：丁一洋，
申请(专利权)人：京东科技信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人