一种说话人分割聚类方法、装置、电子设备及存储介质制造方法及图纸

技术编号：43235544 阅读：7 留言：0更新日期：2024-11-05 17:22

本发明专利技术涉及说话人分割聚类技术领域，尤其涉及一种说话人分割聚类方法、装置、电子设备及存储介质，该方法包括：根据音频数据中在初始说话人转换点对应前一个初始音频数据段的声源方向与后一个初始音频数据段的声源方向的差值，从初始说话人转换点中筛选目标说话人转换点；基于所有目标说话人转换点分割音频数据，得到目标音频数据段；构建所有目标音频数据段的声纹向量、所有历史音频数据段对应的声纹向量之间的相似度矩阵；基于相似度矩阵对所有目标音频数据段、所有历史音频数据段进行谱聚类，得到说话人聚类结果。本申请能够对音频数据进行说话人分割聚类，提高了说话人分割聚类的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及说话人分割聚类，具体而言，涉及一种说话人分割聚类方法、装置、电子设备及存储介质。

技术介绍

1、说话人分割聚类主要用于将多人说话的语音分割成单个说话人的语音片段，‌并识别出每个时间段是谁在说话。

2、现有的说话人分割聚类方法通常依赖于语音活动检测、嵌入码提取器和说话人聚类等子任务串联组合。现有说话人分割聚类方法主要基于单通道语音信号处理，对于多通道麦克风阵列录制的语音数据，分割聚类效果较差，准确度较低。

技术实现思路

1、有鉴于此，本申请的目的在于提供一种说话人分割聚类方法、装置、电子设备及存储介质，能够通过基于目标转换点划分得到的目标音频数据段的声纹向量、所有历史音频数据段对应的声纹向量之间的相似度矩阵对音频数据进行谱聚类，提高了说话人分割聚类的准确率。

2、第一方面，本申请实施例提供了一种说话人分割聚类方法，该方法包括：

3、获取本次语音会话中当前时间段内音频数据对应的初始说话人转换点，以及本次语音会话中各历史音频数据段对应的声纹向量；

4、根据音频数据中在初始说话人转换点对应前一个初始音频数据段的声源方向与后一个初始音频数据段的声源方向的差值，从初始说话人转换点中筛选目标说话人转换点；

5、基于所有目标说话人转换点分割音频数据，得到目标音频数据段；

6、构建所有目标音频数据段的声纹向量、所有历史音频数据段对应的声纹向量之间的相似度矩阵；

7、基于相似度矩阵对所有目标音频数据段、所

8、在一种可能的实施方式中，构建所有目标音频数据段的声纹向量、所有历史音频数据段对应的声纹向量之间的相似度矩阵，包括：

9、若本次语音会话的已会话时长超过预设会话时长，则根据各音频数据段对应的声源方向与各历史音频数据段的说话人声源方向之间的差值，计算各音频数据段与各历史音频数据段之间的相似度权重；

10、根据各音频数据段与各历史音频数据段之间的相似度权重，构建所有音频数据段的声纹向量的相似度矩阵；音频数据段包括目标音频数据段和历史音频数据段。

11、在一种可能的实施方式中，通过下述步骤获取各历史音频数据段的说话人声源方向：

12、获取各历史音频数据段对应的所有历史说话人聚类结果；历史说话人聚类结果中包括各历史音频数据段对应的说话人；

13、根据各历史音频数据段对应的所有历史说话人聚类结果，确定各历史音频数据段对应的目标说话人；

14、将各目标说话人对应的所有历史音频数据段的声源方向的平均值，确定为各目标说话人的声源方向；

15、将各历史音频数据段对应的目标说话人的声源方向，确定为各历史音频数据段的说话人声源方向。

16、在一种可能的实施方式中，根据各历史音频数据段对应的所有历史说话人聚类结果，确定各历史音频数据段对应的目标说话人，包括：

17、统计各历史音频数据对应每个说话人的次数；

18、将次数最多的说话人作为各历史音频数据段对应的目标说话人。

19、在一种可能的实施方式中，根据各音频数据段对应的声源方向与各历史音频数据段的说话人声源方向之间的差值，计算各音频数据段与各历史音频数据段之间的相似度权重，包括：

20、将各音频数据段对应的声源方向与各历史音频数据段的说话人声源方向之间的差值代入下述公式中，计算各音频数据段与各历史音频数据段之间的相似度权重：

21、；

22、其中，为第i个音频数据段与第j个历史音频数据段之间的相似度权重，为第i个音频数据段的声源方向，为第j个历史音频数据段的说话人声源方向，为预设权重系数。

23、在一种可能的实施方式中，通过下述步骤获取目标音频数据段对应的声纹向量或历史音频数据段对应的声纹向量：

24、将目标音频数据段或历史音频数据段输入到声纹提取模型中，得到目标音频数据段或历史音频数据段对应的声纹向量；

25、其中，声纹提取模型是通过音频样本数据以及对应的声纹向量进行训练得到的。

26、第二方面，本申请实施例还提供了一种说话人分割聚类装置，该说话人分割聚类装置包括：

27、获取模块，用于获取本次语音会话中当前时间段内音频数据对应的初始说话人转换点，以及本次语音会话中各历史音频数据段对应的声纹向量；

28、筛选模块，用于根据音频数据中在初始说话人转换点对应前一个初始音频数据段的声源方向与后一个初始音频数据段的声源方向的差值，从初始说话人转换点中筛选目标说话人转换点；

29、分割模块，用于基于所有目标说话人转换点分割所述音频数据，得到目标音频数据段；

30、构建模块，用于构建所有目标音频数据段的声纹向量、所有历史音频数据段对应的声纹向量之间的相似度矩阵；

31、聚类模块，用于基于相似度矩阵对所有目标音频数据段、所有历史音频数据段进行谱聚类，得到说话人聚类结果。

32、在一种可能的实施方式中，构建模块，具体用于若本次语音会话的已会话时长超过预设会话时长，则根据各音频数据段对应的声源方向与各历史音频数据段的说话人声源方向之间的差值，计算各音频数据段与各历史音频数据段之间的相似度权重；根据各音频数据段与各历史音频数据段之间的相似度权重，构建所有音频数据段的声纹向量的相似度矩阵；音频数据段包括目标音频数据段和历史音频数据段。

33、在一种可能的实施方式中，构建模块，具体用于获取各历史音频数据段对应的所有历史说话人聚类结果；历史说话人聚类结果中包括各历史音频数据段对应的说话人；根据各历史音频数据段对应的所有历史说话人聚类结果，确定各历史音频数据段对应的目标说话人；将各目标说话人对应的所有历史音频数据段的声源方向的平均值，确定为各目标说话人的声源方向；将各历史音频数据段对应的目标说话人的声源方向，确定为各历史音频数据段的说话人声源方向。

34、在一种可能的实施方式中，构建模块，具体用于统计各历史音频数据对应每个说话人的次数；将次数最多的说话人作为各历史音频数据段对应的目标说话人。

35、在一种可能的实施方式中，构建模块，具体用于将各音频数据段对应的声源方向与各历史音频数据段的说话人声源方向之间的差值代入下述公式中，计算各音频数据段与各历史音频数据段之间的相似度权重：

36、；

37、其中，为第i个音频数据段与第j个历史音频数据段之间的相似度权重，为第i个音频数据段的声源方向，为第j个历史音频数据段的说话人声源方向，为预设权重系数。

38、在一种可能的实施方式中，获取模块，具体用于将目标音频数据段或历史音频数据段输入到声纹提取模型中，得到目标音频数据段或历史音频数据段对应的声纹向量；其中，声纹提取模型是通过音频样本数据以及对应的声纹向量进行训练得到的。

39、第三方面，本申请实施例还提供了一种电子本文档来自技高网...

【技术保护点】

1.一种说话人分割聚类方法，其特征在于，所述方法包括：

2.根据权利要求1所述的说话人分割聚类方法，其特征在于，所述构建所有所述目标音频数据段的声纹向量、所有所述历史音频数据段对应的声纹向量之间的相似度矩阵，包括：

3.根据权利要求2所述的说话人分割聚类方法，其特征在于，通过下述步骤获取各历史音频数据段的说话人声源方向：

4.根据权利要求3所述的说话人分割聚类方法，其特征在于，所述根据各历史音频数据段对应的所有历史说话人聚类结果，确定各历史音频数据段对应的目标说话人，包括：

5.根据权利要求2至4任一项所述的说话人分割聚类方法，其特征在于，所述根据各音频数据段对应的声源方向与各历史音频数据段的说话人声源方向之间的差值，计算各音频数据段与各历史音频数据段之间的相似度权重，包括：

6.根据权利要求5所述的说话人分割聚类方法，其特征在于，通过下述步骤获取所述目标音频数据段对应的声纹向量或所述历史音频数据段对应的声纹向量：

7.一种说话人分割聚类装置，其特征在于，所述装置包括：

8.根据权利要求7所述的说

9.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求1至6任一项所述的说话人分割聚类方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至6任一项所述的说话人分割聚类方法的步骤。

...

【技术特征摘要】

1.一种说话人分割聚类方法，其特征在于，所述方法包括：

3.根据权利要求2所述的说话人分割聚类方法，其特征在于，通过下述步骤获取各历史音频数据段的说话人声源方向：

6.根据...

【专利技术属性】
技术研发人员：杜雨轩，杨腾，张徐吉，
申请(专利权)人：北京远鉴信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人