System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 说话人分离方法和装置、电子设备及存储介质制造方法及图纸_技高网

说话人分离方法和装置、电子设备及存储介质制造方法及图纸

技术编号:43865940 阅读:16 留言:0更新日期:2024-12-31 18:52
本申请实施例提供了一种说话人分离方法和装置、电子设备及存储介质,属于人工智能及金融技术领域。该方法包括:获取包含至少两个样本说话对象的说话人分离样本;基于说话人分离样本对原始声纹特征提取模型、原始口音特征提取模型和原始说话人分离模型进行训练,得到目标声纹特征提取模型、目标口音特征提取模型和目标说话人分离模型,通过目标声纹特征提取模型、目标口音特征提取模型和目标说话人分离模型对目标语音数据进行说话人分离标注,得到目标说话人标注信息,基于目标说话人标注信息对目标语音数据进行语音分离。本申请实施例能够精确提取语音数据中不同说话人的声纹、语音特征,从而实现准确地说话人分离,提高了说话人分离的准确性。

【技术实现步骤摘要】

本申请涉及人工智能及金融,尤其涉及一种说话人分离方法和装置、电子设备及存储介质


技术介绍

1、说话人分离是一种人工智能技术,能够从包含多个说话人的语音数据中将每个说话人的语音独立地分离出来,可以应用于多种场景,例如在金融领域中,对客户与客服之间语音数据进行说话人分离,筛选出客户的语音数据,以进行如情感分析、意图识别等处理。

2、目前,说话人分离方法主要通过对说话人的声纹特征进行提取和分析,然而,在遇到多个说话人声纹特征相近的情况,说话人分离的准确性无法得到保证。

3、因此,如何提高说话人分离的准确性,成为了亟待解决的技术问题。


技术实现思路

1、本申请实施例的主要目的在于提出一种说话人分离方法和装置、电子设备及存储介质,旨在提高说话人分离的准确性。

2、为实现上述目的,本申请实施例的第一方面提出了一种说话人分离方法,所述方法包括:

3、获取包含至少两个样本说话对象的说话人分离样本;其中,所述说话人分离样本包括样本语音数据和样本说话人标注信息,所述样本语音数据包括样本语音片段,所述样本说话人标注信息用于表征所述样本语音片段所属的样本说话对象;

4、对所述样本语音数据进行频谱转换,得到样本频谱数据;

5、基于所述样本频谱数据和所述样本说话人标注信息对预设的原始声纹特征提取模型进行模型训练,得到目标声纹特征提取模型;

6、基于所述样本频谱数据和所述样本说话人标注信息对预设的原始口音特征提取模型进行模型训练,得到目标口音特征提取模型;

7、基于所述样本频谱数据和所述样本说话人标注信息对预设的原始说话人分离模型进行模型训练,得到目标说话人分离模型;

8、通过所述目标声纹特征提取模型、所述目标口音特征提取模型和所述目标说话人分离模型对预先获取的目标语音数据进行说话人分离标注,得到目标说话人标注信息;其中,所述目标语音数据包含至少两个目标说话对象,所述目标说话人标注信息用于表征每一所述目标说话对象在所述目标语音数据中所属的语音片段信息;

9、基于所述目标说话人标注信息对所述目标语音数据进行语音分离,得到每一所述目标说话对象的目标说话人语音数据。

10、在一些实施例,所述基于所述样本频谱数据和所述样本说话人标注信息对预设的原始声纹特征提取模型进行模型训练,得到目标声纹特征提取模型,包括:

11、通过所述原始声纹特征提取模型对所述样本频谱数据进行声纹特征提取,得到原始声纹特征;

12、对所述原始声纹特征进行下采样处理,得到样本声纹特征;

13、基于所述样本声纹特征进行说话人预测,得到第一预测说话人标注信息;

14、基于所述样本说话人标注信息和所述第一预测说话人标注信息进行损失计算,得到声纹预测损失数据;

15、基于所述声纹预测损失数据对所述原始声纹特征提取模型进行模型优化,得到所述目标声纹特征提取模型。

16、在一些实施例,所述基于所述样本频谱数据和所述样本说话人标注信息对预设的原始口音特征提取模型进行模型训练,得到目标口音特征提取模型,包括:

17、通过所述原始口音特征提取模型对所述样本频谱数据进行口音特征提取,得到原始口音特征;

18、对所述原始口音特征进行下采样处理,得到样本口音特征;

19、基于所述样本口音特征进行说话人预测,得到第二预测说话人标注信息;

20、基于所述样本说话人标注信息和所述第二预测说话人标注信息进行损失计算,得到口音预测损失数据;

21、基于所述口音预测损失数据对所述原始口音特征提取模型进行模型优化,得到所述目标口音特征提取模型。

22、在一些实施例,所述基于所述样本频谱数据和所述样本说话人标注信息对预设的原始说话人分离模型进行模型训练,得到目标说话人分离模型,包括:

23、通过所述原始说话人分离模型对所述样本频谱数据进行说话人特征提取,得到原始说话人分离特征;

24、对所述原始说话人分离特征进行下采样处理,得到样本说话人分离特征;

25、对所述样本声纹特征、所述样本口音特征和所述样本说话人分离特征进行特征拼接,得到样本说话人分离数据;

26、对所述样本说话人分离数据进行注意力计算,得到样本注意力特征;

27、对所述样本注意力特征进行说话人分离,得到第三预测说话人标注信息;

28、基于所述样本说话人标注信息和所述第三预测说话人标注信息进行损失计算,得到分离预测损失数据;

29、基于所述分离预测损失数据对所述原始说话人分离模型进行模型优化,得到所述目标说话人分离模型。

30、在一些实施例,所述通过所述目标声纹特征提取模型、所述目标口音特征提取模型和所述目标说话人分离模型对预先获取的目标语音数据进行说话人分离标注,得到目标说话人标注信息,包括:

31、对所述目标语音数据进行频谱转换,得到目标语音频谱数据;

32、通过所述目标声纹特征提取模型对所述目标语音频谱数据进行声纹特征提取,得到目标声纹特征;

33、通过所述目标口音特征提取模型对所述目标语音频谱数据进行口音特征提取,得到目标口音特征;

34、通过所述目标说话人分离模型对所述目标语音频谱数据进行说话人特征提取,得到目标说话人分离特征;

35、对所述目标声纹特征、所述目标口音特征和所述目标说话人分离特征进行特征拼接,得到目标说话人分离数据;

36、基于所述目标说话人分离数据进行说话人分离,得到目标说话人标注信息。

37、在一些实施例,所述基于所述目标说话人分离数据进行说话人分离,得到目标说话人标注信息,包括:

38、对所述目标说话人分离数据进行注意力计算,得到目标注意力特征;

39、对所述目标注意力特征进行说话人分离,得到所述目标说话人标注信息。

40、在一些实施例,所述基于所述目标说话人标注信息对所述目标语音数据进行语音分离,得到每一所述目标说话对象的目标说话人语音数据,包括:

41、针对每一所述目标说话对象,根据所述目标说话人标注信息获取说话人语音时段;

42、基于所述说话人语音时段对所述目标语音数据进行语音提取,得到每一所述目标说话对象的所述目标说话人语音数据。

43、为实现上述目的,本申请实施例的第二方面提出了一种说话人分离装置,所述装置包括:

44、样本数据获取模块,用于获取包含至少两个样本说话对象的说话人分离样本;其中,所述说话人分离样本包括样本语音数据和样本说话人标注信息,所述样本语音数据包括样本语音片段,所述样本说话人标注信息用于表征所述样本语音片段所属的样本说话对象;

45、样本频谱转换模块,用于对所述样本语音数据进行频谱转换,得到样本频谱数据;

46、声纹特征提取模型训练模块,本文档来自技高网...

【技术保护点】

1.一种说话人分离方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述样本频谱数据和所述样本说话人标注信息对预设的原始声纹特征提取模型进行模型训练,得到目标声纹特征提取模型,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于所述样本频谱数据和所述样本说话人标注信息对预设的原始口音特征提取模型进行模型训练,得到目标口音特征提取模型,包括:

4.根据权利要求3所述的方法,其特征在于,所述基于所述样本频谱数据和所述样本说话人标注信息对预设的原始说话人分离模型进行模型训练,得到目标说话人分离模型,包括:

5.根据权利要求1至4任一项所述的方法,其特征在于,所述通过所述目标声纹特征提取模型、所述目标口音特征提取模型和所述目标说话人分离模型对预先获取的目标语音数据进行说话人分离标注,得到目标说话人标注信息,包括:

6.根据权利要求5所述的方法,其特征在于,所述基于所述目标说话人分离数据进行说话人分离,得到目标说话人标注信息,包括:

7.根据权利要求1-4任一项所述的方法,其特征在于,所述基于所述目标说话人标注信息对所述目标语音数据进行语音分离,得到每一所述目标说话对象的目标说话人语音数据,包括:

8.一种说话人分离装置,其特征在于,所述装置包括:

9.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法。

...

【技术特征摘要】

1.一种说话人分离方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述样本频谱数据和所述样本说话人标注信息对预设的原始声纹特征提取模型进行模型训练,得到目标声纹特征提取模型,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于所述样本频谱数据和所述样本说话人标注信息对预设的原始口音特征提取模型进行模型训练,得到目标口音特征提取模型,包括:

4.根据权利要求3所述的方法,其特征在于,所述基于所述样本频谱数据和所述样本说话人标注信息对预设的原始说话人分离模型进行模型训练,得到目标说话人分离模型,包括:

5.根据权利要求1至4任一项所述的方法,其特征在于,所述通过所述目标声纹特征提取模型、所述目标口音特征提取模型和所述目标说话人分离模型对预先获取的目标语音数据进行...

【专利技术属性】
技术研发人员:亢祖衡彭俊清王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1