System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 多说话人声纹识别模型训练方法、多说话人声纹识别方法及装置制造方法及图纸_技高网

多说话人声纹识别模型训练方法、多说话人声纹识别方法及装置制造方法及图纸

技术编号:40237258 阅读:23 留言:0更新日期:2024-02-02 22:36
本发明专利技术公开了一种多说话人声纹识别模型训练方法、多说话人声纹识别方法及装置,该训练方法包括:构建分类模型并训练,得到第一训练模型;构建多说话人声纹识别模型,多说话人声纹识别模型包括第一训练模型、第一声纹模型、第二声纹模型和加法器,响应于确定第一训练模型的输出结果中分类结果为单说话人,则将输入语音对应的声学特征输入第一声纹模型,进入单说话人语音数据训练通路,损失函数采用AM‑softmax进行训练,响应于确定第一训练模型的输出结果中分类结果为多说话人,则将输入语音对应的声学特征输入第二声纹模型,进入多说话人语音数据训练通路,损失函数采用改进的AM‑softmax进行训练,训练得到第二训练模型,可有效提高多说话人声纹识别的准确率。

【技术实现步骤摘要】

本专利技术涉及声纹识别领域,具体涉及一种多说话人声纹识别模型训练方法、多说话人声纹识别方法及装置


技术介绍

1、每个人的声音都蕴涵着特有的生物特征,声纹识别是指利用说话人的声音来识别说话人的一种技术手段。声纹识别同指纹识别等技术一样具有高度的安全可靠性,可以应用在所有需要做身份识别的场合。如在刑侦、银行、证券、保险等金融领域。与传统的身份识别技术相比,声纹识别的优势在于,声纹提取过程简单,成本低,且具有唯一性,不易伪造和假冒。近几年,随着深度学习技术的发展,声纹识别技术也得到了较大的提升,已经成功应用在很多场景。但是在某些应用场景中也存在很大的挑战,比如说在多说话人场景中,人类可以准确的从多说话人里面辨识出某个人的声音,但是声纹识别模型的表现就会比较差,无法从多说话人场景里面正确的识别出目标说话人,给声纹识别系统的推广应用带来了一定的阻碍。


技术实现思路

1、针对上述提到的技术问题。本申请的实施例的目的在于提出了一种多说话人声纹识别模型训练方法、多说话人声纹识别方法及装置,来解决以上
技术介绍
部分提到的技术问题。

2、第一方面,本专利技术提供了一种多说话人声纹识别模型训练方法,包括以下步骤:

3、构建分类模型并训练,得到第一训练模型,第一训练模型的输出结果包括分类结果和输入语音对应的声学特征;

4、构建多说话人声纹识别模型,多说话人声纹识别模型包括第一训练模型、第一声纹模型、第二声纹模型和加法器,第一训练模型分别与第一声纹模型和第二声纹模型连接,采用加法器将第一声纹模型和第二声纹模型的输出连接,第一声纹模型与加法器构成单说话人语音数据训练通路,第二声纹模型与加法器构成多说话人语音数据训练通路;

5、响应于确定所述第一训练模型的输出结果中分类结果为单说话人,则将所述输入语音对应的声学特征输入所述第一声纹模型,进入所述单说话人语音数据训练通路,基于am-softmax损失函数进行训练,响应于确定所述第一训练模型的输出结果中分类结果为多说话人,则将所述输入语音对应的声学特征输入所述第二声纹模型,进入所述多说话人语音数据训练通路,基于改进的am-softmax损失函数进行训练,训练得到第二训练模型。

6、作为优选,第一声纹模型和第二声纹模型均为ecapa-tdnn模型,改进的am-softmax损失函数的公式如下:

7、

8、其中,s为缩放因子,n表示训练样本数量,θa表示多说话人边界惩罚角度a,θb表示多说话人边界惩罚角度b,θj表示说话人特征矢量之间的角度,λ表示插值权重;

9、am-softmax损失函数的公式如下:

10、

11、其中,θyi表示说话人特征矢量之间的角度,m表示决策边界,c表示类的数量。

12、作为优选,第二训练模型的训练过程中总损失函数为单说话人语音数据训练通路的损失函数和多说话人语音数据训练通路的损失函数之和,优化总损失函数并反向传播,其中,第一训练模型不参与反向传播。

13、作为优选,分类模型包括第一残差模块、最大池化层、卷积层、第二残差模块和全连接层,将语音提取声学特征,将声学特征输入第一残差模块,输出第一特征,声学特征与第一特征相加后输入最大池化层,最大池化层与卷积层连接,卷积层的输出输入第二残差模块,输出第二特征,卷积层的输出与第二特征相加后输入全连接层。

14、作为优选,第一残差模块和第二残差模块的残差部分均包括依次连接的第一卷积层、第一激活函数层、第二卷积层、第二激活函数层、第三卷积层和第三激活函数层。

15、第二方面,本专利技术提供了一种多说话人声纹识别方法,其特征在于,采用如第一方面中任一实现方式描述的方法得到的第二训练模型,包括以下步骤:

16、声纹注册阶段:获取目标说话人的注册语音,采用mfcc特征提取算法提取注册语音中的声学特征,将注册语音对应的声学特征输入第二训练模型中,输出第一声纹特征;

17、声纹验证阶段:获取验证语音,采用mfcc特征提取算法提取验证语音中的声学特征,将验证语音对应的声学特征输入第二训练模型中,输出第二声纹特征;

18、对第一声纹特征和第二声纹特征进行相似度计算,得到相似度分值;响应于确定相似度分值大于阈值,则验证语音中的说话人包含目标说话人。

19、第三方面,本专利技术提供了一种多说话人声纹识别模型训练模块,其特征在于,包括:

20、第一训练模型构建模块,被配置为构建分类模型并训练,得到第一训练模型,第一训练模型的输出结果包括分类结果和输入语音对应的声学特征;

21、第二训练模型构建模块,被配置为构建多说话人声纹识别模型,多说话人声纹识别模型包括第一训练模型、第一声纹模型、第二声纹模型和加法器,第一训练模型分别与第一声纹模型和第二声纹模型连接,采用加法器将第一声纹模型和第二声纹模型的输出连接,第一声纹模型与加法器构成单说话人语音数据训练通路,第二声纹模型与加法器构成多说话人语音数据训练通路;

22、训练执行模块,被配置为响应于确定第一训练模型的输出结果中分类结果为单说话人,则将输入语音对应的声学特征输入第一声纹模型,进入单说话人语音数据训练通路进行训练,响应于确定第一训练模型的输出结果中分类结果为多说话人,则将输入语音对应的声学特征输入第二声纹模型,进入多说话人语音数据训练通路进行训练,单说话人语音数据训练通路的损失函数采用am-softmax,多说话人语音数据训练通路的损失函数采用改进的am-softmax,训练得到第二训练模型。

23、第四方面,本专利技术提供了一种多说话人声纹识别装置,其特征在于,采用如第一方面中任一实现方式描述的方法得到的第二训练模型,包括:

24、声纹注册模块,被配置为获取目标说话人的注册语音,采用mfcc特征提取算法提取注册语音中的声学特征,将注册语音对应的声学特征输入第二训练模型中,输出第一声纹特征;

25、声纹验证模块,被配置为获取验证语音,采用mfcc特征提取算法提取验证语音中的声学特征,将验证语音对应的声学特征输入第二训练模型中,输出第二声纹特征;

26、对比模块,被配置为对第一声纹特征和第二声纹特征进行相似度计算,得到相似度分值;响应于确定相似度分值大于阈值,则验证语音中的说话人包含目标说话人。

27、第五方面,本专利技术提供了一种电子设备,包括一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。

28、第六方面,本专利技术提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。

29、相比于现有技术,本专利技术具有以下有益效果:

30、(1)本专利技术提出的多说话人声纹识别模型训练方法对分类模型进行训练得到第一训练模型,通过第一训练模型对本文档来自技高网...

【技术保护点】

1.一种多说话人声纹识别模型训练方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的多说话人声纹识别模型训练方法,其特征在于,所述第一声纹模型和第二声纹模型均为ECAPA-TDNN模型,所述改进的AM-softmax损失函数的公式如下:

3.根据权利要求1所述的多说话人声纹识别模型训练方法,其特征在于,所述第二训练模型的训练过程中总损失函数为所述单说话人语音数据训练通路的损失函数和所述多说话人语音数据训练通路的损失函数之和,优化所述总损失函数并反向传播,其中,所述第一训练模型不参与反向传播。

4.根据权利要求1所述的多说话人声纹识别模型训练方法,其特征在于,所述分类模型包括第一残差模块、最大池化层、卷积层、第二残差模块和全连接层,将语音提取声学特征,将所述声学特征输入所述第一残差模块,输出第一特征,所述声学特征与所述第一特征相加后输入所述最大池化层,所述最大池化层与所述卷积层连接,所述卷积层的输出输入所述第二残差模块,输出第二特征,所述卷积层的输出与所述第二特征相加后输入所述全连接层。

5.根据权利要求4所述的多说话人声纹识别模型训练方法,其特征在于,所述第一残差模块和第二残差模块的残差部分均包括依次连接的第一卷积层、第一激活函数层、第二卷积层、第二激活函数层、第三卷积层和第三激活函数层。

6.一种多说话人声纹识别方法,其特征在于,采用权利要求1-5中任一项所述的多说话人声纹识别模型训练方法得到的第二训练模型,包括以下步骤:

7.一种多说话人声纹识别模型训练模块,其特征在于,包括:

8.一种多说话人声纹识别装置,其特征在于,采用权利要求1-5中任一项所述的多说话人声纹识别模型训练方法得到的第二训练模型,包括:

9.一种电子设备,包括:

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的方法。

...

【技术特征摘要】

1.一种多说话人声纹识别模型训练方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的多说话人声纹识别模型训练方法,其特征在于,所述第一声纹模型和第二声纹模型均为ecapa-tdnn模型,所述改进的am-softmax损失函数的公式如下:

3.根据权利要求1所述的多说话人声纹识别模型训练方法,其特征在于,所述第二训练模型的训练过程中总损失函数为所述单说话人语音数据训练通路的损失函数和所述多说话人语音数据训练通路的损失函数之和,优化所述总损失函数并反向传播,其中,所述第一训练模型不参与反向传播。

4.根据权利要求1所述的多说话人声纹识别模型训练方法,其特征在于,所述分类模型包括第一残差模块、最大池化层、卷积层、第二残差模块和全连接层,将语音提取声学特征,将所述声学特征输入所述第一残差模块,输出第一特征,所述声学特征与所述第一特征相加后输入所述最大池化层,所述最大池化层与所述卷积层连接,所述卷积层的输...

【专利技术属性】
技术研发人员:叶林勇肖龙源李海洲李稀敏叶志坚
申请(专利权)人:厦门快商通科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1