System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 声纹识别模型的训练方法、声纹识别方法及装置制造方法及图纸_技高网

声纹识别模型的训练方法、声纹识别方法及装置制造方法及图纸

技术编号:41496760 阅读:22 留言:0更新日期:2024-05-30 14:40
本发明专利技术公开了一种声纹识别模型的训练方法、声纹识别方法及装置,该训练方法包括:收集带噪语音和干净语音并分别进行数据增强,得到第一语音数据;采用改进的谱减法滤波算法对第一语音数据进行滤波处理,得到第二语音数据;采用改进的LPC特征提取算法对第二语音数据提取声学特征,得到LPC声学特征;构建基于改进的Res2Net模型的声纹识别模型,声纹识别模型包括第一Res2Net模块、第二Res2Net模块、第三Res2Net模块、第四Res2Net模块、第一融合层、第二融合层、第三融合层和全连接层,采用LPC声学特征对声纹识别模型进行训练,得到经训练的声纹识别模型。该训练方法可以提升声纹识别模型的抗噪声能力,提升各种室内外场景下的声纹识别准确率。

【技术实现步骤摘要】

本专利技术涉及声纹识别领域,具体涉及一种声纹识别模型的训练方法、声纹识别方法及装置


技术介绍

1、每个人的声音都蕴涵着特有的生物特征,声纹识别是指利用说话人的声音来识别说话人的一种技术手段。声纹识别同指纹识别等技术一样具有高度的安全可靠性,可以应用在所有需要做身份识别的场合。如在刑侦、银行、证券、保险等领域。与传统的身份识别技术相比,声纹识别的优势在于,声纹提取过程简单,成本低,且具有唯一性,不易伪造和假冒。近几年,随着深度学习技术的发展,声纹识别技术也得到了较大的提升,已经成功应用在很多场景。但是目前深度学习方法训练模型存在一定的局限性,声纹识别模型的抗噪声能力比较差,在室外或者噪声比较大的场景下,声纹识别准确率会受到比较大影响,往往需要用户在比较安静的环境下做声纹比对。在有一些应用场合,由于模型抗噪声能力的弱点,给声纹识别系统的推广应用带来了一定的阻碍。


技术实现思路

1、针对上述提到的技术问题。本申请的实施例的目的在于提出了一种声纹识别模型的训练方法、声纹识别方法及装置,来解决以上
技术介绍
部分提到的技术问题。

2、第一方面,本专利技术提供了一种声纹识别模型的训练方法,包括以下步骤:

3、收集带噪语音和干净语音并分别进行数据增强,得到第一语音数据;

4、采用改进的谱减法滤波算法对第一语音数据进行滤波处理,得到第二语音数据;

5、采用改进的lpc特征提取算法对第二语音数据提取声学特征,得到lpc声学特征;

6、构建基于改进的res2net模型的声纹识别模型,声纹识别模型包括第一res2net模块、第二res2net模块、第三res2net模块、第四res2net模块、第一融合层、第二融合层、第三融合层和全连接层,采用lpc声学特征对声纹识别模型进行训练,得到经训练的声纹识别模型,在训练过程中,将lpc声学特征输入第一res2net模块,得到第一特征,第一特征输入第二res2net模块,得到第二特征,第一特征和第二特征输入第一融合层,得到第三特征,第二特征输入第三res2net模块,得到第四特征,第三特征和第四特征输入第二融合层,得到第五特征,第四特征输入第四res2net模块,得到第六特征,第五特征和第六特征输入第三融合层,得到第七特征,第七特征输入全连接层,得到声纹特征。

7、在具体的实施例中,第一融合层、第二融合层、第三融合层均采用融合模块,融合模块包括依次连接的加法器、卷积核大小为1×1的卷积层、第一平均池化层、relu激活函数层和第二平均池化层。

8、在具体的实施例中,采用改进的谱减法滤波算法对第一语音数据进行滤波处理,得到第二语音数据,具体包括:

9、建立干净语音、噪声和带噪语音之间的关系,并转换至频域,得到如下表达式:

10、

11、其中,y(w)为频域下的带噪信号,x(w)为频域下的干净信号,e(w)为频域下的噪声信号,γ和α为超参数,γ的取值范围为[1,4],α的取值范围为[0.5,1.0];

12、则干净信号的估计值如下式所示:

13、

14、其中,为干净信号的估计值,|y(w)|为带噪信号的幅度谱,为噪声谱,为信号相位。

15、在具体的实施例中,改进的lpc特征提取算法包括预加重、分帧、加窗、自相关分析、lpc分析和倒谱系数转换,其中对lpc分析过程进行改进,改进后的lpc分析过程如下:

16、当m=0时,e0=r(0),a0=1;

17、对于第m次的递归,存在:

18、

19、

20、对于j=1到m-1,存在:

21、

22、

23、其中,r为自相关系数,em为误差,km为反馈系数,a为lpc系数,p表示阶数,λ为滤波系数,取值范围为(0,1)。

24、在具体的实施例中,干净语音的数据增强方式包括:变速、加混响、加噪声和加音乐声,带噪语音的数据增强方式包括:变速、加混响和加音乐声。

25、第二方面,本专利技术提供了一种声纹识别模型的训练装置,包括:

26、数据增强模块,被配置为收集带噪语音和干净语音并分别进行数据增强,得到第一语音数据;

27、滤波处理模块,被配置为采用改进的谱减法滤波算法对第一语音数据进行滤波处理,得到第二语音数据;

28、声学特征提取模块,被配置为采用改进的lpc特征提取算法对第二语音数据提取声学特征,得到lpc声学特征;

29、模型构造训练模块,被配置为构建基于改进的res2net模型的声纹识别模型,声纹识别模型包括第一res2net模块、第二res2net模块、第三res2net模块、第四res2net模块、第一融合层、第二融合层、第三融合层和全连接层,采用lpc声学特征对声纹识别模型进行训练,得到经训练的声纹识别模型,在训练过程中,将lpc声学特征输入第一res2net模块,得到第一特征,第一特征输入第二res2net模块,得到第二特征,第一特征和第二特征输入第一融合层,得到第三特征,第二特征输入第三res2net模块,得到第四特征,第三特征和第四特征输入第二融合层,得到第五特征,第四特征输入第四res2net模块,得到第六特征,第五特征和第六特征输入第三融合层,得到第七特征,第七特征输入全连接层,得到声纹特征。

30、第三方面,本专利技术提供了一种声纹识别方法,采用如第一方面中任一实现方式训练得到的经训练的声纹识别模型,包括以下步骤:

31、获取注册语音,采用改进的谱减法滤波算法对注册语音进行滤波处理,得到注册语音对应的第二语音数据,并采用改进的lpc特征提取算法对注册语音对应的第二语音数据进行声学特征提取,得到注册语音对应的lpc声学特征,将注册语音对应的lpc声学特征输入经训练的声纹识别模型,得到第一特征向量;

32、获取验证语音,采用改进的谱减法滤波算法对验证语音进行滤波处理,得到验证语音对应的第二语音数据,并采用改进的lpc特征提取算法对得到验证语音对应的第二语音数据进行声学特征提取,得到验证语音对应的lpc声学特征,将验证语音对应的lpc声学特征输入经训练的声纹识别模型,得到第二特征向量;

33、将第一特征向量和第二特征向量进行相似度比对,得到比对结果,根据比对结果判断验证语音和注册语音是否属于同一人。

34、第四方面,本专利技术提供了一种声纹识别装置,采用如第一方面中任一实现方式训练得到的经训练的声纹识别模型,包括:

35、注册模块,被配置为获取注册语音,采用改进的谱减法滤波算法对注册语音进行滤波处理,得到注册语音对应的第二语音数据,并采用改进的lpc特征提取算法对注册语音对应的第二语音数据进行声学特征提取,得到注册语音对应的lpc声学特征,将注册语音对应的lpc声学特征输入经训练的声纹识别模型,得到第一特征向量;

36、验证模块,被配置为获取验证语音本文档来自技高网...

【技术保护点】

1.一种声纹识别模型的训练方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的声纹识别模型的训练方法,其特征在于,所述第一融合层、第二融合层、第三融合层均采用融合模块,所述融合模块包括依次连接的加法器、卷积核大小为1×1的卷积层、第一平均池化层、Relu激活函数层和第二平均池化层。

3.根据权利要求1所述的声纹识别模型的训练方法,其特征在于,所述采用改进的谱减法滤波算法对所述第一语音数据进行滤波处理,得到第二语音数据,具体包括:

4.根据权利要求1所述的声纹识别模型的训练方法,其特征在于,所述改进的LPC特征提取算法包括预加重、分帧、加窗、自相关分析、LPC分析和倒谱系数转换,其中对LPC分析过程进行改进,改进后的LPC分析过程如下:

5.根据权利要求1所述的声纹识别模型的训练方法,其特征在于,所述干净语音的数据增强方式包括:变速、加混响、加噪声和加音乐声,所述带噪语音的数据增强方式包括:变速、加混响和加音乐声。

6.一种声纹识别模型的训练装置,其特征在于,包括:

7.一种声纹识别方法,其特征在于,采用根据权利要求1-5中任一项所述的声纹识别模型的训练方法训练得到的经训练的声纹识别模型,包括以下步骤:

8.一种声纹识别装置,其特征在于,采用根据权利要求1-5中任一项所述的声纹识别模型的训练方法训练得到的经训练的声纹识别模型,包括:

9.一种电子设备,包括:

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的方法。

...

【技术特征摘要】

1.一种声纹识别模型的训练方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的声纹识别模型的训练方法,其特征在于,所述第一融合层、第二融合层、第三融合层均采用融合模块,所述融合模块包括依次连接的加法器、卷积核大小为1×1的卷积层、第一平均池化层、relu激活函数层和第二平均池化层。

3.根据权利要求1所述的声纹识别模型的训练方法,其特征在于,所述采用改进的谱减法滤波算法对所述第一语音数据进行滤波处理,得到第二语音数据,具体包括:

4.根据权利要求1所述的声纹识别模型的训练方法,其特征在于,所述改进的lpc特征提取算法包括预加重、分帧、加窗、自相关分析、lpc分析和倒谱系数转换,其中对lpc分析过程进行改进,改进后的lpc分析过程如下:

5.根据...

【专利技术属性】
技术研发人员:叶林勇肖龙源李海洲李稀敏叶志坚
申请(专利权)人:厦门快商通科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1