System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种小样本下CLAHE的声纹网络识别方法、系统及存储介质技术方案_技高网

一种小样本下CLAHE的声纹网络识别方法、系统及存储介质技术方案

技术编号:44826668 阅读:3 留言:0更新日期:2025-03-28 20:18
本发明专利技术涉及一种小样本下CLAHE的声纹网络识别方法、系统及存储介质,所述方法包括:U1.将TIMIT数据集中的语音信号转化为语谱图;U2.对语谱图采用CLAHE算法进行样本扩充;U3.对样本扩充后的语谱图进行图片裁剪,并将裁剪后的图片进行数据升维,得到数据升维后的语谱图的数据信息;U4.将所述数据升维后的语谱图的数据信息输入efficientnet神经网络模型进行训练和学习,得到训练好的efficientnet神经网络。本发明专利技术不仅可以弥补说话者样本数量过少,还能改善生成样本质量,而且通过结合efficientNet网络强大的泛化能力实现说话人的精确识别。

【技术实现步骤摘要】

本专利技术涉及声纹识别,尤其是涉及一种小样本下clahe的声纹网络识别方法、系统及存储介质。


技术介绍

1、作为声纹识别的关键技术一种是特征提取,另一种是模板匹配。由于不同说话人的口腔、发音习惯都不同,因此每个人的声纹特征都不同。所以可以通过提取不同说话人的声纹特征来区分不同说话人。国内外学者就人耳对语音的听觉特性来进行特征提取,到目前为止提取用来表征语音特征的参数主要有:线性预测编码系数(lpc)、线性预测倒谱系数(lpcc)、梅尔频谱倒谱系数(mfcc)等等。其先后的代表人物有bogert、tukey和cooly、hossan、memon和gregory等。后期的特征提取主要集中在对mfcc的改进上。

2、而特征提取后,需要利用技术手段来针对说话人建立声纹模型。其中较为出色的模型如采用多个高斯概率密度函数来表征模型的gmm模型;在gmm的基础上改进为泛化性更好的通用背景模型gmm-ubm模型;身份向量i-vector模型。之后研究人员逐渐将目光转向模板匹配上,其中先后的代表人物有reynold和rose、dehak和kenny等,他们的研究主要有采用多个高斯概率密度函数的高斯混合模型(gmm)、泛化能力更好的通用背景模型(ubm)、可以用来提取语音信息的联合因子分析(jfa)、身份向量(i-vector)。此外,随着深度学习在语音信号处理、图像处理领域的快速发展与应用,近年来,基于神经网络的相关算法逐渐应用于声纹识别领域,并取得了良好效果。对于目标人物语音数量偏少,样本数据不足的情况下,传统的声纹识别模型处理起来预测精确度较低,模型的泛化能力较弱,使得算法的性能下降,形成的系统无法正常识别,所以需要提出一种新的方法来处理小样本下模型的预测精度过低的问题。要改善模型的预测精度,可以从样本数量出发,结合样本生成算法,快速扩增样本数量,从而改善模型所需数据量,增强模型的泛化能力;第二个角度是改善模型的匹配模板,采用近几年效果最优的efficientnet神经网络,综合调整图像的大小、网络的宽度和深度,从而对模型的特征匹配进行改善,利用增加模型的预测精度和模型的泛化能力,最终实现小样本下说话人的快速识别。


技术实现思路

1、鉴于以上问题,本专利技术提供了一种小样本下clahe的声纹网络识别方法、系统及存储介质,不仅可以弥补说话者样本数量过少,还能改善生成样本质量,而且通过结合efficientnet网络强大的泛化能力实现说话人的精确识别。

2、为了实现上述目的及其他相关目的,本专利技术提供的技术方案如下:一种小样本下clahe的声纹网络识别方法,所述方法包括:

3、u1.将timit数据集中的语音信号转化为语谱图;

4、u2.对语谱图采用clahe算法进行样本扩充;

5、u3.对样本扩充后的语谱图进行图片裁剪,并将裁剪后的图片进行数据升维,得到数据升维后的语谱图的数据信息;

6、u4.将所述数据升维后的语谱图的数据信息输入efficientnet神经网络模型进行训练和学习,得到训练好的efficientnet神经网络;

7、u5.基于所述训练好的efficientnet神经网络,输入数据升维后的语谱图的数据信息,对声纹进行识别,得到识别后的声纹的数据信息。

8、进一步的,在步骤u1中,所述将timit数据集中的语音信号转化为语谱图包括:

9、u11.对语音信号x(t)分帧处理变成x(m,n),t表示时间参数,m表示帧的个数,n表示帧长;

10、u12.对x(m,n)进行fft变换,得到频域信号x(m,n);

11、u13.建立函数y(m,n)=x(m,n)*x(m,n)t绘制周期图y(m,n),其中,x(m,n)t表示x(m,n)的转置;

12、u14.取10*log10[y(m,n)]绘制语谱图。

13、进一步的,在步骤u2中,所述采用clahe算法进行样本扩充包括:

14、u21.根据所述语谱图的灰度值计算概率密度函数p(rk),p(rk)=nk/n,k=0,1,2,3,...,l-1,

15、其中,rk表示第k个灰度级,nk表示rk在灰度图中出现的总次数,n表示灰度图的像素总数,l表示灰度级总数;

16、u22.由概率密度函数p(rk)计算累计分布函数sk,并将sk归一化到(0,255]之间,

17、

18、其中,k=0,1,2,3,...,l-1。

19、进一步的,在步骤u3中,所述对样本扩充后的语谱图进行图片裁剪包括:

20、u31.假设原始语谱图的像素大小为w*h,缩放后图片的像素大小为w*h,在已知原图像素点位置(x,y)的情况下,根据缩放比例,其中,横轴宽x/x=w/w,纵轴高y/y=h/h,得到像素点(x,y)处的像素值f(x,y),

21、f(x,y)=f(w/w*x,h/h*y);

22、u32.当像素点(x,y)处的像素值不为整数时,采用最邻近插值算法进行四舍五入取整,改进后的数学模型表示为:

23、f(x,y)=f([w/w*x],[h/h*y])。

24、进一步的,在步骤u3中,所述将裁剪后的图片进行数据升维为由于efficientnet网络需要输入三个通道的图片数据,而通过clahe处理后的语谱图为单通道的灰度图,此时需要进行升维操作,使得三个通道的数据与第一个通道数据相同,便于后期网络的训练,数据预处理完成。

25、进一步的,在步骤u4中,所述将所述数据升维后的语谱图的数据信息输入efficientnet神经网络模型进行训练和学习包括:

26、u41.基于所述数据升维后的语谱图的数据信息,构建数据升维后的语谱图的数据集;

27、u42.将所述数据升维后的语谱图的数据集按照比例8:2划分为训练集和测试集,并将训练集划分为部分训练集和验证集;

28、u43.将部分训练集输入efficientnet神经网络进行训练和学习,并采用验证集对网络的参数进行修正,得到训练好的efficientnet神经网络。

29、进一步的,所述训练好的efficientnet神经网络的神经元激活函数g为,

30、

31、其中,r为所述部分训练集,α、β和δ为efficientnet神经网络的神经元因子。

32、进一步的,所述训练好的efficientnet神经网络的神经元激活函数g为,

33、

34、其中,r为所述部分训练集,α、β和δ为efficientnet神经网络的神经元因子。

35、进一步的,所述efficientnet神经网络的神经元因子α、β和δ的约束条件为,

36、

37、为了实现上述目的及其他相关目的,本专利技术还提供了一种小样本下clahe的声纹网络识别系统,包括计算机设本文档来自技高网...

【技术保护点】

1.一种小样本下CLAHE的声纹网络识别方法,其特征在于,所述方法包括:

2.根据权利要求1所述的小样本下CLAHE的声纹网络识别方法,其特征在于,在步骤U1中,所述将TIMIT数据集中的语音信号转化为语谱图包括:

3.根据权利要求1所述的小样本下CLAHE的声纹网络识别方法,其特征在于,在步骤U2中,所述采用CLAHE算法进行样本扩充包括:

4.根据权利要求1所述的小样本下CLAHE的声纹网络识别方法,其特征在于,在步骤U3中,所述对样本扩充后的语谱图进行图片裁剪包括:

5.根据权利要求1所述的小样本下CLAHE的声纹网络识别方法,其特征在于,在步骤U3中,所述将裁剪后的图片进行数据升维为由于efficientnet网络需要输入三个通道的图片数据,而通过CLAHE处理后的语谱图为单通道的灰度图,此时需要进行升维操作,使得三个通道的数据与第一个通道数据相同,便于后期网络的训练,数据预处理完成。

6.根据权利要求1所述的小样本下CLAHE的声纹网络识别方法,其特征在于,在步骤U4中,所述将所述数据升维后的语谱图的数据信息输入efficientnet神经网络模型进行训练和学习包括:

7.根据权利要求6所述的小样本下CLAHE的声纹网络识别方法,其特征在于:所述训练好的efficientnet神经网络的神经元激活函数G为,

8.根据权利要求7所述的小样本下CLAHE的声纹网络识别方法,其特征在于:所述efficientnet神经网络的神经元因子α、β和δ的约束条件为,

9.一种小样本下CLAHE的声纹网络识别系统,包括计算机设备,其特征在于,该计算机设备被编程或配置以执行权利要求1~8中任意一项所述的小样本下CLAHE的声纹网络识别方法的步骤。

10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有被编程或配置以执行权利要求1~8中任意一项所述的小样本下CLAHE的声纹网络识别方法的计算机程序。

...

【技术特征摘要】

1.一种小样本下clahe的声纹网络识别方法,其特征在于,所述方法包括:

2.根据权利要求1所述的小样本下clahe的声纹网络识别方法,其特征在于,在步骤u1中,所述将timit数据集中的语音信号转化为语谱图包括:

3.根据权利要求1所述的小样本下clahe的声纹网络识别方法,其特征在于,在步骤u2中,所述采用clahe算法进行样本扩充包括:

4.根据权利要求1所述的小样本下clahe的声纹网络识别方法,其特征在于,在步骤u3中,所述对样本扩充后的语谱图进行图片裁剪包括:

5.根据权利要求1所述的小样本下clahe的声纹网络识别方法,其特征在于,在步骤u3中,所述将裁剪后的图片进行数据升维为由于efficientnet网络需要输入三个通道的图片数据,而通过clahe处理后的语谱图为单通道的灰度图,此时需要进行升维操作,使得三个通道的数据与第一个通道数据相同,便于后期网络的训练,数据预处理完成。

6....

【专利技术属性】
技术研发人员:付浩熊迹冷冰谢辉蔡营罗庚吴广
申请(专利权)人:东风悦享科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1