System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及声纹识别,尤其是涉及一种小样本下clahe的声纹网络识别方法、系统及存储介质。
技术介绍
1、作为声纹识别的关键技术一种是特征提取,另一种是模板匹配。由于不同说话人的口腔、发音习惯都不同,因此每个人的声纹特征都不同。所以可以通过提取不同说话人的声纹特征来区分不同说话人。国内外学者就人耳对语音的听觉特性来进行特征提取,到目前为止提取用来表征语音特征的参数主要有:线性预测编码系数(lpc)、线性预测倒谱系数(lpcc)、梅尔频谱倒谱系数(mfcc)等等。其先后的代表人物有bogert、tukey和cooly、hossan、memon和gregory等。后期的特征提取主要集中在对mfcc的改进上。
2、而特征提取后,需要利用技术手段来针对说话人建立声纹模型。其中较为出色的模型如采用多个高斯概率密度函数来表征模型的gmm模型;在gmm的基础上改进为泛化性更好的通用背景模型gmm-ubm模型;身份向量i-vector模型。之后研究人员逐渐将目光转向模板匹配上,其中先后的代表人物有reynold和rose、dehak和kenny等,他们的研究主要有采用多个高斯概率密度函数的高斯混合模型(gmm)、泛化能力更好的通用背景模型(ubm)、可以用来提取语音信息的联合因子分析(jfa)、身份向量(i-vector)。此外,随着深度学习在语音信号处理、图像处理领域的快速发展与应用,近年来,基于神经网络的相关算法逐渐应用于声纹识别领域,并取得了良好效果。对于目标人物语音数量偏少,样本数据不足的情况下,传统的声纹识别模型处理起来
技术实现思路
1、鉴于以上问题,本专利技术提供了一种小样本下clahe的声纹网络识别方法、系统及存储介质,不仅可以弥补说话者样本数量过少,还能改善生成样本质量,而且通过结合efficientnet网络强大的泛化能力实现说话人的精确识别。
2、为了实现上述目的及其他相关目的,本专利技术提供的技术方案如下:一种小样本下clahe的声纹网络识别方法,所述方法包括:
3、u1.将timit数据集中的语音信号转化为语谱图;
4、u2.对语谱图采用clahe算法进行样本扩充;
5、u3.对样本扩充后的语谱图进行图片裁剪,并将裁剪后的图片进行数据升维,得到数据升维后的语谱图的数据信息;
6、u4.将所述数据升维后的语谱图的数据信息输入efficientnet神经网络模型进行训练和学习,得到训练好的efficientnet神经网络;
7、u5.基于所述训练好的efficientnet神经网络,输入数据升维后的语谱图的数据信息,对声纹进行识别,得到识别后的声纹的数据信息。
8、进一步的,在步骤u1中,所述将timit数据集中的语音信号转化为语谱图包括:
9、u11.对语音信号x(t)分帧处理变成x(m,n),t表示时间参数,m表示帧的个数,n表示帧长;
10、u12.对x(m,n)进行fft变换,得到频域信号x(m,n);
11、u13.建立函数y(m,n)=x(m,n)*x(m,n)t绘制周期图y(m,n),其中,x(m,n)t表示x(m,n)的转置;
12、u14.取10*log10[y(m,n)]绘制语谱图。
13、进一步的,在步骤u2中,所述采用clahe算法进行样本扩充包括:
14、u21.根据所述语谱图的灰度值计算概率密度函数p(rk),p(rk)=nk/n,k=0,1,2,3,...,l-1,
15、其中,rk表示第k个灰度级,nk表示rk在灰度图中出现的总次数,n表示灰度图的像素总数,l表示灰度级总数;
16、u22.由概率密度函数p(rk)计算累计分布函数sk,并将sk归一化到(0,255]之间,
17、
18、其中,k=0,1,2,3,...,l-1。
19、进一步的,在步骤u3中,所述对样本扩充后的语谱图进行图片裁剪包括:
20、u31.假设原始语谱图的像素大小为w*h,缩放后图片的像素大小为w*h,在已知原图像素点位置(x,y)的情况下,根据缩放比例,其中,横轴宽x/x=w/w,纵轴高y/y=h/h,得到像素点(x,y)处的像素值f(x,y),
21、f(x,y)=f(w/w*x,h/h*y);
22、u32.当像素点(x,y)处的像素值不为整数时,采用最邻近插值算法进行四舍五入取整,改进后的数学模型表示为:
23、f(x,y)=f([w/w*x],[h/h*y])。
24、进一步的,在步骤u3中,所述将裁剪后的图片进行数据升维为由于efficientnet网络需要输入三个通道的图片数据,而通过clahe处理后的语谱图为单通道的灰度图,此时需要进行升维操作,使得三个通道的数据与第一个通道数据相同,便于后期网络的训练,数据预处理完成。
25、进一步的,在步骤u4中,所述将所述数据升维后的语谱图的数据信息输入efficientnet神经网络模型进行训练和学习包括:
26、u41.基于所述数据升维后的语谱图的数据信息,构建数据升维后的语谱图的数据集;
27、u42.将所述数据升维后的语谱图的数据集按照比例8:2划分为训练集和测试集,并将训练集划分为部分训练集和验证集;
28、u43.将部分训练集输入efficientnet神经网络进行训练和学习,并采用验证集对网络的参数进行修正,得到训练好的efficientnet神经网络。
29、进一步的,所述训练好的efficientnet神经网络的神经元激活函数g为,
30、
31、其中,r为所述部分训练集,α、β和δ为efficientnet神经网络的神经元因子。
32、进一步的,所述训练好的efficientnet神经网络的神经元激活函数g为,
33、
34、其中,r为所述部分训练集,α、β和δ为efficientnet神经网络的神经元因子。
35、进一步的,所述efficientnet神经网络的神经元因子α、β和δ的约束条件为,
36、
37、为了实现上述目的及其他相关目的,本专利技术还提供了一种小样本下clahe的声纹网络识别系统,包括计算机设本文档来自技高网...
【技术保护点】
1.一种小样本下CLAHE的声纹网络识别方法,其特征在于,所述方法包括:
2.根据权利要求1所述的小样本下CLAHE的声纹网络识别方法,其特征在于,在步骤U1中,所述将TIMIT数据集中的语音信号转化为语谱图包括:
3.根据权利要求1所述的小样本下CLAHE的声纹网络识别方法,其特征在于,在步骤U2中,所述采用CLAHE算法进行样本扩充包括:
4.根据权利要求1所述的小样本下CLAHE的声纹网络识别方法,其特征在于,在步骤U3中,所述对样本扩充后的语谱图进行图片裁剪包括:
5.根据权利要求1所述的小样本下CLAHE的声纹网络识别方法,其特征在于,在步骤U3中,所述将裁剪后的图片进行数据升维为由于efficientnet网络需要输入三个通道的图片数据,而通过CLAHE处理后的语谱图为单通道的灰度图,此时需要进行升维操作,使得三个通道的数据与第一个通道数据相同,便于后期网络的训练,数据预处理完成。
6.根据权利要求1所述的小样本下CLAHE的声纹网络识别方法,其特征在于,在步骤U4中,所述将所述数据升维后的语谱图的数据信息输
7.根据权利要求6所述的小样本下CLAHE的声纹网络识别方法,其特征在于:所述训练好的efficientnet神经网络的神经元激活函数G为,
8.根据权利要求7所述的小样本下CLAHE的声纹网络识别方法,其特征在于:所述efficientnet神经网络的神经元因子α、β和δ的约束条件为,
9.一种小样本下CLAHE的声纹网络识别系统,包括计算机设备,其特征在于,该计算机设备被编程或配置以执行权利要求1~8中任意一项所述的小样本下CLAHE的声纹网络识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有被编程或配置以执行权利要求1~8中任意一项所述的小样本下CLAHE的声纹网络识别方法的计算机程序。
...【技术特征摘要】
1.一种小样本下clahe的声纹网络识别方法,其特征在于,所述方法包括:
2.根据权利要求1所述的小样本下clahe的声纹网络识别方法,其特征在于,在步骤u1中,所述将timit数据集中的语音信号转化为语谱图包括:
3.根据权利要求1所述的小样本下clahe的声纹网络识别方法,其特征在于,在步骤u2中,所述采用clahe算法进行样本扩充包括:
4.根据权利要求1所述的小样本下clahe的声纹网络识别方法,其特征在于,在步骤u3中,所述对样本扩充后的语谱图进行图片裁剪包括:
5.根据权利要求1所述的小样本下clahe的声纹网络识别方法,其特征在于,在步骤u3中,所述将裁剪后的图片进行数据升维为由于efficientnet网络需要输入三个通道的图片数据,而通过clahe处理后的语谱图为单通道的灰度图,此时需要进行升维操作,使得三个通道的数据与第一个通道数据相同,便于后期网络的训练,数据预处理完成。
6....
【专利技术属性】
技术研发人员:付浩,熊迹,冷冰,谢辉,蔡营,罗庚,吴广,
申请(专利权)人:东风悦享科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。