当前位置: 首页 > 专利查询>苏州大学专利>正文

小样本不均衡语音数据库的生成式数据增强方法及系统技术方案

技术编号:33631124 阅读:9 留言:0更新日期:2022-06-02 01:35
本发明专利技术公开了一种小样本不均衡语音数据库的生成式数据增强方法,包括S1、对原始语音数据进行信号预处理,并对预处理后的语音数据划分训练集与测试集;S2、对训练集数据和测试集数据进行压缩;S3:对压缩后的训练集数据和测试集数据进行独热编码;S4、使用独热编码后的训练集数据训练低残差WaveNet神经网络;S5、使用独热编码后的测试集数据和训练好的低残差WaveNet神经网络生成原始数据库中不存在的语音样本。本发明专利技术小样本不均衡语音数据库的生成式数据增强方法及系统可以生成准确、多样的语音样本以扩充现有小样本不均衡语音数据库,使数据库能够应用更复杂的机器学习算法。使数据库能够应用更复杂的机器学习算法。使数据库能够应用更复杂的机器学习算法。

【技术实现步骤摘要】
小样本不均衡语音数据库的生成式数据增强方法及系统


[0001]本专利技术涉及语音数据增强
,特别涉及一种小样本不均衡语音数据库的生成式数据增强方法及系统。

技术介绍

[0002]数据增强主要用来防止模型的过拟合。随着深度学习的发展,现在用于语音识别、分类等领域的各种机器学习模型都向着高复杂度的方向发展。决定这些机器学习模型效果的因素除了机器学习算法本身外,训练模型所使用的数据库是否有充足的数据量、样本数量是否均衡也有很大影响。由于小样本数据集容易出现过拟合或者泛化能力不强的问题,不均衡数据集会导致模型出现预测偏差,因此需要对原始小样本不均衡语音数据库进行扩充与均衡。
[0003]传统的语音数据增强方法主要有:音量增强、速度增强、音调增强、移动增强、噪声增强、时域掩蔽、频域掩蔽等。用这些增强后的语音来训练机器学习模型,可以一定程度上提高机器学习算法的准确率和鲁棒性。然而,这些增强方法都是针对原始语音的某一类特性进行增强,在一些特殊的数据库中并不适用。如在元音数据库中,音量、速度等都是数据库内某一类样本的固有特征,不能直接对其进行改变。
[0004]基于深度学习的各类语音生成模型可以解决这类问题。但现阶段这类模型主要用于更精确、实时的语音生成,本身模型的训练就需要海量的数据。即使使用已经训练好的模型,在对如元音数据库等特殊数据库进行生成式数据增强时也存在生成样本单一、生成数据效果不理想等问题。
[0005]综上所述,在面对小样本不均衡语音数据库时,有必要设计一种适用的数据增强模型,该模型能够使用原始小样本不均衡数据库进行训练,且能针对不同数据库生成准确、多样的数据。

技术实现思路

[0006]本专利技术要解决的技术问题是提供一种可以生成准确、多样的语音样本以扩充现有小样本不均衡语音数据库,使数据库能够应用更复杂的机器学习算法小样本不均衡语音数据库的生成式数据增强方法。
[0007]为了解决上述问题,本专利技术提供了一种小样本不均衡语音数据库的生成式数据增强方法,所述小样本不均衡语音数据库的生成式数据增强方法包括:
[0008]S1、对原始语音数据进行信号预处理,并对预处理后的语音数据划分训练集与测试集;
[0009]S2、对训练集数据和测试集数据进行压缩;
[0010]S3:对压缩后的训练集数据和测试集数据进行独热编码;
[0011]S4、使用独热编码后的训练集数据训练低残差WaveNet神经网络;
[0012]S5、使用独热编码后的测试集数据和训练好的低残差WaveNet神经网络生成原始
数据库中不存在的语音样本。
[0013]作为本专利技术的进一步改进,所述对原始语音数据进行信号预处理,包括:对原始语音数据进行预加重和归一化处理,如下:
[0014][0015]其中,为预加重后的语音数据,x(n)、x(n

1)为原始语音数据第n个采样点和第n

1个采样点,α为预加重系数,N为数据总长度;
[0016][0017]其中,S(n)为归一化后的语音数据,为预加重后的语音数据,N为语音数据总长度。
[0018]作为本专利技术的进一步改进,所述对训练集数据和测试集数据进行压缩,包括:
[0019]利用以下公式对训练集数据和测试集数据进行压缩:
[0020][0021]其中,f(x
t
)为压缩后的语音数据,x
t
为时间点t时的语音数据,μ为压缩系数。
[0022]作为本专利技术的进一步改进,步骤S3中,独热编码的方法如下:将值为

1到1之间的数值区间分为n段,每一个连续值由n位的二进制数字表示,n位二进制数字中只有一位为1,其余为0,为1的那一位即该数字在n段数值区间中的位置。
[0023]作为本专利技术的进一步改进,步骤S4中,所述低残差WaveNet神经网络包括多个具有相同结构的残差块,每个残差块包含多个扩张率指数增加的扩张因果卷积,训练步骤如下:
[0024]S41、从训练集中随机选取k段长度为网络卷积操作的感受野个点的语音片段送入低残差WaveNet神经网络;
[0025]S42、取输入数据之后的16个点作为真实输出,计算真实输出与预测输出的误差损失函数,计算如下:
[0026][0027]其中,L(X)为点x的损失值,p(x
i
)为点x的真实数据值,q(x
i
)为点x的预测数据值,n为独热编码的长度;
[0028]S43、更新神经网络权值参数;
[0029]S44、重复步骤S41

S43,直至损失函数达到设定值或完成设定的训练次数。
[0030]作为本专利技术的进一步改进,步骤S5包括:使用独热编码后的测试集数据和训练好的低残差WaveNet神经网络生成一个点的语音样本数据,再将生成的语音样本数据作为低残差WaveNet神经网络的输入,并生成下一个点的语音样本数据,直至生成语音样本数据长度达到设定值。
[0031]为了解决上述问题,本专利技术还提供了一种小样本不均衡语音数据库的生成式数据增强系统,其包括:
[0032]预处理模块,用于对原始语音数据进行信号预处理,并对预处理后的语音数据划分训练集与测试集;
[0033]压缩模块,用于对训练集数据和测试集数据进行压缩;
[0034]编码模块,用于对压缩后的训练集数据和测试集数据进行独热编码;
[0035]神经网络训练模块,用于使用独热编码后的训练集数据训练低残差WaveNet神经网络;
[0036]语音样本生成模块,用于使用独热编码后的测试集数据和训练好的低残差WaveNet神经网络生成原始数据库中不存在的语音样本。
[0037]作为本专利技术的进一步改进,所述对原始语音数据进行信号预处理,包括:
[0038]对原始语音数据进行预加重和归一化处理,如下:
[0039][0040]其中,为预加重后的语音数据,x(n)、x(n

1)为原始语音数据第n个采样点和第n

1个采样点,α为预加重系数,N为数据总长度;
[0041][0042]其中,S(n)为归一化后的语音数据,为预加重后的语音数据,N为语音数据总长度。
[0043]作为本专利技术的进一步改进,所述对训练集数据和测试集数据进行压缩,包括:
[0044]利用以下公式对训练集数据和测试集数据进行压缩:
[0045][0046]其中,f(x
t
)为压缩后的语音数据,x
t
为时间点t时的语音数据,μ为压缩系数。
[0047]作为本专利技术的进一步改进,所述低残差WaveNet神经网络包括多个具有相同结构的残差块,每个残差块包含多个扩张率指数增加的扩张因果卷积,训练步骤如下:
[0048]S41、从训练集中随机选取k段长度为网络卷积操作的感受野个点的语音片本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.小样本不均衡语音数据库的生成式数据增强方法,其特征在于,包括:S1、对原始语音数据进行信号预处理,并对预处理后的语音数据划分训练集与测试集;S2、对训练集数据和测试集数据进行压缩;S3:对压缩后的训练集数据和测试集数据进行独热编码;S4、使用独热编码后的训练集数据训练低残差WaveNet神经网络;S5、使用独热编码后的测试集数据和训练好的低残差WaveNet神经网络生成原始数据库中不存在的语音样本。2.如权利要求1所述的小样本不均衡语音数据库的生成式数据增强方法,其特征在于,所述对原始语音数据进行信号预处理,包括:对原始语音数据进行预加重和归一化处理,如下:其中,为预加重后的语音数据,x(n)、x(n

1)为原始语音数据第n个采样点和第n

1个采样点,α为预加重系数,N为数据总长度;其中,S(n)为归一化后的语音数据,为预加重后的语音数据,N为语音数据总长度。3.如权利要求1所述的小样本不均衡语音数据库的生成式数据增强方法,其特征在于,所述对训练集数据和测试集数据进行压缩,包括:利用以下公式对训练集数据和测试集数据进行压缩:其中,f(x
t
)为压缩后的语音数据,x
t
为时间点t时的语音数据,μ为压缩系数。4.如权利要求1所述的小样本不均衡语音数据库的生成式数据增强方法,其特征在于,步骤S3中,独热编码的方法如下:将值为

1到1之间的数值区间分为n段,每一个连续值由n位的二进制数字表示,n位二进制数字中只有一位为1,其余为0,为1的那一位即该数字在n段数值区间中的位置。5.如权利要求1所述的小样本不均衡语音数据库的生成式数据增强方法,其特征在于,步骤S4中,所述低残差WaveNet神经网络包括多个具有相同结构的残差块,每个残差块包含多个扩张率指数增加的扩张因果卷积,训练步骤如下:S41、从训练集中随机选取k段长度为网络卷积操作的感受野个点的语音片段送入低残差WaveNet神经网络;S42、取输入数据之后的16个点作为真实输出,计算真实输出与预测输出的误差损失函数,计算如下:其中,L(X)为点x的损失值,p(x
i
)为点x的真实数据值,q(x
i
)为点x的预测数据值,n为独
热编码的长度;S43、更新神经网络权值参数;S44、重复步骤S41

S43,直至损失函数达到设定值或完成设定的训练次数。6.如权利要求1所述的小样本不均衡语音...

【专利技术属性】
技术研发人员:陶智钱金阳章溢华张晓俊许宜申
申请(专利权)人:苏州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1