一种基于混合掩蔽学习目标的语音增强方法:进行语音信号的传统特征提取,包括将获取的语音信号分为训练集和测试集,分别提取训练集和测试集的语音信号的传统特征;分别提取训练集和测试集的语音信号的STFT域的幅度谱特征;构建深度堆叠残差网络;构建学习目标;利用提取到的训练集的传统特征和STFT域的幅度谱特征以及学习目标训练深度堆叠残差网络;将提取的测试集的传统特征和STFT域的幅度谱特征输入到训练好的深度堆叠残差网络,得到预测的学习目标,对预测的学习目标通过ISTFT得到增强后的语音信号,计算语音信号的PESQ值。本发明专利技术在语音主导的时频单元不保留噪声信息,减小了计算量,容易训练神经网络学习以提升语音的可懂度和质量。
A speech enhancement method based on hybrid masking learning target
【技术实现步骤摘要】
一种基于混合掩蔽学习目标的语音增强方法
本专利技术涉及一种混合掩蔽学习目标。特别是涉及一种基于混合掩蔽学习目标的语音增强方法。
技术介绍
目前,基于深度学习的语音增强方法众多,关键技术主要涉及提取何种特征、采用何种模型和学习何种目标三个方面的内容。与特征一样,学习目标的研究也非常有价值,在相同的训练数据特征和学习模型的前提下,通过更优的学习目标能使得模型训练地更好。在利用有监督神经网络的语音增强系统中,学习目标的获取一般是基于背景噪音和纯净语音计算得到的,有效的学习目标对语音增强模型的学习能力以及系统的泛化性具有重要的影响。目前使用的语音增强学习目标主要包括两类:基于时频掩蔽的训练目标和基于语音幅度谱估计的目标。前一类目标反映的是混合信号中的纯净语音信号和背景噪声之间的能量关系,后一类目标是纯净的目标语音的幅度谱特征。常用的时频掩蔽目标包括:理想二值掩蔽(IdealBinaryMask,IBM),理想浮值掩蔽(IdealRatioMask,IRM),目标二值掩蔽(TargetBinaryMask,TBM)等;其中,最常用的学习目标为理想二值掩蔽和理想浮值掩蔽,但是这两种学习目标各自又有预测不准确、泛化性差等不足。当学习目标为IRM时,模型仅需要归类(0或1)每一个时频单元属于噪声主导还是目标语音主导,这会导致在目标语音主导的时频单元内保留噪声信息,这些噪声信号会严重影响语音的可懂度和质量;当学习目标为IRM时,模型需要对每一个时频单元内的系数进行预测,在被噪声主导的时频单元内,提取的特征不能很好的表征此时频单元内的目标语音的特征,但是对于模型来说,很难准确的预测该时频单元的系数。
技术实现思路
本专利技术所要解决的技术问题是,提供一种能够提升语音的可懂度和质量的基于混合掩蔽学习目标的语音增强方法。本专利技术所采用的技术方案是:一种基于混合掩蔽学习目标的语音增强方法,包括,如下步骤:1)进行语音信号的传统特征提取,包括将获取的语音信号分为训练集和测试集,分别提取训练集和测试集的语音信号的传统特征;2)分别提取训练集和测试集的语音信号的STFT域的幅度谱特征;3)构建深度堆叠残差网络;4)构建学习目标;5)利用提取到的训练集的传统特征和STFT域的幅度谱特征以及学习目标训练深度堆叠残差网络;6)将提取的测试集的传统特征和STFT域的幅度谱特征输入到训练好的深度堆叠残差网络,得到预测的学习目标,对预测的学习目标通过ISTFT得到增强后的语音信号,计算语音信号的PESQ值。本专利技术的一种基于混合掩蔽学习目标的语音增强方法,结合了理想二值掩蔽学习目标和理想浮值掩蔽学习目标的优点。首先保证在语音主导的时频单元不保留噪声信息;而在噪声主导的时频单元将学习目标直接归0,虽然有可能损失小部分语音信息,但因为数据冗余度变小,相比于IRM的学习目标既可以保证性能更优,又减小了计算量;并且,因为混合掩蔽包含0时频单元的原因,相对于IRM的学习目标,神经网络的拟合能力、计算准确率也得到了进一步的提高,更容易训练神经网络学习以提升语音的可懂度和质量。具体实施方式下面结合实施例对本专利技术的一种基于混合掩蔽学习目标的语音增强方法做出详细说明。本专利技术的一种基于混合掩蔽学习目标的语音增强方法,包括,如下步骤:1)进行语音信号的传统特征提取,包括将获取的语音信号分为训练集和测试集,分别提取训练集和测试集的语音信号的传统特征;包括:从TIMIT语料库的训练部分随机抽取1500段语音,与从NOISEX-92语料库抽取的9种噪声随机混合,在-5~5dB的连续变化信噪比下生成1500段混合语音信号构成训练集,从TIMIT语料库的测试部分随机选择500段纯净的语音,与从NOISEX-92语料库抽取的15种语音随机混合,在-10、-8、-6、-4、-2、0、2、4、6、8dB10种不同信噪比环境下生成500段混合语音信号构成测试集。所述的提取训练集和测试集的语音信号的传统特征过程相同,均包括分别得到如下不同的特征向量:(1)对采样率为16kHz的混合语音信号进行512点短时傅里叶变换,采用20ms帧长的汉明窗和10ms的帧移,提取31维MFCC特征向量,并计算出31维MFCC特征向量的一阶倒数;(2)对采样率为16kHz的混合语音信号进行全波整流提取混合语音信号的包络,然后进行四分之一抽样后采用32ms帧长和10ms帧移的汉明窗进行分帧,利用15个中心频率均匀分布在15.6到400Hz的三角窗得到15维的AMS特征向量,并计算出15维的AMS特征向量的一阶倒数;(3)将采样率为16kHz的混合语音信号采用64通道的Gammatone滤波器组分解,对每一个分解输出结果使用100Hz的采样率进行采样,得到的采样信号采用通过立方根操作进行幅度压制,最终提取到64维的Gammatone特征向量,并计算出64维的Gammatone特征向量的一阶倒数;(4)将采样率为16kHz的混合语音信号采用梯形滤波器将功率谱转换到20通道的巴克尺度,然后应用等响度预加重,再使用强度响度定律,使用12阶线性预测模型,得到13维PLP特征向量,并计算出13维PLP特征向量的一阶倒数;分别将31维MFCC特征向量、15维的AMS特征向量、64维的Gammatone特征向量和13维PLP特征向量进行串联得到123维特征向量,将31维MFCC特征向量的一阶倒数、15维的AMS特征向量的一阶倒数、64维的Gammatone特征向量的一阶倒数和13维PLP特征向量的一阶倒数进行串联得到123维特征向量,将两种123维特征向量进行串联,得到246维特征向量;再分别获取采样率为16kHz的混合语音信号的过零率特征、均方根能量特征、频谱质心的特征,与所述的246维特征向量共同构成269维特征向量,将所述的269维特征向量送入烟花算法特征选择器进行特征降维,其中初始化烟花个数N为400,特征子集维度M取50、70与90。2)分别提取训练集和测试集的语音信号的STFT域的幅度谱特征;所述的提取训练集和测试集的语音信号的STFT域的幅度谱特征和方法相同,均包括:对采样率为16kHz的混合语音信号进行短时傅里叶变换,变换过程中采用25ms帧长、10ms帧移的汉明窗对混合语音信号进行分帧,在输入与传统特征相对应每单帧的幅度谱时,加上与该单帧左右相邻两帧的幅度谱,总共为5帧,每一帧的幅度谱的维度为200,得到输入维度为1000的STFT域的幅度谱特征。3)构建深度堆叠残差网络;其中,所述的深度堆叠残差网络包括:输入通道一、输入通道二和连接在所述输入通道一、输入通道二联后的输出端的全连接残差网络模块,其中,所述的输入通道一:是由卷积残差网络模块通过残差网络组合而成的三层卷积层和三层归一化层构成,卷积核维度都设为2,卷积核步长都设为1,且采用补0的方式,三层卷积层中,从上到下第一层卷积层的卷积核大小为1*1,输出通道数为32本文档来自技高网...
【技术保护点】
1.一种基于混合掩蔽学习目标的语音增强方法,其特征在于,包括,如下步骤:/n1)进行语音信号的传统特征提取,包括将获取的语音信号分为训练集和测试集,分别提取训练集和测试集的语音信号的传统特征;/n2)分别提取训练集和测试集的语音信号的STFT域的幅度谱特征;/n3)构建深度堆叠残差网络;/n4)构建学习目标;/n5)利用提取到的训练集的传统特征和STFT域的幅度谱特征以及学习目标训练深度堆叠残差网络;/n6)将提取的测试集的传统特征和STFT域的幅度谱特征输入到训练好的深度堆叠残差网络,得到预测的学习目标,对预测的学习目标通过ISTFT得到增强后的语音信号,计算语音信号的PESQ值。/n
【技术特征摘要】
1.一种基于混合掩蔽学习目标的语音增强方法,其特征在于,包括,如下步骤:
1)进行语音信号的传统特征提取,包括将获取的语音信号分为训练集和测试集,分别提取训练集和测试集的语音信号的传统特征;
2)分别提取训练集和测试集的语音信号的STFT域的幅度谱特征;
3)构建深度堆叠残差网络;
4)构建学习目标;
5)利用提取到的训练集的传统特征和STFT域的幅度谱特征以及学习目标训练深度堆叠残差网络;
6)将提取的测试集的传统特征和STFT域的幅度谱特征输入到训练好的深度堆叠残差网络,得到预测的学习目标,对预测的学习目标通过ISTFT得到增强后的语音信号,计算语音信号的PESQ值。
2.根据权利要求1所述的一种基于混合掩蔽学习目标的语音增强方法,其特征在于,步骤1)包括:从TIMIT语料库的训练部分随机抽取1500段语音,与从NOISEX-92语料库抽取的9种噪声随机混合,在-5~5dB的连续变化信噪比下生成1500段混合语音信号构成训练集,从TIMIT语料库的测试部分随机选择500段纯净的语音,与从NOISEX-92语料库抽取的15种语音随机混合,在-10、-8、-6、-4、-2、0、2、4、6、8dB10种不同信噪比环境下生成500段混合语音信号构成测试集。
3.根据权利要求2所述的一种基于混合掩蔽学习目标的语音增强方法,其特征在于,步骤1)所述的提取训练集和测试集的语音信号的传统特征过程相同,均包括分别得到如下不同的特征向量:
(1)对采样率为16kHz的混合语音信号进行512点短时傅里叶变换,采用20ms帧长的汉明窗和10ms的帧移,提取31维MFCC特征向量,并计算出31维MFCC特征向量的一阶倒数;
(2)对采样率为16kHz的混合语音信号进行全波整流提取混合语音信号的包络,然后进行四分之一抽样后采用32ms帧长和10ms帧移的汉明窗进行分帧,利用15个中心频率均匀分布在15.6到400Hz的三角窗得到15维的AMS特征向量,并计算出15维的AMS特征向量的一阶倒数;
(3)将采样率为16kHz的混合语音信号采用64通道的Gammatone滤波器组分解,对每一个分解输出结果使用100Hz的采样率进行采样,得到的采样信号采用通过立方根操作进行幅度压制,最终提取到64维的Gammatone特征向量,并计算出64维的Gammatone特征向量的一阶倒数;
(4)将采样率为16kHz的混合语音信号采用梯形滤波器将功率谱转换到20通道的巴克尺度,然后应用等响度预加重,再使用强度响度定律,使用12阶线性预测模型,得到13维PLP特征向量,并计算出13维PLP特征向量的一阶倒数;
分别将31维MFCC特征向量、15维的AMS特征向量、64维的Gammatone特征向量和13维PLP特征向量进行串联得到123维特征向量,将31维MFCC特征向量的一阶倒数、15维的AMS特征向量的一阶倒数、64维的Gammatone特征向量的一阶倒数和13维PLP特征向量的一阶倒数进行串联得到123维特征向量,将两种123维特征向量进行串联,得到246维特...
【专利技术属性】
技术研发人员:张涛,王泽宇,朱诚诚,
申请(专利权)人:天津大学,
类型:发明
国别省市:天津;12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。