当前位置: 首页 > 专利查询>武汉大学专利>正文

一种基于时频域生成对抗网络的语音增强方法技术

技术编号:28472724 阅读:23 留言:0更新日期:2021-05-15 21:40
本发明专利技术公开了一种基于时频域生成对抗网络的语音增强方法,在传统的基于时频域生成对抗网络的语音增强方法的基础上,通过增加一个频域鉴别器,使语音增强模型能够同时学习到输入语音的时域特征和频域特征,以提高模型的性能。其中,时域鉴别器直接判别生成器输出的增强语音;频域鉴别器则对增强语音做短时傅里叶变换后得到频域特征进行判别。模型训练时,时域和频域鉴别器同时监督生成器,使生成器能够同时学习到语音和噪声的时域和频域特征。并且,为了保留原始语音的底层信息和防止生成器产生过拟合,在模型的损失函数中加入频域约束项。本发明专利技术方法增强性能更好,且其能处理的噪声种类更多、适用的场景更广。适用的场景更广。适用的场景更广。

【技术实现步骤摘要】
一种基于时频域生成对抗网络的语音增强方法


[0001]本专利技术涉及语音增强技术,特别涉及一种基于时频域生成对抗网络的语音增强方法。

技术介绍

[0002]语音增强是指通过一定方法抑制和降低语音中噪声的技术,其主要目的是提高语音的质量和可懂度。语音增强技术发展于上个世纪70年代,至今已有约50年的历史。从最早的谱减法,到后来的基于统计模型的方法,再到基于深度学习的方法,语音增强技术发展迅速。
[0003]基于深度学习的语音增强方法主要包括:基于深度神经网络(Deep Neural Networks,DNN)的语音增强方法、基于卷积神经网络(Convolutional Neural Networks,CNN)的语音增强方法、基于循环神经网络(Recurrent Neural Network,,RNN)的语音增强方法和基于生成对抗网络(Generative Adversarial Networks,GAN)的语音增强方法。其中,基于GAN的语音增强方法性能良好。使用该方法增强过的语音失真小,清晰度和可懂度高。但是,传统的基于GAN的语音增强方法(SEGAN)仅在时域上将带噪语音映射为干净语音,忽略了语音和噪声的频域特性。

技术实现思路

[0004]传统的基于GAN的语音增强方法使用语音信号的时域特征进行模型训练,旨在学习时域上带噪语音和干净语音的映射关系。虽然该方法训练出的模型能够较好地拟合语音和噪声的时域特性,但是其完全忽略了语音和噪声的频域特性。这就导致其对多噪声源的声学场景适应度低,以及对某些特定噪声的抑制效果很差。
[0005]鉴于传统的基于GAN的语音增强方法的局限性,本专利技术提出了基于时频域生成对抗网络的语音增强方法(TF

SEGAN)。本专利技术通过在SEGAN模型中增加一个频域鉴别器,来使语音增强模型能够同时学习到语音和噪声的时域和频域特性,从而提高性能和泛化性。
[0006]本专利技术的方案为一种基于时频域生成对抗网络的语音增强方法,包括以下步骤:
[0007]步骤1:构建生成器网络;
[0008]步骤2,构建鉴别器网络;
[0009]步骤3,构建生成对抗网络训练集;
[0010]步骤4,训练生成对抗网络模型;
[0011]作为优选,步骤1所述生成器网络由编码器、解码器级联组成:
[0012]所述编码器由输入层,隐藏层和输出层组成;
[0013]所述编码器输入层采用全连接神经网络层(DNN),其输入为带噪语音x
c
,输出为e
in
维的带噪语音时域特征向量y
c

[0014]所述编码器隐藏层由n0层一维跨步卷积层依次级联构成,整个隐藏层的输入为e
in
维的带噪语音时域特征向量y
c
,输出为e
n0
维的特征向量y
e

[0015]所述编码器隐藏层,从第1层到第n0层的输出维度分别为:e1、e2、e3…
e
n0

[0016]其中,所有一维跨步卷积层的卷积核大小均为k0,卷积步长均为s0,输入通道数均为c0;
[0017]每一层一维跨步卷积层采用的神经网络激活函数为带参整流线性单元:
[0018][0019]其中,y
i
为第i个神经元的值,α
i
为参数。
[0020]编码器输出层采用上述一维跨步卷积层,其输入为e
n0
维的特征向量y
e
,输出为l
c
维的隐藏向量c。
[0021]所述解码器由输入层,隐藏层和输出层级联组成,所述解码器与所述编码器在结构上呈镜像对称;
[0022]所述解码器输入层采用一维反卷积层,其输入为l
c
维的隐藏向量c,输出为d1维的特征向量y1。
[0023]所述解码器隐藏层由n0层一维反卷积层依次级联构成,整个隐藏层的输入为d1维的带噪语音时域特征向量y1,输出为d
n0
维的特征向量y
e

[0024]所述解码器隐藏层(从第1层到第n0层)的输出维度分别为:d1、d2、d3…
d
n0

[0025]其中,所有反卷积层的卷积核大小都为k,卷积步长都为s,输入通道数都为c,激活函数采用带参整流线性单元;
[0026]所述解码器输出层采用全连接神经网络层(DNN),其输入为d
n0
维的特征向量y
e
,输出为增强语音x
e

[0027]将所述编码器的每一层与所述解码器对应的层链接起来,具体为:
[0028]所述编码器中第k层一维跨步卷积层与所述解码器中第k层反卷积层连接;
[0029]作为优选,步骤2所述鉴别器网络由时域鉴别器、频域鉴别器并行构成;
[0030]所述时域鉴别器由输入层,隐藏层和输出层组成;
[0031]所述时域鉴别器输入层采用全连接神经网络层(DNN),其输入为干净语音x和生成器输出的增强语音x
e
,输出为e
in
维的干净语音时域特征y和生成器输出语音时域特征y
e

[0032]所述时域鉴别器的隐藏层由n1层一维跨步卷积层级联构成;
[0033]其中,前n1‑
1层隐藏层的卷积核大小均为k1,卷积步长均为s1,输入通道数均为c1。每一层一维卷积层的激活函数都采用LeakyReLU,具体如下:
[0034][0035]其中,参数α
i
为泄露参数,设置为0.3;x
i
为第i个神经元的值;y
i
为第i个神经元的输出。
[0036]第n1层隐藏层的卷积核为k2,卷积步长均为s2,输入通道数均为c2的一维卷积层,其输入为T
n
维的特征向量,输出为T
n+1
维的特征向量。
[0037]所述时域鉴别器的输出层采用softmax分类层,实现鉴别器的分类与判别功能,其输入为T
n+1
维的特征向量,输出为概率P
T

[0038]其中,分类层采用softmax分类器,将特征提取网络的输出表征为不同类别之间的相对概率,进行最终的类别预测,如下所示:
[0039][0040]其中,i表示第i个类别,N表示类别总数,V
i
表示第i个类别的概率值,S
i
表示经softmax处理之后第i个类别的概率值;
[0041]为了防止网络训练时出现训练不稳定或不收敛的情况,所述频域鉴别器与所述时域鉴别器的网络结构完全相同。不同的是,频域鉴别器的输入为干净语音和生成器输出的增强语音分别进行短时傅里叶变换得到的频域幅度谱X和X
e
,输出本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于时频域生成对抗网络的语音增强方法,其特征在于,包括以下步骤:步骤1:构建生成器网络;步骤2,构建鉴别器网络;步骤2所述鉴别器网络由时域鉴别器、频域鉴别器并行构成;所述时域鉴别器由输入层,隐藏层和输出层组成;所述时域鉴别器输入层采用全连接神经网络层(DNN),其输入为干净语音x和生成器输出的增强语音x
e
,输出为e
in
维的干净语音时域特征y和生成器输出语音时域特征y
e
;所述时域鉴别器的隐藏层由n1层一维跨步卷积层级联构成;其中,前n1‑
1层隐藏层的卷积核大小均为k1,卷积步长均为s1,输入通道数均为c1;每一层一维卷积层的激活函数都采用LeakyReLU,具体如下:其中,参数α
i
为泄露参数,设置为0.3;x
i
为第i个神经元的值;y
i
为第i个神经元的输出;第n1层隐藏层的卷积核为k2,卷积步长均为s2,输入通道数均为c2的一维卷积层,其输入为T
n
维的特征向量,输出为T
n+1
维的特征向量;所述时域鉴别器的输出层采用softmax分类层,实现鉴别器的分类与判别功能,其输入为T
n+1
维的特征向量,输出为概率P
T
;其中,分类层采用softmax分类器,将特征提取网络的输出表征为不同类别之间的相对概率,进行最终的类别预测,如下所示:其中,i表示第i个类别,N表示类别总数,表示第i个类别的概率值,表示经softmax处理之后第i个类别的概率值;为了防止网络训练时出现训练不稳定或不收敛的情况,所述频域鉴别器与所述时域鉴别器的网络结构完全相同;不同的是,频域鉴别器的输入为干净语音和生成器输出的增强语音分别进行短时傅里叶变换得到的频域幅度谱X和X
e
,输出为0到1之间的分类概率P
F
;步骤3,构建生成对抗网络训练集;所述步骤4具体为:步骤4.1,将训练集的语音,训练集的语音包括干净原始语音和带噪原始语音,训练集的语音经分帧、采样得到干净语音x和带噪语音x
c
;其中,分帧的帧长为N、帧移为Mms,采样率为S;步骤4.2,将训练集的语音做短时傅里叶变换(STFT)得到干净语音和带噪语音的频域幅度谱X和X
c
;其中,STFT采用的窗函数为汉明窗,窗长为N,采样率为S;标准的短时傅里叶变换,具体如下:
其中,n为时间,x(n)为时域信号,w(n)为窗函数;X
n
(e
jw
)为x(n)对应的频域幅度谱;步骤4.3,预训练鉴别器网络;进一步的,具体的实施方案如下:步骤4.3.1,预训练时域鉴别器D1,将干净语音x和带噪语音x
c
输入时域鉴别器,使用公式5所示的损失函数和RMSProp优化器来训练网络模型;其中,x为干净语音,x
c
为带噪语音;D1(x)为输入为x时,时域鉴别器的输出;D1(x
c
)为输入为x
c
时,时域鉴别器的输出;步骤4.3.2,预训练频域鉴别器D2,将干净语音和带噪语音的频域幅度谱X和X
c
输入频域鉴别器,使用如下所示的损失函数和RMSProp优化器来训练网络模型;其中,X为干净语音的频域幅度谱,X
c
为带噪语音的频域幅度谱;D2(X)为输入为X时,频域鉴别器的输出;D2(X
c
)为输入为X
c
时,频域鉴别器的输出;步骤4.4,训练生成器网络G,将带噪语音x
c
、带噪语音频域幅度谱X
c
和随机噪声z输入生成器,利用预训练好的两个鉴别器监督训练生成器;生成器使用公式7所示的损失函数和RMSProp优化器来训练网络模型;其中,z为随机噪声,x
c
为带噪语音,X
c
为带噪语音频域幅度谱;G(z,x
c
)...

【专利技术属性】
技术研发人员:高戈尹文兵陈怡杨玉红曾邦王霄
申请(专利权)人:武汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1