一种基于时频域生成对抗网络的语音增强方法技术

技术编号：28472724 阅读：23 留言：0更新日期：2021-05-15 21:40

本发明专利技术公开了一种基于时频域生成对抗网络的语音增强方法，在传统的基于时频域生成对抗网络的语音增强方法的基础上，通过增加一个频域鉴别器，使语音增强模型能够同时学习到输入语音的时域特征和频域特征，以提高模型的性能。其中，时域鉴别器直接判别生成器输出的增强语音；频域鉴别器则对增强语音做短时傅里叶变换后得到频域特征进行判别。模型训练时，时域和频域鉴别器同时监督生成器，使生成器能够同时学习到语音和噪声的时域和频域特征。并且，为了保留原始语音的底层信息和防止生成器产生过拟合，在模型的损失函数中加入频域约束项。本发明专利技术方法增强性能更好，且其能处理的噪声种类更多、适用的场景更广。适用的场景更广。适用的场景更广。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于时频域生成对抗网络的语音增强方法

[0001]本专利技术涉及语音增强技术，特别涉及一种基于时频域生成对抗网络的语音增强方法。

技术介绍

[0002]语音增强是指通过一定方法抑制和降低语音中噪声的技术，其主要目的是提高语音的质量和可懂度。语音增强技术发展于上个世纪70年代，至今已有约50年的历史。从最早的谱减法，到后来的基于统计模型的方法，再到基于深度学习的方法，语音增强技术发展迅速。
[0003]基于深度学习的语音增强方法主要包括：基于深度神经网络(Deep Neural Networks，DNN)的语音增强方法、基于卷积神经网络(Convolutional Neural Networks，CNN)的语音增强方法、基于循环神经网络(Recurrent Neural Network,，RNN)的语音增强方法和基于生成对抗网络(Generative Adversarial Networks，GAN)的语音增强方法。其中，基于GAN的语音增强方法性能良好。使用该方法增强过的语音失真小，清晰度和可懂度高。但是，传统的基于GAN的语音增强方法(SEGAN)仅在时域上将带噪语音映射为干净语音，忽略了语音和噪声的频域特性。

技术实现思路

[0004]传统的基于GAN的语音增强方法使用语音信号的时域特征进行模型训练，旨在学习时域上带噪语音和干净语音的映射关系。虽然该方法训练出的模型能够较好地拟合语音和噪声的时域特性，但是其完全忽略了语音和噪声的频域特性。这就导致其对多噪声源的声学场景适应度低，以及对某...

【技术保护点】

【技术特征摘要】
1.一种基于时频域生成对抗网络的语音增强方法，其特征在于，包括以下步骤：步骤1：构建生成器网络；步骤2，构建鉴别器网络；步骤2所述鉴别器网络由时域鉴别器、频域鉴别器并行构成；所述时域鉴别器由输入层，隐藏层和输出层组成；所述时域鉴别器输入层采用全连接神经网络层(DNN)，其输入为干净语音x和生成器输出的增强语音x
e
，输出为e
in
维的干净语音时域特征y和生成器输出语音时域特征y
e
；所述时域鉴别器的隐藏层由n1层一维跨步卷积层级联构成；其中，前n1‑
1层隐藏层的卷积核大小均为k1，卷积步长均为s1，输入通道数均为c1；每一层一维卷积层的激活函数都采用LeakyReLU，具体如下：其中，参数α
i
为泄露参数，设置为0.3；x
i
为第i个神经元的值；y
i
为第i个神经元的输出；第n1层隐藏层的卷积核为k2，卷积步长均为s2，输入通道数均为c2的一维卷积层，其输入为T
n
维的特征向量，输出为T
n+1
维的特征向量；所述时域鉴别器的输出层采用softmax分类层，实现鉴别器的分类与判别功能，其输入为T
n+1
维的特征向量，输出为概率P
T
；其中，分类层采用softmax分类器，将特征提取网络的输出表征为不同类别之间的相对概率，进行最终的类别预测，如下所示：其中，i表示第i个类别，N表示类别总数，表示第i个类别的概率值，表示经softmax处理之后第i个类别的概率值；为了防止网络训练时出现训练不稳定或不收敛的情况，所述频域鉴别器与所述时域鉴别器的网络结构完全相同；不同的是，频域鉴别器的输入为干净语音和生成器输出的增强语音分别进行短时傅里叶变换得到的频域幅度谱X和X
e
，输出为0到1之间的分类概率P
F
；步骤3，构建生成对抗网络训练集；所述步骤4具体为：步骤4.1，将训练集的语音，训练集的语音包括干净原始语音和带噪原始语音，训练集的语音经分帧、采样得到干净语音x和带噪语音x
c
；其中，分帧的帧长为N、帧移为Mms，采样率为S；步骤4.2，将训练集的语音做短时傅里叶变换(STFT)得到干净语音和带噪语音的频域幅度谱X和X
c
；其中，STFT采用的窗函数为汉明窗，窗长为N，采样率为S；标准的短时傅里叶变换，具体如下：
其中，n为时间，x(n)为时域信号，w(n)为窗函数；X
n
(e
jw
)为x(n)对应的频域幅度谱；步骤4.3，预训练鉴别器网络；进一步的，具体的实施方案如下:步骤4.3.1，预训练时域鉴别器D1，将干净语音x和带噪语音x
c
输入时域鉴别器，使用公式5所示的损失函数和RMSProp优化器来训练网络模型；其中，x为干净语音，x
c
为带噪语音；D1(x)为输入为x时，时域鉴别器的输出；D1(x
c
)为输入为x
c
时，时域鉴别器的输出；步骤4.3.2，预训练频域鉴别器D2，将干净语音和带噪语音的频域幅度谱X和X
c
输入频域鉴别器，使用如下所示的损失函数和RMSProp优化器来训练网络模型；其中，X为干净语音的频域幅度谱，X
c
为带噪语音的频域幅度谱；D2(X)为输入为X时，频域鉴别器的输出；D2(X
c
)为输入为X
c
时，频域鉴别器的输出；步骤4.4，训练生成器网络G，将带噪语音x
c
、带噪语音频域幅度谱X
c
和随机噪声z输入生成器，利用预训练好的两个鉴别器监督训练生成器；生成器使用公式7所示的损失函数和RMSProp优化器来训练网络模型；其中，z为随机噪声，x
c
为带噪语音，X
c
为带噪语音频域幅度谱；G(z，x
c
)...

【专利技术属性】
技术研发人员：高戈，尹文兵，陈怡，杨玉红，曾邦，王霄，
申请(专利权)人：武汉大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人