当前位置: 首页 > 专利查询>新疆大学专利>正文

一种基于联合感知损失的注意力生成对抗语音增强方法技术

技术编号:35786394 阅读:17 留言:0更新日期:2022-12-01 14:33
本发明专利技术公开了一种基于联合感知损失的注意力生成对抗语音增强的方法。所述方法包括以下步骤:步骤1:训练数据预处理:对训练数据进行重采样、分帧加窗,短时傅里叶变换,获取训练数据的幅度谱特征;步骤2:构建模型并训练:构建基于联合感知损失函数的注意力生成对抗语音增强模型,设定合理的训练参数,并对其进行训练;步骤3:测试模型:预处理带噪语音测试集,利用上述训练完成的语音增强模型对其进行去噪与增强,并保存结果,完成语音增强任务。利用本发明专利技术,可以在不显著增加模型参数和计算开销的情况下显著提高带噪语音信号的语音质量和可懂度。可懂度。可懂度。

【技术实现步骤摘要】
一种基于联合感知损失的注意力生成对抗语音增强方法


[0001]本专利技术涉及语音信号处理的语音增强
,尤其涉及了一种基于联合感知损失的注意力生成对抗语音增强方法。

技术介绍

[0002]语音是人类最重要的交流工具,是人们所使用的最古老、最普遍的通信方式,它有着自然方便、高效准确的优点,但是在现实生活中语音往往会被各种各样的噪声影响而造成失真,这些噪声会不同程度地影响语音质量,从而导致语音可懂度下降。
[0003]为了解决这个问题,许多基于信号处理的方法被提出,如谱减法、子空间法、维纳滤波法等。近几年,研究界见证了传统信号处理方法到数据驱动增强方法的转变,尤其是基于深度学习的方法。深度学习中典型的神经网络模型有递归神经网络(RNN)、长短期记忆网络(LSTM)、卷积神经网络(CNN)、全卷积网络(FCN)、卷积递归神经网络(CRNN)、生成对抗网络(GAN)。与传统的基于信号处理的语音增强方法相比,深度学习方法的语音增强性能有了显著的提高。
[0004]深度学习语音增强算法的性能主要和四个因素密切相关。即:输入特征,训练目标,网络结构,损失函数。要部署特定任务的语音增强模型,最直观的方法是采用与最终目标相关的损失函数,而当前很多基于生成对抗网络的语音增强模型,其指导生成器生成数据的对抗性损失所用参数(频谱)与语音质量评价所用参数(STOI)不匹配,从而限制了增强模型对语音质量与语音可懂度的提升性能。
[0005]在语音增强领域MetricGAN显示出强大的能力,其被证明可以有效地优化复杂甚至不可微的语音评估指标。但仅优化单个目标度量通常会导致另一个指标处于次优状态,因而限制了MetricGAN语音增强的性能。

技术实现思路

[0006]本专利技术主要在MetricGAN语音增强模型中使用联合感知损失函数,以改善仅优化单个目标度量通常会导致另一个指标处于次优状态这一缺点;同时,在MetricGAN语音增强模型的判别器模型D中使用SK

Net卷积注意力模块,使模型可以根据输入信息的多个尺度自适应的调节感受野大小,以此提升判别器模型的预测能力,使其更好地指导生成器训练。
[0007]本专利技术的目的是通过以下技术方案实现。
[0008]一种基于联合感知损失的注意力生成对抗语音增强方法,包括以下步骤。
[0009]步骤1:预处理训练数据:提取语音幅度谱特征作为模型输入,提取语音幅度谱特征使用的窗函数为汉明窗,窗长为32ms,窗移为16ms,傅里叶点数为512;步骤2:构建模型并训练:构建基于联合感知损失函数的注意力生成对抗语音增强模型,设置合理的训练参数,并对其进行训练;步骤3:测试模型:预处理带噪语音测试集,利用上述训练完成的语音增强模型对其进行去噪与增强,并保存结果,完成语音增强任务。
[0010]本专利技术的模型称为AMGAN(Attention MetricGAN)模型,通过训练AMGAN模型,可在幅度谱域完成语音增强任务,该模型可改善仅优化单个目标度量通常会导致另一个指标处于次优状态从而限制增强性能这一缺点;本专利技术可以在不显著增加模型参数和计算开销的情况下同时有效提升带噪语音信号的语音质量和语音可懂度。
[0011]进一步的,步骤2的AMGAN模型由两个深度神经网络模型构建,分别称为生成器模型G和判别器模型D:生成器模型G对输入带噪语音的幅度谱特征进行特征掩蔽,获得去除噪声分量后的语音幅度谱特征;判别器模型D使用CNN网络对生成器模型G生成语音的增强效果进行量化估计。为进一步提升判别器模型D预测目标度量的能力,在模型中使用SK

Net卷积注意力模块,使网络可以根据输入信息的多个尺度自适应地调节感受野大小,以此提升网络模型的表达能力,更加准确预测目标度量的分数。
[0012]进一步的,AMGAN模型的生成器模型G含有两个双向LSTM层,每一层有200个神经元,LSTM后面接两个全连接层,它们分别有300个LeakyReLU节点和257个可学习的sigmoid节点用于掩模估计,当该掩模与带噪语音幅度谱相乘时,应去除噪声分量。
[0013]进一步的,AMGAN模型的判别器模型D采用四个二维卷积层,为了提高判别器D的模型预测能力,在第四层卷积后添加一个SK

Net卷积注意力模块,每一层卷积都具有15个滤波器,普通二维卷积的卷积核大小为(5,5),SK

Net卷积注意力模块通过模型训练在(1,1)、(3,3)、(5,5)、(7,7)之间自适应地选择卷积核大小。为了处理可变长度输入,添加一个二维全局平均池化层,以便可以将特征固定在15个维度上。随后添加三个全连接层,它们分别有50个和10个LeakyReLU节点,以及一个线性节点用于预测目标度量分数。
[0014]进一步的,SK

Net是基于卷积核的注意力机制,它是一种可在多个不同大小卷积核之间进行选择的卷积操作。对于网络模型来说,人为设定的感受野大小不一定是最优的,而SK

Net可以使网络根据输入信息的多个尺度自适应的调节感受野大小,以此提升网络模型的表达能力,作用在本专利技术判别器模型D中以提升判别器模型D的对目标度量的预测性能,使其更好地指导生成器训练。
[0015]进一步的,所述联合感知损失作用在生成器模型G中。其由两部分构成,一部分是生成对抗网络的对抗性损失,通过使用判别器D模拟PESQ的行为,获得语音质量的损失;另一部分是使用STOI损失,用来代表语音可懂度的损失。所述AMGAN模型的判别器模型D和生成器模型G的损失函数分别为:成器模型G的损失函数分别为:成器模型G的损失函数分别为:其中代表带噪语音信号的幅度谱特征,代表干净语音信号的幅度谱特征,代表通过生成器模型G优化后的带噪语音幅度谱特征,在本专利技术中表示目标度量,得到的是归一化后的PESQ指标分数,为了使判别器D学习预测语音信号的PESQ分数,判别器D输入为成对的干净语音与带噪语音、干净语音与增强语音或干净语音与干净语音的幅度谱。
[0016]进一步的,虽然STOI函数的计算是复杂的,但大部分计算是可微的,因此可以将其
重写集成到模型用于直接优化STOI度量,在所述生成器G的损失函数中添加可懂度损失,可以引导生成器G重构的语音信号可懂度得到有效提升。
[0017]进一步的,损失函数的计算包括以下操作步骤:步骤1:移除静音段:因为在语音静音段中没有需要被理解的语音内容,所以计算前需要将其移除。
[0018]步骤2:短时傅里叶变换(STFT):对信号进行短时傅里叶变换,该变换所使用的窗函数为汉明窗,窗长256ms,窗移为128ms,傅里叶点数为512。
[0019]步骤3:1/3倍频程分析:对信号进行DFT变换并将频率进行划分。该操作一共用了15个1/3倍频程,干净语音信号的短时时域包络可以表示为:其中,是得到的1/3倍频程,M是信号帧的总数,是帧的索引,是1/3倍频程的索引,N=30相当于帧长3本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于联合感知损失的注意力生成对抗语音增强方法,其特征在于,包括以下步骤:步骤1:训练数据预处理,提取语音幅度谱特征:对训练数据进行重采样、分帧加窗,短时傅里叶变换,获取训练数据的幅度谱特征;步骤2:构建模型并训练:构建基于联合感知损失函数的注意力生成对抗语音增强模型,设定合理的训练参数,并对其进行训练;步骤3:测试模型:预处理带噪语音测试集,利用上述训练完成的基于联合感知损失函数的注意力生成对抗语音增强模型对其进行去噪与增强,并保存结果,完成语音增强任务。2.根据权利要求1所述的一种基于联合感知损失的注意力生成对抗语音增强方法,其特征在于所述的步骤1训练数据预处理:对训练数据以16000HZ频率重采样,分帧加窗,短时傅里叶变换,提取语音的幅度谱特征作为语音增强模型的输入。3.根据权利要求1所述的一种基于联合感知损失的注意力生成对抗语音增强方法,其特征在于,所述的步骤2中基于联合感知损失函数的注意力生成对抗语音增强模型由两个深度神经网络模型构建,分别是生成器模型G和判别器模型D:生成器模型G使用BLSTM网络对输入带噪语音的幅度谱特征进行特征掩蔽,获得去除噪声分量后的语音幅度谱特征;判别器模型D使用CNN网络对生成器模型G生成语音的增强效果进行量化估计;为进一步提升判别器模型D预测目标度量的能力,在模型中使用SK

Net卷积注意力模块,使网络可以根据输入信息的多个尺度自适应地调节感受野大小,以此提升网络模型的表达能力,更加准确预测目标度量的分数。4.根据权利要求3所述的一种基于联合感知损失的注意力生成对抗语音增强方法,其特征 在于,所述联合感知损失是作用在生成器模型G中;其由两部分构成,一部分是生成对抗网络的对抗性损失,通过使用判别器D模拟PESQ的行为,获得语音质量的损失;另一部分是使用STOI损失,用来代表语音可懂度的损失;基于联合感知损失的注意力生成对抗语音增强模型的两个深度神经网络模型通过联合训练方式进行训练,将带噪语音的幅度谱特征输入生成器模型G,通过判别器模型D获得预测PESQ的分数,通过使用STOI函数获得STOI的分数,并将上述两种分数用于指导生成器模型G的训练,判别器模型D和生成器模型G的损失函数分别为:函数分别为:函数分别为:其中代表带噪语...

【专利技术属性】
技术研发人员:郭创建黄志华李慧
申请(专利权)人:新疆大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1