一种基于DCCTN网络模型的语音增强方法、系统及设备技术方案

技术编号:39256118 阅读:17 留言:0更新日期:2023-10-30 12:07
本发明专利技术公开了一种基于DCCTN网络模型的语音增强方法、系统及设备。该语音增强方法包括如下步骤:采集语音数据构建带噪语音数据集;构建DCCTN网络模型,对语音信号进行分帧、压缩、频带维度和音频帧维度特征提取、生成掩膜和解码还原等处理;采用训练集数据对DCCTN网络模型进行充分训练;采用测试集数据对DCCTN网络模型进行测试和评估。本发明专利技术充分关注频谱特征的上下文关联,同时在两层级Transformer结构中引入了高斯权重矩阵,使网络模型能根据场景需求调节掩膜在不同频带的权重,显著提升了语音增强效果。了语音增强效果。了语音增强效果。

【技术实现步骤摘要】
一种基于DCCTN网络模型的语音增强方法、系统及设备


[0001]本专利技术涉及一种基于DCCTN网络模型的语音增强方法,同时也涉及相应的语音增强系统及设备,属于语音增强


技术介绍

[0002]语音增强技术是指当语音信号被噪声干扰、甚至淹没时,需要从噪声背景中提取出干净的原始语音信号,同时抑制、降低噪声干扰的一种语音处理技术,其目的是提高语音的质量和可懂度。单通道语音增强技术的发展经历了从信号处理方法到机器学习方法再到深度学习方法的发展过程,随着深度学习相关技术的迅速发展,各类网络结构和模型的提出,目前已逐步应用于语音增强
,使得单通道语音增强技术随着深度学习的发展取得了很大的进步。但在具体到实际应用场景中时,相关的语音增强方法仍然需要根据场景特点和需求进行改进和优化。
[0003]在现有技术中,单通道语音增强方法按模型输入分类,通常有时域方法和频域方法两类。如图1所示,一种基于DCCRN(深度复数卷积循环网络)网络的语音增强结构来源于CRN结构,其改进在于用复数卷积层和复数LSTM层代替了CRN中的卷积层和LSTM层,其本质是一个CED结构。输入的时频语音信号经过短时傅里叶变换模块得到语音信号的频域复数表示。然后复数表示的时域和频域部分分别经过多层复数编码层,得到语音信号的特征,再经过复数LSTM模块和多层复数解码层,得到增强后的语音频域表示。最后经过逆短时傅里叶变换模块转换为时域语音信号,即为增强后的语音。
[0004]另外,在申请号为202111424756.5的中国专利技术申请中,公开了一种融合Transformer和U

net网络的语音增强方法。该语音增强方法包括如下步骤:S1,采集原始的干净语音数据集和带噪语音数据集,并将采集的数据集分为训练集、验证集和测试集;S2,构建融合Transformer和U

net网络的语音增强模型;S3,使用步骤S1中的训练集和验证集对步骤S2中构建的语音增强模型进行训练;S4,将步骤S1中的测试集作为待增强的语音信号输入训练好的语音增强模型,输出干净的语音信号。该方法在U

net网络中加入了Transformer模块,有效提取局部和全局的上下文特征信息;同时使用时域损失、时频域损失和感知损失三类损失函数一起训练语音增强网络,从而获得更高的语音可懂度和感知质量。

技术实现思路

[0005]本专利技术所要解决的首要技术问题在于提供一种基于DCCTN网络模型的语音增强方法。
[0006]本专利技术所要解决的另一技术问题在于提供一种基于DCCTN网络模型的语音增强系统及设备。
[0007]为了实现上述目的,本专利技术采用以下的技术方案:
[0008]根据本专利技术实施例的第一方面,提供一种基于DCCTN网络模型的语音增强方法,包
括以下步骤:
[0009](1)输入带噪语音信号经过复数卷积短时傅里叶变换,将时频带噪语音信号进行分帧处理,转换成表征为实部和虚部的频域带噪语音信号;
[0010](2)将频域带噪语音信号的实部和虚部输入至复数二维编码器,经过压缩和提取得到实部和虚部的特征表示;
[0011](3)将频域带噪语音信号的实部和虚部的特征表示输入至两层级复数Transformer模块,分别对频带维度和音频帧维度进行建模,进行频带维度和音频帧维度的特征提取;
[0012](4)将所述两层级复数Transformer模块输出的语音信号输入到掩膜层生成掩膜,并分别与步骤(2)得到的频域带噪语音信号的实部和虚部相乘作为掩膜输出信号;
[0013](5)将掩膜输出信号输入到复数二维解码器进行解码还原,得到与原始维度相同的音频频域表征,并与步骤(1)输出的音频信号相叠加,得到完整的增强后的语音信号频域表示;
[0014](6)将还原后的音频频域表征通过卷积短时逆傅里叶变换,得到语音增强后干净的时域语音信号;
[0015]其中较优地,在步骤(2)中,所述复数二维编码器由多层复数二维卷积编码层构成,其中,每层复数二维卷积编码层后面分别设置有一个归一化层和激活层,分别对频域带噪语音信号的实部和虚部进行处理。
[0016]其中较优地,在步骤(3)中,所述两层级复数Transformer模块由两路两层级复数Transformer结构组成,两条结构相同的路径分别对频域带噪语音信号的实部和虚部进行处理;其中,每条路径由两层级的复数Transformer结构组成,在每个层级中,包含双层的自注意力结构;其中,在第二层级的复数Transformer结构的第二层复数自注意力层之前,引入实部和虚部特征的交互输入设计。
[0017]其中较优地,步骤(3)中具体包括如下步骤:
[0018](31)将步骤S2得到的频域带噪语音信号的实部特征表示作为第一路径的输入信号,虚部特征表示作为第二路径的输入信号;
[0019](32)将两路输入信号分别输入至两个路径的第一层级Transformer结构,对输入信号的频带维度建模,进行频带维度的特征提取;
[0020](33)将第一层级输出的两路信号分别输入至各自路径的维度转换层进行维度变换;
[0021](34)将维度转换后的两路信号分别输入至各自路径的第二层级Transformer结构,对输入信号的音频帧维度建模,进行音频帧维度的特征提取;
[0022](35)将第二层级输出的两路输出信号分别输入至自路径的复数全连接层,进行维度整理;
[0023](36)将维度整理后的两路输出信号的实部和虚部组合为完整的频域表示作为输出语音信号。
[0024]其中较优地,在第一层级Transformer结构引入第一高斯权重矩阵,用于使注意力权重随着频率反向变动;
[0025]在第二层级Transformer结构引入第二高斯权重矩阵,用于使注意力权重随着目
标帧和上下文帧之间距离反向变动。
[0026]其中较优地,所述掩膜层包括输入激活函数层、多个复数二维卷积层、Tanh和Sigmoid激活函数层、输出激活函数层;其中,通过Tanh和Sigmoid激活函数层生成语音频域表征实部和虚部的掩膜。
[0027]其中较优地,所述复数二维解码器由多层复数二维反卷积解码层构成,其中,最后一层之前的每层复数二维反卷积解码层后分别设置有一个归一化层和激活层,分别对语音特征的实部和虚部进行处理。
[0028]根据本专利技术实施例的第二方面,提供一种基于DCCTN网络模型的语音增强系统,包括复数卷积短时傅里叶变换模块、复数二维编码器模块、两层级复数Transformer模块、掩膜生成模块、复数二维解码器模块和卷积短时逆傅里叶变换模块,带噪语音信号依次通过上述各模块进行语音增强处理;其中,
[0029]所述复数卷积短时傅里叶变换模块用于将时频带噪语音信号进行分帧处理,转换成表征为实部和虚部的频域带噪语音信号;
[0030]所述复数二维编码器模块用于对频域带噪本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于DCCTN网络模型的语音增强方法,其特征在于包括如下步骤:(1)输入带噪语音信号经过复数卷积短时傅里叶变换,将时频带噪语音信号进行分帧处理,转换成表征为实部和虚部的频域带噪语音信号;(2)将频域带噪语音信号的实部和虚部输入至复数二维编码器,经过压缩和提取得到实部和虚部的特征表示;(3)将频域带噪语音信号的实部和虚部的特征表示输入至两层级复数Transformer模块,分别对频带维度和音频帧维度进行建模,进行频带维度和音频帧维度的特征提取;(4)将所述两层级复数Transformer模块输出的语音信号输入到掩膜层生成掩膜,并分别与步骤(2)得到的频域带噪语音信号的实部和虚部相乘作为掩膜输出信号;(5)将掩膜输出信号输入到复数二维解码器进行解码还原,得到与原始维度相同的音频频域表征,并与步骤(1)输出的音频信号相叠加,得到完整的增强后的语音信号频域表示;(6)将还原后的音频频域表征通过卷积短时逆傅里叶变换,得到语音增强后干净的时域语音信号。2.如权利要求1所述的基于DCCTN网络模型的语音增强方法,其特征在于在步骤(2)中,所述复数二维编码器由多层复数二维卷积编码层构成,其中,每层复数二维卷积编码层后面分别设置有一个归一化层和激活层,分别对频域带噪语音信号的实部和虚部进行处理。3.如权利要求1所述的基于DCCTN网络模型的语音增强方法,其特征在于在步骤(3)中,所述两层级复数Transformer模块由两路两层级复数Transformer结构组成,两条结构相同的路径分别对频域带噪语音信号的实部和虚部进行处理;其中,每条路径由两层级的复数Transformer结构组成,在每个层级中,包含双层的自注意力结构;其中,在第二层级的复数Transformer结构的第二层复数自注意力层之前,引入实部和虚部特征的交互输入设计。4.如权利要求3所述的基于DCCTN网络模型的语音增强方法,其特征在于在步骤(3)中,包括如下子步骤:(31)将步骤(2)得到的频域带噪语音信号的实部特征表示作为第一路径的输入信号,虚部特征表示作为第二路径的输入信号;(32)将两路输入信号分别输入至两个路径的第一层级Transformer结构,对输入信号的频带维度建模,进行频带维度的特征提取;(33)将第一层级输出的两路信号分别输入至各自路径的维度转换层进行维度变换;(34)将维度转换后的两路信号分别输入至各自路径的第二层级Transformer结构,对输入信号的音频帧维度建模,进行音频帧维度的特征提取;(35)将第二层级输出的两路输出信号分别输入至自路径的复数全连接层,进行维度整理;(36)将维度整理后的两路输出信号的实部和虚部组合为完整的频域表示作为输出语音信号。5.如权利要求4所述的基于DCCTN网络模型的语音增强方法,其特征在于:在第一层级Transformer结构引入第一高斯权重矩阵,用于使注意力权重随着频率反
向变动;在第二层级Transformer结构引入第二高斯权重矩阵,用于使注意力权重随着目标...

【专利技术属性】
技术研发人员:孙畅杨宏覃波张凡
申请(专利权)人:公安部第一研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1