一种基于只包含编码器的多头注意力机制的语音增强算法制造技术

技术编号:33953697 阅读:14 留言:0更新日期:2022-06-29 23:00
本发明专利技术涉及一种基于无解码的多头注意力机制的语音增强算法的设计方法,涉及语音信号处理技术领域。本发明专利技术针对当前现有的注意力机制语音增强算法,提出了一种只包含编码器结构,不包含解码器结构的特征提取方法,并且应用带掩模多头注意力机制使算法对实时因果性语音更加有效。该方法能够缩短模型训练时间并有效抑制带噪语音信号中的噪声部分并增强语音部分,体现出良好的增强性能。体现出良好的增强性能。体现出良好的增强性能。

【技术实现步骤摘要】
一种基于只包含编码器的多头注意力机制的语音增强算法


[0001]本专利技术涉及一种基于无解码的多头注意力机制的语音增强算法的设计方法,属于语音信号处理


技术介绍

[0002]音增强技术作为语音识别、语音通信等语音处理的前置技术,在语音通话、广播、线上会议等有着广泛的应用。语音增强任务的目的是将带噪语音信号中的噪声部分抑制的同时增强语音部分,获得干净的语音信号。当前随着智能终端、远程会议的普及,在线语音更加成为了人们交流的一种方式,而录制环境的噪音干扰会严重影响语音信号的质量,特别是街头车辆噪声、周围人语声、音乐声等能量不规律的复杂环境噪声,对语音增强技术提出了高要求。
[0003]随着计算机技术的发展,传统语音增强技术已逐步被机器学习算法所取代,且在增强效果方面有了很大的提高。自从注意力机制的神经网络模型提出之后,由于其对长序列适用性强于其他结构的神经网络,注意力机制已被自然语言处理、图像识别、音频处理等各种领域所广泛应用。
[0004]众所周知神经网络模型的部分取决于用于训练网络的样本数量,在一定程度下样本种类数量越多网络越具备适用性。如何借助注意力机制的网络模型实现语音较好的增强效果同时,缩短大样本下的训练时间,且更加适用于处理语音这类具备因果特征的任务,是本专利技术所解决的问题。

技术实现思路

[0005]本专利技术的目的在于针对现有技术存在的问题,提出一种基于只包含编码器的多头注意力机制的语音增强算法,能够降低注意力机制应用在语音增强领域的训练时长,并提高增强效果。<br/>[0006]本专利技术的具体技术方案如下:一种基于只包含编码器的多头注意力机制的语音增强方法,包括以下步骤:
[0007]步骤1:构建训练数据,提取数据幅度谱和相位谱特征;
[0008]步骤2:对数据进行预处理,计算模型的输入参数;
[0009]步骤3:构建基于无解码的多头注意力机制的语音增强算法网络模型;
[0010]步骤4:将步骤2处理好的数据输入网络模型进行训练;
[0011]步骤5:将待增强语音信号输入由步骤4训练好的网络模型进行预测,输出先验信噪比估计值;
[0012]步骤6:将步骤5得到的先验信噪比估计值应用对数最小均方误差估计算法,计算增益函数,结合输入数据的相位谱特征重构语音信号。
[0013]进一步的,所述步骤1的具体内容为:
[0014]步骤1.1:使用的采样频率为16kHz的干净语音数据和噪声数据,随机配对后以随
机信噪比混合,混合信噪比取

10dB,

5dB,0dB,5dB,10dB其中的随机一种,产生带噪语音数据;
[0015]步骤1.2:借助短时傅里叶变换提取干净语音数据和带噪语音数据的幅度谱特征,以产生用于训练网络模型的数据对。
[0016]进一步的,步骤1.2中,短时傅里叶变换选择帧长等于512个采样点,帧移等于256个采样点,产生512个点的傅里叶变换值,经过变换后获得257个维度的特征。
[0017]进一步的,所述步骤2中,需要对数据进行预处理,产生网络模型的输入数据;所述网络模型的输入有三个,一是经过短时傅里叶变换提取的带噪语音数据的幅度谱特征X(n,k),二是后验信噪比ξ(n,k),三是帧掩模mask(n)。
[0018]进一步的,所述步骤2中,预处理的步骤为:首先通过短时傅里叶变换提取的带噪语音数据的幅度谱特征;其次用于混合的噪声数据经短时傅里叶变换得到的幅度谱和带噪语音数据的幅度谱计算后验信噪比;再用0和1补长不同帧长的输入数据得到帧掩模。
[0019]进一步的,所述经过短时傅里叶变换提取的带噪语音数据的幅度谱特征X(n,k)和后验信噪比ξ(n,k)为一组大小为R∈N
×
K的二维序列,帧掩模为一组长度为N的一维序列;其中,n代表帧,对应N为最大帧数,k代表频点,对应K代表最大频点数即257,mask(n)仅由0和1组成,用于补长不同帧长的训练数据。
[0020]进一步的,所述步骤2中构建的网络模型只包含输入层、编码器层、输出层三种结构,而不包含解码器结构;输入层为一层一维卷积层,用于将输入数据长度投影到256维度大小,后经过一层层归一化加速模型收敛;
[0021]设置于输入层之后的是编码器层,所述编码器层结构包括一层带掩模的多头注意力层和一层前馈层;编码器层的特点为使用了N
×
N长度的掩模M,掩模将当前时间点以及之前时间点的帧位置上设为1,而未来时间点的帧位置上设为0,作用是使模型更好地适用于因果性语音数据处理,所述网络模型共堆叠有5个编码器层;
[0022]多头注意力层的输入数据包括Q、K、V三组,分别代表查询、键、值,三组数据均由输入层的输出数据经过一维卷积后得到,且三组数据完全相同;所述多头注意力层使用了点积缩放机制计算注意力值,其运算定义如下:
[0023][0024]式中A
i
表示当前第i个头的带注意力权重的结果,d
k
表示K的维数;
[0025]所述前馈层堆叠了两层卷积层以进一步提取特征,卷积核大小设置为1,第一层卷积层输出1024个特征维度,第二层卷积层映射成256个特征维度,供模型下一层输入;前馈层的运算定义如下:
[0026]FFN(Z)=max(0,ZW1+b1)W2+b2[0027]式中Z表示前馈层的输入数据,W1、W2表示两次卷积线性映射的参数矩阵,b1、b2表示两次线性映射的偏置;
[0028]所述编码器中的注意力层和前馈层均应用残差连接,数据相加后经过层归一化,得到每个头的输出结果,设计的编码器一共堆叠有8个头,编码器最后将所有头的结果拼接后输出到模型的输出层;其表达式如下:
[0029]A=concat(A1,A2,...,A
I
)
[0030]式中concat为矩阵拼接操作,I表示头的总数8。
[0031]模型的输出层包含一层线性映射层和一层非线性激活层,线性映射层将特征维度个数映射回256,非线性激活层用于得到最终结果;模型的最终结果为先验信噪比估计值
[0032]进一步的,所述步骤6中,先验信噪比估计值估计用于对数最小均方误差估计算法,计算增益函数,计算公式如下:
[0033][0034][0035]式中G(n,k)为对数最小均方误差估计算法的增益函数;
[0036]将X(n,k)与G(n,k)相乘的结果,与短时傅里叶变换提取的带噪语音数据的相位谱,两者进行短时傅里叶反变换,得到增加的语音信号。
[0037]与现有技术相比,本专利技术的有益效果为:
[0038]本专利技术针对现有基于注意力机制的语音增强方法,提出了一种只包含编码器结构,不包含解码器结构的特征提取方法,并且应用带掩模多头注意力机制使算法对实时因果性语音更加有效。该方法能够缩短模型训练时间并有效抑制带噪语音信号中的噪声部分并增强语音部分,体现出良好的增强性本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于只包含编码器的多头注意力机制的语音增强方法,其特征在于:所述方法包括以下设计步骤:步骤1:构建训练数据,提取数据幅度谱和相位谱特征;步骤2:对数据进行预处理,计算模型的输入参数;步骤3:构建基于无解码的多头注意力机制的语音增强算法网络模型;步骤4:将步骤2处理好的数据输入网络模型进行训练;步骤5:将待增强语音信号输入由步骤4训练好的网络模型进行预测,输出先验信噪比估计值;步骤6:将步骤5得到的先验信噪比估计值应用对数最小均方误差估计算法,计算增益函数,结合输入数据的相位谱特征重构语音信号。2.根据权利要求1所述的基于只包含编码器的多头注意力机制的语音增强算法,其特征在于:步骤1的具体内容为:步骤1.1:使用的采样频率为16kHz的干净语音数据和噪声数据,随机配对后以随机信噪比混合,混合信噪比取

10dB,

5dB,0dB,5dB,10dB其中的随机一种,产生带噪语音数据;步骤1.2:借助短时傅里叶变换提取干净语音数据和带噪语音数据的幅度谱特征,以产生用于训练网络模型的数据对。3.根据权利要求2所述的基于只包含编码器的多头注意力机制的语音增强算法,其特征在于:步骤1.2中,短时傅里叶变换选择帧长等于512个采样点,帧移等于256个采样点,产生512个点的傅里叶变换值,经过变换后获得257个维度的特征。4.根据权利要求1所述的基于只包含编码器的多头注意力机制的语音增强算法,其特征在于:所述步骤2中,需要对数据进行预处理,产生网络模型的输入数据;所述网络模型的输入有三个,一是经过短时傅里叶变换提取的带噪语音数据的幅度谱特征X(n,k),二是后验信噪比ξ(n,k),三是帧掩模mask(n)。5.根据权利要求4所述的基于只包含编码器的多头注意力机制的语音增强算法,其特征在于:所述步骤2中,预处理的步骤为:首先通过短时傅里叶变换提取的带噪语音数据的幅度谱特征;其次用于混合的噪声数据经短时傅里叶变换得到的幅度谱和带噪语音数据的幅度谱计算后验信噪比;再用0和1补长不同帧长的输入数据得到帧掩模。6.根据权利要求4所述的基于只包含编码器的多头注意力机制的语音增强算法,其特征在于:所述经过短时傅里叶变换提取的带噪语音数据的幅度谱特征X(n,k)和后验信噪比ξ(n,k)为一组大小为R∈N
×
K的二维序列,帧掩模为一组长度为N的一维序列;其中,n代表帧,对应N为最大帧数,k代表频点,对应K代表最大频点数即257,mask(n)仅...

【专利技术属性】
技术研发人员:邵曦顾天麒
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1