一种语音降噪训练数据的处理方法及其装置、训练方法制造方法及图纸

技术编号:30092884 阅读:29 留言:0更新日期:2021-09-18 08:55
本发明专利技术提供了一种语音降噪训练数据的处理方法及其装置、训练方法,该处理方法包括:接收待处理的语音降噪训练数据;将语音降噪训练数据进行分帧;计算每帧语音降噪训练数据单元的第一均方根值;计算多帧语音降噪训练数据单元中的最大均方根值;根据最大均方根值对每帧语音降噪训练数据单元的第一均方根值进行归一化处理;依次判断每帧语音降噪训练数据单元的第二均方根值是否小于噪音阈值;如果该帧语音降噪训练数据单元的第二均方根值小于噪音阈值,则该帧语音降噪训练数据单元为噪声帧;否则,该帧语音降噪训练数据单元为语音帧。以每帧语音降噪训练数据的时域均方根值为依据,进行语音激活检测,简化语音激活检测的算法,提高运算效率。提高运算效率。提高运算效率。

【技术实现步骤摘要】
一种语音降噪训练数据的处理方法及其装置、训练方法


[0001]本专利技术涉及人工智能
,尤其涉及一种语音降噪训练数据的处理方法及其装置、训练方法。

技术介绍

[0002]当前,采用深度神经网络(Deep Neural Network,简称DNN)技术,在语音降噪方面已经取得了很大的成功,尤其对非平稳和类平稳噪声的抑制效果,明显优于传统方法。深度神经网络的训练过程需要大量非常干净的语音数据。但由于录音条件的限制,很多语音数据的底噪较大,且其中不可避免的包含呼吸声,这些干扰因素会直接影响深度神经训练的质量,导致深度网络训练的效果变差。
[0003]现有技术在消除噪声过程中,通常使用最小值跟踪或者最小值控制的递归平均(Minimum Controlled Regressive Averaging,简称MCRA)等算法进行语音激活检测,然后使用谱减法、维纳滤波等算法进行噪声估计并消除噪声。采用该方式,在对语音帧进行降噪时会不可避免的出现语音损伤,虽然人耳对这种损伤往往并不敏感,但使用这种损伤后的语音训练数据进行降噪训练后最终得到的深度神经网络模型会出现较大的语音损伤,导致效果不佳。且传统的降噪算法需要考虑各种复杂的带噪场景,因此运算量较大,尤其是面对大批量的语音训练数据时(100小时以上),往往需要很长的处理时间(1小时以上),导致效率不高。

技术实现思路

[0004]本专利技术提供了一种语音降噪训练数据的处理方法及其装置、训练方法,以简化语音激活检测的算法,提高运算效率。
[0005]第一方面,本专利技术提供了一种语音降噪训练数据的处理方法,其中,该语音降噪训练数据用于训练深度神经网络模型。该处理方法包括:接收待处理的语音降噪训练数据;将语音降噪训练数据进行分帧,获得多帧语音降噪训练数据单元;计算多帧语音降噪训练数据单元中的每帧语音降噪训练数据单元的第一均方根值;计算多帧语音降噪训练数据单元的第一均方根值中的最大均方根值;根据最大均方根值对每帧语音降噪训练数据单元的第一均方根值进行归一化处理,得到每帧语音降噪训练数据单元的第二均方根值;依次判断每帧语音降噪训练数据单元的第二均方根值是否小于噪音阈值;如果判断结果为该帧语音降噪训练数据单元的第二均方根值小于噪音阈值,则识别该帧语音降噪训练数据单元为噪声帧;如果判断结果为该帧语音降噪训练数据单元的第二均方根值不小于噪音阈值,则识别该帧语音降噪训练数据单元为语音帧。
[0006]在上述的方案中,通过计算多帧语音降噪训练数据单元中的每帧语音降噪训练数据单元的第一均方根值,之后根据最大均方根值对每帧语音降噪训练数据单元的第一均方根值进行归一化处理,得到每帧语音降噪训练数据单元的第二均方根值,再依次判断每帧语音降噪训练数据单元的第二均方根值是否小于噪音阈值,从而识别出原始的语音降噪训
练数据中的噪声帧和语音帧。与现有技术的方案相比,本申请的方式以每帧语音降噪训练数据的时域均方根值为依据,进行语音激活检测,简单实用,从而简化语音激活检测的算法,提高运算效率。
[0007]在一个具体的实施方式中,计算多帧语音降噪训练数据单元中的每帧语音降噪训练数据单元的第一均方根值具体为:采用如下公式计算每帧语音降噪训练数据单元的第一均方根值:
[0008][0009]其中,i表示帧索引;
[0010]n表示每帧语音降噪训练数据单元中的时域采样点个数;
[0011]j表示每帧语音降噪训练数据单元中的各时域采样点索引;
[0012]x表示每个时域采样点的分贝值;
[0013]RMS
i
表示第i帧语音降噪训练数据单元的第一均方根值。通过采集每帧语音降噪训练数据单元的多个时域采用点信息,并进行计算,以便于获取到每帧语音降噪训练数据单元的第一均方根值。
[0014]在一个具体的实施方式中,根据最大均方根值对每帧语音降噪训练数据单元的第一均方根值进行归一化处理,得到每帧语音降噪训练数据单元的第二均方根值具体为:根据最大均方根值对每帧语音降噪训练单元的第一均方根值采用如下公式进行归一化处理,得到每帧语音降噪训练数据单元的第二均方根值:
[0015][0016]其中,RMS
max
表示最大均方根值;
[0017]RMS
ref
表示归一化参考值;
[0018]RMS

i
表示每帧语音降噪训练数据单元的第二均方根值。以便于获取到每帧语音降噪训练数据单元的第二均方根值。
[0019]在一个具体的实施方式中,在依次判断每帧语音降噪训练数据单元的第二均方根值是否小于噪音阈值之前,该处理方法还包括:从多个语音降噪训练数据单元中预先抽取出设定个数的噪声帧;计算设定个数的语音降噪训练数据单元的第一均方根值的均值和标准差;按照如下公式计算噪音阈值:
[0020][0021]其中,RMS
threshold
表示噪音阈值;
[0022]表示设定个数的语音降噪训练数据单元的第一均方根值的均值;
[0023]RMS
σ
表示设定个数的语音降噪训练数据单元的第一均方根值的标准差;
[0024]b表示调整系数,b=2~4。以便于确定噪音阈值的大小。
[0025]在一个具体的实施方式中,该处理方法还包括:
[0026]对于被识别为语音帧的语音降噪训练数据单元,设置每个语音帧的增益恒为1;
[0027]对于被识别为噪音帧的语音降噪训练数据单元,采用如下公式计算每个噪音帧的增益:
[0028][0029]其中,g
i
表示每个噪音帧的增益;
[0030]RMS
target
表示目标信号的均方根值;
[0031]g
min
表示容许的最小增益值;
[0032]根据每个语音帧和噪音帧的增益,调整语音降噪训练数据的包络线。通过在语音激活检测的基础上,将噪声帧的电平与目标信号的电平的差值作为噪声帧的增益,并让噪声帧乘以该增益,而对语音帧则不做任何处理,来降低噪声帧的分贝值,从而使调整后的语音降噪训练数据能够抑制噪音,进而使采用该处理后的语音降噪训练数据训练出的深度神经网络模型,既能够消除噪声,又能够防止出现较大的语音损伤。
[0033]在一个具体的实施方式中,根据每个语音帧和噪音帧的增益,调整语音降噪训练数据的包络线包括:
[0034]对和每个语音帧相邻且连续的至少两个噪音帧中的每个噪音帧的增益做平滑处理,得到该至少两个噪音帧中的每个噪音帧的修正后增益;
[0035]根据该至少两个噪音帧中的每个噪音帧的修正后增益,对至少两个噪音帧中的每个噪音帧中的所有时域采样点的增益做平滑处理,得到至少两个噪音帧中的每个时域采样点的时域采样点增益;
[0036]根据该至少两个噪音帧中的每个时域采样点的时域采样点增益,计算至少两个噪音帧中的每个时域采样点的分贝值,得到该至少两个噪音帧中的每个时域采样点的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音降噪训练数据的处理方法,其中,所述语音降噪训练数据用于训练深度神经网络模型,其特征在于,所述处理方法包括:接收待处理的语音降噪训练数据;将所述语音降噪训练数据进行分帧,获得多帧语音降噪训练数据单元;计算所述多帧语音降噪训练数据单元中的每帧语音降噪训练数据单元的第一均方根值;计算所述多帧语音降噪训练数据单元的第一均方根值中的最大均方根值;根据所述最大均方根值对每帧语音降噪训练数据单元的第一均方根值进行归一化处理,得到每帧语音降噪训练数据单元的第二均方根值;依次判断每帧语音降噪训练数据单元的第二均方根值是否小于噪音阈值;如果判断结果为该帧语音降噪训练数据单元的第二均方根值小于所述噪音阈值,则识别该帧语音降噪训练数据单元为噪声帧;如果判断结果为该帧语音降噪训练数据单元的第二均方根值不小于所述噪音阈值,则识别该帧语音降噪训练数据单元为语音帧。2.如权利要求1所述的处理方法,其特征在于,所述计算所述多帧语音降噪训练数据单元中的每帧语音降噪训练数据单元的第一均方根值具体为:采用如下公式计算每帧语音降噪训练数据单元的第一均方根值:其中,i表示帧索引;n表示每帧语音降噪训练数据单元中的时域采样点个数;j表示每帧语音降噪训练数据单元中的各时域采样点索引;x表示每个时域采样点的分贝值;RMS
i
表示第i帧语音降噪训练数据单元的第一均方根值。3.如权利要求2所述的处理方法,其特征在于,所述根据所述最大均方根值对每帧语音降噪训练数据单元的第一均方根值进行归一化处理,得到每帧语音降噪训练数据单元的第二均方根值具体为:根据所述最大均方根值对每帧语音降噪训练单元的第一均方根值采用如下公式进行归一化处理,得到每帧语音降噪训练数据单元的第二均方根值:其中,RMS
max
表示所述最大均方根值;RMS
ref
表示归一化参考值;RMS

i
表示每帧语音降噪训练数据单元的第二均方根值。4.如权利要求1所述的处理方法,其特征在于,在依次判断每帧语音降噪训练数据单元的第二均方根值是否小于噪音阈值之前,所述处理方法还包括:从所述多个语音降噪训练数据单元中预先抽取出设定个数的噪声帧;计算所述设定个数的语音降噪训练数据单元的第一均方根值的均值和标准差;
按照如下公式计算所述噪音阈值:其中,RMS
threshold
表示所述噪音阈值;表示所述设定个数的语音降噪训练数据单元的第一均方根值的均值;RMS
σ
表示所述设定个数的语音降噪训练数据单元的第一均方根值的标准差;b表示调整系数,b=2~4。5.如权利要求2所述的处理方法,其调整在于,还包括:对于被识别为语音帧的语音降噪训练数据单元,设置每个语音帧的增益恒为1;对于被识别为噪音帧的语音降噪训练数据单元,采用如下公式计算每个噪音帧的第一增益:其中,g
i
表示每个噪音帧的增益;RMS
target
表示目标信号的均方根值;g
min
表示容许的最小增益值;根据每个语音帧和噪音帧的增益,调整所述语音降噪训练数据的包络线。6.如权利要求5所述的处理方法,其特征在于,所述根据每个语音帧和噪音帧的增益,调整所述语音降噪训练数据的包络线包括:对和每个所述语音帧相邻且连续的至少两个噪音帧中的...

【专利技术属性】
技术研发人员:胡伯承
申请(专利权)人:展讯通信上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1