一种语音去噪的方法及装置制造方法及图纸

技术编号:14780569 阅读:142 留言:0更新日期:2017-03-09 21:33
本发明专利技术实施例公开了一种语音去噪的方法及装置。该方法包括:对带噪语音信号进行语音检测,以区分出语音帧和非语音帧;分别对语音帧和非语音帧进行噪声估计,得到噪声功率谱融合估计值,其中,所述噪声功率谱融合估计值为语音帧噪声功率谱估计值与非语音帧噪声功率谱估计值的融合值;根据所述噪声功率谱融合估计值对所述带噪语音信号进行去噪处理。本发明专利技术实施例通过采用上述技术方案,对语音帧和非语音帧均进行了噪声估计,并综合两者的噪声估计结果对带噪语音信号进行去噪处理,可有效改善现有语音去噪方案的去噪效果,提高了语音质量。

【技术实现步骤摘要】

本专利技术实施例涉及语音信号处理技术,尤其涉及一种语音去噪的方法及装置
技术介绍
在实时语音通信过程中,会遇到各种噪声干扰问题,特别是对于手机等移动设备来说,语音噪声问题显得尤为突出。此外,在通过扬声器播放声音的情况下,由于存在回声问题,所以相对于远距离录音来说,该情况下语音的音质极易受到外在环境噪音和非线性残余回声的影响。为了提高语音通信质量,需要对语音进行去噪处理,以提高语音的清晰度。传统的语音去噪算法通常假设噪声是加性的及平稳的,使用语音活动检测(VoiceActivityDetection,VAD)技术将带噪语音区分为语音部分和非语音部分(即无声段),非语音部分主要表现为噪声特性,然后再通过某种统计方法对非语音部分进行处理,即可获得背景噪声特性的近似估计。然而,语音部分中的噪声与非语音部分的噪声可能存在区别,尤其是在受到残余回声影响的情况下(存在乘性的噪音),仅根据对非语音部分的噪声估计结果来对整体语音信号进行去噪处理的效果不佳。
技术实现思路
本专利技术实施例提供了一种语音去噪的方法及装置,以改善现有语音去噪方案的去噪效果。第一方面,本专利技术实施例提供了一种语音去噪的方法,该方法包括:对带噪语音信号进行语音检测,以区分出语音帧和非语音帧;分别对语音帧和非语音帧进行噪声估计,得到噪声功率谱融合估计值,其中,所述噪声功率谱融合估计值为语音帧噪声功率谱估计值与非语音帧噪声功率谱估计值的融合值;根据所述噪声功率谱融合估计值对所述带噪语音信号进行去噪处理。第二方面,本专利技术实施例还提供了一种语音去噪的装置,该装置包括:语音检测模块,用于对带噪语音信号进行语音检测,以区分出语音帧和非语音帧;噪声估计模块,用于分别对语音帧和非语音帧进行噪声估计,得到噪声功率谱融合估计值,其中,所述噪声功率谱融合估计值为语音帧噪声功率谱估计值与非语音帧噪声功率谱估计值的融合值;去噪处理模块,用于根据所述噪声功率谱融合估计值对所述带噪语音信号进行去噪处理。本专利技术实施例提供了一种语音去噪的方法及装置,通过对带噪语音信号进行语音检测,区分出语音帧和非语音帧,并对其进行噪声估计,得到噪声功率谱融合估计值,根据噪声功率谱融合估计值对带噪语音信号进行去噪处理。通过采用上述技术方案,对语音帧和非语音帧均进行了噪声估计,并综合两者的噪声估计结果对带噪语音信号进行去噪处理,可有效改善现有语音去噪方案的去噪效果,提高了语音质量。附图说明图1是本专利技术实施例一提供的语音去噪的方法流程图;图2是本专利技术实施例二提供的语音去噪的方法流程图;图3是本专利技术实施例三提供的语音去噪的方法流程图;图4是本专利技术实施例四提供的语音去噪的方法流程图;图5a是本专利技术实施例四提供的原始带噪语音信号频谱图;图5b是本专利技术实施例四提供的去噪后的语音信号频谱图;图6是本专利技术实施例五提供的语音去噪的装置的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1为本专利技术实施例一提供的语音去噪的方法流程图,本实施例可用于语音去噪,该方法可由语音去噪的装置来执行,该装置可以由软件和/或硬件的方式实现,该装置可以集成在任何提供语音去噪功能的智能终端中,具体实现中,智能终端可包括:平板电脑、手机及电子阅读器等移动终端,上述终端仅是举例,而非穷举,包含但不限于上述智能终端。参见图1,所述语音去噪的方法,包括:S110、对带噪语音信号进行语音检测,以区分出语音帧和非语音帧。智能终端接收到语音信号是一种受到环境干扰后形成的非平稳时变带噪语音信号。智能终端接收到非平稳时变语音信号后,首先,对时域带噪语音信号进行采样,将模拟信号转化为数字信号。通常,时域带噪语音信号的采样频率为44100Hz,即一秒钟得到44100个采样数据。对采样后的时域带噪语音信号进行加窗分帧,使每一帧时域带噪语音信号都是平稳的。优选的,语音处理中常用的窗函数有矩形窗、汉宁窗和汉明窗。对加窗分帧的时域带噪语音信号进行傅里叶变换,将其转换为频域带噪语音信号帧。其中,采样、分帧及傅里叶变换为本领域技术人员的常用技术手段,为了简明起见,在此不再赘述。对频域带噪语音信号帧,逐帧进行语音检测,以区分出语音帧和非语音帧。语音检测可理解为根据语音特征参数进行特征提取,其中,语音特征参数能够有效代表语音特征,具有良好的区分性,能够根据其特征有效地区分出语音和非语音。本实施例中可采用VAD技术进行语音检测。通常,可通过提取语音信号的频域特征参数中的梅尔频率倒谱系数(MelFrequencyCepstrumCoefficient,MFCC)来区分出语音帧和非语音帧。S120、分别对语音帧和非语音帧进行噪声估计,得到噪声功率谱融合估计值。示例性的,经过语音检测(VAD)后,可逐一对每一帧进行噪声估计。如果判断当前帧为语音帧,则按照语音帧的噪声估计方式对当前帧进行进行噪声估计,得到语音帧噪声功率估计值。例如可采用最小值追踪算法或分位数噪声估计方法进行噪声估计。优选的,采用分位数估计方法进行噪声估计,一段时间内,带噪语音信号在这一频率窄带的分位数的值被认为是当前频带的噪声功率估计值(也可理解为噪声能量)。具体的,可以根据如下公式得出语音帧噪声功率谱估计值:λd(n,k)=Quantiles(X(n,k)2)n=0,1,2...,M其中,M表示帧数;X(n,k)表示第n帧第k个频点的语音频谱分量;Quantiles()表示取分位数,一般取0.25或0.5。需要说明的是,M表示对带噪语音信号进行分帧处理后得到的总帧数,上式中n表示语音帧的帧号,n的具体取值由语音检测结果决定。如果判断当前帧为非语音帧,则按照非语音帧的噪声估计方式对当前帧进行噪声估计,得到非语音噪声功率估计值。可以根据如下公式得出非语音帧噪声功率谱估计值:λd(n,k)=a*X(n,k)2+(1-a)*Quantiles(X(n,k)2)n=0,1,2...,M需要说明的是,该式中n表示非语音帧的帧号,n的具体取值由语音检测结果决定。噪声功率谱融合估计值为语音帧噪声功率谱估计值与非语音帧噪声功率谱估计值的融合值,可根据如下公式得出噪声功率谱融合估计值:其中,L表示噪声平滑区间长度,可取9帧;a表示权重系数,优选的,a取0.8;λd(n,k)表示语音帧噪声功率谱估计值或非语音帧噪声功率谱估计值,具体可由n的值来确定;λlast(n,k)表示噪声功率谱融合估计值。S130、根据所述噪声功率谱融合估计值对所述带噪语音信号进行去噪处理。实例性的,在得到噪声功率谱融合估计值后,可利用直接判决法对先验信噪比进行估计。估计先验信噪比的方法不仅限于上述直接判决法,还可以使用其他适合的算法,例如Casual算法、Non-Casual算法等。本实施例中,可根据噪声功率谱融合估计值计算先验信噪比,根据先验信噪比可以相应地得到维纳滤波增益函数。在获得维纳滤波的增益函数之后,对频域带噪语音信号进行维纳滤波,得到频域去噪语音信号。先验信噪比的估计、维纳滤波增益函数的计算可参照现有的计算方式,在此不再赘述。进一步的,可对频域去噪的语音信号本文档来自技高网...
一种语音去噪的方法及装置

【技术保护点】
一种语音去噪的方法,其特征在于,包括:对带噪语音信号进行语音检测,以区分出语音帧和非语音帧;分别对语音帧和非语音帧进行噪声估计,得到噪声功率谱融合估计值,其中,所述噪声功率谱融合估计值为语音帧噪声功率谱估计值与非语音帧噪声功率谱估计值的融合值;根据所述噪声功率谱融合估计值对所述带噪语音信号进行去噪处理。

【技术特征摘要】
1.一种语音去噪的方法,其特征在于,包括:对带噪语音信号进行语音检测,以区分出语音帧和非语音帧;分别对语音帧和非语音帧进行噪声估计,得到噪声功率谱融合估计值,其中,所述噪声功率谱融合估计值为语音帧噪声功率谱估计值与非语音帧噪声功率谱估计值的融合值;根据所述噪声功率谱融合估计值对所述带噪语音信号进行去噪处理。2.根据权利要求1所述的方法,其特征在于,对带噪语音信号进行语音检测,以区分出语音帧和非语音帧,包括:提取带噪语音信号的语音特征,其中,所述语音特征包括梅尔倒谱系数MFCC、线性预测编码残差和频谱质心Centroid;根据所提取的语音特征利用分类器训练生成语音模型和噪声模型,以区分出语音帧和非语音帧。3.根据权利要求2所述的方法,其特征在于,所述语音特征还包括频谱平坦度Flatness、频谱偏移量Rolloff和频谱扰动度Zcr中的至少一个。4.根据权利要求1所述的方法,其特征在于,分别对语音帧和非语音帧进行噪声估计,得到噪声功率谱融合估计值,包括:根据如下公式得出语音帧噪声功率谱估计值:λd(n,k)=Quantiles(X(n,k)2)n=0,1,2...,M根据如下公式得出非语音帧噪声功率谱估计值:λd(n,k)=a*X(n,k)2+(1-a)*Quantiles(X(n,k)2)n=0,1,2...,M根据如下公式得出噪声功率谱融合估计值:λlast(n,k)=Σn=0L-1λd(n,k)L]]>其中,M表示帧数,X(n,k)表示第n帧第k个频点的语音频谱分量,Quantiles()表示取分位数,L表示噪声平滑区间长度,a表示权重系数,λd(n,k)表示语音帧噪声功率谱估计值或非语音帧噪声功率谱估计值,λlast(n,k)表示噪声功率谱融合估计值。5.根据权利要求1所述的方法,其特征在于,所述根据所述噪声功率谱融合估计值对所述带噪语音信号进行去噪处理,包括:根据所述噪声功率谱融合估计值对所述带噪语音信号进行平稳噪声抑制、非语音噪声抑制以及非平稳噪声抑制。6.根据权利要求5所述的方法,其特征在于,根据所述噪声功率谱融合估计值对所述带噪语音信号进行平稳噪声抑制、非语音噪声抑制以及非平稳噪声抑制,包括:根据所述噪声功率谱融合估计值生成平稳噪声、非语音噪声及非平稳噪声的融合噪声抑制因子;根据所述融合噪声抑制因子对所述带噪语音信号进行平稳噪声抑制、非语音噪声抑制以及非平稳噪声抑制。7.根据权利要求6所述的方法,其特征在于,所述融合噪声抑制因子为:Q(n,k)=|X(n,k)|*g(n,k)*coeff(n,k)|X(n,k)|*g(n,k)*coeff(n,k)+θ]]>其中,X(n,k)表示第n帧第k个频点的语音频谱分量,g(n,k)表示维纳抑制因子,coeff(n,k)表示非语音抑制因子,θ表示非平稳噪声抑制因子。8.根据权利要求6所述的方法,其特征在于,所述融合噪声抑制因子为:Q(n,k)=(|X(n,k)|*g(n,k)*coeff(n,k))2(|X(n,k)|*g(n,k)*coeff(n,k))2+θ]]>其中,X(n,k)表示第n帧第k个频点的语音频谱分量,g(n,k)表示维纳抑制因子,coeff(n,k)表示非语音抑制因子,θ表示非平稳噪声抑制因子。9.根据权利要求7或8所述的方法...

【专利技术属性】
技术研发人员:吴威麒张凯磊
申请(专利权)人:上海谦问万答吧云计算科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1