本发明专利技术公开了一种基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法,该方法对输入的时域信号经过加窗、分帧后,经傅里叶变换并取模得到该语句的幅度谱;估计得到稀疏的语音成分和噪声基矩阵W(n);估计出语音分量和噪声分量后得到增强语音的估计;将鲁棒非负矩阵分解所得到的估计,与来自谱减SS和最小均方误差MMSE的估计,经过几何均值滤波模块融合,得到最终的幅度谱估计;利用幅度谱估计和含噪语音的相位重构出增强语音的时域信号。本发明专利技术不局限于语音内容所属的语言、不受限于说话人的变化、不受限于噪声的种类,与经典的基于平稳性假设的谱估计算法SS和MMSE相比,本发明专利技术不再依赖于这种平稳性假设,可以较准确的估计出平稳或突变噪声的频谱。
【技术实现步骤摘要】
【专利摘要】本专利技术公开了,该方法对输入的时域信号经过加窗、分帧后,经傅里叶变换并取模得到该语句的幅度谱;估计得到稀疏的语音成分和噪声基矩阵W(n);估计出语音分量和噪声分量后得到增强语音的估计;将鲁棒非负矩阵分解所得到的估计,与来自谱减SS和最小均方误差MMSE的估计,经过几何均值滤波模块融合,得到最终的幅度谱估计;利用幅度谱估计和含噪语音的相位重构出增强语音的时域信号。本专利技术不局限于语音内容所属的语言、不受限于说话人的变化、不受限于噪声的种类,与经典的基于平稳性假设的谱估计算法SS和MMSE相比,本专利技术不再依赖于这种平稳性假设,可以较准确的估计出平稳或突变噪声的频谱。【专利说明】一种基于鲁棒非负矩阵分解和数据融合的无监督语音増强 方法
本专利技术属于语音信号处理领域,尤其涉及一种基于鲁棒非负矩阵分解和数据融合 的无监督语音增强方法。
技术介绍
语音增强无论对于提高语音信号的听觉效果,还是作为前端处理提高语音识别器 的性能,都具有重要的意义。语音增强实施中的一个关键问题是噪声估计。为了估计噪声 的频谱,人们提出了一些经典的算法,如谱减(SpectrumSubtraction,SS)、最小均方误差 (MinimumMeanSquareError,MMSE)等,并已经广泛应用在语音通信中。然而,这些方法一 般基于噪声的平稳性假设,对于非平稳突变噪声的频谱估计效果很差。 为了估计突变噪声的频谱,近年来基于字典学习的噪声估计模型不断涌现,考虑 到功率谱或幅度谱的非负性,非负字典学习成为噪声估计的一种热门方法。然而,非负噪 声字典学习一般都需要提供噪声频谱或语音频谱作为先验知识,才能取得较好的效果。如 Duan等先利用纯噪声频谱学习出噪声字典,再将此字典用于被该噪声污染的语音信号的增 强;Chen等先利用纯语音频谱学习出一个通用的语音字典,再将此字典用于被噪声污染的 同类语音信号的增强。 上述两类方法在是否需要事先训练方面的特点为:谱减和最小均方误差算法不需 要关于噪声和语音的数据来实施事前训练一一即该类方法是无监督的;非负字典学习方法 依赖于在噪声或语音数据上的事前的训练一一即该类方法是有监督的。
技术实现思路
本专利技术实施例的目的在于提供一种基于鲁棒非负矩阵分解和数据融合的无监督 语音增强方法,旨在解决现有的有监督的语音增强算法局限于语音内容所属的语言、受限 于说话人的变化受限于噪声的种类的问题。 本专利技术是这样实现的,一种基于鲁棒非负矩阵分解和数据融合的无监督语音增强 方法是这样实现的: 步骤一、对输入的时域信号y(η),经过加窗、分帧后,对每帧实施短时傅里叶变换 并取模得到该语句的幅度谱Y; 步骤二、利用鲁棒非负矩阵分解模块,估计得到稀疏的语音成分§和噪声基矩阵 ff(n); 步骤三、将§加权,与含噪语音幅度谱Y和噪声基矩阵W(n)-起输入到分块非负矩 阵分解模块中,估计出语音分量W(S)H(S)和噪声分量W(n)H(n),经过维纳滤波后得到增强语音 的估计Y; 步骤四、将鲁棒非负矩阵分解所得到的估计,与来自谱减SS和最小均方误差MMSE 的估计,经过几何均值滤波模块融合,得到最终的幅度谱估计; 步骤五、利用所得的幅度谱估计和含噪语音的相位,重构出增强语音的时域信号 V(/7)。 进一步,W(n)和Hω分别表示噪声的字典矩阵和激活系数矩阵,其中(η)指代的是 噪声,S表示含噪语音的幅度谱图Y中去除噪声估计W(n)H(n)后的残留部分,W(η),Η(η)和S的 更新公式如下: w(n)^ff(η) □((Υ%(ff(n)H(n) +S)) * (H(n))τ), H(n) ^H(n) □((ff(n))T*(Y% (ff(n)H(n) +S))), S-S□ (Y% (W(n)H(n)+S)), 其中,□和%是指元素相乘和相除。 进一步,对S初始化的方法为: 首先设置S= 0,然后运行W(n)和H(n)的迭代公式若干次,从而得到W(n)和H(n)的初 始粗略估计,再通过对γ和w(n)H(n)对应元素的比值施加阈值η, S= (Y% (ff(n)H(n)) ^n), 来决定每个时频点取ο或1,阈值η的取值大于1。 进一步,所述的阈值η取值为2。 进一步,分块非负矩阵分解模块以含噪语音的幅度谱Υ,干净语音幅度谱的初步 估计δ和噪声基矩阵w(n)为输入,其最优化模型为: 【权利要求】1. ,其特征在于,所述 的基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法包括: 步骤一、对输入的时域信号y(n),经过加窗、分帧后,对每帧实施短时傅里叶变换并取 模得到该语句的幅度谱Y; 步骤二、利用鲁棒非负矩阵分解模块,估计得到稀疏的语音成分? §和噪声基矩阵1(11); 步骤三、将§加权,与含噪语音幅度谱Y和噪声基矩阵W(n)-起输入到分块非负矩阵分 解模块中,估计出语音分量W(S)H(S)和噪声分量W(n)H(n),经过维纳滤波后得到增强语音的估 计f; 步骤四、将鲁棒非负矩阵分解所得到的估计,与来自谱减SS和最小均方误差丽SE的估 计,经过几何均值滤波模块融合,得到最终的幅度谱估计; 步骤五、利用所得的幅度谱估计和含噪语音的相位,重构出增强语音的时域信号.〇(?)。2. 如权利要求1所述的基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法,其 特征在于,W(n)和H(n)分别表示噪声的字典矩阵和激活系数矩阵,其中(n)指代的是噪声,S 表示含噪语音的幅度谱图Y中去除噪声估计W(n)H(n)后的残留部分,W(n),H(n)和S的更新公 式如下: W(n) -W(n) □ ((Y%(W(n)H(n) +S) ) * (H(n)) T), H(n)一H (n) □ ((W (n))T* (Y% (W(n)H(n)+S))), S-S□ (Y% (W(n)H(n)+S)), 其中,□和%是指元素相乘和相除。3. 如权利要求1所述的基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法,其 特征在于,对S初始化的方法为: 首先设置S= 0,然后运行W(n)和H(n)的迭代公式若干次,从而得到W(n)和H(n)的初始粗 略估计,再通过对Y和W(n)H(n)对应元素的比值施加阈值n, S= (Y% (ff(n)H(n)) ^n), 来决定每个时频点取〇或1,阈值n的取值大于1。4. 如权利要求1所述的基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法,其 特征在于,所述的阈值n取值为2。5. 如权利要求1所述的基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法,其 特征在于,分块非负矩阵分解模块以含噪语音的幅度谱Y,干净语音幅度谱的初步估计{和 噪声基矩阵w(n)为输入,其最优化模型为:其目标函数分为两部分的和,第一部分是含噪语音幅度谱Y与其重构W(n)H(n)+W(s)H(s)2 间的KL散度;第二部分是以a加权后的干净语音幅度谱的初步估计S§与其重构W(S)H(S) 之间的KL散度,W(s),H(s)和H(n)的迭代公式如下,6. 如权利要求1所述的基于鲁棒非负矩阵分解和数据融合的无监督语音本文档来自技高网...
【技术保护点】
一种基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法,其特征在于,所述的基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法包括:步骤一、对输入的时域信号y(n),经过加窗、分帧后,对每帧实施短时傅里叶变换并取模得到该语句的幅度谱Y;步骤二、利用鲁棒非负矩阵分解模块,估计得到稀疏的语音成分和噪声基矩阵W(n);步骤三、将加权,与含噪语音幅度谱Y和噪声基矩阵W(n)一起输入到分块非负矩阵分解模块中,估计出语音分量W(s)H(s)和噪声分量W(n)H(n),经过维纳滤波后得到增强语音的估计步骤四、将鲁棒非负矩阵分解所得到的估计,与来自谱减SS和最小均方误差MMSE的估计,经过几何均值滤波模块融合,得到最终的幅度谱估计;步骤五、利用所得的幅度谱估计和含噪语音的相位,重构出增强语音的时域信号
【技术特征摘要】
【专利技术属性】
技术研发人员:孙蒙,张雄伟,李轶南,
申请(专利权)人:中国人民解放军理工大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。