噪声降低方法、程序产品和装置制造方法及图纸

技术编号:10750519 阅读:166 留言:0更新日期:2014-12-10 20:31
本发明专利技术的目的在于提供一种在语音识别中的基于模型的噪声降低的创新技术。本发明专利技术在基于模型的噪声补偿中生成概率模型,该概率模型被表示为具有观测值y作为因数的失配向量g(或干净语音x)的概率分布和具有针对每个频带的置信度指数β作为因数的失配向量g(或干净语音x)的概率分布的乘积,在概率模型上执行MMSE估计,以及估计干净语音估计值x^。因此,每个频带以根据它的置信度级别的贡献程度来影响MMSE估计的结果。进一步地,观测语音的S/N比率越高,输出值越加变得偏移到观测值。因此,前端的输出被优化。

【技术实现步骤摘要】
【国外来华专利技术】噪声降低方法和装置
本专利技术涉及语音识别技术,并且更具体地,涉及噪声降低技术。
技术介绍
在语音识别技术中,背景噪声的影响的移除是令人关注的问题,它对于提高话语(utterance)识别的准确性是重要的。当背景噪声相对小时,相关领域的滤波技术(诸如谱相减(spectralsubtraction)方法和维纳(Wiener)滤波)具有一定程度的成功,但是在大的背景噪声上无法获得所期望的结果,因为目标语音陷入在该噪声中。因此,近年来已经将注意力放在使用干净语音(cleanspeech)(没有任何噪声被叠加在其上的话语语音)的概率模型的方法。这些基于模型的噪声降低方法已经被报道为甚至是在大的背景噪声上也显示出高的性能。关于这个方面,日本专利申请公开第2008-298844号(专利文献1)公开了一种采用基于模型的噪声降低的语音识别系统。[引用列表][专利引用][专利引用1]日本专利申请公开第2008-298844号
技术实现思路
[技术问题]本专利技术的目的在于提供一种被应用于语音识别前端的创新的噪声降低方法。[对问题的技术方案]专利技术人已经努力地实验出一种被应用于语音识别前端的创新的噪声降低方法,并且因此构思出一种配置,该配置利用包括针对观测语音的每个频带的置信度指数的因数模型,从而完成了本专利技术。也就是,根据本专利技术,提供了一种噪声降低方法,该方法包括:基于观测语音的频谱而生成针对每个频带的置信度指数的步骤;生成概率模型的步骤,所述概率模型被表示为具有针对每个频带的维度的混合多维度正态分布,每个正态分布被表示为第一正态分布和第二正态分布的乘积;以及通过在所述概率模型上执行MMSE估计来估计失配向量估计值、以及基于所述失配向量估计值来获得干净语音估计值的步骤。第一正态分布是基于所述观测语音而生成的失配向量的概率分布。第二正态分布被定义为如下的函数,该函数具有零的均值并且输出随着所述置信度指数变得更大而变成更小的值的方差。而且,根据本专利技术,提供了一种噪声降低方法,该方法包括:基于观测语音的频谱而生成针对每个频带的置信度指数的步骤;生成概率模型的步骤,所述概率模型被表示为具有针对每个频带的维度的混合多维度正态分布,每个正态分布被表示为第一正态分布和第二正态分布的乘积;以及通过在所述概率模型上执行MMSE估计来获得干净语音估计值的步骤。第一正态分布是基于所述观测语音而生成的干净语音的概率分布。第二正态分布被定义为如下的函数,该函数具有以观测值为均值并且输出随着所述置信度指数变得更大而变成更小的值的方差。进一步地,根据本专利技术,提供了一种计算机程序产品,用于使得计算机执行这些方法中的每个方法,以及提供了一种噪声降低装置,实施用于实现这些方法中的每个方法的功能。[本专利技术的有益效果]如以上所描述的,根据本专利技术,通过利用包含针对观测语音的每个频带的置信度指数的因数模型来优化前端的输出。附图说明图1是图示相关领域的语音识别系统中的前端的配置的示意图。图2包括图示根据观测语音的频谱生成梅尔(mel)LPW的步骤的示意图。图3包括图示根据梅尔LPW生成置信度指数β的步骤的示意图。图4是图示实施例的语音识别系统中的前端的配置的示意图。图5是图示由实施例的前端执行的过程的流程图。具体实施方式在下文中,将参照在附图中图示的实施例来描述本专利技术。然而,本专利技术不限于在附图中图示的实施例。注意,在以下参照的附图中,相同元件以相同参照标号给出,并且其描述被适当地省略。一般而言,语音识别系统包括前端和后端,前端将特定转换应用到话语语音的声学信号以提取特征量,后端基于在前端中提取的特征量来搜索数据库,以指明话语的内容。本专利技术提供了一种创新技术,其将包含观测语音的频谱的置信度指数的因数模型用于被应用到前端的基于模型的噪声补偿。<基于模型的噪声补偿>在开始本专利技术的实施例的描述之前,将基于图1来描述被应用到前端的基于模型的噪声补偿。注意,在以下描述中,“观测语音”指的是其中背景噪声被叠加在话语语音上的实际观测的声音;“干净语音”指的是没有任何噪声被叠加在其上的话语语音;并且“干净语音估计值”指的是从观测语音所估计的干净语音的估计值。而且,“频谱”指的是功率谱或者幅度谱。基于模型的噪声补偿,简单地说,是一种在观测值y被给定时将干净语音x建模为x的概率分布p(x|y),并且根据概率模型p(x|y)来估计干净语音x的估计值。MMSE估计是在后续阶段的估计中被使用的基本技术。图1示意性图示了在相关领域中的应用基于模型的噪声补偿的语音识别系统中的前端500的配置。利用麦克风收集和记录的观测语音由A/D转换器转换成数字信号(声学信号)。此后,该数字信号被使用适当的窗函数来成帧和离散傅里叶变换(DFT),其然后针对每个帧而被转换成频谱。接下来,该频谱经过梅尔滤波器组(其中带通滤波器在梅尔刻度上以等间距被布置的滤波器组),并且得到该频谱的对数,这些对数然后被转换成梅尔对数谱并且然后被输入到噪声降低单元502。噪声降低单元502包括基于模型的噪声补偿部件512、MMSE估计部件514以及数据库516,数据库516存储干净语音的高斯混合模型(在下文中被称为GMM)。基于输入的梅尔对数谱,噪声降低单元502生成针对每个帧的干净语音估计值,并且将干净语音估计值输出到特征量提取单元504。基于模型的噪声补偿部件512是将观测语音中所包括的干净语音表示为概率分布的函数部件,并且通过现有的建模算法、诸如VTS、SPLICE、DNA或Segura来实施。基于模型的噪声补偿部件512通过使用被输入到噪声降低单元502的针对每个帧的梅尔对数谱、以及被存储在数据库516的干净语音模型(GMM)来执行特定的算术运算,并且将被包括在观测语音中的干净语音输出为具有针对每个频带的维度的混合多维度正态分布。MMSE估计部件514基于从基于模型的噪声补偿部件512输出的概率分布来执行MMSE估计,并且生成干净语音估计值。注意,被存储在数据库516的干净语音模型是在梅尔对数谱域中的GMM,其是基于先验学习而针对每个音位(phoneme)生成的。基于模型的噪声补偿部件512将干净语音输出为在梅尔对数谱域中的GMM。MMSE估计部件514将干净语音估计值生成为在梅尔对数谱域中的向量。特征量提取单元504从输出自MMSE估计部件514的干净语音估计值中提取特定的特征量,诸如梅尔频率倒谱系数(MFCC),并且将特征量发送到后端。在后端,基于从前端接收的特征量,通过使用现有的配置、诸如HMM、听觉模型或者N-gram语言模型来指明该话语的内容。在相关领域的语音识别系统中的前端的配置已经在以上被简单地描述。接下来,现有的MMSE估计将被详细地描述。相关领域的基于模型的噪声补偿算法包括从观测语音中直接估计干净语音估计值的第一方法(其已经在以上被描述)、以及从观测语音中估计补偿量并且根据观测语音与补偿量的估计值之间的差异来获得干净语音估计值的第二方法。在第二方法中,MMSE估计被用于估计补偿量(失配向量)。为了简化描述,以下描述将基于第二方法,其由Segura所采用。<现有的MMSE估计>在观测语音y的帧t中的频带d(梅尔刻度上的频带)的梅尔对数谱域中的观测值yd(t)能够在以下公式(1)中被表示为干本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/21/201380012027.html" title="噪声降低方法、程序产品和装置原文来自X技术">噪声降低方法、程序产品和装置</a>

【技术保护点】
一种噪声降低方法,所述方法包括:基于观测语音的频谱而生成针对每个频带的置信度指数的步骤;生成概率模型的步骤,所述概率模型被表示为具有针对每个频带的维度的混合多维度正态分布,每个正态分布被表示为第一正态分布和第二正态分布的乘积;以及通过在所述概率模型上执行MMSE估计来估计失配向量估计值、以及基于所述失配向量估计值来获得干净语音估计值的步骤,其中所述第一正态分布是基于所述观测语音而生成的失配向量的概率分布,并且其中所述第二正态分布具有零的均值和如下的方差,所述方差被定义为随着所述置信度指数变得更大而输出更小的值的函数。

【技术特征摘要】
【国外来华专利技术】2012.03.09 JP 2012-0525651.一种噪声降低方法,所述方法包括:基于观测语音的频谱而生成针对每个频带的置信度指数的步骤;生成概率模型的步骤,所述概率模型被表示为具有针对每个频带的维度的混合多维度正态分布,每个正态分布被表示为第一正态分布和第二正态分布的乘积;以及通过在所述概率模型上执行MMSE估计来估计失配向量估计值、以及基于所述失配向量估计值来获得干净语音估计值的步骤,其中所述第一正态分布是基于所述观测语音而生成的失配向量的概率分布,并且其中所述第二正态分布具有零的均值和如下的方差,所述方差被定义为随着所述置信度指数变得更大而输出更小的值的函数。2.一种噪声降低方法,所述方法包括:基于观测语音的频谱而生成针对每个频带的置信度指数的步骤;生成概率模型的步骤,所述概率模型被表示为具有针对每个频带的维度的混合多维度正态分布,每个正态分布被表示为第一正态分布和第二正态分布的乘积;以及通过在所述概率模型上执行MMSE估计来获得干净语音估计值的步骤,其中所述第一正态分布是基于所述观测语音而生成的干净语音的概率分布,并且其中所述第二正态分布具有以观测值作为均值并且具有如下的方差,所述方差被定义为随着所述置信度指数变得更大而输出更小的值的函数。3.根据权利要求1或2所述的方法,其中所述置信度指数是表示所述观测语音的谐波结构的显著性的指数。4.根据权利要求1或2所述的方法,其中生成置信度指数的所述步骤包括:从所述观测语音的所述频谱提取谐波结构并且归一化所述谐波结构的步骤;在梅尔刻度上平滑经归一化的值的步骤;以及将经平滑的所述值归一化为从0到1的步骤。5....

【专利技术属性】
技术研发人员:市川治S·J·伦尼
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利