语音增强的方法和装置制造方法及图纸

技术编号:11731784 阅读:122 留言:0更新日期:2015-07-15 03:52
本发明专利技术公开了一种语音增强的方法和装置,该方法包括:获取语音信号的静音段中噪声的特征量;根据该静音段中噪声的特征量,从预设的多个噪声类中确定与该静音段中噪声匹配的噪声类,该多个噪声类是根据多个噪声样本的特征信息对该多个噪声样本进行聚类后得到的;根据该与该静音段中噪声匹配的噪声类,以及噪声类和噪声模型的映射关系,确定与该静音段中噪声匹配的噪声类对应的噪声模型;根据该与该静音段中噪声匹配的噪声类对应的噪声模型,对该语音信号进行语音增强。本发明专利技术实施例提供的语音增强的方法和装置,根据噪声类对应的噪声模型,对语音信号进行语音增强,能够提高语音增强的效果。

【技术实现步骤摘要】

本专利技术实施例涉及语音处理领域,并且更具体地,涉及一种语音增强的方法和装置
技术介绍
随着通讯技术和网络技术的飞速发展,语音通信已远远超越了传统的以固定电话为主要形式的范畴,在手机通信、电视/电话会议、车载免提通信、IP电话等诸多领域中被广泛应用。在语音通信的应用中,要保证语音信号的清晰和高质量,消除语音信号中由这些新的语音通信方式而产生的各种噪声,是具有挑战性的问题。目前,语音通信中语音增强的最大困难在于噪声环境的未知性(或统计特性的不确定性)。现有技术中应用并且研究最广泛的是基于隐马尔科夫模型(Hidden Markov Model,HMM)的语音增强方法。HMM语音增强方法对语音增强的效果较好。但HMM语音增强方法过于依赖外界先验输入,在噪声类型未知或者噪声切换的情况下增强效果较差。为了克服上述缺点,有研究提出了根据采集的噪声样本训练噪声模型,多个噪声样本和噪声模型形成噪声样本和噪声模型映射关系列表。然后确定与输入的含噪语音信号中的噪声匹配的噪声样本,再根据噪声样本和噪声模型映射关系列表,确定匹配的噪声模型。根据匹配得到的噪声模型,基于HMM语音增强方法进行语音增强,能够在一定程度上提升算法的鲁棒性。但是,噪声样本和噪声模型映射关系列表中包括的噪声样本和噪声模型的个数有限,当输入语音信号中的噪声在映射关系列表中不存在较为接近的噪声样本时,根据噪声样本和噪声模型映射关系列表确定的噪声模型的增强效果差,因此该方法的普适性还有待加强。此外,该方法对每种噪声都要进行单独训练和建立模型,对存储空间的需求较大,限制了其实际的可用性。
技术实现思路
本专利技术实施例提供一种语音增强的方法和装置,能够提高语音增强的效果。第一方面,提供了一种语音增强的方法,包括:获取语音信号的静音段中噪声的特征量;根据所述静音段中噪声的特征量,从预设的多个噪声类中确定与所述静音段中噪声匹配的噪声类,所述多个噪声类是根据多个噪声样本的特征量对所述多个噪声样本进行聚类后得到的;根据所述与所述静音段中噪声匹配的噪声类,以及噪声类和噪声模型的映射关系,确定与所述静音段中噪声匹配的噪声类对应的噪声模型;根据所述与所述静音段中噪声匹配的噪声类对应的噪声模型,对所述语音信号进行语音增强。结合第一方面,在第一方面的第一种可能的实现方式中,所述特征量包括噪声平均谱熵值、噪声归一化临界带能量比重和噪声平均过零率中的至少一种。结合第一方面或第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,所述多个噪声样本包括n个噪声样本,所述方法还包括:获取所述n个噪声样本,计算所述n个噪声样本各自的特征量;根据所述n个噪声样本各自的特征量,将所述n个噪声样本聚类为m个噪声类;对所述m个噪声类进行训练,以获得所述m个噪声类对应的噪声模型;将所述m个噪声类和所述m个噪声类对应的噪声模型映射成所述噪声类和噪声模型的映射关系,其中,m小于n。结合第一方面的第二种可能的实现方式,在第一方面的第三种可能的实现方式中,所述根据所述n个噪声样本各自的特征量,将所述n个噪声样本聚类为m个噪声类,包括:从所述n个噪声样本中选取出m个噪声样本作为m个噪声聚类质心;对所述n个噪声样本中剩余的n-m个噪声样本中的每一个噪声样本,计算所述每一个噪声样本的特征量分别到所述m个噪声聚类质心的特征量的距离,将所述每一个噪声样本分别归类到距离最近的噪声聚类质心对应的噪声类中。结合第一方面的第三种可能的实现方式,在第一方面的第四种可能的实现方式中,所述从所述n个噪声样本中选取出m个噪声样本作为m个噪声聚类质心,包括:根据所述n个噪声样本的采集来源,从所述n个噪声样本中选取出所述m个噪声样本作为所述m个噪声聚类质心;或者根据所述n个噪声样本各自的噪声平均谱熵值的大小,从所述n个噪声样本中选取出所述m个噪声样本作为所述m个噪声聚类质心。结合第一方面的第二种至第四种可能的实现方式中的任一种可能的实现方式,在第一方面的第五种可能的实现方式中,所述对所述m个噪声类进行训练,以获得所述m个噪声类对应的噪声模型,包括:对所述m个噪声类中的每一个噪声类,将所述每一个噪声类中的噪声样本按预设的规则分别组合成噪声类训练数据,其中,所述m个噪声类中任意两个噪声类分别的所述噪声类训练数据的长度相等;对所述m个噪声类各自的所述噪声类训练数据分别进行训练,以获得所述m个噪声类各自对应的噪声模型。结合第一方面的第五种可能的实现方式,在第一方面的第六种可能的实现方式中,所述对所述m个噪声类中的每一个噪声类,将所述每一个噪声类中的噪声样本按预设的规则分别组合成噪声类训练数据,包括:对所述m个噪声类中的任意一个噪声类,在所述任意一个噪声类包括多个噪声样本时,将所述任意一个噪声类中的所述多个噪声样本按相同的比例组合成噪声类训练数据。结合第一方面的第二种至第六种可能的实现方式中的任一种可能的实现方式,在第一方面的第七种可能的实现方式中,所述根据所述静音段中噪声的特征量,从预设的多个噪声类中确定与所述静音段中噪声匹配的噪声类,包括:将所述静音段中噪声的特征量与所述m个噪声类的噪声聚类质心的特征量对比,将距离所述静音段中噪声最近的噪声聚类质心所在的噪声类,确定为与所述静音段中噪声匹配的噪声类。结合第一方面和第一方面的第一种至第七种可能的实现方式中的任一种可能的实现方式,在第一方面的第八种可能的实现方式中,所述根据所述静音段中噪声的特征量,从预设的多个噪声类中确定与所述静音段中噪声匹配的噪声类,包括:根据所述静音段中噪声的特征量,确定是否存在与所述静音段中噪声匹配的噪声样本;在不存在与所述静音段中噪声匹配的噪声样本时,根据所述静音段中噪声的特征量,从预设的多个噪声类中确定与所述静音段中噪声匹配的噪声类。第二方面,提供了一种语音增强的装置,包括:第一获取模块,用于获取语音信号的静音段中噪声的特征量;第一确定模块,用于根据所述第一获取模块获取的所述静音段中噪声的特征量,从预设的多个噪声类中确定与所述静音段中噪声匹配的噪声类,所述多个噪声类是根据多个噪声样本的特征量对所述多个噪声样本进行聚类后得到的;第二确定模块,用于根据所述第一确定模块确定的所述与所述静音段中噪声匹配的噪声类,以及噪声类和噪声模型的映射关系,确定与所述静音段中噪声本文档来自技高网
...

【技术保护点】
一种语音增强的方法,其特征在于,包括:获取语音信号的静音段中噪声的特征量;根据所述静音段中噪声的特征量,从预设的多个噪声类中确定与所述静音段中噪声匹配的噪声类,所述多个噪声类是根据多个噪声样本的特征量对所述多个噪声样本进行聚类后得到的;根据所述与所述静音段中噪声匹配的噪声类,以及噪声类和噪声模型的映射关系,确定与所述静音段中噪声匹配的噪声类对应的噪声模型;根据所述与所述静音段中噪声匹配的噪声类对应的噪声模型,对所述语音信号进行语音增强。

【技术特征摘要】
1.一种语音增强的方法,其特征在于,包括:
获取语音信号的静音段中噪声的特征量;
根据所述静音段中噪声的特征量,从预设的多个噪声类中确定与所述静
音段中噪声匹配的噪声类,所述多个噪声类是根据多个噪声样本的特征量对
所述多个噪声样本进行聚类后得到的;
根据所述与所述静音段中噪声匹配的噪声类,以及噪声类和噪声模型的
映射关系,确定与所述静音段中噪声匹配的噪声类对应的噪声模型;
根据所述与所述静音段中噪声匹配的噪声类对应的噪声模型,对所述语
音信号进行语音增强。
2.根据权利要求1所述的方法,其特征在于,所述特征量包括噪声平均
谱熵值、噪声归一化临界带能量比重和噪声平均过零率中的至少一种。
3.根据权利要求1或2所述的方法,其特征在于,所述多个噪声样本包
括n个噪声样本,所述方法还包括:
获取所述n个噪声样本,计算所述n个噪声样本各自的特征量;
根据所述n个噪声样本各自的特征量,将所述n个噪声样本聚类为m个
噪声类;
对所述m个噪声类进行训练,以获得所述m个噪声类对应的噪声模型;
将所述m个噪声类和所述m个噪声类对应的噪声模型映射成所述噪声类
和噪声模型的映射关系,其中,m小于n。
4.根据权利要求3所述的方法,其特征在于,所述根据所述n个噪声样
本各自的特征量,将所述n个噪声样本聚类为m个噪声类,包括:
从所述n个噪声样本中选取出m个噪声样本作为m个噪声聚类质心;
对所述n个噪声样本中剩余的n-m个噪声样本中的每一个噪声样本,计
算所述每一个噪声样本的特征量分别到所述m个噪声聚类质心的特征量的距
离,将所述每一个噪声样本分别归类到距离最近的噪声聚类质心对应的噪声
类中。
5.根据权利要求4所述的方法,其特征在于,所述从所述n个噪声样本
中选取出m个噪声样本作为m个噪声聚类质心,包括:
根据所述n个噪声样本的采集来源,从所述n个噪声样本中选取出所述

\tm个噪声样本作为所述m个噪声聚类质心;或者
根据所述n个噪声样本各自的噪声平均谱熵值的大小,从所述n个噪声
样本中选取出所述m个噪声样本作为所述m个噪声聚类质心。
6.根据权利要求3至5中任一项所述的方法,其特征在于,所述对所述
m个噪声类进行训练,以获得所述m个噪声类对应的噪声模型,包括:
对所述m个噪声类中的每一个噪声类,将所述每一个噪声类中的噪声样
本按预设的规则分别组合成噪声类训练数据,其中,所述m个噪声类中任意
两个噪声类对应的所述噪声类训练数据的长度相等;
对所述m个噪声类各自的所述噪声类训练数据分别进行训练,以获得所
述m个噪声类各自对应的噪声模型。
7.根据权利要求6所述的方法,其特征在于,所述对所述m个噪声类
中的每一个噪声类,将所述每一个噪声类中的噪声样本按预设的规则分别组
合成噪声类训练数据,包括:
对所述m个噪声类中的任意一个噪声类,在所述任意一个噪声类包括多
个噪声样本时,将所述任意一个噪声类中的所述多个噪声样本按相同的比例
组合成噪声类训练数据。
8.根据权利要求3至7中任一项所述的方法,其特征在于,所述根据所
述静音段中噪声的特征量,从预设的多个噪声类中确定与所述静音段中噪声
匹配的噪声类,包括:
将所述静音段中噪声的特征量与所述m个噪声类的噪声聚类质心的特征
量对比,将距离所述静音段中噪声最近的噪声聚类质心所在的噪声类,确定
为与所述静音段中噪声匹配的噪声类。
9.根据权利要求1至8中任一项所述的方法,其特征在于,所述根据所
述静音段中噪声的特征量,从预设的多个噪声类中确定与所述静音段中噪声
匹配的噪声类,包括:
根据所述静音段中噪声的特征量,确定是否存在与所述静音段中噪声匹
配的噪声样本;
在不存在与所述静音段中噪声匹配的噪声样本时,根据所述静音段中噪
声的特征量,从预设的多个噪声类中确定与所述静音段中噪声匹配的噪声类。
10.一种语音增强的装置,其特征在于,包括:<...

【专利技术属性】
技术研发人员:周璇夏丙寅苗磊
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1