语音处理中用于人工扩展带宽的方法和设备技术

技术编号:3046029 阅读:168 留言:0更新日期:2012-04-11 18:40
一种改善利用300Hz和3.4kHz之间的音频带宽传输的语音信号的质量的方法和设备。在将接收语音信号划分成帧之后,在样本之间插零以使采样频率加倍。利用基于语音帧分类的自适应算法调整这些混叠频率分量的电平。可以将语音划分为咝音和非咝音,可以再将非咝音划分为浊音和塞音。所述调整基于一些参数,例如由300Hz和3.4kHz之间的向上采样语音信号频谱计算的过零点数量和能量分布来执行。通过对经过调整的向上采样语音频谱执行逆傅立叶变换而获得带宽在300Hz和7.7kHz之间的新语音。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术总体上涉及用于提高以电方式再现的语音信号的质量的方法和设备,更具体地来说涉及通过扩展语音带宽来提高语音质量。
技术介绍
常规技术下,语音信号在电信系统中以窄带传输,根据奈奎斯特定理,包含在300Hz到3.4kHz范围内的频率,采样率为8kHz。但是,如果所传送语音的带宽更宽些(例如达到8kHz),则人所感觉到的语音会更自然。由于频率范围受限,所以如此传送的语音的质量不甚理想,因为声音有些不自然。为此,新的宽带传输标准如AMR(自适应多速率)宽带语音编解码器可以传送达7kHz的频率。但是,如果语音源自窄带网络或具有窄带语音编码器的设备,则具有宽带功能的终端或宽带网络不会提供有关所传输的语音自然度的任何优势,因为较高频率的内容已经在传输时丢失。因此,有利且希望的是扩展传输语音的带宽,以便提高语音质量。过去,已经将多种方法用于此目的。例如,H.Yasukawa所著的“通过滤波和多速率技术提高带宽受限语音的质量”(″Quality Enhancement of BandLimited Speech by Filtering and Multirate Techniques″,Proc.Int.Conf.on Spoken Language Proc,.pp.1607-1610)中公开了一种扩展频谱方法,将采样率转换中的混叠效应和数字滤波用于在扩展的频谱的较高频带中进行频谱整形。EP10064648公开了一种语音带宽扩展方法,其中在接收器上利用码本(codebook)生成高频带(例如4kHz和8kHz之间)语音的丢失频率分量。码本包含不同频谱特征的频率矢量,全部涵盖相同的高频带。扩展频率范围相当于选择最优矢量,并将其添加到接收的低频带(例如0到4kHz)的频谱分量中。虽然现有技术的解决方案提高了语音信号的质量,但它们通常实现起来成本高昂,或需要大量的训练才能合成宽带语音。因此,最好提供一种方法和设备,用于以低计算复杂性来提高语音信号质量。专利技术概述根据本专利技术的第一方面,提供一种改善多个具有时域语音信号的信号片段中的语音的方法,所述方法的特征在于对所述信号片段执行向上采样,以提供时域上的向上采样片段;将向上采样片段转换成多个具有频域上的语音频谱的变换片段;基于所述语音信号的至少一个信号特征将所述语音信号划分为多个类;基于所述这些类在频域上修改所述语音频谱,以提供修改变换片段;以及将所述修改变换片段转换成时域上的语音数据。最好,所述向上采样通过在所述信号片段中的相邻信号样本之间插值来执行,其中所述插值为零。最好,所述语音信号包括在时间轴上有多个交叉点的时间波形,所述语音信号的所述至少一个特征表示信号片段中交叉点的数量。最好,每个信号片段包含多个信号样本,所述信号片段的所述至少一个特征表示所述信号片段中交叉点的数量与所述信号片段中信号样本的数量的比率。最好,所述语音信号的至少一个信号特征表示所述语音信号的二阶导数的能量与所述语音信号中的能量的比率。最好,所述多个类包括浊音和塞音,并且如果所述比率小于预定值,则将所述语音信号归类为所述浊音;如果所述比率大于所述预定值,则将所述语音信号归类为所述塞音。最好,所述多个类包括咝音类和非咝音类;并且如果所述比率大于预定值,则将所述语音信号归类为所述咝音类;如果所述比率小于或等于所述预定值,则将所述语音信号归类为所述非咝音类。最好,所述语音信号的所述至少一个信号特征表示所述语音信号的二阶导数的能量与所述语音信号中的能量的另一个比率,如果所述另一个比率也大于另一个预定值,则将所述语音信号规类为所述咝音类。最好,每个语音频谱具有在较低频率范围中的第一频谱部分和在较高频率范围中的第二频谱部分,在所述语音信号归类为所述咝音类时,增强所述第二频谱部分来提供所述修改变换片段;在所述语音信号归类为所述非咝音类时,衰减所述第二频谱部分来提供所述修改变换片段。最好,每个语音频谱具有在较低频率范围中的第一频谱部分和在较高频率范围中的第二频谱部分,并且在将所述修改变换片段转换成时域上的语音数据之前,通过执行平均运算来平滑所述第二频谱部分。根据本专利技术的第二方面,提供一种电信网络中的网络设备,其中所述网络设备可以接收表示语音的数据,并将所述接收数据划分成多个具有时域语音信号的信号片段。所述网络设备的特征在于包括向上采样模块,用于对所述信号片段执行向上采样,以提供时域上的向上采样片段;变换模块,用于将向上采样片段转换成多个具有频域上的语音频谱的变换片段;分类算法,用于基于所述语音信号的至少一个信号特征将所述语音信号划分为多个类;调整算法,用于基于所述这些类在频域上修改所述语音频谱,以提供修改变换片段;以及逆变换模块,用于将所述修改变换片段转换成时域上的语音数据。最好,每个信号片段包括对在时间轴上有多个交叉点的波形采样得到的多个信号样本,并且所述分类算法适于基于至少一个信号片段中交叉点的数量与信号样本的数量的比率将所述语音信号分类。最好,所述分类算法还适于基于所述语音信号的二阶导数的能量与至少一个信号片段中的能量的比率来将所述语音信号分类。最好,所述多个类包括咝音类和非咝音类;每个语音频谱具有在较低频率范围中的第一频谱部分和在较高频率范围中的第二频谱部分,所述设备的特征在于所述调整算法适于在所述语音信号归类为所述咝音类时,增强所述第二频谱部分,以及在所述语音信号归类为所述非咝音类时,衰减所述第二频谱部分。最好,所述调整算法还适于通过平均运算平滑所述第二频谱部分。根据本专利技术的第三方面,提供一种用于语音解码器的声音分类算法,其中在所述语音解码器中将语音数据划分成多个具有时域语音信号的信号片段,且每个信号片段包括多个信号样本,所述语音信号包括在时间轴上具有多个交叉点的时间波形。所述分类算法的特征在于基于至少一个信号片段中交叉点的数量与信号样本的数量的比率将所述语音信号划分为多个类。最好,将所述语音信号划分为咝音类和非咝音类;如果所述比率大于预定值,则将所述语音信号规类为所述咝音类。最好,所述分类还基于所述语音信号的二阶导数的能量与至少一个信号片段中的能量的另一个比率来执行。最好,将所述语音信号划分为咝音类和非咝音类;如果所述比率大于第一预定值且所述另一个比率大于第二预定值,则将所述语音信号规类为所述咝音类。所述第一预定值可以基本等于0.6,而所述第二预定值可以基本等于8。根据本专利技术的第四方面,提供一种用于语音解码器的频谱调整算法,它可以接收语音数据;将语音数据划分成多个具有时域语音信号的信号片段;对所述信号片段执行向上采样,以提供向上采样片段;以及将所述向上采样片段转换成多个变换片段,每个变换片段具有在第一频率范围中的第一语音频谱部分和在高于所述第一频率范围的第二频率范围中的第二语音频谱部分。所述调整算法的特征在于在所述语音信号归类为所述咝音类时,增强所述第二语音频谱部分;在所述语音信号归类为所述非咝音类时,衰减所述第二语音频谱部分;以及通过平均运算平滑所述第二频谱部分。最好,当至少两个连续信号片段中的语音信号归类为所述咝音类时,所述至少两个连续的信号片段包括开始片段和至少一个后续片段,其中,按第一系数增强所述开始片段中的所述第二语音频谱部分,按小于所述第一系数的第二系数增强所述至少一个后续本文档来自技高网...

【技术保护点】
一种用于改善多个具有时域语音信号的信号片段中的语音的方法,所述方法的特征在于:    对所述信号片段执行向上采样,以提供时域上的向上采样片段;    将所述向上采样片段转换成具有频域上语音频谱的多个变换片段;    基于所述语音信号的至少一个信号特征将所述语音信号划分为多个类;    基于所述这些类在频域上修改所述语音频谱,以提供经过修改变换片段;以及    将所述修改变换片段转换成时域上的语音数据。

【技术特征摘要】
【国外来华专利技术】US 2003-1-10 10/341,3321.一种用于改善多个具有时域语音信号的信号片段中的语音的方法,所述方法的特征在于对所述信号片段执行向上采样,以提供时域上的向上采样片段;将所述向上采样片段转换成具有频域上语音频谱的多个变换片段;基于所述语音信号的至少一个信号特征将所述语音信号划分为多个类;基于所述这些类在频域上修改所述语音频谱,以提供经过修改变换片段;以及将所述修改变换片段转换成时域上的语音数据。2.如权利要求1所述的方法,其中每个信号片段包含多个信号样本,所述方法的特征在于所述向上采样通过在所述信号片段中的相邻信号样本之间插值来执行。3.如权利要求2所述的方法,其特征在于所述插入值是零值。4.如权利要求1至3中任何一项所述的方法,其中所述语音信号包括在时间轴上具有多个交叉点的时间波形,所述方法的特征在于所述语音信号的所述至少一个特征表示信号片段中交叉点的数量。5.如权利要求4所述的方法,其中每个所述信号片段包含多个信号样本,所述方法的特征在于所述信号片段的所述至少一个特征表示所述信号片段中交叉点的数量与所述信号片段中信号样本的数量的比率。6.如权利要求1至5中任何一项所述的方法,其特征在于所述语音信号的所述至少一个特征表示信号片段中的能量。7.如权利要求1所示的方法,其特征在于所述语音信号的所述至少一个信号特征表示所述语音信号的二阶导数的能量与所述语音信号中的能量的比率。8.如权利要求5所述的方法,其中所述多个类包括浊音和塞音,所述方法的特征在于如果所述比率小于预定值,则将所述语音信号规类为所述浊音;如果所述比率大于所述预定值,则将所述语音信号规类为所述闭塞辅音。9.如权利要求5所述的方法,其中所述多个类包括咝音和非咝音;所述方法的特征在于如果所述比率大于预定值,则将所述语音信号规类为所述咝音类;如果所述比率小于或等于所述预定值,则将所述语音信号规类为所述非咝音类。10.如权利要求9所述的方法,其中所述语音信号的所述至少一个信号特征表示所述语音信号的二阶导数的能量与所述语音信号中的能量的另一个比率,所述方法的特征还在于如果所述另一个比率大于另一个预定值,则将所述语音信号规类为所述咝音类。11.如权利要求9所述的方法,其中每个所述语音频谱具有在较低频率范围中的第一频谱部分和在较高频率范围中的第二频谱部分,所述方法的特征在于在所述语音信号归类为所述咝音类时,增强所述第二频谱部分以提供所述修改变换片段。12.如权利要求9所述的方法,其中每个语音频谱具有在较低频率范围中的第一频谱部分和在较高频率范围中的第二频谱部分,所述方法的特征在于在所述语音信号归类为所述非咝音类时,衰减所述第二频谱部分以提供所述修改变换片段。13.如权利要求1至12中任何一项所述的方法,其中每个所述语音频谱具有在较低频率范围中的第一频谱部分和在较高频率范围中的第二频谱部分,所述方法的特征还在于在将所述修改变换片段转换成时域上的语音数据之前,通过执行平均运算平滑所述第二频谱部分。14.一种电信网络中的网络设备,其中所述网络设备可以接收表示语音的数据;以及将所述接收数据划分成多个具有时域语音信号的信号片段,所述网络设备的特征在于向上采样模块,用于对所述信号片段执行向上采样,以提供时域上的向上采样片段;变换模块,用于将所述向上采样片段转换成多个具有频域上的语音频谱的变换片段;分类算法,用于基于所述语音信号的至少一个信号特征将所述语音信号划分为多个类;以及调整算法,用于基于所述这些类在频域上修改所述语音频谱,以提供修改变换片段。15.如权利要求14所述的设备,其特征还在于逆变换模块,用于将所述修改变换片段转换成时域上的语音数据。16.如权利要求14或15所述的设备,其中每个所述信号片段包含多个信号样本,所述设备用于对在时间轴上...

【专利技术属性】
技术研发人员:L卡利奥P阿尔库K凯克M卡亚拉P瓦尔韦
申请(专利权)人:诺基亚有限公司
类型:发明
国别省市:FI[芬兰]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1