本发明专利技术涉及一种用于带宽扩展编码的自适应栅格构造方法和装置。所述方法包括:S1、基于对输入单声道音频信号的瞬态性分析进行频率分辨率选择,对输入单声道音频信号进行自适应多分辨滤波,获得最佳的时频滤波信号;S2、对滤波输出的每个子带信号进行瞬态检测和定位,依据每个子带信号的瞬态性分析并考虑设定的高频带编码码率以及人耳临界频带特性,进行频率方向和时间方向的自适应栅格构造,获得当前码率下的最佳时频栅格。本发明专利技术还涉及基于该方法的带宽扩展编码和解码方法。本发明专利技术基于音频信号特性和高频信号可用码率限制进行自适应多分辨率滤波和自适应时频栅格构造,可明显提高数字音频信号的高频部分编码效率和高频部分信号的声音质量。
【技术实现步骤摘要】
本专利技术涉及数字音频编解码技术,更具体地说,涉及一种用于带宽扩展编码的自适应栅格构造方法和装置、以及采用该方法的带宽扩展编码和解码方法。
技术介绍
传统的感觉音频编码技术(DRA、AAC和MP3等)的立体声典型工作码率是96?128kbps,且在64kbps/立体声以下时编码质量存在明显的主观感觉失真。调频广播应用的典型编码码率为48kbps?64kbps/立体声,这时传统感觉音频编码技术的主观声音质量已不能满足调频广播要求。为此,提出了数字音频信号的带宽扩展(BandWidth Extens1n,简称BWE)编码技术。目前的带宽扩展编码技术有很多,性能也参差不齐。已经公开且用于国际标准中的带宽扩展编码技术主要有如下两种编码算法:第一种是IS0/IEC 14496-3 MPEG-4 中描述的频谱带复制(Spectral BandwidthR印licat1n,简称SBR)编码。图1示出了 SBR编码的具体原理框图。SBR是频域处理的算法,其编码原理为:每帧信号通过64子带的正交镜像滤波器组(Quadrature MirrorFilter,简称QMF)获得64个均匀的子频带,每个子频带包含32个样点,根据当前信号的瞬态特性划分一个合理的时频栅格,每个栅格计算一个能量信息并进行huffman编码。该算法同时包括音调性检查并传输个别的单个正弦信号参数信息。在解码端,首先选择归一化的低频部分,并拷贝高频作为高频的细节信息;再通过传输的能量信息修改高频的包络;最后补充单频信号;最后对恢复的高频信号进行滤波处理。这样低频和高频再通过64带的合成QMF滤波重建PCM数字音频信号。MPEG SBR编码技术的主要缺点是相对固定的时频分割。对于48kHz采样率,由于使用64带QMF,则最大频率分辨率为375Hz (24khz/64);每帧2048样点,则最大时间分辨率约为1.3ms (64/48000)。由于音频信号极其复杂,这种算法有时不能很好地满足信号分析的精度要求。第二种是在3GPP AMR-WB+编码方法中包含的一种简单的带宽扩展技术。它是一种时域处理的算法,主要编码原理是:将输入信号分为同样带宽的低频和高频两部分时域信号,低频(LF)部分通过LPC分析滤波处理得到低频信号的残差信号,然后经过高频LPC合成滤波来模拟高频细节信号;然后通过与实际SHF(n)的实际高频信号比较,得到高频包络(能量)的增益矢量(每子帧一个增益值),最后通过低频高频和低频连接点的增益的一致性进一步修正增益矢量,然后编码此增益矢量。因此传输给解码端的包括校正的增益矢量和高频LPC系数。AMR-WB+的高频解码过程基本是编码的反过程。3GPP AMR-WB+的带宽扩展编码技术存在以下问题:⑴在时域实现高频编码,无法获得更高的频率分辨率,因为这种方法可以认为只有一个高频区域划分;(2)高频编码的起始频带固定,只能是Fs/4,对于48khz采样频率,高频编码的起始频点为12khz ; (3)对高频中的谐波信号无法准确恢复;(4)高频信号的包络还原不够准确。此外还有一些带宽扩展编码技术,时频变换单元采用传统的FFT,然后在频域上将高频划分为几个区域,对每个区域的谱能量编码,因此每帧只能提供一个时间分辨率多个频率分辨率。这种基于FFT的高频重建技术,频域分辨率高而时域分辨率太低,当输入快变的音频信号时,高频重建的信号不能很好地跟踪原始音频信号的变化。数字音频编码中的强度立体声编码也可以认为是一种特殊的带宽扩展编码技术,其原理是利用人耳听觉对高频部分的细节不敏感,因此对立体声或5.1环绕声的各个声道的高频部分进行下混为一个声道,并归一化后作为所有声道的高频细节信号,但是各个声道的高频信号的包络(高频临界频带内的能量)都需要编码传输。
技术实现思路
本专利技术要解决的技术问题在于,针对现有技术的上述缺陷,提供一种用于带宽扩展编码的自适应栅格构造方法和装置以及采用该方法的带宽扩展编码和解码方法,以改善数字音频信号高频部分的编码效率和高频部分信号的声音质量。本专利技术解决其技术问题所采用的技术方案是:提出一种用于带宽扩展编码的自适应栅格构造方法,包括如下步骤:S1、基于对输入单声道音频信号的瞬态性分析进行频率分辨率选择,对输入单声道音频信号进行自适应多分辨滤波,获得最佳的时频滤波信号;S2、对滤波输出的每个子带信号进行瞬态检测和定位,依据每个子带信号的瞬态性分析并考虑设定的高频带编码码率以及人耳临界频带特性,进行频率方向和时间方向的自适应栅格构造,获得当前码率下的最佳时频栅格。根据本专利技术的一个实施例中,所述步骤S1进一步包括:对瞬态信号,选择粗的频率分辨率和高的时间分辨率来进行滤波;对稳态型号,选择细的频率分辨率和低的时间分辨率来进行滤波;对其它音频信号,选择中间的频率分辨率和中间的时间分辨率来进行滤波。根据本专利技术的一个实施例中,所述步骤S1进一步包括:对于高频带编码码率较低的情况,降低所述选择的频率分辨率。根据本专利技术的一个实施例中,所述步骤S2中频率方向的自适应栅格构造进一步包括:依据输入单声道音频信号中高频带部分的频率特性选择不同的栅格构造,具体为:对一般音频信号,频率栅格随高频带部分的频率升高逐步降低频率分辨率,使得频率栅格与人耳临界频带一致;对高频带部分中包含音频信号,在考虑临界频带的前提下,与所述一般音频信号的情况相比适当增加栅格的频率分辨率;所述步骤S2中时间方向的自适应栅格构造进一步包括:依据输入单声道音频信号中一个或多个瞬态信号发生的位置以及每个子带信号的瞬态特性,在时间方向构造成多个时域区间,每个区间代表一个栅格。根据本专利技术的一个实施例中,所述步骤S2进一步包括:基于设定的高频带编码码率,校正所述频率方向和时间方向得到的格栅构造,获得当前码率下的最佳时频栅格。本专利技术为解决其技术问题还提出一种用于带宽扩展编码的自适应栅格构造装置,包括:自适应多分辨滤波模块,用于基于对输入单声道音频信号的瞬态性分析进行频率分辨率选择,对输入单声道音频信号进行自适应多分辨滤波,获得最佳的时频滤波信号;时频栅格构造模块,用于对滤波输出的每个子带信号进行瞬态检测和定位,依据每个子带信号的瞬态性分析并考虑设定的高频带编码码率以及人耳临界频带特性,进行频率方向和时间方向的自适应栅格构造,获得当前码率下的最佳时频栅格。根据本专利技术的一个实施例中,所述自适应多分辨滤波模块进一步用于:对瞬态信号,选择粗的频率分辨率和高的时间分辨率来进行滤波;对稳态型号,选择细的频率分辨率和低的时间分辨率来进行滤波;对其它音频信号,选择中间的频率分辨率和中间的时间分辨率来进行滤波。根据本专利技术的一个实施例中,所述时频栅格构造模块进行频率方向的自适应栅格构造进一步包括:依据输入单声道音频信号中高频带部分的频率特性选择不同的栅格构造,具体为:对一般音频信号,频率栅格随高频带部分的频率升高逐步降低频率分辨率,使得频率栅格与人耳临界频带一致;对高频带部分中包含音频信号,在考虑临界频带的前提下,与所述一般音频信号的情况相比适当增加栅格的频率分辨率;所述时频栅格构造模块进行时间方向的自适应栅格构造进一步包括:依当前第1页1 2 3 4 本文档来自技高网...
【技术保护点】
一种用于带宽扩展编码的自适应栅格构造方法,其特征在于,包括如下步骤:S1、基于对输入单声道音频信号的瞬态性分析进行频率分辨率选择,对输入单声道音频信号进行自适应多分辨滤波,获得最佳的时频滤波信号;S2、对滤波输出的每个子带信号进行瞬态检测和定位,依据每个子带信号的瞬态性分析并考虑设定的高频带编码码率以及人耳临界频带特性,进行频率方向和时间方向的自适应栅格构造,获得当前码率下的最佳时频栅格。
【技术特征摘要】
【专利技术属性】
技术研发人员:闫建新,王磊,
申请(专利权)人:深圳广晟信源技术有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。