缩减解码制造技术

技术编号:17960662 阅读:29 留言:0更新日期:2018-05-16 05:48
如果用于缩减音频解码的合成窗口是在非缩减音频解码过程中涉及的参考合成窗口的如下下采样版本,则可以更有效地和/或以改善的兼容性维护实现音频解码过程的缩减版本,其中所述下采样版本是按照下采样因子进行下采样并且使用以帧长的1/4为分段的分段内插获得的,以及所述下采样因子表示下采样的采样率和原始采样率的偏离。

Reduction decode

If the synthetic window used to reduce the audio decoding is the following sample version of the reference synthesis window involved in the non reduced audio decoding process, the reduced version of the audio decoding process can be more effectively maintained with / or improved compatibility, in which the downsampled version is sampled according to the downsampling factor. The segmented interpolation of frame length 1/4 is used, and the down sampling factor represents the deviation of the sampling rate and the original sampling rate of the down sampling.

【技术实现步骤摘要】
【国外来华专利技术】缩减解码
本申请涉及缩减(downscaled)解码构思。
技术介绍
MPEG-4增强型低延迟AAC(AAC-ELD)通常以高达48kHz的采样率操作,导致15ms的算法延迟。对于某些应用,例如音频的唇音同步(lip-sync)传输,期望更低的延迟。AAC-ELD已经通过以更高的采样率(例如,96kHz)操作来提供这样的选择,从而提供具有更低延迟(例如,7.5毫秒)的操作模式。但是,这种操作模式由于采样率高而带来不必要的高复杂度。该问题的解决方案是应用滤波器组的缩减版本,并且从而以较低的采样率(例如,48kHz,而不是96kHz)来渲染音频信号。缩减操作已经是AAC-ELD的一部分,因为它是从作为AAC-ELD基础的MPEG-4AAC-LD编解码器继承而来的。但是,仍然存在的问题是如何找到特定滤波器组的缩减版本。也就是说,唯一的不确定因素是在支持对AAC-ELD解码器的缩减操作模式的清楚的一致性测试的同时推导窗系数的方式。在下文中,描述AAC-(E)LD编解码器的缩减操作模式的原理。在ISO/IEC14496-3:2009的第4.6.17.2.7节“对采用较低采样率的系统的适配”中描述了针对AAC-LD的缩减操作模式或AAC-LD,描述如下:“在某些应用中,可能有必要将低延迟解码器集成到以较低采样率(例如16kHz)运行但比特流有效载荷的标称采样率要高得多(例如48kHz,对应于算法编解码器延迟约20毫秒)的音频系统中。在这种情况下,有利的是直接以目标采样率解码低延迟编解码器的输出,而不是在解码之后使用附加采样率转换操作。这可以通过将帧尺寸和采样率两者适当地按照整数因子(例如2、3)缩减来近似,从而得到编解码器的相同的时间/频率分辨率。例如,通过在合成滤波器组之前仅保留频谱系数的最低三分之一(即480/3=160),并且将逆变换大小减小到三分之一(即窗口大小为960/3=320),可以以16kHz采样率而不是标称48kHz来生成编解码器输出。因此,较低采样率的解码降低了对存储器的要求和对计算的要求,但是可能不能产生与通过全带宽解码再接着进行频带限制和采样率转换得到的输出完全相同的输出。请注意,如上所述,以较低采样率进行解码不会影响对等级的解释,所述等级是指AAC低延迟比特流有效载荷的标称采样率。”请注意,AAC-LD使用标准的MDCT框架和两个窗口形状,即正弦窗口和低重叠窗口。这两个窗口都完全用公式来描述,因此可以确定任意变换长度的窗系数。与AAC-LD相比,AAC-ELD编解码器显示出两个主要区别:●低延迟MDCT窗口(LD-MDCT)●利用低延迟SBR工具的可能性在[1]中的4.6.20.2中描述了使用低延迟MDCT窗口的IMDCT算法,这与使用例如正弦窗口的标准IMDCT版本的非常类似。低延迟MDCT窗口(480和512个采样的帧大小)的系数在[1]中的表4.A.15和4.A.16中给出。请注意,由于系数是优化算法的结果,系数不能由公式确定。图9示出了帧大小为512的窗口形状的图。在低延迟SBR(LD-SBR)工具与AAC-ELD编码器结合使用的情况下,LD-SBR模块的滤波器组也被缩减。这确保了SBR模块以相同的频率分辨率工作,因此不需要更多的适配。因此,上面的描述揭示了需要对解码操作进行缩减,例如对AAC-ELD处的解码进行缩减。重新找出缩减的合成窗口函数的系数是可行的,但是这是一个繁琐的任务,需要额外的存储空间来存储缩减版本,并且在非缩减的解码与缩减的解码之间的一致性检查更为复杂,或者从另一个角度来看,例如不符合AAC-ELD所要求的缩减方式。取决于缩减比率,即原始采样率和缩减的采样率之间的比率,可以简单地通过下采样(即,从原始合成窗口函数的每两个、三个...窗系数中抽取出一个)来导出缩减的合成窗口函数,但是这个过程不会相应产生非缩减解码和缩减解码之间的充分一致性。使用应用于合成窗口函数的更复杂的抽取过程,导致不可接受的与原始合成窗口函数形状的偏离。因此,本领域需要一种改进的缩减解码构思。
技术实现思路
因此,本专利技术的一个目的在于提供一种实现这种改进的缩减解码的音频解码方案。该目的是通过独立权利要求的主题来实现的。本专利技术基于下述发现:如果用于缩减音频解码的合成窗口是在非缩减音频解码过程中涉及的参考合成窗口的下述下采样版本,则可以更有效地和/或以改善的兼容性维护实现音频解码过程的缩减版本,其中所述下采样版本是按照下采样因子进行下采样并且使用以帧长的1/4为分段的分段内插获得的,以及所述下采样因子表示下采样的采样率和原始采样率的偏离。附图说明本申请的有利方面是从属权利要求的主题。以下参照附图描述本申请的优选实施例,其中:图1是示出了为了保持完美重建在缩减解码时需要遵循的完美重建要求的示意图;图2示出了根据实施例的用于缩减解码的音频解码器的框图;图3示出了如下示意图,其在上半部分中示出了音频信号已经以原始采样率编码进数据流的方式,在通过水平虚线与上半部分分开的下半部分中示出了用于以降低或缩减的采样率从数据流重建音频信号的缩减解码操作,以便说明图2的音频解码器的操作模式;图4示出了图2的加窗器和时域混叠消除器的协作的示意图;图5示出了使用对经频谱-时间调制的时间部分的零加权部分的特殊处理来实现根据图4的重建的可能实现;图6示出了用于获得下采样的合成窗口的下采样的示意图;图7示出了包括低延迟SBR工具的AAC-ELD的缩减操作的框图;图8示出了根据实施例的用于缩减解码的音频解码器的框图,其中调制器、加窗器和消除器是根据提升实现来实现的;以及图9示出了作为要被下采样的参考合成窗口的示例的针对512个采样的帧大小且根据AAC-ELD的低延迟窗口的窗系数的曲线图。具体实施方式以下描述开始于对关于AAC-ELD编解码器的缩减解码的实施例的示意说明。即,以下描述开始于可以形成AAC-ELD的缩减模式的实施例。该描述同时形成对本申请的实施例的动机的一种解释。之后,对该描述进行概括,由此实现对根据本申请实施例的音频解码器和音频解码方法的描述。如本申请说明书的前言部分所述,AAC-ELD使用低延迟MDCT窗口。为了生成其缩减版本,即缩减的低延迟窗口,随后解释的用于形成AAC-ELD的缩减模式的提案使用分段样条内插算法,其保持LD-MDCT窗口的完美重建属性(PR),且精度非常高。因此,该算法允许以兼容的方式,以如ISO/IEC14496-3:2009中描述的直接形式以及如[2]中描述的提升形式来生成窗系数。这意味着这两种实现都会生成符合16位的输出。低延迟MDCT窗口的内插如下进行。一般来说,样条内插将用于生成缩减的窗系数,以保持频率响应以及大部分完美的重建属性(大约170dBSNR)。内插需要被约束在某些分段中以保持完美重建属性。对于覆盖变换的DCT内核的窗系数c(也参见图1,c(1024)...c(2048)),需要以下约束,1=|(sgn·c(i)·c(2N-1-i)+c(N+i)·c(N-1-i))|,其中i=0...N/2-1(1)其中N表示帧大小。一些实现可以使用不同的符号来优化复杂性,这里用sgn表示。(1)中的要求可以用图1来说明。应该记得,即使在F=2(即,采样率的一半)的情况下,为了获本文档来自技高网
...
缩减解码

【技术保护点】
一种音频解码器(10),被配置为以第一采样率从数据流(24)解码音频信号(22),所述音频信号(22)是以第二采样率变换编码到所述数据流中的,所述第一采样率是所述第二采样率的1/F,所述音频解码器(10)包括:接收器(12),被配置为接收所述音频信号的每帧的N个频谱系数(28),其中帧的长度为N;抓取器(14),被配置为针对每个帧从所述N个频谱系数(28)中抓取长度为N/F的低频分量;频谱‑时间调制器(16),被配置为针对每个帧(36),使所述低频分量经过逆变换以获得长度为(E+2)·N/F的时间部分,其中所述逆变换具有在时间上在相应帧以及E+1个先前帧上延伸的长度为(E+2)·N/F的调制函数;加窗器(18),被配置为针对每个帧(36)使用长度为(E+2)·N/F的合成窗口为所述时间部分加窗,所述合成窗口包括在其前端的长度为1/4·N/F的零部分,并且在所述合成窗口的一时间间隔内具有峰值,所述时间间隔在所述零部分之后并且具有长度7/4·N/F,使得所述加窗器获得长度为(E+2)·N/F的经加窗的时间部分;以及时域混叠消除器(20),被配置为使所述帧的经加窗的时间部分经过重叠相加处理,使得当前帧的经加窗的时间部分的长度为(E+1)/(E+2)的尾端分量与前一帧的经加窗的时间部分的长度为(E+1)/(E+2)的前端重叠,其中所述逆变换是逆MDCT或逆MDST,以及其中所述合成窗口是对长度为(E+2)·N的参考合成窗口按照因子F进行下采样且按照长度为1/4·N的分段进行分段内插获得的下采样版本。...

【技术特征摘要】
【国外来华专利技术】2015.06.16 EP 15172282.4;2015.10.12 EP 15189398.91.一种音频解码器(10),被配置为以第一采样率从数据流(24)解码音频信号(22),所述音频信号(22)是以第二采样率变换编码到所述数据流中的,所述第一采样率是所述第二采样率的1/F,所述音频解码器(10)包括:接收器(12),被配置为接收所述音频信号的每帧的N个频谱系数(28),其中帧的长度为N;抓取器(14),被配置为针对每个帧从所述N个频谱系数(28)中抓取长度为N/F的低频分量;频谱-时间调制器(16),被配置为针对每个帧(36),使所述低频分量经过逆变换以获得长度为(E+2)·N/F的时间部分,其中所述逆变换具有在时间上在相应帧以及E+1个先前帧上延伸的长度为(E+2)·N/F的调制函数;加窗器(18),被配置为针对每个帧(36)使用长度为(E+2)·N/F的合成窗口为所述时间部分加窗,所述合成窗口包括在其前端的长度为1/4·N/F的零部分,并且在所述合成窗口的一时间间隔内具有峰值,所述时间间隔在所述零部分之后并且具有长度7/4·N/F,使得所述加窗器获得长度为(E+2)·N/F的经加窗的时间部分;以及时域混叠消除器(20),被配置为使所述帧的经加窗的时间部分经过重叠相加处理,使得当前帧的经加窗的时间部分的长度为(E+1)/(E+2)的尾端分量与前一帧的经加窗的时间部分的长度为(E+1)/(E+2)的前端重叠,其中所述逆变换是逆MDCT或逆MDST,以及其中所述合成窗口是对长度为(E+2)·N的参考合成窗口按照因子F进行下采样且按照长度为1/4·N的分段进行分段内插获得的下采样版本。2.根据权利要求1所述的音频解码器(10),其中,所述合成窗口是长度为1/4·N/F的样条函数的级联。3.根据权利要求1或2所述的音频解码器(10),其中,所述合成窗口是长度为1/4·N/F的三次样条函数的级联。4.根据前述权利要求中任一项所述的音频解码器(10),其中E=2。5.根据前述权利要求中任一项所述的音频解码器(10),其中所述逆变换是逆MDCT。6.根据前述权利要求中任一项所述的音频解码器(10),其中,所述合成窗口的大小的80%以上被包括在所述零部分之后并且具有长度7/4·N/F的所述时间间隔内。7.根据前述权利要求中任一项所述的音频解码器(10),其中,所述音频解码器(10)被配置为执行所述内插或者从存储器导出所述合成窗口。8.根据前述权利要求中任一项所述的音频解码器(10),其中,所述音频解码器(10)被配置为支持F的不同值。9.根据前述权利要求中任一项所述的音频解码器(10),其中F在1.5和10之间,且包括1.5和10。10.根据前述权利要求中任一项所述的音频解码器(10),其中,所述参考合成窗口是单峰的。11.根据前述权利要求中任一项所述的音频解码器(10),其中,所述音频解码器(10)被配置为以如下方式执行所述内插:所述合成窗口的系数中的大部分取决于所述参考合成窗口的系数中的多于两个。12.根据前述权利要求中任一项所述的音频解码器(10),其中,所述音频解码器(10)被配置为以如下方式执行所述内插:所述合成窗口的被多于来自分段边界的两个系数所分隔的每个系数取决于所述参考合成窗口的系数中的两个。13.根据前述权利要求中任一项所述的音频解码器(10),其中,所述加窗器(18)和所述时域混叠消除器进行协作,使得所述加窗器在使用所述合成窗口对所述时间部分进行加权时跳过所述零部分,并且所述时域混叠消除器(20)在重叠相加处理中不考虑经加窗的时间部分的相应非加权部分,于是仅E+1个经加窗的时间部分被求和,从而导致相应帧的相应非加权部分和E+2个经加窗的部分在相应帧的剩余部分内被求和。14.一种用于生成根据前述权利要求中任一项所述的音频解码器(10)的合成窗口的缩减版本的音频解码器,其中E=2,使得所述合成窗口函数包括长度为2·N/F的与内核相关的一半,该与内核相关的一半之前是长度为2·N/F的另一半,并且其中所述频谱-时间调制器(16)、所述加窗器(18)和所述时域混叠消除器(20)被实现为在提升实现中进行协作,根据所述提升实现:所述频谱-时间调制器(16)将针对每个帧(36)使低频分量经过逆变换限制在与相应帧和一个先前帧一致的变换内核,从而获得时间部分xk,n,其中n=0...2M-1,且M=N/F是采样索引,k是帧索引,其中所述逆变换具有时间上在相应帧以及E+1个先前帧上延伸的长度为(E+2)·N/F的调制函数;所述加窗器(18)针对每个帧(36)根据zk,n=ωn·xk,n,n=0,...,...

【专利技术属性】
技术研发人员:马库斯·施内尔曼弗雷德·卢茨基埃伦尼·福托普楼康斯坦丁·施密特康拉德·本多夫阿德里安·托马舍克托比亚斯·艾伯特蒂蒙·塞德尔
申请(专利权)人:弗劳恩霍夫应用研究促进协会
类型:发明
国别省市:德国,DE

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1