利用频域维纳滤波对空间音频编码进行时间包络整形制造技术

技术编号:8413617 阅读:197 留言:0更新日期:2013-03-14 11:56
本发明专利技术涉及利用频域维纳滤波对空间音频编码进行时间包络整形。特定类型的参数空间编码编码器采用声道间幅值差、声道间时间差以及声道间相干或相关性来建立多声道声场的参数模型,解码器采用该参数模型来构造对原始声场的近似。然而,所述参数模型没有构造声场声道的原始时间包络,而声场声道的原始时间包络被发现对于一些音频信号极为重要。本发明专利技术在空间编码系统中对一个或更多个解码声道的时间包络进行整形以更好地与一个或更多个原始时间包络相匹配。

【技术实现步骤摘要】

本专利技术涉及基于块的音频编码器,其中音频信息在被解码时具有由块率限定的时间包络分辨率,该编码器包括感知的且参数化的音频编码器、解码器及系统,本专利技术还涉及对应的方法,用于实现这种方法的计算机程序,以及 由这种编码器生成的位流。
技术介绍
很多降低比特率的音频编码技术都是“基于块”的,其中,编码包括如下处理对解码成多个时间块的一个或更多个音频信号中的每一个进行划分,并且以不高于块率的频率对与解码音频相关联的一些附带信息(side information)进行更新。因此,音频信息在被解码时具有由块率限定的时间包络分辨率。因此,基于时间的解码音频信号的具体结构被保留的时间段不小于编码技术的粒度(granularity)(通常在每块8到50毫秒的范围内)。这种基于块的音频编码技术不仅包括已经建立的感知编码技术,已知有AC_3、AAC以及各种MPEG,在该技术中通常通过编码/解码处理保留离散的声道,而且包括最近引入的比特率受限编码技术,有时将其称为“心理声学编码(Binaural Cue Coding)”以及“参数立体声编码”,在该技术中通过编码/解码处理将多个输入声道缩混为单个声道,并且从单个声道上混为多个声道。这种编码系统的详情包含在不同文档中,包括下面在标题“引用并入”下所引用的那些文档。由于在这种编码系统中使用了单个声道,所以重构的输出信号必须是彼此幅度成比例的——对于特定块,不同输出信号必须具有基本上相同的精细包络结构。虽然所有基于块的音频编码技术都可因为其解码音频信号的时间包络分辨率的提高而得益,但是在整个编码/解码处理中不保留离散声道的、基于块的编码技术中,对这种提高的需要尤为强烈。对于这种系统来说,特定类型的输入信号(例如,欢呼)尤其存在问题,该输入信号使得再现的感觉到的空间图像变窄或塌缩。附图说明图I是实施本专利技术方面的编码器或编码功能的示意性功能框图。图2是实施本专利技术方面的解码器或解码功能的示意性功能框图。
技术实现思路
根据本专利技术第一方面,提供了一种用于音频信号编码的方法,其中,将一个或更多个音频信号编码为位流,该位流包括音频信息和与该音频信息相关联且在对该位流进行解码时有用的附带信息,所述编码包括以下处理将所述一个或更多个音频信号中的每一个划分为多个时间块;并且以不高于块率的频率对至少一些所述附带信息进行更新,使得所述音频信息在被解码时具有由所述块率限定的时间包络分辨率。将至少一个音频信号的时间包络与经估计解码重构的每一个所述至少一个音频信号的时间包络进行比较,该经估计的重构采用至少一些所述音频信息和至少一些所述附带信息,比较结果的表示有助于提高至少一些所述音频信息在被解码时的时间包络分辨率。。根据本专利技术另一方面,提供了一种音频信号编码及解码的方法,其中,将一个或更多个输入音频信号编码为位流,该位流包括音频信息和与该音频信息相关联且在对该位流进行解码时有用的附带信息,接收所述位流并利用所述附带信息对所述音频信息进行解码来提供一个或更多个输出音频信号,所述编码和解码包括如下处理将所述一个或更多个输入音频信号中的每一个和经解码的位流分别划分为多个时间块,所述编码以不高于块率的频率对至少一些所述附带信息进行更新,使得所述音频信息在被解码时具有其分辨率被所述块率限定的时间包络。在至少一个输入音频信号的时间包络与经估计解码重构的每一个所述至少一个输入音频信号的时间包络之间进行比较,该经估计的重构采用至少一些所述音频信息和至少一些所述附带信息,所述比较提供了比较结果的表示,所述表示有助于 提高至少一些所述音频信息在被解码时的时间包络分辨率。进行对至少一些所述表示的输出,并且进行对所述位流的解码,所述解码采用所述音频信息、所述附带信息以及所述输出的表示。根据本专利技术又一方面,提供了一种音频信号解码的方法,其中,将一个或更多个输入音频信号编码为位流,该位流包括音频信息和与该音频信息相关联且在对该位流进行解码时有用的附带信息,所述编码包括如下处理将所述一个或更多个输入音频信号中的每一个分为多个时间块,并且以不高于块率的频率对至少一些所述附带信息进行更新,使得所述音频信息在采用所述附带信息对其解码时具有由所述块率限定的时间包络分辨率,所述编码进一步包括在至少一个输入音频信号的时间包络与经估计解码重构的每一个所述至少一个输入音频信号的时间包络之间进行比较,该经估计的重构采用至少一些所述音频信息和至少一些所述附带信息,所述比较提供了比较结果的表示,所述表示有助于提高至少一些所述音频信息在被解码时的时间包络分辨率,并且所述编码进一步包括输出至少一些所述表示。进行对所述位流的接收和解码,所述解码采用所述音频信息、所述附带信息以及所述输出的表示。本专利技术的其他方面包括适于执行上述方法的设备、存储在计算机可读介质上以用于使计算机执行上述方法的计算机程序、由上述方法生成的位流、以及由适于进行上述方法的设备生成的位流。具体实施例方式图I示出了可以采用本专利技术方面的编码器或编码处理环境的示例。将诸如PCM信号的多个音频输入信号、各个模拟音频信号的时间采样(I到η)应用到相应的时域到频域转换器或者转换功能块(“T/F”)2-1至2-η。音频信号例如可表示诸如左、中、右等的空间方向。例如可通过如下操作来实现各T/F :将输入音频采样划分为多个块、对这些块进行加窗(windowing)、使这些块交叠、通过计算离散频率变换(DFT)来将经加窗和交叠的块中的每一块变换到频域、并且采用例如等效矩形频带(ERB)尺度(scale)将所得频谱划分为模拟人耳临界频带的多个频带,例如二十一个频带。这种DFT处理在本领域中是广为公知的。可采用其他的时域到频域转换参数和技术。具体参数或是具体技术对于本专利技术来说并非关键。然而,出于易于解释的目的,下面的描述假设采用这种DFT转换技术。T/F 2-1至2-η的多个频域输出中的每一个是一组谱系数。这些组可分别表示为¥!到Xn,多组谱系数X !到X n近似于对应输入音频信号的多组谱系数Y !到Y n (期望要在解码器或解码功能块处获得)。另选的是,可以为少于所有输入音频信号、为少于输入音频信号的所有时间块、以及/或者为少于所有频带,提供这种谱系数(即,它可能不提供所有谱系数)。这例如可能起因于希望仅改进表示被认为比其他声道更重要的声道的输入信号。作为另一示例,这可能起因于希望仅改进信号中的、人耳对其时间波形包络的精细细节更为敏感的较低频部分。将T/F 2-1至2-η的频域输出、即多组谱系数¥jljXn的进行比较。将各比较12-1至12-η中的比较结果分别应用于滤波器计算器或计算功能块(“滤波器计算”)15-1至15-η。该信息应当足以进行各滤波器计算以限定各时间块的滤波器系数,所述滤波器在应用于输入信号的解码重构之后应得到具有提高的分辨率的时域包络的信号。换言之,该滤波器将对信号进行整形以使得它更为接近地复制原始信号的时间包络。提高的分辨率是比块率更精细的分辨率。下面将进一步具体阐述优选滤波器。尽管图I中的示例示出了在频域上的比较和滤波器计算,但是原理上也可在时域上进行比较和滤波器计算。无论在频域还是在时域上进行,每时间块仅确定一个滤波器结构(尽管可将相同的滤波器结构应用于某一数量的连续时间块)。尽管原本文档来自技高网
...

【技术保护点】
一种用于对解码的输出信号的时间包络进行整形以更接近地近似于输入信号的时间包络的方法,所述方法包括:接收包含缩混信号和包络附带信息的经空间编码的位流,其中所述缩混信号包括被划分成时隙的音频信息,并且包络附带信息与音频信息相关并且在对解码的输出信号的时间包络进行整形时有用,包络附带信息表示输入信号的包络与从缩混信号导出的信号的包络的比较的结果,缩混信号至少从所述输入信号缩混,对所述经空间编码的位流进行解码以产生解码的输出信号,以及根据包络附带信息对解码的输出信号的时间包络进行整形以更接近地近似于输入信号的时间包络。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:马克·S·温顿阿兰·J·泽费尔特
申请(专利权)人:杜比实验室特许公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1