本发明专利技术涉及利用频域维纳滤波对空间音频编码进行时间包络整形。特定类型的参数空间编码编码器采用声道间幅值差、声道间时间差以及声道间相干或相关性来建立多声道声场的参数模型,解码器采用该参数模型来构造对原始声场的近似。然而,所述参数模型没有构造声场声道的原始时间包络,而声场声道的原始时间包络被发现对于一些音频信号极为重要。本发明专利技术在空间编码系统中对一个或更多个解码声道的时间包络进行整形以更好地与一个或更多个原始时间包络相匹配。
【技术实现步骤摘要】
本专利技术涉及基于块的音频编码器,其中音频信息在被解码时具有由块率限定的时间包络分辨率,该编码器包括感知的且参数化的音频编码器、解码器及系统,本专利技术还涉及对应的方法,用于实现这种方法的计算机程序,以及由这种编码器生成的位流。
技术介绍
很多降低比特率的音频编码技术都是“基于块”的,其中,编码包括如下处理对解码成多个时间块的一个或更多个音频信号中的每一个进行划分,并且以不高于块率的频率对与解码音频相关联的一些附带信息(side information)进行更新。因此,音频信息在被解码时具有由块率限定的时间包络分辨率。因此,基于时间的解码音频信号的具体结构被保留的时间段不小于编码技术的粒度(granularity)(通常在每块8到50毫秒的范围内)。这种基于块的音频编码技术不仅包括已经建立的感知编码技术,已知有AC_3、AAC 以及各种MPEG,在该技术中通常通过编码/解码处理保留离散的声道,而且包括最近引入的比特率受限编码技术,有时将其称为“心理声学编码(Binaural Cue Coding)”以及“参数立体声编码”,在该技术中通过编码/解码处理将多个输入声道缩混为单个声道,并且从单个声道上混为多个声道。这种编码系统的详情包含在不同文档中,包括下面在标题“引用并入”下所引用的那些文档。由于在这种编码系统中使用了单个声道,所以重构的输出信号必须是彼此幅度成比例的——对于特定块,不同输出信号必须具有基本上相同的精细包络结构。虽然所有基于块的音频编码技术都可因为其解码音频信号的时间包络分辨率的提高而得益,但是在整个编码/解码处理中不保留离散声道的、基于块的编码技术中,对这种提高的需要尤为强烈。对于这种系统来说,特定类型的输入信号(例如,欢呼)尤其存在问题,该输入信号使得再现的感觉到的空间图像变窄或塌缩。附图说明图1是实施本专利技术方面的编码器或编码功能的示意性功能框图。图2是实施本专利技术方面的解码器或解码功能的示意性功能框图。
技术实现思路
根据本专利技术第一方面,提供了一种用于音频信号编码的方法,其中,将一个或更多个音频信号编码为位流,该位流包括音频信息和与该音频信息相关联且在对该位流进行解码时有用的附带信息,所述编码包括以下处理将所述一个或更多个音频信号中的每一个划分为多个时间块;并且以不高于块率的频率对至少一些所述附带信息进行更新,使得所述音频信息在被解码时具有由所述块率限定的时间包络分辨率。将至少一个音频信号的时间包络与经估计解码重构的每一个所述至少一个音频信号的时间包络进行比较,该经估计的重构采用至少一些所述音频信息和至少一些所述附带信息,比较结果的表示有助于提高至少一些所述音频信息在被解码时的时间包络分辨率。。根据本专利技术另一方面,提供了一种音频信号编码及解码的方法,其中,将一个或更多个输入音频信号编码为位流,该位流包括音频信息和与该音频信息相关联且在对该位流进行解码时有用的附带信息,接收所述位流并利用所述附带信息对所述音频信息进行解码来提供一个或更多个输出音频信号,所述编码和解码包括如下处理将所述一个或更多个输入音频信号中的每一个和经解码的位流分别划分为多个时间块,所述编码以不高于块率的频率对至少一些所述附带信息进行更新,使得所述音频信息在被解码时具有其分辨率被所述块率限定的时间包络。在至少一个输入音频信号的时间包络与经估计解码重构的每一个所述至少一个输入音频信号的时间包络之间进行比较,该经估计的重构采用至少一些所述音频信息和至少一些所述附带信息,所述比较提供了比较结果的表示,所述表示有助于提高至少一些所述音频信息在被解码时的时间包络分辨率。进行对至少一些所述表示的输出,并且进行对所述位流的解码,所述解码采用所述音频信息、所述附带信息以及所述输出的表示。根据本专利技术又一方面,提供了一种音频信号解码的方法,其中,将一个或更多个输入音频信号编码为位流,该位流包括音频信息和与该音频信息相关联且在对该位流进行解码时有用的附带信息,所述编码包括如下处理将所述一个或更多个输入音频信号中的每一个分为多个时间块,并且以不高于块率的频率对至少一些所述附带信息进行更新,使得所述音频信息在采用所述附带信息对其解码时具有由所述块率限定的时间包络分辨率,所述编码进一步包括在至少一个输入音频信号的时间包络与经估计解码重构的每一个所述至少一个输入音频信号的时间包络之间进行比较,该经估计的重构采用至少一些所述音频信息和至少一些所述附带信息,所述比较提供了比较结果的表示,所述表示有助于提高至少一些所述音频信息在被解码时的时间包络分辨率,并且所述编码进一步包括输出至少一些所述表示。进行对所述位流的接收和解码,所述解码采用所述音频信息、所述附带信息以及所述输出的表示。本专利技术的其他方面包括适于执行上述方法的设备、存储在计算机可读介质上以用于使计算机执行上述方法的计算机程序、由上述方法生成的位流、以及由适于进行上述方法的设备生成的位流。具体实施例方式图1示出了可以采用本专利技术方面的编码器或编码处理环境的示例。将诸如PCM信号的多个音频输入信号、各个模拟音频信号的时间采样(1到Π)应用到相应的时域到频域转换器或者转换功能块(“T/F”)2-l至2-n。音频信号例如可表示诸如左、中、右等的空间方向。例如可通过如下操作来实现各T/F 将输入音频采样划分为多个块、对这些块进行加窗(windowing)、使这些块交叠、通过计算离散频率变换(DFT)来将经加窗和交叠的块中的每一块变换到频域、并且采用例如等效矩形频带(ERB)尺度(scale)将所得频谱划分为模拟人耳临界频带的多个频带,例如二十一个频带。这种DFT处理在本领域中是广为公知的。可采用其他的时域到频域转换参数和技术。具体参数或是具体技术对于本专利技术来说并非关键。然而,出于易于解释的目的,下面的描述假设采用这种DFT转换技术。T/F 2-1至2-n的多个频域输出中的每一个是一组谱系数。这些组可分别表示为 ?化^至?化]…可将所有这些组应用于基于块的编码器或编码器功能块(“基于块的编码器”)4。基于块的编码器例如可以是上述的已知基于块的编码器中的单独任一种或有时是它们的组合,或者是包括上述这些编码器的变型的任何未来的基于块的编码器。尽管本专利技术的方面尤其适于与在编码和解码期间不保留离散声道的基于块的编码器结合来使用,但是本专利技术的方面事实上与任何基于块的编码器结合都是有用的。典型的基于块的编码器4的输出的特征为“音频信息”和“附带信息”。音频信息例如可包括表示多个信号声道的数据(如可能在基于块的编码系统(例如,AC-3、AAC及其他)中存在的),或者该音频信息可仅包括通过缩混多个输入声道而获得的单个声道, 例如上述心理声学编码系统及参数立体声编码系统(还可利用例如AAC或某一其他适合编码对心理声学编码编码器或参数立体声编码系统中的缩混声道进行感知编码)。该音频信息还可以包括通过缩混多个输入声道而获得的单个声道或多个声道,例如在Davis等人于 2004 年 7 月 14 日提交的题为"Low Bit Rate Audio Encoding and Decoding in Which Multiple Channels are Represented By Monophonic Channel and A本文档来自技高网...
【技术保护点】
1.一种用于音频信号解码的方法,其中,一个或更多个输入音频信号已被编码为位流,该位流包括音频信息和与该音频信息相关联且在对该位流进行解码时有用的附带信息,所述编码包括如下处理:将所述一个或更多个输入音频信号中的每一个划分为多个时间块,并且以不高于块率的频率对至少一些所述附带信息进行更新,使得所述音频信息在被使用附带信息解码时具有受所述块率限制的分辨率,所述编码进一步包括:将至少一个输入音频信号的包络与以经编码的所述至少一个输入音频信号为基础的信号的包络进行比较,所述比较提供了比较结果的表示,所述表示有助于提高至少一些所述音频信息在被解码时的分辨率,并且所述编码进一步包括输出至少一些所述表示,所述方法包括:接收所述位流,以及对所述位流进行解码,所述解码采用所述音频信息、所述附带信息以及所输出的表示。
【技术特征摘要】
...
【专利技术属性】
技术研发人员:马克·S·温顿,阿兰·J·泽费尔特,
申请(专利权)人:杜比实验室特许公司,
类型:发明
国别省市:US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。