用于定向音频编码-空间重建音频处理的方法、装置和系统制造方法及图纸

技术编号：43163297 阅读：18 留言：0更新日期：2024-11-01 19:56

所附的是音频处理的实施例，所述音频处理组合了空间重建(SPAR)和定向音频编码(DirAC)技术的互补方面，包括更高的音频质量、降低的比特率、输入/输出格式灵活性和/或降低的计算复杂性，以产生比DirAC或SPAR编解码器具有更好整体性能的编解码器(例如，高保真立体声编解码器)。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】

本公开总体上涉及音频处理。1.0
技术介绍
空间重建(spar)和定向音频编码(dirac)是独立的空间音频编码技术，它们都试图以紧凑的方式表示输入空间音频场景，以实现在音频质量与比特率之间进行良好权衡的传输。空间音频场景的一种这样的输入格式是高保真立体声表示(例如，一阶高保真立体声(foa)或高阶高保真立体声(hoa))。spar试图通过降低传输的音频数据的能量同时仍允许在解码器侧使用传输的元数据重建高保真立体声音频场景的二阶统计数据(即，协方差)，从而在最小化比特率的同时最大化感知的音频质量。spar试图在解码器的输出处忠实地重建输入的高保真立体声场景。dirac是一种将空间音频场景表示为时频瓦片中的到达方向(doa)集合的技术。根据该表示，可以以不同的输出格式(例如，双耳)再现类似的发声场景。值得注意的是，在高保真立体声的上下文中，dirac表示允许解码器从低阶输入产生高阶输出(盲上混)。dirac试图保持输入场景中主要声音的方向和扩散。dirac和spar两者具有不同的优势和性质。因此，期望的是将dirac和spar的互补方面(例如，更高的音频质量、降低的比特率、输入/输出格式灵活性和/或降低的计算复杂性)组合到编码器/解码器(“编解码器”)中，如高保真立体声编解码器。1.1示例ivas编解码器框架图1是根据一个或多个实施方式的用于对ivas比特流进行编码和解码的沉浸式语音和音频服务(ivas)编码器/解码器(“编解码器”)框架100的框图。预期ivas将支持一系列音频服务能力，包括但不限于单声道到立体声的上混和完全沉浸式音频编码、解码和渲染。iv

技术介绍

技术实现思路

1、公开的是dirac-spar音频处理的实施例。

2、在一些实施例中，一种方法包括：用至少一个处理器接收包括第一组声道的多声道音频信号；对于第一组频带：

3、用所述至少一个处理器根据所述第一组声道来计算定向音频编码(dirac)元数据；用所述至少一个处理器量化所述dirac元数据；用所述至少一个处理器对经量化的dirac元数据进行编码；用所述至少一个处理器将所述经量化的dirac元数据转换成第一空间重建(spar)元数据的两个或更多个参数；对于低于所述第一组频带的第二组频带：用所述至少一个处理器根据所述第一组声道来计算第二spar元数据；用所述至少一个处理器量化所述第二spar元数据；用所述至少一个处理器对经量化的第二spar元数据进行编码；用所述至少一个处理器基于所述第一spar元数据和所述第二spar元数据生成下混；用所述至少一个处理器根据所述第一组声道来计算频率系数；用所述至少一个处理器根据所述系数和所述下混来下混到第二组声道；用所述至少一个处理器对所述第二组声道进行编码；以及输出包括经编码的第二组声道、经量化且经编码的第二spar元数据和经量化且经编码的dirac元数据的比特流。

4、在一些实施例中，第一组声道是一阶高保真立体声(foa)声道。

5、在一些实施例中，针对第一组频带的第一spar元数据中的一个或多个参数被编码在比特流中，而不是从dirac元数据转换而来。

6、在一些实施例中，根据dirac元数据与第一组声道的输入协方差的组合来计算编码在比特流中的第一spar元数据参数。

7、在一些实施例中，第二组声道包括主下混声道，其中，所述主下混声道是通过对第一组声道应用增益并将经增益调整的第一组声道加在一起获得的，其中，所述增益是根据dirac元数据计算的，其中，所述主下混声道是第一组声道的主要本征信号的表示。

8、在一些实施例中，一种方法包括：用至少一个处理器接收多声道音频信号，所述多声道音频信号包括第一组声道和与所述第一组声道不同的第二组声道；对于第一组频带：用所述至少一个处理器根据所述第一组声道来计算定向音频编码(dirac)元数据；用所述至少一个处理器量化所述dirac元数据；用所述至少一个处理器对经量化的dirac元数据进行编码；用所述至少一个处理器将所述经量化的dirac元数据转换成第一空间重建(spar)元数据的两个或更多个参数；对于低于所述第一组频带的第二组频带：用所述至少一个处理器根据所述第一组声道和所述第二组声道来计算第二spar元数据；用所述至少一个处理器量化所述第二spar元数据；用所述至少一个处理器对经量化的第二spar元数据进行编码；用所述至少一个处理器基于所述第一spar元数据和所述第二spar元数据生成下混；用所述至少一个处理器根据所述第一组声道和所述第二组声道来计算频率系数；用所述至少一个处理器根据所述系数和所述下混来下混到第三组声道；用所述至少一个处理器对所述第三组声道进行编码；以及输出包括经编码的第三组声道、经量化且经编码的第二spar元数据和经量化且经编码的dirac元数据的比特流。

9、在一些实施例中，第一spar元数据中的两个或更多个参数从dirac元数据转换而来，并且第二spar数据是使用输入协方差计算的。

10、在一些实施例中，针对第一组频带的第一spar元数据中的一个或多个参数被编码在比特流中，而不是从dirac元数据转换而来。

11、在一些实施例中，根据dirac元数据与第二组声道的协方差的组合来计算编码在比特流中的第一spar元数据参数。

12、在一些实施例中，编码在比特流中的第一spar元数据参数包括针对第二组声道的预测系数、交叉预测系数和去相关系数

本文档来自技高网...

【技术保护点】

1.一种方法，包括：

2.如权利要求1所述的方法，其中，所述第一组声道是一阶高保真立体声(FOA)声道。

3.如权利要求1或2所述的方法，其中，针对所述第一组频带的所述第一SPAR元数据中的一个或多个参数被编码在比特流中，而不是从DirAC元数据转换而来。

4.如权利要求3所述的方法，其中，编码在所述比特流中的所述第一SPAR元数据参数是从DirAC元数据与所述第一组声道的输入协方差的组合计算的。

5.如前述权利要求1至4中任一项所述的方法，其中，所述第二组声道包括主下混声道，其中，所述主下混声道是通过对所述第一组声道应用增益并将经增益调整的第一组声道加在一起获得的，其中，所述增益是从所述DirAC元数据计算的，其中，所述主下混声道是所述第一组声道的主要本征信号的表示。

6.一种方法，包括：

7.如权利要求6所述的方法，其中，所述第一SPAR元数据中的两个或更多个参数是从DirAC元数据转换而来的，并且所述第二SPAR数据是使用输入协方差计算的。

8.如权利要求6或7所述的方法，其中，针对所述第一

9.如权利要求8所述的方法，其中，编码在所述比特流中的所述第一SPAR元数据参数是从DirAC元数据与所述第二组声道的协方差的组合计算的。

10.如权利要求8或9所述的方法，其中，编码在所述比特流中的所述第一SPAR元数据参数包括针对所述第二组声道的预测系数、交叉预测系数和去相关系数。

11.如前述权利要求6至10中任一项所述的方法，其中，所述第一组声道是一阶高保真立体声(FOA)声道，并且所述第二组声道包括平面或非平面高阶高保真立体声(HOA)声道中的至少一者。

12.如前述权利要求6至11中任一项所述的方法，其中，所述第一SPAR元数据的所述两个或更多个参数是从DirAC元数据转换而来的，并且所述第二SPAR元数据是针对所有频带计算和编码的。

13.如前述权利要求6至12中任一项所述的方法，其中，所述第二SPAR元数据是从第一组声道和第二组声道以及所述第一SPAR元数据计算的。

14.如前述权利要求6至13中任一项所述的方法，包括：

15.如前述权利要求4至5或7至14中任一项所述的方法，其中，所述DirAC元数据是基于输入协方差矩阵来估计的。

16.如前述权利要求4至5或7至15中任一项所述的方法，其中，从DirAC元数据生成所述SPAR元数据包括：

17.如权利要求16所述的方法，其中，所述第二输入协方差的一个或多个元素是使用所述DirAC元数据和所述第二SPAR元数据中的去相关系数来生成的。

18.如前述权利要求16或17中任一项所述的方法，其中，从DirAC元数据生成所述第二输入协方差的一个或多个元素，使得所述SPAR元数据中的所述去相关系数仅取决于所述DirAC元数据中的扩散参数和高保真立体声输入的归一化以及一个或多个常数。

19.如前述权利要求6至18中任一项所述的方法，其中，所述第三组声道包括主下混声道，其中，所述主下混声道是通过对所述第一组声道应用增益并将经增益调整的第一组声道加在一起获得的，其中，所述增益是从所述DirAC元数据计算的，其中，所述主下混声道是所述第一组声道的主要本征信号的表示。

20.如权利要求4至5或7至19所述的方法，其中，所述DirAC元数据包括基于多声道音频信号的参考功率(E)和强度(I)计算的扩散参数，其中，E和I是基于所述输入协方差来计算的。

21.如权利要求20所述的方法，其中，所述第一组声道包括一阶高保真立体声(FOA)声道，并且所述DirAC元数据中的所述参考功率的计算确保了所述参考功率始终大于或等于所述FOA声道的W声道的方差。

22.如前述权利要求16至21中任一项所述的方法，其中，基于所述第一组声道的总方差与根据使用所述DirAC元数据生成的所述第二输入协方差的总方差的比率，在所述第一组频带中对所述下混进行能量补偿。

23.一种方法，包括：

24.如权利要求23所述的方法，其中，所述下混是使用滤波器组(复杂低延迟滤波器组)被转换到频带域中的。

25.如前述权利要求23或24中任一项所述的方法，其中，所述第一组声道包括一阶高保真立体声(FOA)声道以及零个或多个高阶高保真立体声(HOA)声道。

26.如前述权利要求23至25中任一项所述的方法，其中，所述第一组声道中的HOA...

【技术特征摘要】
【国外来华专利技术】

1.一种方法，包括：

2.如权利要求1所述的方法，其中，所述第一组声道是一阶高保真立体声(foa)声道。

3.如权利要求1或2所述的方法，其中，针对所述第一组频带的所述第一spar元数据中的一个或多个参数被编码在比特流中，而不是从dirac元数据转换而来。

4.如权利要求3所述的方法，其中，编码在所述比特流中的所述第一spar元数据参数是从dirac元数据与所述第一组声道的输入协方差的组合计算的。

5.如前述权利要求1至4中任一项所述的方法，其中，所述第二组声道包括主下混声道，其中，所述主下混声道是通过对所述第一组声道应用增益并将经增益调整的第一组声道加在一起获得的，其中，所述增益是从所述dirac元数据计算的，其中，所述主下混声道是所述第一组声道的主要本征信号的表示。

6.一种方法，包括：

7.如权利要求6所述的方法，其中，所述第一spar元数据中的两个或更多个参数是从dirac元数据转换而来的，并且所述第二spar数据是使用输入协方差计算的。

8.如权利要求6或7所述的方法，其中，针对所述第一组频带的所述第一spar元数据中的一个或多个参数被编码在比特流中，而不是从dirac元数据转换而来的。

9.如权利要求8所述的方法，其中，编码在所述比特流中的所述第一spar元数据参数是从dirac元数据与所述第二组声道的协方差的组合计算的。

10.如权利要求8或9所述的方法，其中，编码在所述比特流中的所述第一spar元数据参数包括针对所述第二组声道的预测系数、交叉预测系数和去相关系数。

11.如前述权利要求6至10中任一项所述的方法，其中，所述第一组声道是一阶高保真立体声(foa)声道，并且所述第二组声道包括平面或非平面高阶高保真立体声(hoa)声道中的至少一者。

12.如前述权利要求6至11中任一项所述的方法，其中，所述第一spar元数据的所述两个或更多个参数是从dirac元数据转换而来的，并且所述第二spar元数据是针对所有频带计算和编码的。

13.如前述权利要求6至12中任一项所述的方法，其中，所述第二spar元数据是从第一组声道和第二组声道以及所述第一spar元数据计算的。

14.如前述权利要求6至13中任一项所述的方法，包括：

15.如前述权利要求4至5或7至14中任一项所述的方法，其中，所述dirac元数据是基于输入协方差矩阵来估计的。

16.如前述权利要求4至5或7至15中任一项所述的方法，其中，从dirac元数据生成所述spar元数据包括：

17.如权利要求16所述的方法，其中，所述第二输入协方差的一个或多个元素是使用所述dirac元数据和所述第二spar元数据中的去相关系数来生成的。

18.如前述权利要求16或17中任一项所述的方法，其中，从dirac元数据生成所述第二输入协方差的一个或多个元素...

【专利技术属性】
技术研发人员：R·泰亚吉，J·F·托雷斯，S·伯伦，S·布朗，
申请(专利权)人：杜比实验室特许公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人