使用量化和熵编码来编码或解码定向音频编码参数的装置和方法制造方法及图纸

技术编号：42661233 阅读：35 留言：0更新日期：2024-09-10 12:19

本申请涉及使用量化和熵编码来编码或解码定向音频编码参数的装置和方法。公开了一种用于编码包括扩散度参数和方向参数在内的定向音频编码参数的装置，该装置包括：参数量化器(210)，用于量化扩散度参数和方向参数；参数编码器(220)，用于编码经量化的扩散度参数和经量化的方向参数；以及输出接口(230)，用于产生包括与经编码的扩散度参数和经编码的方向参数有关的信息的经编码的参数表示。还公开了对应的编码方法、解码器和解码方法以及计算机可读存储介质。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及音频信号处理，并且具体涉及诸如dirac元数据之类的定向音频编码参数的有效编码方案。

技术介绍

1、本专利技术旨在提出用于来自由定向音频编码(dirac)(一种用于空间音频处理的感知激励技术)进行的3d音频场景分析的编码空间元数据的低比特率编码解决方案。

2、发送三维的音频场景需要处理多个声道，这通常引起发送大量数据。定向音频编码(directional audio coding；dirac)技术[1]是用于分析音频场景并以参数方式对其进行表示的有效方法。dirac基于针对每个频带测量的到达方向(doa)和扩散度来使用声场的感知激励表示。其是依据如下假设来建立的：在一个时刻并且对于一个临界频带，听觉系统的空间分辨率限于针对方向解码一个提示并且针对耳间相干性解码另一提示。然后通过使两个流(即非定向扩散流和定向不扩散串流)交叉衰落来在频域中再现空间声音。

3、本专利技术公开了基于dirac声音表示和再现的3d音频编码方法来实现低比特率下的沉浸式音频内容的传输。

4、dirac是感知激励空间声音再现。假设在一个时刻并且对于一个临界频带，听觉系统的空间分辨率限于针对方向解码一个提示并且针对耳间相干性解码另一提示。

5、基于这些假设，dirac通过使两个流(即非定向扩散流和定向不扩散串流)交叉衰落来在一个频带中表示空间声音。dirac处理在如下两个阶段中执行：如图10a和图10b中所描绘的分析阶段和合成阶段。

6、在dirac分析阶段中，具有b格式的一阶重合麦克风被

7、在dirac合成阶段中，声音被分成两个流，即不扩散流和扩散流。使用幅度平移将不扩散流再现为点源，可以通过使用向量基幅度平移(vbap)[2]来进行幅度平移。扩散流负责环绕感的感觉并且通过将彼此去相关的信号输送给扬声器而产生。

8、dirac参数(在下文中也称为空间元数据或dirac元数据)由扩散度和方向的元组组成。方向可以通过两个角度(方位角和仰角)以球形坐标来表示，而扩散度是位于0与1之间的标量因子。

9、图10a示出了接收b格式输入信号的滤波器组130。执行能量分析132和强度分析134。执行在136处指示的能量结果的时间平均和在138处指示的强度结果的时间平均，并且根据平均数据，如110处所指示地计算各个时间段/频段的扩散度值。通过框120来计算由滤波器组130的时间或频率分辨率给定的时间段/频段的方向值。

10、在图10b中所示的dirac合成中，再次使用分析滤波器组431。例如，应用虚拟麦克风处理框421，其中虚拟麦克风与例如5.1扬声器装置的扬声器位置相对应。扩散度元数据由用于扩散度的对应的处理框422和由框423处指示的向量基幅度平移(vbap)增益表来处理。扬声器平均框424被配置为执行增益平均，并且对应的归一化框425被应用以便在各个最终扬声器信号中具有对应的定义的响度等级。在框426中执行麦克风补偿。

11、所得信号一方面用于产生包括去相关阶段的扩散流427，并且另外也产生不扩散流428。针对对应的子带在加法器429中使两个流相加，并且在框431中，执行与其他子带的相加(即，频率到时间转换)。因此，框431也可以被视为合成滤波器组。对于来自特定扬声器装置的其他声道进行类似的处理操作，其中对于不同声道，框421中的虚拟麦克风的设定将是不同的。

12、在dirac分析阶段中，具有b格式的一阶重合麦克风被视为输入并且在频域中分析声音的扩散度和到达方向。

13、在dirac合成阶段中，声音被分成两个流，即不扩散流和扩散流。使用幅度平移将不扩散流再现为点源，可以通过使用向量基幅度平移(vbap)[2]来进行幅度平移。扩散流负责环绕感的感觉并且通过将彼此去相关的信号输送给扬声器而产生。

14、dirac参数(在下文中也称为空间元数据或dirac元数据)由扩散度和方向的元组组成。方向可以通过两个角度(方位角和仰角)以球形坐标来表示，而扩散度是位于0与1之间的标量因子。

15、如果stft被视为具有20毫秒的时间分辨率(这通常在若干论文中建议)并且在相邻分析窗之间具有50％的重叠的时间-频率变换，则针对以48khz采样的输入，dirac分析将产生每秒288000个值，如果在8个比特上量化角度，则这对应于约2.3mbit/s的总比特率。该数据量并不适合于实现低比特率空间音频编码，并且因此需要dirac元数据的有效编码方案。

16、关于元数据的减小的先前工作主要集中于电话会议情形，其中dirac的性能被极大地减小以便允许其参数的最小数据速率[4]。实际上，提出将定向分析限制于水平面中的方位角以便仅再现2d音频场景。此外，仅发送至多7khz的扩散度和方位角，从而将通信限制于宽带语音。最终，基于一个或两个比特粗略量化扩散度，从而在合成阶段中仅有时接通或断开扩散流，这在考虑多个音频源和背景噪声上的大于单个语音时是不够通用的。在[4]中，在3比特上量化方位角并且假设源(在该情况下为扬声器)具有非常静态的位置。因此，仅通过50毫秒的更新频率来发送参数。基于这些许多有力的假设，对比特的需求可以减小至约3kbit/s。

技术实现思路

1、本专利技术的目的是提供改进的空间音频编码概念。

2、此目的是通过根据本申请实施例的用于编码定向音频编码参数的装置、根据本申请实施例的用于编码定向音频编码参数的方法、根据本申请实施例的用于解码经编码的音频信号的解码器、根据本申请实施例的用于解码的方法或根据本申请实施例的计算机程序来实现的。

3、根据一个方面，本专利技术基于以下发现：当一方面扩散度参数和另一方面方向参数被提供有不同分辨率并且具有不同分辨率的不同参数被量化和编码以获得经编码的定向音频编码参数时，一方面获得增强的质量，同时另一方面获得用于编码空间音频编码参数的减小的比特率。

4、在实施例中，扩散度参数的时间或频率分辨率低于定向参数的时间或频率分辨率。在另一实施例中，不仅在频率上而且还在时间上执行分组。例如，计算具有高分辨率(即针对高分辨率时间段/频段来计算)最初的扩散度/定向音频编码参数，并且执行分组并且优选地通过平均来执行分组，以便计算具有低时间或频率分辨率的所得扩散度参数以及计算具有中等时间或频率分辨率(即，位于扩散度参数的时间或频率分辨率与最初的高分辨率之间的时间或频率分辨率)的所得定向参数，已经计算了最初原始参数的最初的高分辨率。

5、在实施例中，第一和第二时间分辨率是不同的而第一和第二频率分辨率是相同的，或反之亦然，也就是说，第一和第二频率分辨率是不同的而第一和第二时间分辨率是相同的。在另一实施例中，第一和第二时间分辨率二者是不同的并且第一和第二频率分辨率也是不同的。因此，第一时间或频率分辨率也可以被认为是第一时间-频率分辨率并且第二时间或频率分辨率也可以被认为是第二时间-频率分辨率。

本文档来自技高网...

【技术保护点】

1.一种用于编码包含扩散度参数和方向参数在内的定向音频编码参数的装置，所述装置包括：

2.根据权利要求1所述的装置，

3.根据权利要求2所述的装置，

4.根据权利要求1所述的装置，

5.根据权利要求4所述的装置，

6.根据权利要求1所述的装置，其中所述参数量化器(210)被配置为：

7.根据权利要求1所述的装置，

8.根据权利要求7所述的装置，

9.根据权利要求6所述的装置，

10.根据权利要求1所述的装置，

11.根据权利要求10所述的装置，其中所述参数量化器(210)被配置为：

12.根据权利要求1所述的装置，

13.根据权利要求1所述的装置，

14.根据权利要求1所述的装置，

15.根据权利要求14所述的装置，

16.根据权利要求1所述的装置，其中所述参数编码器(220)被配置为：针对与低于或等于阈值的扩散度值相关联的经量化的方向参数执行熵编码，并针对与大于所述阈值的扩散度值相关联的经量化的方向参数执行原始编码。

17.根据权利要求16所述的装置，

18.根据权利要求1所述的装置，

19.根据权利要求18所述的装置，

20.根据权利要求19所述的装置，

21.根据权利要求1所述的装置，

22.根据权利要求1所述的装置，

23.根据权利要求18所述的装置，其中所述参数编码器(220)被配置为：

24.根据权利要求19所述的装置，

25.根据权利要求24所述的装置，其中所述参数编码器(220)被配置为使用以下操作来应用哥伦布-莱斯方法或哥伦布-莱斯方法的修改：

26.根据权利要求1所述的装置，

27.根据权利要求1所述的装置，进一步包括参数计算器，所述参数计算器用于计算具有第一时间或频率分辨率的所述扩散度参数和具有第二时间或频率分辨率的所述方向参数。

28.一种编码包含扩散度参数和方向参数在内的定向音频编码参数的方法，所述方法包括：

29.一种用于对经编码的音频信号进行解码的解码器，所述经编码的音频信号包括经编码的定向音频编码参数，所述经编码的定向音频编码参数包括经编码的扩散度参数和经编码的方向参数，所述解码器包括：

30.根据权利要求29所述的解码器，

31.根据权利要求29所述的解码器，

32.根据权利要求31所述的解码器，

33.根据权利要求29所述的解码器，

34.根据权利要求29所述的解码器，其中所述参数解码器(820)被配置为：

35.根据权利要求29所述的解码器，其中所述参数解码器(820)被配置为：

36.根据权利要求29所述的解码器，

37.根据权利要求36所述的解码器，其中所述参数解码器(820)被配置为根据帧的经量化的扩散度索引来确定所述帧的解量化精确度(851)，

38.根据权利要求36所述的解码器，

39.根据权利要求31所述的解码器，

40.根据权利要求29所述的解码器，

41.根据权利要求29所述的解码器，其中所述参数解量化器(840)被配置为：

42.根据权利要求36所述的解码器，其中所述参数解码器(820)被配置为：

43.根据权利要求29所述的解码器，进一步包括：

44.根据权利要求43所述的解码器，包括：

45.根据权利要求29所述的解码器，

46.一种用于对经编码的音频信号进行解码的方法，所述经编码的音频信号包括经编码的定向音频编码参数，所述经编码的定向音频编码参数包括经编码的扩散度参数和经编码的方向参数，所述方法包括：

47.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序当在计算机或处理器上运行时，用于执行根据权利要求28或46所述的方法。

...

【技术特征摘要】