具有解相关处理操作配置的空间化音频编码制造技术

技术编号：43966861 阅读：60 留言：0更新日期：2025-01-07 21:53

本发明专利技术涉及一种用于对音频信号进行编码的方法，这些音频信号在阶数高于0的高保真立体声表示的n个声道中的每一个声道中在时间上形成一系列样本帧(t‑1，t)，该方法包括：‑针对要编码的当前帧，确定指示要对该当前帧的信号应用的解相关处理操作的活动或非活动模式的二进制值，并且将该值编码到比特流中；‑在模式被确定为活动的情况下，将解相关处理信息编码到该比特流中；‑根据为该当前帧确定的模式和为前一帧确定的模式，生成输出信号以将其编码到该比特流中。本发明专利技术还涉及一种对应的解码方法，并且涉及实施相应的编码方法和解码方法的编码设备和解码设备。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】

本专利技术涉及空间化声音数据的编码/解码，尤其是在立体混响背景下(下文也表示为“高保真立体声(ambisonic)”)。

技术介绍

1、目前在移动电话中使用的编码器/解码器(下文称为“编解码器”)是单声道的(用于在单一扬声器上呈现的单个信号声道)。3gpp evs(代表“增强型语音服务”)编解码器允许提供“超hd”(也称为“高清加”或hd+语音)音质，其中，为以32khz或48khz采样的信号提供swb(代表“超宽带”)音频带或者为以48khz采样的信号提供fb(代表“全带”)；音频带宽的范围在swb模式(9.6kbit/s至128kbit/s)下为从14.4khz至16khz，并且在fb模式(16.4kbit/s至128kbit/s)下为20khz以上。

2、由运营商提供的会话服务的下一质量演变应该由沉浸式服务(这些沉浸式服务使用如配备有多个麦克风的智能手机等终端)、或者远程呈现或360°视频类型的空间化音频会议或视频会议设备、或者甚至具有比简单的2d立体声呈现更加沉浸式的3d空间化声音呈现的“实时”音频内容共享设备组成。随着音频头戴式耳机在移动电话上的使用日益广泛以及先进的音频设备(如3d麦克风、具有声学天线的语音助手、虚拟现实头戴式耳机等附件)的出现，捕获并呈现空间化声音场景以提供沉浸式通信体验如今已经足够普遍。

3、在这方面，未来的标准3gpp“ivas”(代表“沉浸式语音和音频服务”)包括通过接受至少以下所列的空间化声音格式(及其组合)作为编解码器的输入格式来将evs编解码器扩展为沉浸式的：p>

4、-立体声或5.1类型的基于声道的格式，其中，每个声道供应一个扬声器(例如，立体声中的l和r或5.1中的l、r、ls、rs和c)；

5、-基于对象的格式，其中，声音对象被描述为与描述该对象的属性(空间中的位置、源空间宽度等)的元数据相关联的音频信号(通常是单声道的)，

6、-基于场景的格式，该格式描述了给定点的声场，该声场通常由球形麦克风捕获或在球谐函数域中合成。

7、通过示例性实施例，下文中的重点通常是以基于场景的(或高保真立体声)格式对声音进行编码(其中，下文中关于本专利技术呈现的至少某些方面还可以应用于除了基于场景的格式之外的格式)。

8、高保真立体声是录制(声学意义上的“编码”)空间化声音以及进行再现(声学意义上的“解码”)的方法。高保真立体声麦克风(1阶)包括布置在球面网格(例如正四面体的顶点)上的至少四个振膜舱(典型地为心型或亚心型)。与这些振膜舱相关联的音频声道被称为“a格式”。该格式被转换成“b格式”，其中，声场分解为以w、x、y、z表示的四个分量(球谐函数)，这四个分量与四个重合的虚拟麦克风相对应。分量w与声场的全向捕获相对应，而更具方向性的分量x、y和z可以被认为是沿着三个空间正交轴定向的压力梯度麦克风。高保真立体声系统在录音和呈现分开并且分离的意义上是一种灵活的系统。其允许对任何给定配置的扬声器(例如，双耳、5.1类型“环绕”声或7.1.4类型的全向声(具有仰角))进行(声学意义上的)解码。高保真立体声方法可以一般化为四个以上b格式声道，并且这种一般化表示通常被称为“hoa”(代表“高阶高保真立体声”)。将声音分解成更多的球谐函数改善了在扬声器上呈现时的空间精准度。

9、m阶高保真立体声信号包括k＝(m+1)2个分量，并且在1阶(如果m＝1)时(通常被称为foa(代表一阶高保真立体声))有四个分量w、x、y和z被恢复。还存在称为“平面”的高保真立体声变体(w、x、y)，该“平面”高保真立体声变体对在通常是水平面的平面上定义的声音进行分解。在这种情况下，分量的数量是k＝2m+1个声道。为了便于阅读，1阶高保真立体声(4个声道：w、x、y、z)、1阶平面高保真立体声(3个声道：w、x、y)、更高阶高保真立体声在下文中均以“高保真立体声”表示，所呈现的处理操作无论类型、平面或其他方面以及高保真立体声分量的数量如何都是适用的。

10、在下文中，“高保真立体声信号”将指具有一定数量的高保真立体声分量的预定顺序的b格式信号。这还包括混合情况，其中，例如，在2阶时，仅存在8个声道(而不是9个)——更确切地，在2阶时，存在4个1阶声道(w、x、y、z)，通常会加上5个声道(通常表示为r、s、t、u、v)，并且其中一个高阶声道(例如r)可能例如会被忽略。这还包括高保真立体声信号已经经历预处理以便在编码之前将其变换为预处理声道的情况。

11、要由编码器/解码器处理的信号采用连续的声音样本块的形式，下文中称为“帧”或“子帧”。

12、此外，在下文中，数学符号遵循以下惯例：

13、-标量：s或n(小写字母用于变量或大写字母用于常量)

14、-运算符re(.)表示复数的实部

15、-向量：u(小写字母，粗体)

16、-矩阵：a(大写字母，粗体)

17、符号和分别指示的转置和埃尔米特转置(转置和共轭)。

18、在长度为l的时间间隔i＝0,…,l-1内定义的一维离散时间信号s(i)用以下行向量表示

19、

20、这也可以写成：以避免使用圆括号。

21、-在长度为l的时间间隔i＝0,…,l-1内定义并具有k个维度的多维度离散时间信号用以下大小为l×k的矩阵表示：

22、

23、这也可以写成：以避免使用圆括号。

24、此外，此处没有提起从现有高保真立体声技术中已知的关于高保真立体声分量(包括acn(代表“高保真立体声声道数量”)、sid(代表“单一指数命名”)、fuma(代表“弗斯-马哈姆(furse-malham)”))的阶数以及高保真立体声分量(sn3d、n3d、maxn)的归一化的惯例。更多细节可以见于例如可在线获得的资源：

25、https://en.wikipedia.org/wiki/ambisonic_data_exchange_formats

26、按照惯例，高保真立体声信号的第一分量通常对应于全向分量w。

27、用于对高保真立体声信号进行编码的最简单的方法在于使用单声道编码器，并且将单声道编码器单独应用于各个声道中的每一个，同时潜在地根据声道分配不同的比特。此处该方法被称为“多单声道”。多单声道方法可以扩展到多立体声编码(其中，声道对由立体声编解码器单独编码)或者更一般地扩展到使用相同核心编解码器的多个相似实例。输入信号被划分为声道(一个单声道或若干声道)。这些声道根据预定分布和二进制分配被单独编码。在解码时，根据输入信号的惯例对解码后的声道进行重新组合。

28、多单声道或多立体声编码的质量取决于所使用的核心编码和解码而变化，并且通常只有在非常高的速率下才能令人满意。例如，在多单声道的情况下，evs编码在速率为至少每声道(单声道)48kbit/s时可以被判定为准透明(从感知的角度来看)；因此，对于1阶高保真立体声信号，最低速率为4×48＝1本文档来自技高网...

【技术保护点】

1.一种用于对音频信号进行编码的方法，这些音频信号在作为阶数高于0的高保真立体声表示的n个声道中的每一个声道中在时间上形成一系列样本帧(t-1，t)，该方法包括：

2.如权利要求1所述的方法，其中，对指示活动或非活动模式的该二进制值的确定是根据用于在解相关处理之前和之后对信号进行编码的至少一个增益标准来执行的。

3.如权利要求2所述的方法，其中，该编码增益由以下对数值定义：

4.如权利要求1所述的方法，其中，对指示活动或非活动模式的该二进制值的确定是根据应用该解相关处理的旋转矩阵之间的帧间距离的标准来执行的。

5.如权利要求4所述的方法，其中，这些旋转矩阵被表示为双四元数，旋转矩阵之间的该帧间距离使用当前帧的四元数与前一帧的四元数之间的标量积来表示。

6.如权利要求1所述的方法，其中，对指示活动或非活动模式的该二进制值的确定是根据该当前帧的应用该解相关处理的旋转矩阵与恒等矩阵之间的距离标准来执行的。

7.如权利要求6所述的方法，其中，这些旋转矩阵被表示为双四元数，该当前帧的旋转矩阵与恒等矩阵之间的距离以该当前

8.一种用于对音频信号进行解码的方法，这些音频信号在作为阶数高于0的高保真立体声表示的n个声道中的每一个声道中在时间上形成一系列样本帧(t-1，t)，该方法包括：

9.一种编码设备，该编码设备包括用于实施根据权利要求1至7中任一项所述的编码方法的步骤的处理电路。

10.一种解码设备，该解码设备包括用于实施如权利要求8所述的解码方法的步骤的处理电路。

11.一种由处理器可读的存储介质，该存储介质存储了存储器中包括指令的计算机程序，这些指令用于执行根据权利要求1至7之一所述的编码方法或如权利要求8所述的解码方法。

...

【技术特征摘要】
【国外来华专利技术】

3.如权利要求2所述的方法，其中，该编码增益由以下对数值定义：

4.如权利要求1所述的方法，其中，对指示活动或非活动模式的该二进制值的确定是根据应用该解相关处理的旋转矩阵之间的帧间距离的标准来执行的。

6.如权利要求1所述的方法，其中，对指示活动或非活动模式的该二进制值的确定是根据该...

【专利技术属性】
技术研发人员：S·拉戈特，A·勒福特，
申请(专利权)人：奥兰治，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人