根据下混的音频场景的重构制造技术

技术编号:12671411 阅读:81 留言:0更新日期:2016-01-07 16:25
音频对象与位置元数据相关联。接收到的下混信号包括作为一个或更多个音频对象的线性组合并且与相应位置定位符相关联的下混通道。在第一方面,下混信号、位置元数据和依频率而定的对象增益被接收。通过根据基于位置元数据和位置定位符的系数向下混信号的上混应用对象增益来重构音频对象。在第二方面,音频对象已被与位于对应下混通道的位置定位符处的至少一个声床通道编码在一起。解码系统接收下混信号和音频对象的位置元数据。通过基于对应下混通道的位置定位符从对应下混通道中抑制表示音频对象的内容来重构声床通道。

【技术实现步骤摘要】
【国外来华专利技术】根据下混的音频场景的重构相关申请的交叉引用本申请要求在2013年5月24日提交的美国临时专利申请第61/827,469号的优先权,其通过引用而被整体结合于此。
在此公开的本专利技术一般地涉及音频的编码和解码领域。具体而言,其涉及对包括音频对象的音频场景的编码和解码。本公开涉及题为“CodingofAudioScenes”并且将HeikoPurnhagen等人称为专利技术人的与本申请在相同日期提交的美国临时申请第61/827,246号。所引用的申请被包括在附录A中并且在此通过引用而被包括于此。
技术介绍
存在用于参数空间音频编码的音频编码系统。例如,MPEG环绕描述了一种用于多通道音频的参数空间编码的系统。MPEGSAOC(空间音频对象编码)描述了一种用于音频对象的参数编码的系统。在编码器侧,这些系统通常将通道/对象下混为通常是单通道(一个通道)或者立体声(两个通道)下混的下混,并且提取借助于比如层级差异和互相关的参数来描述通道/对象的属性的边信息。下混和边信息然后被编码并发送到解码器侧。在解码器侧,在边信息的参数的控制下根据下混来重构—即近似于(approximate)—通道/对象。这些系统的缺点是重构通常在数学上是复杂的并且经常必须依赖于关于作为边信息发送的参数所未明确描述的音频内容的属性的假设。这种假设可以例如是:除非互相关参数被发送则通道/对象被看作不相关,或通道/对象的下混被以特定方式生成。除了以上之外,编码效率在包括网络广播和一对一文件传输两者在内的旨在用于音频分发的应用中作为关键设计因素出现。为了至少在非专业产品中保持文件大小和所需存储器有限,编码效率也有一定相关度。附图说明在下文中,将参考附图来描述示例实施例,其上:图1是接收具有多个音频对象的音频场景(可能还有声床通道(bedchannel))并且输出下混比特流和元数据比特流的音频编码系统的广义框图;图2示出了用于重构声床通道的方法的细节;更具体地,其是示出不同信号部分的时间频率图,在这些信号部分中信号能量数据被计算以完成维纳型滤波;图3是音频解码系统的广义框图,该音频解码系统基于下混比特流和元数据比特流来重构音频场景;图4示出了配置为通过对象增益来编码音频对象的音频编码系统的细节;图5示出了在考虑到编码失真的同时计算所述对象增益的音频编码系统的细节;图6示出了下混通道声床通道和音频对象相对于参考收听点的示例虚拟位置;并且图7示出了特别配置用于重构声床通道和音频对象的混合的音频解码系统。所有的附图都是示意性的并且一般地示出用来阐明这里的主题的多个部分,而其他部分可以被省略或者仅仅建议。除非另有指示,相似的标号在不同附图中指代相似部分。具体实施方式如在这里使用的,音频信号可以指代纯音频信号、视频信号或者多媒体信号的音频部分或者复杂音频对象的音频信号部分,其中音频对象可以进一步包括位置或其他元数据或者可以与位置或其他元数据相关联。本公开一般地涉及用于从音频场景变换为编码该音频场景的比特流(编码)和反过来(解码或者重构)的方法和设备。变换通常与分发相结合,由此解码在比编码晚的时间点和/或在不同的空间位置和/或使用不同的装备而发生。在将被编码的音频场景中,存在至少一个音频对象。音频场景可以被认为分段为频带(例如,B=11个频带,其中的每个都包括多个频率样本)和时间帧(例如包括64个样本),由此一个时间帧的一个频带形成一个时间/频率片(tile)。若干时间帧,例如24个时间帧,可以构成一个超级帧。实现这种时间和频率分段的典型方式是通过加窗时间—频率分析(示例窗口长度:640个样本),包括众所周知的离散谐波变换。I.概览—通过对象增益的编码在第一方面内的示例实施例中,提供了用于编码音频场景由此获得比特流的方法。比特流可以被分为下混比特流和元数据比特流。在该示例实施例中,一个时间帧中的几个(或者全部)频带中的信号内容通过联合处理操作而被编码,其中来自一个处理步骤的中间结果在影响多于一个频带的后续步骤中被使用。音频场景包括多个音频对象。每个音频对象都与位置元数据相关联。通过针对总共M个下混通道中的每个形成音频对象中的一个或更多个音频对象的线性组合来生成下混信号。下混通道与相应位置定位符相关联。对于每个音频对象,与音频对象相关联的位置元数据和与一些或者全部下混通道相关联的空间定位符被用来计算相关系数。相关系数可以与在下混操作中使用的系数一致,在下混操作中下混通道中的线性组合被形成;可替代地,下混操作使用独立的一组系数。通过收集与音频对象有关的所有非零相关系数,可以将下混信号上混为例如相关系数的向量和M个下混通道的内积(innerproduct)。在每个频带中,由此获得的上混通过依频率而定的对象增益而被调节,该对象增益优选可以根据一个频带的分辨率而被指派不同值。这是通过以被增益重新调节(rescale)的下混信号的上混近似于该频带中的音频对象的方式向对象增益指派值来完成的;因此,即使相关系数被用来控制下混操作,对象增益也可以在频带之间不同以提高编码的保真度。这可以通过比较音频对象和每个频带中的下混信号的上混并且向对象增益指派提供忠实近似的值来完成。由以上编码方法得到的比特流至少对下混信号、位置元数据和对象增益进行编码。根据以上示例实施例的方法能够利用有限量的数据来编码复杂的音频场景,并且因而在期望高效、特别带宽经济的分发格式的应用中是有利的。根据以上示例实施例的方法优选从比特流中省略相关系数。相反,应理解,相关系数是在解码器侧基于可以是预定义的下混通道的位置定位符和比特流中的位置元数据来计算的。在示例实施例中,根据预定义规则来计算相关系数。规则可以是定义如何处理(音频对象的)位置元数据和(下混通道的)位置定位符以获得相关系数的确定性算法。指定算法的相关方面和/或实现处理装备中的算法的指令可以被存储在编码器系统或者执行音频场景编码的其他实体中。在解码器侧存储规则的相同或等效拷贝以使得可以从将被从编码器传输到解码器侧的比特流中省略规则是有利的。在在先示例实施例的另一发展中,可以基于音频对象的几何位置尤其是其相对于音频对象的几何位置来计算相关系数。计算可以考虑欧几里德距离和/或传播角度。具体而言,可以基于诸如正弦-余弦平移法则(panninglaw)之类的能量保持平移法则(或声像法则(panlaw))来计算相关系数。平移法则尤其是立体声平移法则在本领域中是众所周知的,它们在本领域中用于源定位。平移法则尤其包括关于用于保持恒功率或者视在恒功率的条件的假设,以使得当音频对象改变其位置时响度(或者感知听觉水平)可以被保持相同或者大约如此。在一个示例实施例中,通过仅使用相对于频率是恒定的输入的模型或算法来计算相关系数。例如,该模型或算法可以仅基于空间元数据和空间定位符来计算相关系数。因此,在每个时间帧中相关系数相对于频率将是恒定的。然而,如果依频率而定的对象增益被使用,则可以以频带分辨率校正下混通道的上混以使得下混通道的上混在每个频带中尽可能忠实地近似于音频对象。在一个示例实施例中,编码方法通过合成分析方法来确定至少一个音频对象的对象增益。更准确的说,其包括对下混信号进行编码和解码,由此获得修改版本的下混信号。编码版本的下混信号可能已经为了被包括在形成最终编码本文档来自技高网...
根据下混的音频场景的重构

【技术保护点】
一种用于对具有至少多个音频对象的音频场景的时间帧进行编码的方法,该方法包括:接收N个音频对象(Sn,n=1,…,N)和关联的位置元数据其中N>1;生成包括M个下混通道(Ym,m=1,…,M)的下混信号(Y),每个下混通道是N个音频对象中的一个或更多个音频对象的线性组合并且与位置定位符相关联,其中M>1;针对每个音频对象:基于与该音频对象相关联的位置元数据和下混通道的位置定位符来计算指示出该音频对象和每个下混通道的空间相关度的相关系数(dn=(dn,1,…,dn,M));并且针对每个频带:以使通过对象增益(gn)重新调节的相关系数和下混信号的内积近似于时间帧中的音频对象的方式来确定该对象增益;以及生成包括下混信号、位置元数据和对象增益的比特流。

【技术特征摘要】
【国外来华专利技术】2013.05.24 US 61/827,4691.一种用于对具有至少多个音频对象的音频场景的时间帧进行编码的方法,该音频场景被分段到频带中,该方法包括:接收N个音频对象和关联的位置元数据,其中N>1;生成包括M个下混通道的下混信号,每个下混通道是N个音频对象中的一个或更多个音频对象的线性组合并且与位置定位符相关联,其中M>1;针对每个音频对象:基于与该音频对象相关联的位置元数据和下混通道的位置定位符来计算指示出该音频对象和每个下混通道的空间相关度的相关系数;并且针对每个频带:以使通过对象增益重新调节的相关系数和下混信号的内积近似于时间帧中的音频对象的方式来确定该对象增益;以及生成包括下混信号、位置元数据和对象增益的比特流。2.如权利要求1所述的方法,还包括从比特流中省略相关系数。3.如权利要求1或2所述的方法,其中,相关系数是根据预定义规则来计算的。4.如权利要求3所述的方法,其中:位置元数据和位置定位符表示几何位置;并且相关系数是基于多对几何位置之间的距离来计算的。5.如权利要求4所述的方法,其中:相关系数是基于能量保持平移法则来计算的。6.如权利要求4所述的方法,其中:相关系数是基于正弦-余弦平移法则来计算的。7.如权利要求1或2所述的方法,其中,每个相关系数相对于频率是恒定的。8.如权利要求1或2所述的方法,其中,下混通道是以相关系数作为权重计算出的N个音频对象中的一个或更多个音频对象的线性组合。9.如权利要求1或2所述的方法,其中,不同频带中的对象增益是独立地确定的。10.如权利要求1或2所述的方法,其中:生成比特流的步骤包括下混信号的有损编码,该有损编码与重构处理相关联;并且至少一个音频对象的对象增益是以使通过该对象增益重新调节的相关系数和重构下混信号的内积近似于时间帧中的音频对象的方式来确定的。11.一种音频编码系统(100),被配置为将至少包括N>1个音频对象的音频场景的时间帧编码为比特流,每个音频对象与位置元数据相关联,该系统包括:下混器(101),用于接收音频对象并且基于所接收的音频对象来输出包括M个下混通道的下混信号,其中M>1,每个下混通道是N个音频对象中的一个或更多个音频对象的线性组合,并且每个下混通道与位置定位符相关联;下混编码器(501),用于对下混信号进行编码并且将此包括在比特流中;上混系数分析器(104;402,403),用于接收音频对象的空间元数据和下混通道的空间定位符并且基于所接收的音频对象的空间元数据和下混通道的空间定位符来计算指示出该音频对象和每个下混通道的空间相关度的相关系数;以及元数据编码器(106),用于对位置元数据和对象增益进行编码并且将这些包括在比特流中,其中,上混系数分析器还被配置为,针对音频对象的频带,接收与该音频对象有关的相关系数和下混信号并且被配置为基于所接收的与该音频对象有关的相关系数和下混信号以使通过对象增益重新调节的相关系数和下混信号的内积近似于时间帧的该频带中的音频对象的方式来确定该对象增益。12.如权利要求11所述的音频编码系统,其中,上混系数分析器存储用于计算相关系数的预定义规则。13.如权利要求11或12所述的音频编码系统,其中下混编码器执行有损编码,该系统还包括用于重构通过下混编码器编码的信号的下混解码器(502),其中,上混系数分析器被配置为以使通过对象增益重新调节的相关系数和重构下混信号的内积近似于时间帧中的音频对象的方式来确定对象增益。14.如权利要求11或12所述的音频编码系统,其中,下混器被配置为应用相关系数来计算下混通道。15.一种用于根据比特流来重构具有至少多个音频对象的音频场景的时间帧的方法,该方法包括:针对N个音频对象中的每个,从该比特流中提取与每个音频对象相关联的位置元数据和对象增益,其中N>1,其中对象增益和位置元数据被编码在比特流中;从该比特流中提取下混信号,该下混信号包括M个下混通道,其中M>1并且每个下混通道与位置定位符相关联;针对每个音频对象:基于该音频对象的位置元数据和下混通道的空间定位符来计算指示出该音频对象和每个下混通道的空间相关度的相关系数;并且将该音频对象重构为通过对象增益重新调节的相关系数和下混信号的内积。16.如权利要求15所述的方法,其中,相关系数是根据预定义规则来计算的。17.如权利要求16所述的方法,其中:位置元数据和位置定位符表示几何位置;并且相关系数是基于多对几何位置之间的距离来计算的。18.如权利要求17所述的方法,其中:相关系数是能量保持平移法则来计算的。19.如权利要求17所述的方法,其中:相关系数是基于正弦-余弦平移法则来计算的。20.如权利要求15至19中任一个所述的方法,其中,每个相关系数相对于频率是恒定的。21.如权利要求15至19中任一个所述的方法,其中:对象增益的值能针对每个频带独立地指派;并且音频对象中的至少一个在每个频带中被独立地重构为通过用于该频带的对象增益的值重新调节的相关系数和下混信号的内积。22.如权利要求15至19中任一个所述的方法,还包括根据所述位置元数据来渲染音频对象以供在多通道音频回放装备中回放。23.一种包括根据权利要求3的编码和根据权利要求16的重构的音频分发方法,其中,用于计算相关系数的相应预定义规则是等效的。24.一种用于对具有至少多个音频对象的音频场景的时间帧进行编码的设备,该音频场景被分段到频带中,该设备包括:用于接收N个音频对象和关联的位置元数据的装置,其中N>1;用于生成包括M个下混通道的下混信号的装置,每个下混通道是N个音频对象中的一个或更多个音频对象的线性组合并且与位置定位符相关联,其中M>1;用于针对每个音频对象执行以下操作的装置:基于与该音频对象相关联的位置元数据和下混通道的位置定位符来计算指示出该音频对象和每个下混通道的空间相关度的相关系数;并且针对每个频带:以使通过对象增益重新调节的相关系数和下混信号的内积近似于时间帧中的音频对象的方式来确定该对象增益;以及用于生成包括下混信号、位置元数据和对象增益的比特流的装置。25.如权利要求24所述的设备,还包括用于从比特流中省略相关系数的装置。26.如权利要求24或25所述的设备,其中,相关系数是根据预定义规则来计算的。27.如权利要求26所述的设备,其中:位置元数据和位置定位符表示几何位置;并且相关系数是基于多对几何位置之间的距离来计算的。28.如权利要求27所述的设备,其中:相关系数是基于能量保持平移法则来计算的。29.如权利要求27所述的设备,其中:相关系数是基于正弦-余弦平移法则来计算的。30.如权利要求24或25所述的设备,其中,每个相关系数相对于频率是恒定的。31.如权利要求24或25所述的设备,其中,下混通道是以相关系数作为权重计算出的N个音频对象中的一个或更多个音频对象的线性组合。32.如权利要求24或25所述的设备,其中,不同频带中的对象增益是独立地确定的。33.如权利要求24或25所述的设备,其中:用于生成比特流的装置包括用于下混信号的有损编码的装置,该有损编码与重构处理相关联;并且至少一个音频对象的对象增益是以使通过该对象增益重新调节的相关系数和重构下混信号的内积近似于时间帧中的音频对象的方式来确定的。34.一种用于根据比特流来重构具有至少多个音频对象的音频场景的时间帧的设备,该设备包括:用于针对N个音频对象中的每个从该比特流中提取与每个音频对象相关联的位置元数据和对象增益的装置,其中N>1,其中对象增益和位置元数据被编码在比特流中;用于从该比特流中提取下混信号的装置,该下混信号包括M个下混通道,其中M>1并且每个下混通道与位置定位符相关联;用于针对每个音频对象执行以下操作的装置:基于该音频对象的位置元数据和下混通道的空间定位符来计算指示出该音频对象和每个下混通道的空间相关度的相关系数;并且将该音频对象重构为通过对象增益重新调节的相关系数和下混信号的内积。35.如...

【专利技术属性】
技术研发人员:T·赫冯恩H·普恩哈根L·J·萨米尔森L·维尔莫斯
申请(专利权)人:杜比国际公司
类型:发明
国别省市:荷兰;NL

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1