根据下混的音频场景的重构制造技术

技术编号：12671411 阅读：87 留言：0更新日期：2016-01-07 16:25

音频对象与位置元数据相关联。接收到的下混信号包括作为一个或更多个音频对象的线性组合并且与相应位置定位符相关联的下混通道。在第一方面，下混信号、位置元数据和依频率而定的对象增益被接收。通过根据基于位置元数据和位置定位符的系数向下混信号的上混应用对象增益来重构音频对象。在第二方面，音频对象已被与位于对应下混通道的位置定位符处的至少一个声床通道编码在一起。解码系统接收下混信号和音频对象的位置元数据。通过基于对应下混通道的位置定位符从对应下混通道中抑制表示音频对象的内容来重构声床通道。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】根据下混的音频场景的重构相关申请的交叉引用本申请要求在2013年5月24日提交的美国临时专利申请第61/827,469号的优先权，其通过引用而被整体结合于此。
在此公开的本专利技术一般地涉及音频的编码和解码领域。具体而言，其涉及对包括音频对象的音频场景的编码和解码。本公开涉及题为“CodingofAudioScenes”并且将HeikoPurnhagen等人称为专利技术人的与本申请在相同日期提交的美国临时申请第61/827,246号。所引用的申请被包括在附录A中并且在此通过引用而被包括于此。
技术介绍
存在用于参数空间音频编码的音频编码系统。例如，MPEG环绕描述了一种用于多通道音频的参数空间编码的系统。MPEGSAOC(空间音频对象编码)描述了一种用于音频对象的参数编码的系统。在编码器侧，这些系统通常将通道/对象下混为通常是单通道(一个通道)或者立体声(两个通道)下混的下混，并且提取借助于比如层级差异和互相关的参数来描述通道/对象的属性的边信息。下混和边信息然后被编码并发送到解码器侧。在解码器侧，在边信息的参数的控制下根据下混来重构—即近似于(approximate)—通道/对象。这些系统的缺点是重构通常在数学上是复杂的并且经常必须依赖于关于作为边信息发送的参数所未明确描述的音频内容的属性的假设。这种假设可以例如是：除非互相关参数被发送则通道/对象被看作不相关，或通道/对象的下混被以特定方式生成。除了以上之外，编码效率在包括网络广播和一对一文件传输两者在内的旨在用于音频分发的应用中作为关键设计因素出现。为了至少在非专业产品中保持文件大小和所需存储器有限，...
根据下混的音频场景的重构

【技术保护点】
一种用于对具有至少多个音频对象的音频场景的时间帧进行编码的方法，该方法包括：接收N个音频对象(Sn，n＝1,…,N)和关联的位置元数据其中N>1；生成包括M个下混通道(Ym，m＝1,…,M)的下混信号(Y)，每个下混通道是N个音频对象中的一个或更多个音频对象的线性组合并且与位置定位符相关联，其中M>1；针对每个音频对象：基于与该音频对象相关联的位置元数据和下混通道的位置定位符来计算指示出该音频对象和每个下混通道的空间相关度的相关系数(dn＝(dn,1,…,dn,M))；并且针对每个频带：以使通过对象增益(gn)重新调节的相关系数和下混信号的内积近似于时间帧中的音频对象的方式来确定该对象增益；以及生成包括下混信号、位置元数据和对象增益的比特流。

【技术特征摘要】
【国外来华专利技术】2013.05.24 US 61/827,4691.一种用于对具有至少多个音频对象的音频场景的时间帧进行编码的方法，该音频场景被分段到频带中，该方法包括：接收N个音频对象和关联的位置元数据，其中N＞1；生成包括M个下混通道的下混信号，每个下混通道是N个音频对象中的一个或更多个音频对象的线性组合并且与位置定位符相关联，其中M＞1；针对每个音频对象：基于与该音频对象相关联的位置元数据和下混通道的位置定位符来计算指示出该音频对象和每个下混通道的空间相关度的相关系数；并且针对每个频带：以使通过对象增益重新调节的相关系数和下混信号的内积近似于时间帧中的音频对象的方式来确定该对象增益；以及生成包括下混信号、位置元数据和对象增益的比特流。2.如权利要求1所述的方法，还包括从比特流中省略相关系数。3.如权利要求1或2所述的方法，其中，相关系数是根据预定义规则来计算的。4.如权利要求3所述的方法，其中：位置元数据和位置定位符表示几何位置；并且相关系数是基于多对几何位置之间的距离来计算的。5.如权利要求4所述的方法，其中：相关系数是基于能量保持平移法则来计算的。6.如权利要求4所述的方法，其中：相关系数是基于正弦-余弦平移法则来计算的。7.如权利要求1或2所述的方法，其中，每个相关系数相对于频率是恒定的。8.如权利要求1或2所述的方法，其中，下混通道是以相关系数作为权重计算出的N个音频对象中的一个或更多个音频对象的线性组合。9.如权利要求1或2所述的方法，其中，不同频带中的对象增益是独立地确定的。10.如权利要求1或2所述的方法，其中：生成比特流的步骤包括下混信号的有损编码，该有损编码与重构处理相关联；并且至少一个音频对象的对象增益是以使通过该对象增益重新调节的相关系数和重构下混信号的内积近似于时间帧中的音频对象的方式来确定的。11.一种音频编码系统(100)，被配置为将至少包括N＞1个音频对象的音频场景的时间帧编码为比特流，每个音频对象与位置元数据相关联，该系统包括：下混器(101)，用于接收音频对象并且基于所接收的音频对象来输出包括M个下混通道的下混信号，其中M＞1，每个下混通道是N个音频对象中的一个或更多个音频对象的线性组合，并且每个下混通道与位置定位符相关联；下混编码器(501)，用于对下混信号进行编码并且将此包括在比特流中；上混系数分析器(104；402，403)，用于接收音频对象的空间元数据和下混通道的空间定位符并且基于所接收的音频对象的空间元数据和下混通道的空间定位符来计算指示出该音频对象和每个下混通道的空间相关度的相关系数；以及元数据编码器(106)，用于对位置元数据和对象增益进行编码并且将这些包括在比特流中，其中，上混系数分析器还被配置为，针对音频对象的频带，接收与该音频对象有关的相关系数和下混信号并且被配置为基于所接收的与该音频对象有关的相关系数和下混信号以使通过对象增益重新调节的相关系数和下混信号的内积近似于时间帧的该频带中的音频对象的方式来确定该对象增益。12.如权利要求11所述的音频编码系统，其中，上混系数分析器存储用于计算相关系数的预定义规则。13.如权利要求11或12所述的音频编码系统，其中下混编码器执行有损编码，该系统还包括用于重构通过下混编码器编码的信号的下混解码器(502)，其中，上混系数分析器被配置为以使通过对象增益重新调节的相关系数和重构下混信号的内积近似于时间帧中的音频对象的方式来确定对象增益。14.如权利要求11或12所述的音频编码系统，其中，下混器被配置为应用相关系数来计算下混通道。15.一种用于根据比特流来重构具有至少多个音频对象的音频场景的时间帧的方法，该方法包括：针对N个音频对象中的每个，从该比特流中提取与每个音频对象相关联的位置元数据和对象增益，其中N＞1，其中对象增益和位置元数据被编码在比特流中；从该比特流中提取下混信号，该下混信号包括M个下混通道，其中M＞1并且每个下混通道与位置定位符相关联；针对每个音频对象：基于该音频对象的位置元数据和下混通道的空间定位符来计算指示出该音频对象和每个下混通道的空间相关度的相关系数；并且将该音频对象重构为通过对象增益重新调节的相关系数和下混信号的内积。16.如权利要求15所述的方法，其中，相关系数是根据预定义规则来计算的。17.如权利要求16所述的方法，其中：位置元数据和位置定位符表示几何位置；并且相关系数是基于多对几何位置之间的距离来计算的。18.如权利要求17所述的方法，其中：相关系数是能量保持平移法则来计算的。19.如权利要求17所述的方法，其中：相关系数是基于正弦-余弦平移法则来计算的。20.如权利要求15至19中任一个所述的方法，其中，每个相关系数相对于频率是恒定的。21.如权利要求15至19中任一个所述的方法，其中：对象增益的值能针对每个频带独立地指派；并且音频对象中的至少一个在每个频带中被独立地重构为通过用于该频带的对象增益的值重新调节的相关系数和下混信号的内积。22.如权利要求15至19中任一个所述的方法，还包括根据所述位置元数据来渲染音频对象以供在多通道音频回放装备中回放。23.一种包括根据权利要求3的编码和根据权利要求16的重构的音频分发方法，其中，用于计算相关系数的相应预定义规则是等效的。24.一种用于对具有至少多个音频对象的音频场景的时间帧进行编码的设备，该音频场景被分段到频带中，该设备包括：用于接收N个音频对象和关联的位置元数据的装置，其中N＞1；用于生成包括M个下混通道的下混信号的装置，每个下混通道是N个音频对象中的一个或更多个音频对象的线性组合并且与位置定位符相关联，其中M＞1；用于针对每个音频对象执行以下操作的装置：基于与该音频对象相关联的位置元数据和下混通道的位置定位符来计算指示出该音频对象和每个下混通道的空间相关度的相关系数；并且针对每个频带：以使通过对象增益重新调节的相关系数和下混信号的内积近似于时间帧中的音频对象的方式来确定该对象增益；以及用于生成包括下混信号、位置元数据和对象增益的比特流的装置。25.如权利要求24所述的设备，还包括用于从比特流中省略相关系数的装置。26.如权利要求24或25所述的设备，其中，相关系数是根据预定义规则来计算的。27.如权利要求26所述的设备，其中：位置元数据和位置定位符表示几何位置；并且相关系数是基于多对几何位置之间的距离来计算的。28.如权利要求27所述的设备，其中：相关系数是基于能量保持平移法则来计算的。29.如权利要求27所述的设备，其中：相关系数是基于正弦-余弦平移法则来计算的。30.如权利要求24或25所述的设备，其中，每个相关系数相对于频率是恒定的。31.如权利要求24或25所述的设备，其中，下混通道是以相关系数作为权重计算出的N个音频对象中的一个或更多个音频对象的线性组合。32.如权利要求24或25所述的设备，其中，不同频带中的对象增益是独立地确定的。33.如权利要求24或25所述的设备，其中：用于生成比特流的装置包括用于下混信号的有损编码的装置，该有损编码与重构处理相关联；并且至少一个音频对象的对象增益是以使通过该对象增益重新调节的相关系数和重构下混信号的内积近似于时间帧中的音频对象的方式来确定的。34.一种用于根据比特流来重构具有至少多个音频对象的音频场景的时间帧的设备，该设备包括：用于针对N个音频对象中的每个从该比特流中提取与每个音频对象相关联的位置元数据和对象增益的装置，其中N＞1，其中对象增益和位置元数据被编码在比特流中；用于从该比特流中提取下混信号的装置，该下混信号包括M个下混通道，其中M＞1并且每个下混通道与位置定位符相关联；用于针对每个音频对象执行以下操作的装置：基于该音频对象的位置元数据和下混通道的空间定位符来计算指示出该音频对象和每个下混通道的空间相关度的相关系数；并且将该音频对象重构为通过对象增益重新调节的相关系数和下混信号的内积。35.如...

【专利技术属性】
技术研发人员：T·赫冯恩，H·普恩哈根，L·J·萨米尔森，L·维尔莫斯，
申请(专利权)人：杜比国际公司，
类型：发明
国别省市：荷兰;NL

全部详细技术资料下载我是这个专利的主人