一种全景声编码方法技术

技术编号:13587418 阅读:123 留言:0更新日期:2016-08-25 10:53
本发明专利技术公开了一种全景声编码方法,获取声场空间的声音对象;以声场空间水平切面中心与录音师双耳连线中心等高的位置为原点建立三维坐标系,确定声音对象的三维坐标值;声音对象的位置轨迹以帧为单位,每帧包括若干个块,每帧的第一个块为参考块、后续块为预测块,确定声音对象第i块的位置坐标为(xi,yi,zi);对参考块的三维坐标值进行直接编码,对预测块的三维坐标值进行差分编码。本发明专利技术提供的全景声编码方法,在录音制作、编码、解码和渲染回放时的坐标定义、运动轨迹和作用区域表示方法,编码效率高、声音表现力好且声音制作方便。

【技术实现步骤摘要】

本专利技术涉及声音编码
,具体涉及一种全景声编码方法
技术介绍
随着计算能力和网络的快速发展,在电影、电视、音乐、游戏、虚拟现实和网络视频等应用领域,能表现真实三维声场的音频录制、缩混编辑、编码、解码、渲染和回放技术,有着重要的应用价值。“全景声”是对三维声场的形象描述。目前,MPEG推出了MPEG H的三维声编码技术,Dolby公司推出了Atmos全景声编码技术,都在传统多声道信号编码的基础上,提出了声音对象编码的概念。其中,Dolby Atmos采用直接记录声音对象的三维运动轨迹的方式,对声音对象的三维坐标(x、y、z)进行编码,并且对声音对象的渲染和回放方式,划分为9个矩形区域。MPEG H则不直接对声音对象编码,而是采用参数立体声的编码技术,将多个声音混合成一个单声道信号,并对每个声音对象的空间感知信息(相位、强度和相关性)编码;在解码时,先解码单声道和信号,再利用声音对象的空间感知信息,恢复出每个声音对象。在高质量应用场合,如电影等领域,Dolby Atmos能够获得比MPEG H更高的声音质量。但是Dolby Atmos的空间坐标体系、坐标表示方法、声音对象坐标编码方法、声音对象分区表示方法都存在编码效率低、声音表现力差和声音制作不方便等局限。Dolby Atmos在描述声场时,将坐标原点定于前方左侧屏幕扬声器高度位置,从原点到右墙为X轴,从原点到后墙为Y轴,从原点到房顶为Z轴;同时,将房间划分为左侧屏幕扬声器区域、中间屏幕扬声器区域、右侧屏幕扬声器区域、左墙扬声器区域、右墙扬声器区域、后墙左侧扬声器区域、后墙右侧扬声器区域、左房顶扬声器区域和右房顶扬声器区域等九个区域。以如上的位置坐标和区域划分来编码声音对象。Dolby Atmos的坐标原点定义和区域是分离的,对点声源、面声源和扩散声源等声音对象的表达效率不高。另外,Dolby Atmos的扬声器区域和实际声音对象的有效作用区域不是等价关系,后者是实际物理声场的更准确描述。从声音编码效率的角度看,一般来说在表达完整的信息的前提下力争用更少的码流,从而达到更高的编码效率。现有的坐标定义方法是用一个固定的比特数来对坐标进行编码,比如Dolby Atmos就是将位置坐标的映射到单位立方体中,得到一个范围在[0,1]的小数,然后用12比特来储存这个无符号小数。这样编码的结果是无论位置坐标是否变化都要用12比特来存储,从而产生了大量的码流的浪费。实际上,声音对象的位置大多变化缓慢,在相邻帧或相邻块之间的位置坐标数据间存在较大冗余。从声音表现力来看,现有的空间区域划分都是采用的固定划分的方式,例如DolbyAtmos将空间划分为左侧屏幕扬声器区域、中间屏幕扬声器区域、右侧屏幕扬声器区域、左墙扬声器区域、右墙扬声器区域、后墙左侧扬声器区域、后墙右侧扬声器区域、左房顶扬声器区域和右房顶扬声器区域等九个区域。这样对于声音对象的定位就缺乏弹性,可选择的余地较少,从而使声音表现不够灵活。
技术实现思路
专利技术目的:针对现有技术的不足,本专利技术提供一种全景声编码方法,编码效率高,声音表现力好。技术方案:本专利技术所述的全景声编码和处理方法,包括:获取声场空间的声音对象;以声场空间水平切面中心、与录音师双耳连线中心等高的位置为原点建立三维坐标系,确定声音对象的三维坐标值;声音对象的位置轨迹以帧为单位,每帧包括若干个块,每帧的第一个块为参考块、后续块为预测块;对参考块的三维坐标值进行直接编码,对预测块的三维坐标值进行差分编码。进一步完善上述技术方案,所述声音对象每个块的三维坐标值为(xi,yi,zi),(xi,yi,zi)映射为(pIDi,Axi,Ayi,Azi),pIDi为象限标识符,Axi、Ayi、Azi为位置坐标的绝对值。进一步地,所述参考块对(pIDi,Axi,Ayi,Azi)直接编码成(pIDj,Dxj,Dyj,Dzi),pIDj采用3比特,Axi、Ayi、Azi在范围[0,1]内编码为N(4<=N<=16)比特的无符号数Dxj、Dyj、Dzi,映射关系为:Axi=Dxj/(2^N-1),0<=Dxj<=(2^N-1);Ayi=Dyj/(2^N-1),0<=Dyj<=(2^N-1);Azi=Dzi/(2^N-1),0<=Dzi<=(2^N-1)。进一步地,所述预测块对当前块与前一块的坐标值差值(Δxk,△yk,△zk)进行编码,其中,△xk是当前块与前一块x轴坐标的差分值,△yk是当前块与前一块y轴坐标的差分值,△zk是当前块与前一块z轴坐标的差分值,且差值(Δxk,Δyk,Δzk)被映射为(pIDk,|Δxk|,|△yk|,|Δzk|),其中pIDk是Δxk,Δyk,Δzk的象限标识符,|Δxk|、|Δyk|、|Δzk|分别对应Δxk、Δyk、Δzk的绝对值,|△xk|、|△yk|、|Δzk|在[0,2]内编码为N+1比特的无符号数Dxk、Dyk、Dzk,映射关系为:|Δxk|=Dxk/(2^N-1),0<=Dxk<=(2^(N+1)-1);|Δyk|=Dyk/(2^N-1),0<=Dyk<=(2^(N+1)-1);|Δz|=Dz/(2^N-1),0<=Dz<=(2^(N+1)-1)。进一步地,所述参考块对(pIDi,Axi,Ayi,Azi)直接编码成(pIDj,Dxj,Dyj,Dzi),pIDj采用3比特,Axi、Ayi、Azi在范围[0,1]内编码为N(4<=N<=16)比特的无符号数Dxj、Dyj、Dzi;所述预测块对当前块与前一块的坐标值差值(△xk,△yk,△zk)进行编码,其中,△xk是当前块与前一块x轴坐标的差分值,Δyk是当前块与前一块y轴坐标的差分值,Δzk是当前块与前一块z轴坐标的差分值,且差值(Δxk,△yk,△zk)被映射为(pIDk,|Δxk|,|Δyk|,|△zk|),其中pIDk是Δxk,Δyk,Δzk的象限标识符,|Δxk|、|Δyk|、|Δzk|分别对应Δxk、Δyk、Δzk的绝对值,|Δxk|、|Δyk|、|Δzk|在[0,2]内编码为N+1比特的无符号数Dxk、Dyk、Dzk。进一步地,所述无符号数Dxk、Dyk、Dzk采用DIF(n)编码方法:取Dxk、Dyk、Dzk中的任意值为无符号位置坐标DIFdata与(2^n-1)的大小相比较,如果小于(2^n-1),则用n比特储存它;否则将n比特全部置1,然后紧跟2n比特;以此类推,直至(2^(kn)-1)>DIFdata(k为正整数)。进一步地,采用4比特或8比特或12比特存储所述无符号位置坐标DIFdata。进一步地,根据编码前或解码后的声音对象三维坐标值确定声音对象的有效作用区域其中为声音对象和原点连线在xoy平面上的投影与x轴的夹角、范围[0,2π),θ为声音对象和原点连线与z轴的夹角,γ是描述锥面张开大小的,定义为锥面母线和中轴线的夹角,范围[0,π/2]。有益效果:与现有技术相比,本专利技术的优点:本专利技术在传统多声道立体声声场的基础上,引入了声音对象的三维声技术,提供了三维声场的声音对象在录音制作、编码、解码和渲染回放时的坐标定义、运动轨迹本文档来自技高网
...

【技术保护点】
一种全景声编码方法,其特征在于,包括:获取声场空间的声音对象;以声场空间水平切面中心、与录音师双耳连线中心等高的位置为原点建立三维坐标系,确定声音对象的三维坐标值;声音对象的位置轨迹以帧为单位,每帧包括若干个块,每帧的第一个块为参考块、后续块为预测块,确定声音对象第i块的位置坐标为(xi,yi,zi);对参考块的三维坐标值进行直接编码,对预测块的三维坐标值进行差分编码。

【技术特征摘要】
1.一种全景声编码方法,其特征在于,包括:获取声场空间的声音对象;以声场空间水平切面中心、与录音师双耳连线中心等高的位置为原点建立三维坐标系,确定声音对象的三维坐标值;声音对象的位置轨迹以帧为单位,每帧包括若干个块,每帧的第一个块为参考块、后续块为预测块,确定声音对象第i块的位置坐标为(xi,yi,zi);对参考块的三维坐标值进行直接编码,对预测块的三维坐标值进行差分编码。2.根据权利要求1所述的全景声编码方法,其特征在于:所述声音对象第i块的三维坐标值(xi,yi,zi)映射为(pIDi,Axi,Ayi,Azi),pIDi为象限标识符,Axi、Ayi、Azi为位置坐标的绝对值。3.根据权利要求2所述的全景声编码方法,其特征在于:所述参考块的三维坐标值(pIDi,Axi,Ayi,Azi)直接编码成(pIDj,Dxj,Dyj,Dzi),pIDj采用3比特,Axi、Ayi、Azi在范围[0,1]内编码为N(4 <=N<=16)比特的无符号数Dxj、Dyj、Dzi,映射关系为:Axi = Dxj /(2^N-1),0 <=Dxj<=(2^N-1);Ayi = Dyj /(2^N -1),0 <= Dyj<=(2^N-1);Azi = Dzi /(2^N-1),0 <=Dzi<=(2^N-1)。4.根据权利要求3所述的全景声编码方法,其特征在于:所述预测块对当前块与前一块的坐标值差值(▵xk,▵yk,▵zk)进行编码,其中,▵xk是当前块与前一块x轴坐标的差分值,▵yk是当前块与前一块y轴坐标的差分值,▵zk是当前块与前一块z轴坐标的差分值,且差值(▵...

【专利技术属性】
技术研发人员:潘兴德吴超刚
申请(专利权)人:南京青衿信息科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1