一种全景声编解码方法及系统技术方案

技术编号:37113753 阅读:22 留言:0更新日期:2023-04-01 05:10
本发明专利技术公开了一种全景声编解码方法及系统,结合音频对象的内容和特性判断是否是重要音频对象,并针对重要音频对象和非重要音频对象采用不同的方法进行编码处理;结合音频对象的内容和特性进行分类处理,并根据分类结果采用不同的方法进行编码处理。针对大型复杂的多对象场景,结合音频对象的内容和特性以及Ambisonics特性,针对音频对象进行处理,可以智能组合HOA(HigherOrderAmbisonics,高阶Ambisonics)和基于通道、对象的音频,实现在保证音频质量的情况下,最大限度的压缩带宽,同时保持原有对象音频系统的灵活性。时保持原有对象音频系统的灵活性。时保持原有对象音频系统的灵活性。

【技术实现步骤摘要】
一种全景声编解码方法及系统


[0001]本专利技术涉及音频编码
,具体涉及一种全景声编解码方法及系统。

技术介绍

[0002]随着科学技术的发展,人们对高质量音频的需求越来越大。相比传统的单声道(mono)音频,全景声音频,也被称为三维声或沉浸式音频,由于包含了更丰富的空间信息,极大提升了人们的听感。
[0003]沉浸式音频主要包括三类:
[0004]a、基于通道的音频(Channel based audio,CBA),比如传统的5.1/7.1环绕声格式;
[0005]b、基于对象的音频(Object based audio,OBA),每一个音频对象都有对应元数据,最新的全景声音频大多基于对象,比如杜比Atmos和MPEG

H;
[0006]c、基于场景的音频(Scene based audio,SBA),主要用于描述声场的场景,底层算法的核心是高阶Ambisonics(Higher Order Ambisonics,HOA)。
[0007]Ambisonics是一种拾取和播放声音的技术,专门用来模拟原始三维声场效果的声音系统。比如,一阶Ambisonic(First Order Ambisonic,FOA)通过拾音“四面体阵列”实现三维全覆盖的360度沉浸式全景环绕声音,与普通环绕声不同,播放效果除了水平环绕声音,还包括拾音位置处带有高度信息的空间声。
[0008]为了降低数据传输和存储的成本,需要对全景声音频进行编码,尤其是包含大量音频对象的全景声音频。
[0009]单通道音频压缩,通常我们追求的是音质上的高保真还原度,可以近似的认为是频谱的保真程度。而多通道音频的压缩,涉及感知维度更加复杂,比如包含空间感,可以近似为方位信息的还原度。因此,多通道压缩通常会利用空间感知的心理声学特性来降低数据冗余度。
[0010]现有全景声处理技术中,对于音频对象编码处理时,可以针对每一个音频对象及其元数据分别进行编码处理;也可以基于降维、去相关(PCA、KLT、SVD)、聚类(基于音频对象的空间位置、听感的重要性)等压缩算法减少音频对象数目;也采用简单方法把音频对象转换为HOA。但是当音频对象比较多的时候(音频对象为数十、上百),仍然需要在高比特率下才能完成对音频对象的压缩和传输。

技术实现思路

[0011]为此,本专利技术提供一种全景声编解码方法及系统,针对大型复杂的多对象场景,结合音频对象的内容和特性以及Ambisonics特性,针对音频对象进行处理,可以智能组合HOA和基于通道、对象的音频,实现在保证音频质量的情况下,最大限度的压缩带宽,同时保持原有对象音频系统的灵活性。
[0012]为了实现上述目的,本专利技术提供如下技术方案:
[0013]根据本专利技术实施例的第一方面,提出一种全景声编解码方法,所述方法包括:
[0014]结合音频对象的内容和特性判断是否是重要音频对象;若是重要音频对象,则基于单声道音频编码对音频对象进行编码处理得到比特流;若是非重要音频对象,则将多个音频对象转换为HOA音频并进行编码处理,得到比特流;
[0015]结合音频对象的内容和特性进行分类处理,根据音频对象判断是否包含交互控制;若包含交互控制,则基于单声道音频编码对音频对象进行编码处理得到比特流;若不包含交互控制,则进一步判断是否包含对白,根据判断结果对音频对象进行编码处理。
[0016]进一步地,结合音频对象的内容和特性判断是否是重要音频对象,具体包括:
[0017]依据以下原则判断重要对象:a、音频对象的元数据需要在播放渲染端独立使用,通常是需要交互,改变音频对象的属性;b、主要人声音轨;c、要求精准方位感;d、要求高音质还原;e、静止或缓慢移动的音源。
[0018]进一步地,若不包含交互控制,则进一步判断是否包含对白,根据判断结果对音频对象进行编码处理,具体包括:
[0019]若包含对白,则基于单声道音频编码对音频对象进行编码处理得到比特流;
[0020]若不包含对白,则对不包含交互控制且不为对白的音频对象,将音频对象转换为HOA音频并进行编码处理,得到比特流。
[0021]进一步地,将音频对象转换为HOA音频并进行编码处理,得到比特流,具体包括:
[0022]需要结合音频对象的数据确定Ambisonics的阶数,当音频对象的数目小于等于第一预设阈值L1时,采用一阶Ambisonics;当音频对象的数目大于第一预设阈值L1且小于等于第二预设阈值L2时,采用二阶Ambisonics;否则采用三阶Ambisonics。
[0023]进一步地,所述方法还包括:
[0024]对于包含大量音频对象的系统,将多个非重要音频对象转换为Ambisonics信号并进行编码处理,对于重要音频对象,则针对每个音频对象进行编码处理。
[0025]根据本专利技术实施例的第二方面,提出一种全景声编解码系统,所述系统包括:
[0026]第一编解码模块,用于结合音频对象的内容和特性判断是否是重要音频对象;若是重要音频对象,则基于单声道音频编码对音频对象进行编码处理得到比特流;若是非重要音频对象,则将多个音频对象转换为HOA音频并进行编码处理,得到比特流;
[0027]第二编解码模块,用于结合音频对象的内容和特性进行分类处理,根据音频对象判断是否包含交互控制;若包含交互控制,则基于单声道音频编码对音频对象进行编码处理得到比特流;若不包含交互控制,则进一步判断是否包含对白,根据判断结果对音频对象进行编码处理。
[0028]进一步地,所述第二编解码模块具体还用于:
[0029]若包含对白,则基于单声道音频编码对音频对象进行编码处理得到比特流;
[0030]若不包含对白,则对不包含交互控制且不为对白的音频对象,将音频对象转换为HOA音频并进行编码处理,得到比特流。
[0031]进一步地,所述第一编解码模块,具体用于:
[0032]依据以下原则判断重要对象:a、音频对象的元数据需要在播放渲染端独立使用,通常是需要交互,改变音频对象的属性;b、主要人声音轨;c、要求精准方位感;d、要求高音质还原;e、静止或缓慢移动的音源。
[0033]进一步地,所述第一编解码模块和第二编解码模块,具体还用于:
[0034]结合音频对象的数据确定Ambisonics的阶数,当音频对象的数目小于等于第一预设阈值L1时,采用一阶Ambisonics;当音频对象的数目大于第一预设阈值L1且小于等于第二预设阈值L2时,采用二阶Ambisonics;否则采用三阶Ambisonics。
[0035]根据本专利技术实施例的第三方面,提出一种计算机存储介质,所述计算机存储介质中包含一个或多个程序指令,所述一个或多个程序指令用于被一种全景声编解码系统执行如上任一项所述的方法。
[0036]本专利技术具有如下优点:
[0037]本专利技术提出的一种全景声编解码方法及系统本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种全景声编解码方法,其特征在于,所述方法包括:结合音频对象的内容和特性判断是否是重要音频对象;若是重要音频对象,则基于单声道音频编码对音频对象进行编码处理得到比特流;若是非重要音频对象,则将多个音频对象转换为HOA音频并进行编码处理,得到比特流;结合音频对象的内容和特性进行分类处理,根据音频对象判断是否包含交互控制;若包含交互控制,则基于单声道音频编码对音频对象进行编码处理得到比特流;若不包含交互控制,则进一步判断是否包含对白,根据判断结果对音频对象进行编码处理。2.根据权利要求1所述的一种全景声编解码方法,其特征在于,结合音频对象的内容和特性判断是否是重要音频对象,具体包括:依据以下原则判断重要对象:a、音频对象的元数据需要在播放渲染端独立使用,通常是需要交互,改变音频对象的属性;b、主要人声音轨;c、要求精准方位感;d、要求高音质还原;e、静止或缓慢移动的音源。3.根据权利要求1所述的一种全景声编解码方法,其特征在于,若不包含交互控制,则进一步判断是否包含对白,根据判断结果对音频对象进行编码处理,具体包括:若包含对白,则基于单声道音频编码对音频对象进行编码处理得到比特流;若不包含对白,则对不包含交互控制且不为对白的音频对象,将音频对象转换为HOA音频并进行编码处理,得到比特流。4.根据权利要求1所述的一种全景声编解码方法,其特征在于,将音频对象转换为HOA音频并进行编码处理,得到比特流,具体包括:结合音频对象的数据确定Ambisonics的阶数,当音频对象的数目小于等于第一预设阈值L1时,采用一阶Ambisonics;当音频对象的数目大于第一预设阈值L1且小于等于第二预设阈值L2时,采用二阶Ambisonics;否则采用三阶Ambisonics。5.根据权利要求1所述的一种全景声编解码方法,其特征在于,所述方法还包括:对于包含大量音频对象的系统,将多个非重要音频对象转换为Ambisonics信号并进行编码处理,对于重要音频对象,则...

【专利技术属性】
技术研发人员:孙学京郭红阳薛涛余俊
申请(专利权)人:北京时代拓灵科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1