一种全景声编解码方法及系统技术方案

技术编号：37113753 阅读：40 留言：0更新日期：2023-04-01 05:10

本发明专利技术公开了一种全景声编解码方法及系统，结合音频对象的内容和特性判断是否是重要音频对象，并针对重要音频对象和非重要音频对象采用不同的方法进行编码处理；结合音频对象的内容和特性进行分类处理，并根据分类结果采用不同的方法进行编码处理。针对大型复杂的多对象场景，结合音频对象的内容和特性以及Ambisonics特性，针对音频对象进行处理，可以智能组合HOA(HigherOrderAmbisonics，高阶Ambisonics)和基于通道、对象的音频，实现在保证音频质量的情况下，最大限度的压缩带宽，同时保持原有对象音频系统的灵活性。时保持原有对象音频系统的灵活性。时保持原有对象音频系统的灵活性。

全部详细技术资料下载

【技术实现步骤摘要】
一种全景声编解码方法及系统

[0001]本专利技术涉及音频编码
，具体涉及一种全景声编解码方法及系统。

技术介绍

[0002]随着科学技术的发展，人们对高质量音频的需求越来越大。相比传统的单声道(mono)音频，全景声音频，也被称为三维声或沉浸式音频，由于包含了更丰富的空间信息，极大提升了人们的听感。
[0003]沉浸式音频主要包括三类：
[0004]a、基于通道的音频(Channel based audio，CBA)，比如传统的5.1/7.1环绕声格式；
[0005]b、基于对象的音频(Object based audio，OBA)，每一个音频对象都有对应元数据，最新的全景声音频大多基于对象，比如杜比Atmos和MPEG
‑
H；
[0006]c、基于场景的音频(Scene based audio,SBA)，主要用于描述声场的场景，底层算法的核心是高阶Ambisonics(Higher Order Ambisonics，HOA)。
[0007]Ambisonics是一种拾取和播放声音的技术，专门用来模拟原始三维声场效果的声音系统。比如，一阶Ambisonic(First Order Ambisonic,FOA)通过拾音“四面体阵列”实现三维全覆盖的360度沉浸式全景环绕声音，与普通环绕声不同，播放效果除了水平环绕声音，还包括拾音位置处带有高度信息的空间声。
[0008]为了降低数据传输和存储的成本，需要对全景声音频进行编码，尤其是包含大量音频对象...

【技术保护点】

【技术特征摘要】
1.一种全景声编解码方法，其特征在于，所述方法包括：结合音频对象的内容和特性判断是否是重要音频对象；若是重要音频对象，则基于单声道音频编码对音频对象进行编码处理得到比特流；若是非重要音频对象，则将多个音频对象转换为HOA音频并进行编码处理，得到比特流；结合音频对象的内容和特性进行分类处理，根据音频对象判断是否包含交互控制；若包含交互控制，则基于单声道音频编码对音频对象进行编码处理得到比特流；若不包含交互控制，则进一步判断是否包含对白，根据判断结果对音频对象进行编码处理。2.根据权利要求1所述的一种全景声编解码方法，其特征在于，结合音频对象的内容和特性判断是否是重要音频对象，具体包括：依据以下原则判断重要对象：a、音频对象的元数据需要在播放渲染端独立使用，通常是需要交互，改变音频对象的属性；b、主要人声音轨；c、要求精准方位感；d、要求高音质还原；e、静止或缓慢移动的音源。3.根据权利要求1所述的一种全景声编解码方法，其特征在于，若不包含交互控制，则进一步判断是否包含对白，根据判断结果对音频对象进行编码处理，具体包括：若包含对白，则基于单声道音频编码对音频对象进行编码处理得到比特流；若不包含对白，则对不包含交互控制且不为对白的音频对象，将音频对象转换为HOA音频并进行编码处理，得到比特流。4.根据权利要求1所述的一种全景声编解码方法，其特征在于，将音频对象转换为HOA音频并进行编码处理，得到比特流，具体包括：结合音频对象的数据确定Ambisonics的阶数，当音频对象的数目小于等于第一预设阈值L1时，采用一阶Ambisonics；当音频对象的数目大于第一预设阈值L1且小于等于第二预设阈值L2时，采用二阶Ambisonics；否则采用三阶Ambisonics。5.根据权利要求1所述的一种全景声编解码方法，其特征在于，所述方法还包括：对于包含大量音频对象的系统，将多个非重要音频对象转换为Ambisonics信号并进行编码处理，对于重要音频对象，则...

【专利技术属性】
技术研发人员：孙学京，郭红阳，薛涛，余俊，
申请(专利权)人：北京时代拓灵科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人