一种沉浸式音频渲染方法及系统技术方案

技术编号:23240368 阅读:52 留言:0更新日期:2020-02-04 19:14
本发明专利技术实施方式涉及一种沉浸式音频渲染方法及系统,其中,所述方法包括:针对待混合的多个扬声器播放的多路音频,获取各路所述音频的基于HOA的第一增益和基于VBAP的第二增益;为各路所述音频配置混合权重,并根据所述混合权重确定所述第一增益和所述第二增益的权重系数;根据所述第一增益、所述第二增益以及各自的权重系数,确定各路所述音频的混合增益,并通过所述混合增益完成所述多路音频的混音处理。本申请提供的技术方案,能够更精准地定位声源位置,从而满足中小型场馆现场沉浸式制作与播放的需求。

An immersive audio rendering method and system

【技术实现步骤摘要】
一种沉浸式音频渲染方法及系统
本申请涉及音频数据处理
,特别涉及一种沉浸式音频渲染方法及系统。
技术介绍
近年来,随着高清视频的不断发展,从2K到4K,甚至8K,还有伴随着虚拟现实VR、AR的发展,人们对音频的听觉要求也随之提高。人们已不再满足于流行多年的立体声、5.1、7.1等音响效果,开始追求更具有沉浸感、真实感的3D音效或沉浸式音效。目前,沉浸式音频处理主要基于通道(channel-basedaudio,CBA)、对象音频(object-basedaudio,OBA)和Ambisonics场景音频(scene-basedaudio,SBA)等技术进行处理,包含音频制作、编解码、打包以及渲染等技术。具体地,Ambisonics利用球谐函数记录声场并驱动扬声器,具有严格的扬声器排布要求,能够在扬声器中心位置高质量重建原始声场。在渲染移动音源时,HOA(HigherOrderAmbisonics)会营造出更加流畅,平滑的听感。此外,幅度矢量合成(VectorBasedAmplitudePanning,VBAP)基于三维空间中的正弦法则,利用空间中3个临近的扬声器形成三维声音矢量,不会影响低频的双耳时间差(ITD)或者高频的频谱线索,对声音在三维空间中的定位更加精准。由于该算法简单,VBAP成为最常用的多声道三维音频处理技术。然而,现有的沉浸式音频处理方法不能满足中小型场馆现场沉浸式制作与播放的需求,且HOA用一种中间格式来重建一个3D声场,但受限于采用的阶数,可能会带来高频线索的缺失,从而影响听者的定位的精准度;而VBAP在渲染移动音源时会产生跳跃,产生不连贯的空间声效果。
技术实现思路
本申请的目的在于提供一种沉浸式音频渲染方法及系统,能够更精准地定位声源位置,从而满足中小型场馆现场沉浸式制作与播放的需求。为实现上述目的,本申请提供一种沉浸式音频渲染方法,所述方法包括:针对待混合的多个扬声器播放的多路音频,获取各路所述音频的基于HOA的第一增益和基于VBAP的第二增益;为各路所述音频配置混合权重,并根据所述混合权重确定所述第一增益和所述第二增益的权重系数;根据所述第一增益、所述第二增益以及各自的权重系数,确定各路所述音频的混合增益,并通过所述混合增益完成所述多路音频的混音处理。进一步地,根据所述混合权重确定所述第一增益和所述第二增益的权重系数包括:将所述混合权重作为所述第一增益的权重系数,以及将1与所述混合权重的差值作为所述第二增益的权重系数。进一步地,各个所述扬声器的混合增益按照以下公式确定:gmn(t)=wn(t)gHOAn(t)+(1-wn(t))gVBAPn(t)其中,gmn(t)表示第n个扬声器对应音频的混合增益,wn(t)表示所述混合权重,gHOAn(t)表示第n个扬声器对应音频的第一增益,gVBAPn(t)表示第n个扬声器对应音频的第二增益,t表示时间。进一步地,为各路所述音频配置混合权重包括:判断音源是否处于移动状态,并根据判断结果,自适应地选用不同的混合权重的配置方式;其中,若所述音源静止,将所述当前扬声器对应音频的混合权重配置为0;若所述音源处于移动状态,为所述当前扬声器对应音频配置与移动速度相匹配的混合权重。进一步地,为各路所述音频配置混合权重包括:获取音频训练样本,并基于神经网络模型对所述音频训练样本进行训练;获取当前扬声器的输入音频,并提取所述输入音频的多声道语谱图;将所述多声道语谱图输入训练后的模型,并将所述训练后的模型输出的结果作为所述当前扬声器对应音频的混合权重。进一步地,所述多声道语谱图的横坐标为时间,纵坐标为频率,并且音频能量值通过颜色等级进行划分。进一步地,所述神经网络为多层卷积神经网络和全连接层,且卷积神经网络至少为M层,其中M为大于等于2的正整数,用于从所述多声道语谱图中提取特征信息,并且所述卷积神经网络中的卷积层和池化层用于响应所述特征信息的平移不变性。进一步地,在对所述音频训练样本进行训练之后,所述方法还包括:根据训练后的模型预测得到的估计权重与预先确定的实际权重,对训练过程中的模型参数进行调整,以使得调整后预测得到的估计权重与所述实际权重之间的差值满足误差允许条件。为实现上述目的,本申请还提供一种沉浸式音频渲染系统,所述系统包括:增益获取单元,用于针对待混合的多个扬声器播放的多路音频,获取各路所述音频的基于HOA的第一增益和基于VBAP的第二增益;权重系数确定单元,用于为各路所述音频配置混合权重,并根据所述混合权重确定所述第一增益和所述第二增益的权重系数;混合单元,用于根据所述第一增益、所述第二增益以及各自的权重系数,确定各路所述音频的混合增益,并通过所述混合增益完成所述多路音频的混音处理。进一步地,所述权重系数确定单元包括:判断音源是否处于移动状态,并根据判断结果,自适应地选用不同的混合权重的配置方式;其中,若所述音源静止,将所述当前扬声器对应音频的混合权重配置为0;若所述音源处于移动状态,为所述当前扬声器对应音频配置与移动速度相匹配的混合权重。进一步地,所述权重系数确定单元包括:训练模块,用于获取音频训练样本,并基于神经网络模型对所述音频训练样本进行训练;提取模块,用于获取输入音频,并提取所述输入音频的多声道语谱图;权重确定模块,用于将所述多声道语谱图输入训练后的模型,并将所述训练后的模型输出的结果作为所述当前扬声器对应音频的混合权重。进一步地,所述神经网络为多层卷积神经网络和全连接层,且卷积神经网络至少为M层,其中M为大于等于2的正整数。由上可见,本专利技术提出一种沉浸式音频渲染的方法和系统,基于HOA和对象音频技术,根据音频内容自适应选择最优的处理方式,对音频进行渲染处理,该方法可以在保持声音平滑运动的情况下更精准定位声源位置,从而满足中小型场馆现场沉浸式音频制作与播放的需求。附图说明图1为本申请实施方式中沉浸式音频渲染方法的步骤图;图2为本申请实施方式中通过机器学习的方式确定混合权重的流程图;图3为本申请实施方式中沉浸式音频渲染系统的结构示意图。具体实施方式为了使本
的人员更好地理解本申请中的技术方案,下面将结合本申请实施方式中的附图,对本申请实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本申请一部分实施方式,而不是全部的实施方式。基于本申请中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施方式,都应当属于本申请保护的范围。本申请提供一种沉浸式音频渲染方法,请参阅图1,所述方法包括:S1:针对待混合的多个扬声器播放的多路音频,获取各路所述音频的基于HOA的第一增益和基于VBAP的第二增益。S2:为各路所述音频配置混合权重,并根据所述混合权重确定所述第一增益和本文档来自技高网
...

【技术保护点】
1.一种沉浸式音频渲染方法,其特征在于,所述方法包括:/n针对待混合的多个扬声器播放的多路音频,获取各路所述音频的基于HOA的第一增益和基于VBAP的第二增益;/n为各路所述音频配置混合权重,并根据所述混合权重确定所述第一增益和所述第二增益的权重系数;/n根据所述第一增益、所述第二增益以及各自的权重系数,确定各路所述音频的混合增益,并通过所述混合增益完成所述多路音频的混音处理。/n

【技术特征摘要】
1.一种沉浸式音频渲染方法,其特征在于,所述方法包括:
针对待混合的多个扬声器播放的多路音频,获取各路所述音频的基于HOA的第一增益和基于VBAP的第二增益;
为各路所述音频配置混合权重,并根据所述混合权重确定所述第一增益和所述第二增益的权重系数;
根据所述第一增益、所述第二增益以及各自的权重系数,确定各路所述音频的混合增益,并通过所述混合增益完成所述多路音频的混音处理。


2.根据权利要求1所述的方法,其特征在于,根据所述混合权重确定所述第一增益和所述第二增益的权重系数包括:
将所述混合权重作为所述第一增益的权重系数,以及将1与所述混合权重的差值作为所述第二增益的权重系数。


3.根据权利要求1所述的方法,其特征在于,各路所述音频的混合增益按照以下公式确定:
gmn(t)=wn(t)gHOAn(t)+(1-wn(t))gVBAPn(t)
其中,gmn(t)表示第n个扬声器对应音频的混合增益,wn(t)表示所述混合权重,gHOAn(t)表示第n个扬声器对应音频的第一增益,gVBAPn(t)表示第n个扬声器对应音频的第二增益,t表示时间。


4.根据权利要求1所述的方法,其特征在于,为各路所述音频配置混合权重包括:
判断音源是否处于移动状态,并根据判断结果,自适应地选用不同的混合权重的配置方式;其中,若所述音源静止,将当前扬声器对应音频的混合权重配置为0;若所述音源处于移动状态,为所述当前扬声器对应音频配置与移动速度相匹配的混合权重。


5.根据权利要求1所述的方法,其特征在于,为各路所述音频配置混合权重包括:
获取音频训练样本,并基于神经网络模型对所述音频训练样本进行训练;
获取输入音频,并提取所述输入音频的多声道语谱图;
将所述多...

【专利技术属性】
技术研发人员:孙学京张兴涛许春生
申请(专利权)人:北京时代拓灵科技有限公司南京拓灵智能科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1