在浸入式语音及音频服务中的位速率分布制造技术

技术编号:33767592 阅读:87 留言:0更新日期:2022-06-12 14:18
公开在浸入式语音及音频服务中的位速率分布的实施例。在实施例中,一种编码IVAS位流的方法包括:接收输入音频信号;将所述输入音频信号降混成一或多个降混声道及空间元数据;从位速率分布控制表读取所述降混声道的一组一或多个位速率及所述空间元数据的一组量化水平;确定所述降混声道的所述一或多个位速率的组合;使用位速率分布过程,从所述一组元数据量化水平确定元数据量化水平;使用所述元数据量化水平来量化且编码所述空间元数据;使用一或多个位速率的所述组合来产生所述一或多个降混声道的降混位流;将所述降混位流、所述经量化且经编码空间元数据及所述一组量化水平组合成所述IVAS位流。平组合成所述IVAS位流。平组合成所述IVAS位流。

【技术实现步骤摘要】
【国外来华专利技术】在浸入式语音及音频服务中的位速率分布
[0001]相关申请案的交叉参考
[0002]本申请案主张2019年10月30日申请的第62/927,772号美国临时专利申请案及2020年10月16日申请的第63/092,830号美国临时专利申请案的优先权,所述申请案以引用的方式并入本文中。


[0003]本公开大体上涉及音频位流编码及解码。

技术介绍

[0004]语音及音频编码器/解码器(“编解码器”)标准开发最近专注于开发用于浸入式语音及音频服务(IVAS)的编解码器。预期IVAS支持一系列音频服务能力,包含(但不限于)单声道到立体声升混及完全浸入式音频编码、解码及呈现。IVAS希望由广泛范围的装置、端点及网络节点支持,包含(但不限于):移动电话及智能电话、电子平板计算机、个人计算机、会议电话、会议室、虚拟现实(VR)及扩增现实(AR)装置、家庭剧院装置及其它合适装置。这些装置、端点及网络节点可具有用于声音捕获及呈现的各种声学接口。

技术实现思路

[0005]公开在浸入式语音及音频服务中的位速率分布的实施方案。
[0006]在实施例中,一种编码浸入式语音及音频服务(IVAS)位流的方法,所述方法包括:使用一或多个处理器接收输入音频信号;使用所述一或多个处理器将所述输入音频信号降混成一或多个降混声道及与所述输入音频信号的一或多个声道相关联的空间元数据;使用所述一或多个处理器从位速率分布控制表读取所述降混声道的一组一或多个位速率及所述空间元数据的一组量化水平;使用所述一或多个处理器确定所述降混声道的所述一或多个位速率的组合;使用所述一或多个处理器利用位速率分布过程从所述一组元数据量化水平确定元数据量化水平;使用所述一或多个处理器利用所述元数据量化水平量化且编码所述空间元数据;使用所述一或多个处理器及一或多个位速率的所述组合产生所述一或多个降混声道的降混位流;使用所述一或多个处理器将所述降混位流、所述经量化且经编码空间元数据及所述一组量化水平组合成所述IVAS位流;及串流传输或存储所述IVAS位流用于在具备IVAS功能的装置上播放。
[0007]在实施例中,所述输入音频信号是四声道一阶立体混响(Ambisonics)(FoA)音频信号、三声道平面FoA信号或双声道立体声音频信号。
[0008]在实施例中,所述一或多个位速率是单声道音频编码器/解码器(编解码器)位速率的一或多个声道的位速率。
[0009]在实施例中,所述单声道音频编解码器是增强语音服务(EVS)编解码器且所述降混位流是EVS位流。
[0010]在实施例中,使用所述一或多个处理器利用位速率分布控制表获得所述降混声道
的一或多个位速率及所述空间元数据,其进一步包括:使用表索引识别所述位速率分布控制表中的行,其包含所述输入音频信号的格式、所述输入音频信号的带宽、经允许空间编码工具、转变模式及单声道降混反向兼容模式;及从所述位速率分布控制表的所述经识别行提取目标位速率、位速率比率、最小位速率及位速率偏差步长,其中所述位速率比率指示总位速率在所述降混音频信号声道之间分布的比率,所述最小位速率是低于其不允许实行所述总位速率的值且所述位速率偏差步长是在所述降混信号的第一优先级高于或等于或低于所述空间元数据的第二优先级时的目标位速率降低步长;及基于所述目标位速率、所述位速率比率、所述最小位速率及所述位速率偏差步长确定所述降混声道的所述一或多个位速率及所述空间元数据。
[0011]在实施例中,在量化回路中执行使用一组量化水平量化来量化所述输入音频信号的所述一或多个声道的所述空间元数据,所述量化回路基于目标元数据位速率与实际元数据位速率之间的差应用越来越粗糙的量化策略。
[0012]在实施例中,根据单声道编解码器优先级及空间元数据优先级基于从所述输入音频信号提取的性质及声道频带协方差值确定所述量化。
[0013]在实施例中,所述输入音频信号是立体声信号且所述降混信号包含中间信号、来自所述立体声信号的残差及所述空间元数据的表示。
[0014]在实施例中,所述空间元数据包含用于空间重建器(SPAR)格式的预测系数(PR)、交叉预测系数(C)及解相关(P)系数及用于复合进阶耦合(CACPL)格式的预测系数(P)及解相关系数(PR)。
[0015]在实施例中,一种编码浸入式语音及音频服务(IVAS)位流的方法,所述方法包括:使用一或多个处理器接收输入音频信号;使用所述一或多个处理器提取所述输入音频信号的性质;使用所述一或多个处理器运算所述输入音频信号的声道的空间元数据;使用所述一或多个处理器从位速率分布控制表读取所述降混声道的一组一或多个位速率及所述空间元数据的一组量化水平;使用所述一或多个处理器确定所述降混声道的所述一或多个位速率的组合;使用所述一或多个处理器利用位速率分布过程从所述一组元数据量化水平确定元数据量化水平;使用所述一或多个处理器利用所述元数据量化水平量化且编码所述空间元数据;使用所述一或多个处理器及一或多个位速率的所述组合利用所述一或多个位速率产生所述一或多个降混声道的降混位流;使用所述一或多个处理器将所述降混位流、所述经量化且经编码空间元数据及所述一组量化水平组合成所述IVAS位流;及串流传输或存储所述IVAS位流用于在具备IVAS功能的装置上播放。
[0016]在实施例中,所述输入音频信号的所述性质包含带宽、话音/音乐分类数据及语音活动检测(VAD)数据的一或多者。
[0017]在实施例中,基于所述空间元数据中的残差水平指示符选择待编码成所述IVAS位流的降混声道的数目。
[0018]在实施例中,一种编码浸入式语音及音频服务(IVAS)位流的方法进一步包括:使用一或多个处理器接收一阶立体混响(FoA)输入音频信号;使用所述一或多个处理器及IVAS位速率提取所述FoA输入音频信号的性质,其中所述性质中的一者是所述FoA输入音频信号的带宽;使用所述一或多个处理器利用所述FoA信号性质产生所述FoA输入音频信号的空间元数据;使用所述一或多个处理器基于所述空间元数据中的残差水平指示符及解相关
系数选取数个残差声道以发送;使用所述一或多个处理器基于IVAS位速率、带宽及数个降混声道获得位速率分布控制表索引;使用所述一或多个处理器从通过所述位速率分布控制表索引指向的所述位速率分布控制表的行读取空间重建器(SPAR)配置;使用所述一或多个处理器从所述IVAS位速率、所述目标EVS位速率的总和及所述IVAS标头的长度确定目标元数据位速率;使用所述一或多个处理器从所述IVAS位速率、最小EVS位速率的总和及所述IVAS标头的所述长度确定最大元数据位速率;使用所述一或多个处理器及量化回路根据第一量化策略以非时间差方式量化所述空间元数据;使用所述一或多个处理器熵编码所述经量化空间元数据;使用所述一或多个处理器运算第一实际元数据位速率;使用所述一或多个处理器确定所述第一实际元数据位速率是否小于或等于目标元数据位速率;及根据所述第一实际元数据位速率小于或等于所述目标元数据位速率,离本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种编码浸入式语音及音频服务(IVAS)位流的方法,所述方法包括:使用一或多个处理器来接收输入音频信号;使用所述一或多个处理器,将所述输入音频信号降混成一或多个降混声道及与所述输入音频信号的一或多个声道相关联的空间元数据;使用所述一或多个处理器,从位速率分布控制表读取所述降混声道的一组一或多个位速率及所述空间元数据的一组量化水平;使用所述一或多个处理器来确定所述降混声道的所述一或多个位速率的组合;使用所述一或多个处理器,利用位速率分布过程,从所述一组元数据量化水平确定元数据量化水平;使用所述一或多个处理器,利用所述元数据量化水平来量化且编码所述空间元数据;使用所述一或多个处理器及一或多个位速率的所述组合来产生所述一或多个降混声道的降混位流;使用所述一或多个处理器,将所述降混位流、所述经量化且经编码空间元数据及所述一组量化水平组合成所述IVAS位流;及串流传输或存储所述IVAS位流,用于在具备IVAS功能的装置上播放。2.根据权利要求1所述的方法,其中所述输入音频信号是四声道一阶立体混响(FoA)音频信号、三声道平面FoA信号或双声道立体声音频信号。3.根据权利要求1或2所述的方法,其中所述一或多个位速率是单声道音频编码器/解码器(编解码器)位速率的一或多个例子的位速率。4.根据权利要求1或2所述的方法,其中所述单声道音频编解码器是增强语音服务(EVS)编解码器,且所述降混位流是EVS位流。5.根据权利要求1或2所述的方法,其中使用所述一或多个处理器,利用位速率分布控制表来获得所述降混声道的一或多个位速率及所述空间元数据,其进一步包括:使用表索引来识别所述位速率分布控制表中的行,其包含所述输入音频信号的格式、所述输入音频信号的带宽、经允许空间编码工具、转变模式及单声道降混反向兼容模式;及从所述位速率分布控制表的所述经识别行提取目标位速率、位速率比率、最小位速率及位速率偏差步长,其中所述位速率比率指示总位速率在所述降混音频信号声道之间分布的比率,所述最小位速率是低于其不允许实行所述总位速率的值,且所述位速率偏差步长是在所述降混信号的第一优先级高于或等于或低于所述空间元数据的第二优先级时的目标位速率降低步长;及基于所述目标位速率、所述位速率比率、所述最小位速率及所述位速率偏差步长来确定所述降混声道的所述一或多个位速率及所述空间元数据。6.根据权利要求1或2所述的方法,其中在量化回路中执行使用一组量化水平量化来量化所述输入音频信号的所述一或多个声道的所述空间元数据,所述量化回路基于目标元数据位速率与实际元数据位速率之间的差应用越来越粗糙的量化策略。7.根据权利要求1或2所述的方法,其中根据单声道编解码器优先级及空间元数据优先级,基于从所述输入音频信号提取的性质及声道频带协方差值来确定所述量化。8.根据权利要求1或2所述的方法,其中所述输入音频信号是立体声信号,且所述降混信号包含中间信号、来自所述立体声信号的残差及所述空间元数据的表示。
9.根据权利要求1或2所述的方法,其中所述空间元数据包含用于空间重建器(SPAR)格式的预测系数(PR)、交叉预测系数(C)及解相关(P)系数及用于复合进阶耦合(CACPL)格式的预测系数(P)及解相关系数(PR)。10.一种编码浸入式语音及音频服务(IVAS)位流的方法,所述方法包括:使用一或多个处理器来接收输入音频信号;使用所述一或多个处理器来提取所述输入音频信号的性质;使用所述一或多个处理器来运算所述输入音频信号的声道的空间元数据;使用所述一或多个处理器,从位速率分布控制表读取所述降混声道的一组一或多个位速率及所述空间元数据的一组量化水平;使用所述一或多个处理器来确定所述降混声道的所述一或多个位速率的组合;使用所述一或多个处理器,利用位速率分布过程,从所述一组元数据量化水平确定元数据量化水平;使用所述一或多个处理器,利用所述元数据量化水平来量化且编码所述空间元数据;使用所述一或多个处理器及一或多个位速率的所述组合,利用所述一或多个位速率来产生所述一或多个降混声道的降混位流;使用所述一或多个处理器,将所述降混位流、所述经量化且经编码空间元数据及所述一组量化水平组合成所述IVAS位流;及串流传输或存储所述IVAS位流,用于在具备IVAS功能的装置上播放。11.根据权利要求10所述的方法,其中所述输入音频信号的所述性质包含带宽、话音/音乐分类数据及语音活动检测(VAD)数据中的一或多者。12.根据权利要求10或11所述的方法,其中所述输入音频信号是四声道一阶立体混响(FoA)音频信号、三声道平面FoA或双声道立体声音频信号。13.根据权利要求10或11所述的方法,其中所述一或多个位速率是单声道音频编码器/解码器(编解码器)位速率的一或多个例子的位速率。14.根据前述权利要求13中任一权利要求所述的方法,其中所述单声道音频编解码器是增强语音服务(EVS)编解码器,且所述降混位流是EVS位流。15.根据权利要求10或11所述的方法,其中使用所述一或多个处理器,利用位速率分布控制表来获得所述降混声道的一或多个位速率及空间元数据的所述一组量化水平,其进一步包括:使用表索引来识别所述位速率分布控制表中的行,其包含所述输入音频信号的格式、所述输入音频信号的带宽、经允许空间编码工具、转变模式及单声道降混反向兼容模式;及从所述位速率分布控制表的所述经识别行提取目标位速率、位速率比率、最小位速率及位速率偏差步长,其中所述位速率比率指示总位速率在所述输入音频信号声道之间分布的比率,所述最小位速率是低于其不允许实行所述总位速率的值,且所述位速率偏差步长是在所述降混信号的第一优先级高于或等于或低于所述空间元数据的第二优先级时的目标位速率降低步长;及基于所述目标位速率、所述位速率比率、所述最小位速率及所述位速率偏差步长来确定所述降混声道的所述一或多个位速率及所述空间元数据。16.根据权利要求10或11所述的方法,其中在量化回路中执行使用一组量化水平量化
来量化所述输入音频信号的所述一或多个声道的所述空间元数据,所述量化回路基于目标元数据位速率与实际元数据位速率之间的差,应用越来越粗糙的量化策略。17.根据权利要求10或11所述的方法,其中根据单声道编解码器优先级及空间元数据优先级,基于从所述输入音频信号提取的性质及声道频带协方差值来确定所述量化。18.根据权利要求10或11所述的方法,其中所述输入音频信号是立体声信号,且所述降混信号包含中间信号、来自所述立体声信号的残差及所述空间元数据的表示。19.根据权利要求10或11所述的方法,其中所述空间元数据包含用于空间重建器(SPAR)格式的预测系数(PR)、交叉预测系数(C)及解相关(P)系数及用于复合进阶耦合(CACPL)格式的预测系数(P)及解相关系数(PR)。20.根据权利要求10或11所述的方法,其中基于所述空间元数据中的残差水平指示符来选择待编码成所述IVAS位流的降混声道的数目。21.一种编码浸入式语音及音频服务(IVAS)位流的方法,其包括:使用一或多个处理器来接收一阶立体混响(FoA)输入音频信号;使用所述一或多个处理器及IVAS位速率来提取所述FoA输入音频信号的性质,其中所述性质中的一者是所述FoA输入音频信号的带宽;使用所述一或多个处理器,利用所述FoA信号性质来产生所述FoA输入音频信号的空间元数据;使用所述一或多个处理器,基于所述空间元数据中的残差水平指示符及解相关系数来选取数个残差声道以发送;使用所述一或多个处理器,基于IVAS位速率、带宽及数个降混声道来获得位速率分布控制表索引;使用所述...

【专利技术属性】
技术研发人员:R
申请(专利权)人:杜比实验室特许公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1