当前位置: 首页 > 专利查询>DTS公司专利>正文

具有深度的空间音频捕获制造技术

技术编号:34504424 阅读:34 留言:0更新日期:2022-08-13 20:46
空间音频信号可以包括可被分别编码和渲染在多个不同深度中的每一个处的音频对象。在示例中,一种用于对空间音频信号进行编码的方法可以包括从环境中的音频捕获源接收音频场景信息,以及接收环境中的第一对象的深度特性。可以使用来自深度传感器的信息来确定深度特性。可以识别音频场景信息的至少一部分和第一对象之间的相关性。可以使用音频场景的该部分和第一对象的深度特性来对空间音频信号进行编码。行编码。行编码。

【技术实现步骤摘要】
【国外来华专利技术】具有深度的空间音频捕获

技术介绍

[0001]诸如可以分别包括或使用麦克风和相机的音频和视频捕获系统可以共处于环境中,并且被配置为从该环境捕获视听信息。所捕获的视听信息可以按需记录、传输和回放。在示例中,可以以沉浸式格式捕获视听信息,例如使用空间音频格式和多维视频或图像格式。
[0002]在示例中,音频捕获系统可以包括麦克风、麦克风阵列或包括一个或多个换能器以从环境接收音频信息的其他传感器。音频捕获系统可以包括或使用被配置为捕获三维或360度声场的空间音频麦克风,例如ambisonic麦克风。
[0003]在示例中,视频捕获系统可以包括单透镜相机或多透镜相机系统。在示例中,视频捕获系统可以被配置为接收有时被称为沉浸式视频或球形视频的360度视频信息。在360度视频中,可以同时接收和记录来自多个方向的图像信息。在示例中,视频捕获系统可以包括或包含深度传感器,该深度传感器被配置为检测系统的视场中的一个或多个对象的深度信息。
[0004]各种音频记录格式可用于对记录中的三维音频提示进行编码。三维音频格式包括ambisonic和包括高度扬声器声道的离散多声道音频格式。在示例中,可以在多声道数字音频信号的声轨分量中包括下混(downmix)。下混可以是向后兼容的,可以由传统解码器解码并在现有或传统的回放设备上重现。下混可以包括具有一个或多个音频声道的数据流扩展,这一个或多个音频声道可以被传统解码器忽略,但可以被非传统解码器使用。例如,非传统解码器可以恢复额外的音频声道,在向后兼容的下混中减去它们的贡献,然后以目标空间音频格式渲染它们。
[0005]在示例中,可以在编码或制作阶段指定声轨所针对的目标空间音频格式。该方法允许以数据流的形式对多声道音频声轨进行编码,该数据流与传统环绕声解码器和也在编码或制作阶段选择的一个或多个备选目标空间音频格式兼容。这些备选目标格式可以包括适于改进的三维音频提示再现的格式。然而,该方案的一个限制在于,针对另一种目标空间音频格式编码相同的声轨可能需要返回到制作设施来记录和编码针对新格式混合的声轨新版本。
[0006]基于对象的音频场景编码提供了独立于目标空间音频格式的声轨编码的一般解决方案。基于对象的音频场景编码系统的示例是针对场景的MPEG

4高级音频二进制格式(AABIFS)。在该方法中,与渲染提示数据流一起,每个源信号被分别发送。该数据流携带空间音频场景渲染系统的参数的时变值。该参数集合可以以与格式无关的音频场景描述的形式来提供,使得可以通过根据该格式设计渲染系统来以任何目标空间音频格式来渲染声轨。每个源信号可以与其相关联的渲染提示相结合来定义“音频对象”。该方法使得渲染器能够实现准确的空间音频合成技术,从而以在再现端选择的任何目标空间音频格式来渲染每个音频对象。基于对象的音频场景编码系统还允许在解码阶段对所渲染的音频场景进行交互式修改,包括重新混合、音乐重新解释(例如,卡拉OK)或场景中的虚拟导航(例如,视频游戏)。

技术实现思路

[0007]本专利技术人已经认识到,要解决的问题包括将声场信息捕获为深度量化的空间音频格式。例如,本专利技术人已经认识到,通过对来自不同深度的信号进行内插或混合,空间音频信号可以包括远场或全向分量、近场分量以及来自中间场的信息。例如,要在指定得近场和远场之间的空间区域中模拟的听觉事件可以两个深度之间的交叉渐变(crossfade)来创建。
[0008]该问题可能包括例如使用声场麦克风捕获的但没有深度信息的音频场景信息。这样捕获的音频场景信息通常被量化为一般或非特定的“声场”,然后被渲染或编码为远场信息。接收这种信息的解码器可以不被配置为区分近场和远场源,并且可以不利用或使用近场渲染。例如,使用声场麦克风捕获的一些信息可以包括近场信息。然而,如果深度信息没有与音频场景信息一起编码,则近场信息可以被归类为远场或其他参考声场或默认深度。
[0009]声场捕获或音频捕获问题的解决方案可以包括使用深度传感器与音频传感器一起基本上同时接收关于环境的听觉信息和视觉信息。深度传感器可以包括三维深度相机、或二维图像传感器或具有处理能力的多个传感器,等等。深度传感器可以渲染或提供关于环境中的一个或多个对象的信息。音频传感器可以包括一个或多个麦克风元件,该麦克风元件可以感测来自环境的听觉信息。在示例中,该解决方案包括被配置为组合来自深度传感器和音频传感器的信息以提供空间音频信号的系统或编码器。空间音频信号可以包括一个或多个音频对象,并且音频对象可以具有相应的深度特性。
[0010]本
技术实现思路
旨在提供本专利申请的主题的概述。并不意图提供对本专利技术的排他性或详尽的解释。包括了具体实施方式以提供关于本专利申请的进一步信息。
附图说明
[0011]为了易于理解对任何特定元素或行为的讨论,附图标记中的一个或多个最高有效数字指的是首次引入该元素的附图编号。
[0012]图1A

1C一般性地示出了相对于收听者的音频源或对象位置的示意图。
[0013]图2A一般性地示出了被配置为接收关于环境的音频信息和视觉信息的系统的示例。
[0014]图2B一般性地示出了针对环境的对象识别和深度分析的示例。
[0015]图3一般性地示出了示出如何将来自环境的信息量化到不同深度的示例。
[0016]图4一般性地示出了用于空间音频捕获和编码的系统的框图的示例。
[0017]图5一般性地示出了可以包括对空间音频信号进行编码的第一方法的示例。
[0018]图6一般性地示出了可以包括基于相关性信息对空间音频信号进行编码的第二方法的示例。
[0019]图7一般性地示出了可以包括提供音频场景信息对应于指定对象的置信度指示的第三方法的示例。
[0020]图8一般性地示出了可以包括确定音频信号特性与接收到的关于音频场景的信息之间的对应性的第四方法的示例。
[0021]图9一般性地示出了计算机系统形式的机器的示意图,在该计算机系统中可以执行指令集以使机器执行在此讨论的任何一种或多种方法。
具体实施方式
[0022]在包括用于执行例如用于协调视听节目信息的空间音频信号处理的系统、方法、装置和设备的示例的以下描述中,参考形成该具体实施方式的一部分的附图。作为说明,附图示出了可以实施在此公开的专利技术的具体实施例。这些实施例在本文中一般被称为“示例”。这样的示例还可以包括除了所示或所描述的那些元素之外的元素。然而,本专利技术人还设想了仅提供所示或所描述的那些元素的示例。本专利技术人设想了使用所示或所描述的那些元素(或其一个或多个方面)的任何组合或排列的示例,无论是相对于特定示例(或其一个或多个方面),还是相对于在此示出或描述的其他示例(或其一个或多个方面)。
[0023]本主题涉及处理音频信号(即,表示物理声音的信号)。这些音频信号通常由数字电子信号表示。如本文所使用的,短语“音频信号”可以包括表示物理声音的信号。在此描述的音频处理系统和方法可以包括被配置为使用音频信号或使用各种滤波本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法,包括:从环境中的音频捕获源接收音频场景信息;识别接收到的音频场景中的至少一个音频分量;从深度传感器接收关于所述环境中的一个或多个对象的深度特性信息;以及基于所识别的至少一个音频分量和所述深度特性信息对空间音频信号进行编码。2.如权利要求1所述的方法,其中,所述至少一个音频分量是使用关于对接收到的音频场景信息的时间

频率表示的信号贡献的信息而确定的。3.如权利要求1所述的方法,还包括针对所述至少一个音频分量,确定相对于所述音频捕获源的第一方向和参考深度。4.如权利要求3所述的方法,还包括:确定来自所述深度传感器的所述深度特性信息的至少一部分对应于所述至少一个音频分量的置信度;以及使用所确定的置信度提供所识别的至少一个音频分量的第一深度特性;其中,对所述空间音频信号进行编码包括使用所述第一深度特性。5.如权利要求4所述的方法,其中,提供第一深度特性包括:当所述置信度为高时,基于来自所述深度传感器的信息提供所述第一深度特性;当所述置信度为低时,将所述第一深度特性提供为所述参考深度;以及当所述置信度为中等时,将所述第一深度特性提供为介于所述参考深度和使用所述深度传感器确定的深度之间的深度。6.如权利要求4所述的方法,其中,确定所述置信度包括使用计算机视觉处理器对在所述环境中识别的对象进行分类并确定所述至少一个音频分量是否包括或可能包括来自被分类的对象中的至少一个对象的音频。7.如权利要求4所述的方法,其中,所述深度特性信息包括关于具有相应深度和方向特性的多个对象的信息,并且其中,确定所述置信度包括确定所识别的至少一个音频分量对应于所述多个对象中的特定一个的置信度。8.如权利要求4所述的方法,其中,确定所述置信度包括:识别来自所述深度传感器的所述深度特性信息中的一个或多个数据聚类,以及将所述至少一个音频分量的第一方向关联到所识别的一个或多个数据聚类。9.如权利要求3所述的方法,还包括:从所述深度传感器接收关于具有相应深度量值和深度方向特性的多个对象的深度特性信息;针对所述多个对象,确定所述深度特性信息对应于所述至少一个音频分量的相应置信度指示;以及基于所述相应置信度指示确定组合深度特性;其中,对所述空间音频信号进行编码包括使用所述组合深度特性。10.如权利要求1所述的方法,其中,对所述空间音频信号进行编码包括基于所述音频场景和所述深度特性信息对深度扩展的ambisonic信号进行编码。11.如权利要求1所述的方法,其中,从音频捕获源接收所述音频场景信息包括从多换
能器麦克风、声场麦克风、麦克风阵列和ambisonic麦克风中的一个或多个接收所述音频场景信息。12.如权利要求1所述的方法,其中,接收所述深度特性信息包括接收关于第一对象的时变深度特性信息,所述时变深度特性信息指示所述第一对象在所述环境中的移动,并且其中对所述空间音频信号进行编码包括基于所述音频场景和所述时变深度特性信息。13.如权利要求1所述的方法,还包括:使用基于图像的对象分类器来确定所述环境中的所述一个或多个对象中的第一对象的分类;以及其中对所述空间音频信号进行编码的条件是基于所述分类确定所述音频场景信息的第一部分包括或可能包括来自所述第一对象的音频信息。14.如权利要求13所述的方法,还包括基于与所述第一对象的分类相关联的音频频率内容和所述音频信息的音频频率内容,确定所述音频场景信息的所述第一部分是否包括或可能包括来自所述第一对象的音频信息。15.如权利要求1所述的方法,其中,接收所述深度特性信息包括分析来自三维视频捕获系统、立体相机或被配置为测量激光或红外探测器信号的飞行时间信息的有源深度探测器中的一个或多个的信息。16.一种系统,包括:音频捕获源,被配置为...

【专利技术属性】
技术研发人员:E
申请(专利权)人:DTS公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1