具有深度的空间音频捕获制造技术

技术编号：34504424 阅读：51 留言：0更新日期：2022-08-13 20:46

空间音频信号可以包括可被分别编码和渲染在多个不同深度中的每一个处的音频对象。在示例中，一种用于对空间音频信号进行编码的方法可以包括从环境中的音频捕获源接收音频场景信息，以及接收环境中的第一对象的深度特性。可以使用来自深度传感器的信息来确定深度特性。可以识别音频场景信息的至少一部分和第一对象之间的相关性。可以使用音频场景的该部分和第一对象的深度特性来对空间音频信号进行编码。行编码。行编码。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】具有深度的空间音频捕获

技术介绍

[0001]诸如可以分别包括或使用麦克风和相机的音频和视频捕获系统可以共处于环境中，并且被配置为从该环境捕获视听信息。所捕获的视听信息可以按需记录、传输和回放。在示例中，可以以沉浸式格式捕获视听信息，例如使用空间音频格式和多维视频或图像格式。
[0002]在示例中，音频捕获系统可以包括麦克风、麦克风阵列或包括一个或多个换能器以从环境接收音频信息的其他传感器。音频捕获系统可以包括或使用被配置为捕获三维或360度声场的空间音频麦克风，例如ambisonic麦克风。
[0003]在示例中，视频捕获系统可以包括单透镜相机或多透镜相机系统。在示例中，视频捕获系统可以被配置为接收有时被称为沉浸式视频或球形视频的360度视频信息。在360度视频中，可以同时接收和记录来自多个方向的图像信息。在示例中，视频捕获系统可以包括或包含深度传感器，该深度传感器被配置为检测系统的视场中的一个或多个对象的深度信息。
[0004]各种音频记录格式可用于对记录中的三维音频提示进行编码。三维音频格式包括ambisonic和包括高度扬声器声道的离散多声道音频格式。在示例中，可以在多声道数字音频信号的声轨分量中包括下混(downmix)。下混可以是向后兼容的，可以由传统解码器解码并在现有或传统的回放设备上重现。下混可以包括具有一个或多个音频声道的数据流扩展，这一个或多个音频声道可以被传统解码器忽略，但可以被非传统解码器使用。例如，非传统解码器可以恢复额外的音频声道，在向后兼容的下混中减去它们的贡献，然后以目标空间音频格式渲染...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法，包括：从环境中的音频捕获源接收音频场景信息；识别接收到的音频场景中的至少一个音频分量；从深度传感器接收关于所述环境中的一个或多个对象的深度特性信息；以及基于所识别的至少一个音频分量和所述深度特性信息对空间音频信号进行编码。2.如权利要求1所述的方法，其中，所述至少一个音频分量是使用关于对接收到的音频场景信息的时间
‑
频率表示的信号贡献的信息而确定的。3.如权利要求1所述的方法，还包括针对所述至少一个音频分量，确定相对于所述音频捕获源的第一方向和参考深度。4.如权利要求3所述的方法，还包括：确定来自所述深度传感器的所述深度特性信息的至少一部分对应于所述至少一个音频分量的置信度；以及使用所确定的置信度提供所识别的至少一个音频分量的第一深度特性；其中，对所述空间音频信号进行编码包括使用所述第一深度特性。5.如权利要求4所述的方法，其中，提供第一深度特性包括：当所述置信度为高时，基于来自所述深度传感器的信息提供所述第一深度特性；当所述置信度为低时，将所述第一深度特性提供为所述参考深度；以及当所述置信度为中等时，将所述第一深度特性提供为介于所述参考深度和使用所述深度传感器确定的深度之间的深度。6.如权利要求4所述的方法，其中，确定所述置信度包括使用计算机视觉处理器对在所述环境中识别的对象进行分类并确定所述至少一个音频分量是否包括或可能包括来自被分类的对象中的至少一个对象的音频。7.如权利要求4所述的方法，其中，所述深度特性信息包括关于具有相应深度和方向特性的多个对象的信息，并且其中，确定所述置信度包括确定所识别的至少一个音频分量对应于所述多个对象中的特定一个的置信度。8.如权利要求4所述的方法，其中，确定所述置信度包括：识别来自所述深度传感器的所述深度特性信息中的一个或多个数据聚类，以及将所述至少一个音频分量的第一方向关联到所识别的一个或多个数据聚类。9.如权利要求3所述的方法，还包括：从所述深度传感器接收关于具有相应深度量值和深度方向特性的多个对象的深度特性信息；针对所述多个对象，确定所述深度特性信息对应于所述至少一个音频分量的相应置信度指示；以及基于所述相应置信度指示确定组合深度特性；其中，对所述空间音频信号进行编码包括使用所述组合深度特性。10.如权利要求1所述的方法，其中，对所述空间音频信号进行编码包括基于所述音频场景和所述深度特性信息对深度扩展的ambisonic信号进行编码。11.如权利要求1所述的方法，其中，从音频捕获源接收所述音频场景信息包括从多换
能器麦克风、声场麦克风、麦克风阵列和ambisonic麦克风中的一个或多个接收所述音频场景信息。12.如权利要求1所述的方法，其中，接收所述深度特性信息包括接收关于第一对象的时变深度特性信息，所述时变深度特性信息指示所述第一对象在所述环境中的移动，并且其中对所述空间音频信号进行编码包括基于所述音频场景和所述时变深度特性信息。13.如权利要求1所述的方法，还包括：使用基于图像的对象分类器来确定所述环境中的所述一个或多个对象中的第一对象的分类；以及其中对所述空间音频信号进行编码的条件是基于所述分类确定所述音频场景信息的第一部分包括或可能包括来自所述第一对象的音频信息。14.如权利要求13所述的方法，还包括基于与所述第一对象的分类相关联的音频频率内容和所述音频信息的音频频率内容，确定所述音频场景信息的所述第一部分是否包括或可能包括来自所述第一对象的音频信息。15.如权利要求1所述的方法，其中，接收所述深度特性信息包括分析来自三维视频捕获系统、立体相机或被配置为测量激光或红外探测器信号的飞行时间信息的有源深度探测器中的一个或多个的信息。16.一种系统，包括：音频捕获源，被配置为...

【专利技术属性】
技术研发人员：E，
申请(专利权)人：DTS公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人