当前位置: 首页 > 专利查询>DTS公司专利>正文

用于捕获、编码、分布和解码沉浸式音频的系统和方法技术方案

技术编号:16935060 阅读:45 留言:0更新日期:2018-01-03 05:28
一种提供用与标准的两声道或多声道再现系统兼容的通用数字音频格式编码的沉浸式音频录制的灵活捕获、分布和再现的声场编码系统和方法。该端到端系统和方法缓解了对消费者移动设备(诸如智能电话或相机)中的标准的多声道麦克风阵列配置的任何不切实际的需要。该系统和方法从灵活的多声道麦克风阵列配置捕获与传统回放系统兼容的两声道或多声道沉浸式音频信号,并且对这些音频信号进行空间编码。

Systems and methods used to capture, code, distribute and decode immersion audio

A sound field coding system and method for flexible capture, distribution and reproduction of immersive audio recording encoded by a standard two channel or multichannel reproduction system are provided. The end to end system and method alleviated any unrealistic needs for standard multi-channel microphone array configuration in consumer mobile devices, such as smart phones or cameras. The system and method capture the two channel or multichannel immersive audio signals compatible with the traditional playback system from the flexible multichannel microphone array configuration, and encode the audio signals in space.

【技术实现步骤摘要】
【国外来华专利技术】用于捕获、编码、分布和解码沉浸式音频的系统和方法相关申请的交叉引用本申请要求2015年1月30日提交的、标题为“SystemandMethodforCapturingandEncodinga3-DAudioSoundfield”的美国临时专利申请第62/110,211号的权益,这两篇申请的全部内容通过引用并入本文。
技术介绍
随着专用的录制设备变得更加便携和更加实惠,并且随着录制能力在日常设备(诸如智能电话)中变得更加普及,音频内容的捕获(经常与视频结合)已经变得越来越普遍。视频捕获的质量已经持续提高,并且已经超过了音频捕获的质量。现代移动设备上的视频捕获通常是高分辨率的而且DSP处理密集的,但是伴随的音频内容一般是以低保真度和很少的额外处理用单声道捕获的。为了捕获空间线索,许多现有的音频录制技术采用至少两个麦克风。作为一般规则,录制360度水平环绕音频场景需要至少3个音频声道,而录制三维音频场景需要至少4个音频声道。虽然多声道音频捕获被用于沉浸式音频录制,但是目前可用的更普及的消费者音频递送技术和分布框架限于传输两声道音频。在标准的两声道立体声再现中,存储的或传输的左音频声道和右音频声道意图分别在左和右扩音器或耳机上直接回放。为了回放沉浸式音频录制,可能需要在各种回放配置中渲染录制的空间音频信息。这些回放配置包括耳机、前置条形音箱(sound-bar)扩音器、前置分立扩音器对、5.1水平环绕扩音器阵列以及包括高度声道的三维扩音器阵列。不论回放配置如何,期望的是为收听者再现空间音频场景,该空间音频场景是捕获的音频场景的基本精确的表示。另外,有利的是提供对于特定回放配置不敏感(agnostic)的音频存储或传输格式。一种这样的配置不敏感格式是B格式。B格式包括以下信号:(1)W——与全向麦克风的输出相对应的压力信号;(2)X——与前指(forward-pointing)“8字形”麦克风的输出对应的前后(front-to-back)方向信息;(3)Y——与左指“8字形”麦克风的输出相对应的左右(side-to-side)方向信息;以及(4)Z——与上指“8字形”麦克风的输出相对应的上下(up-todown)方向信息。B格式音频信号可以被空间解码以用于在耳机或灵活的扩音器配置上进行沉浸式音频回放。B格式信号可以直接获得,或者从包括全向和/或双向麦克风或单向麦克风的、标准的接近重合(coincident)麦克风布置导出。特别地,4声道A格式从心形麦克风的四面体布置获得,并且可以经由4×4线性矩阵被转换为B格式。另外,4声道B格式可以被转换为与标准的2声道立体声再现兼容的两声道高保真立体声(ambisonic)UHJ格式。但是,两声道高保真立体声UHJ格式不足以使得能够进行忠实的三维沉浸式音频或水平环绕再现。其他方法已经被提出以用于将表示环绕或沉浸式声音场景的多个音频声道编码为用于存储和/或分布的简化数据(reduced-data)格式,该简化数据格式随后可以被解码以使得能够忠实地再现原始音频场景。一种这样的方法是时域相位振幅矩阵编码/解码。该方法中的编码器将具有特定的振幅和相位关系的输入声道线性地组合为较小的一组编码声道。解码器组合具有特定的振幅和相位的编码声道来试图恢复原始声道。但是,由于中间声道计数减少,与原始音频场景相比,再现的音频场景的空间局部化保真度可能有损失。用于改进再现的音频场景的空间局部化保真度的方法是频域相位振幅矩阵解码,该频域相位振幅矩阵解码将矩阵编码的两声道音频信号分解为时间-频率表示。该方法然后分别使各时间-频率分量空间化(spatialize)。时间-频率分解提供输入音频信号的高分辨率表示,在该表示中,与时域中相比,各个源被更离散地表示。结果,当与时域矩阵解码相比时,该方法可以改进随后解码的信号的空间保真度。对多声道音频表示进行数据简化的另一方法是空间音频编码。在该方法中,输入声道被组合为简化声道(reduced-channel)格式(可能甚至单声道),并且关于音频场景的空间特性的一些辅助信息(sideinformation)也被包括。辅助信息中的参数可以用于将简化声道格式在空间上解码为忠实地近似原始音频场景的多声道信号。上述相位振幅矩阵编码和空间音频编码方法常常涉及对在录制工作室中创建的多声道音轨进行编码。而且,它们有时涉及简化声道编码的音频信号是完全解码版本的可行的收听替代者的要求。这是为了使得直接回放是一个选项并且不需要定做的解码器。声场编码是空间音频编码的类似尝试,其集中于捕获并编码“即时”音频场景并且通过回放系统精确地再现该音频场景。声场编码的现有方法依赖于特定的麦克风配置以精确地捕获方向源。而且,它们依靠各种分析技术以适当地处理方向源和扩散源。但是,声场编码所需的麦克风配置对于消费者设备常常是不切实际的。现代的消费者设备通常具有施加于麦克风的数量和位置上的显著的设计约束,这些设计约束可以导致与对于目前的声场编码方法的要求不匹配的配置。声场分析方法常常也是计算密集型的,缺乏支持较低复杂度实现的可扩展性。
技术实现思路
提供本
技术实现思路
是为了以简化的形式介绍下面在具体实施方式中进一步描述的概念的选择。本
技术实现思路
并非意图认定要求保护的主题的关键特征或必要特征,也非意图用来限制要求保护的主题的范围。声场编码系统和方法的实施例涉及音频信号的处理,更具体地涉及三维(3-D)音频声场的捕获、编码和再现。该系统和方法的实施例用于捕获表示沉浸式音频场景的3-D声场。该捕获是使用任意的麦克风阵列配置来执行的。为了高效地存储和分布,捕获的音频被编码为通用空间编码信号(SES)格式。在一些实施例中,用于对该SES格式进行空间解码以用于再现的方法对于用于捕获3-D声场中的音频的麦克风阵列配置是不敏感的。目前没有使得能够灵活地捕获、分布和再现用与标准的两声道和多声道再现系统兼容的通用数字音频格式编码的沉浸式音频录制的端到端系统。特别地,因为采用标准的多声道麦克风阵列配置在消费者移动设备(诸如智能电话或相机)中是不切实际的,所以需要用于对来自灵活的多声道麦克风阵列配置的与传统回放系统兼容的两声道或多声道沉浸式音频信号进行空间编码的方法。系统和方法的实施例包括通过选择用于捕获3-D声场的、具有多个麦克风的麦克风配置来对多个麦克风信号进行处理。麦克风用于从至少一个音频源捕获声音。麦克风配置对在音频捕获中使用的多个麦克风中的每个限定麦克风方向性。麦克风方向性是相对于参考方向限定的。系统和方法的实施例还包括选择包含多个麦克风的虚拟麦克风配置。虚拟麦克风配置用于对关于音频源相对于参考方向的位置的空间信息进行编码。系统和方法还包括基于麦克风配置和虚拟麦克风配置来计算空间编码系数。空间编码系数用于将麦克风信号转换为空间编码信号(SES)。SES包括虚拟麦克风信号,其中虚拟麦克风信号是通过使用空间编码系数组合麦克风信号而获得的。应注意,替代实施例是可能的,并且本文所讨论的步骤和元件可以依赖于特定实施例改变、添加或消除。在不脱离本专利技术的范围的情况下,这些替代实施例包括可以使用的替代步骤和替代元件以及可以做出的结构改变。附图说明现在参照附图,在附图中,同样的附图标记始终表示对应的部分:图1是根据本专利技术的声场编码系统的实本文档来自技高网
...
用于捕获、编码、分布和解码沉浸式音频的系统和方法

【技术保护点】
一种用于对多个麦克风信号进行处理的方法,包括:选择具有用于从至少一个音频源捕获声音的多个麦克风的麦克风配置,该麦克风配置限定所述多个麦克风中的每个相对于参考方向的麦克风方向性;选择具有多个虚拟麦克风的虚拟麦克风配置,虚拟麦克风配置用于对关于所述至少一个音频源相对于参考方向的位置的空间信息进行编码;基于麦克风配置和虚拟麦克风配置来计算空间编码系数;以及将所述多个麦克风信号转换为包括虚拟麦克风信号的空间编码信号(SES);其中虚拟麦克风信号中的每个是通过使用空间编码系数组合麦克风信号而获得的。

【技术特征摘要】
【国外来华专利技术】2015.01.30 US 62/110,2111.一种用于对多个麦克风信号进行处理的方法,包括:选择具有用于从至少一个音频源捕获声音的多个麦克风的麦克风配置,该麦克风配置限定所述多个麦克风中的每个相对于参考方向的麦克风方向性;选择具有多个虚拟麦克风的虚拟麦克风配置,虚拟麦克风配置用于对关于所述至少一个音频源相对于参考方向的位置的空间信息进行编码;基于麦克风配置和虚拟麦克风配置来计算空间编码系数;以及将所述多个麦克风信号转换为包括虚拟麦克风信号的空间编码信号(SES);其中虚拟麦克风信号中的每个是通过使用空间编码系数组合麦克风信号而获得的。2.根据权利要求1所述的方法,其中空间信息被以以下中的一个的形式编码:(a)声道间振幅;以及(b)相位差。3.根据权利要求2所述的方法,进一步包括选择具有多个虚拟麦克风的虚拟麦克风配置,虚拟麦克风配置用于对关于音频源相对于参考方向的位置的空间信息进行编码。4.根据权利要求1所述的方法,其中所述多个麦克风信号是A格式麦克风信号,进一步包括将A格式麦克风信号转换为B格式麦克风信号。5.根据权利要求4所述的方法,进一步包括从B格式麦克风信号形成虚拟麦克风方向性图案。6.根据权利要求5所述的方法,进一步包括使用以下等式来形成虚拟麦克风方向性图案:

【专利技术属性】
技术研发人员:M·M·古德文JM·卓特M·沃尔什
申请(专利权)人:DTS公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1