当前位置: 首页 > 专利查询>PCMS控股公司专利>正文

用于确定增强现实应用中音频上下文的系统和方法技术方案

技术编号:15338635 阅读:150 留言:0更新日期:2017-05-16 23:02
增强现实音频系统通过采样的音频信号来生成关于听觉环境的信息。使用高斯混合模型或其它技术,所述系统识别一个或多个音频源的位置,每个源将音频分量贡献至所采样的音频信号。所述系统使用音频分量确定听觉环境的混响时间。在确定混响时间时,所述系统可以丢弃来自被确定处于运动中的源的音频分量,诸如具有超过阈值的角速度的分量或具有超过阈值的多普勒偏移的分量。所述系统还可以丢弃来自具有超过阈值的信道间相干性的源的音频分量。在至少一个实施方式中,所述系统使用在与音频源分离的虚拟位置处的混响时间渲染声音。

【技术实现步骤摘要】
【国外来华专利技术】用于确定增强现实应用中音频上下文的系统和方法相关申请的交叉引用本申请要求于2014年7月23日递交的且标题为“SystemandMethodforDeterminingAudioContextinAugmented-RealityApplications”的美国临时专利申请序列号62/028,121的优先权和权益,其全部内容通过引用合并于此。
本公开涉及增强现实系统的音频应用。
技术介绍
当渲染增强现实应用中音频上下文时,具有关于现行音频情景上下文的信息是很重要的。增强现实内容需要符合周围环境和上下文以对增强现实应用的用户显得自然。例如,当增强音频场景内的人工音频源时,如果源混响不同于用户周围的音频场景的混响,或者如果内容在与环境源相同的相关方向被渲染,在所述内容听起来不是自然的并且不能提供自然的用户体验。当音频标签在域中或相对于用户在预定位置被增强时,这在虚拟现实游戏和娱乐中尤其重要。为了实现自然渲染,期望应用上下文分析以获得包括提供可靠的混响估计的给定音频场景的准确估计。这类似于对针对在增强现实屏幕上渲染的视觉分量具有匹配的照度和恰当的阴影的期望。混响估计通常通过搜索音频内容内衰减事件而来进行。在最佳情况中,估计器检测脉冲式声音事件,其衰减拖尾揭示了给定空间的混响条件。自然地,估计器还检测自然缓慢衰减的信号。在这种情况下,观测的衰减率为源信号衰减和给定空间的混响的结合。此外,通常假设音频场景是静止的,即,声音源不移动。然而,混响估计算法可能将移动的音频源检测为衰减信号源,这引起估计结果的误差。混响上下文仅仅在存在活跃音频源时可以被检测。然而,不是所有音频内容适合用户进行这种分析。增强现实设备和游戏机可以应用测试信号来进行现行的音频上下文分析。然而,许多可穿戴设备并不具有发射这种测试信号的能力,或者在许多情境中这种测试信号是不可用的。环境和室内效应的混响通常利用离线测量设置来估计。基本方式是具有人工脉冲声音源和用于记录脉冲响应的附加设备。混响估计工具可以使用本领域已知的工具,诸如极大似然估计(MLE)。脉冲衰减率然后被应用以计算混响。这是用于确定现行上下文的相当可靠的方式。然而,其不是实时的并且当用户的位置不事先预知时其不能被用于增强现实服务中。通常给定环境的混响估计和室内响应使用测试信号来进行。游戏设备或增强现实应用输出定义明确的声学测试信号,其可以由白噪声或分红噪声、伪随机序列或脉冲等组成。例如,微软公司的体感设备可以被配置成扫描室内并估计室内声学。在这种情况中,设备或应用同时回放测试信号并利用一个或多个麦克风记录输出。结果,先知的输入信号和输出信号,设备和应用能够确定给定空间的脉冲响应。
技术实现思路
于此公开了用于确定增强现实应用中音频上下文的系统和方法。一种实施方式具有包括以下项的方法的形式:(i)从多个麦克风采样音频信号;(ii)从所采样的音频信号确定至少一个音频源的相应位置;以及(iii)渲染具有与确定的至少一个位置相隔至少阈值间隔的虚拟位置的增强现实音频信号。在至少一个这种实施方式中,通过增强现实头戴式设备执行所述方法。在至少一个这种实施方式中,渲染包括应用头相关传递函数滤波。在至少一个这种实施方式中,所确定的位置是角位置,并且阈值间隔是阈值角距离;在至少一个这种实施方式中,阈值角距离具有从包括5度和10度的组中选择的值。在至少一个这种实施方式中,所述至少一个音频源包括多音频源,以及虚拟位置与相应确定的位置中的每一者相隔至少阈值间隔。在至少一个这种实施方式中,所述方法进一步包括基于从包括谐振频率、声级和相干性的范围中选择的一个或多个统计特性区别所述多个音频源。在至少一个这种实施方式中,多个音频源中的每一者向采样的音频信号贡献相应音频分量,以及所述方法进一步包括确定音频分量中的每一者具有高于预定相干性等级阈值的相应的相干性等级。在至少一个这种实施方式中,所述方法进一步包括使用高斯混合模型识别所述多个音频源中的每一者。在至少一个这种实施方式中,所述方法进一步包括至少部分通过确定到达数据的方向的概率密度函数来识别所述多个音频源中的每一者。在至少一个这种实施方式中,所述方法进一步包括至少部分通过模型化到达数据的方向的概率密度函数作为所述多个音频源的概率分布函数的总和的模型来识别所述多个音频源中的每一者。在至少一个这种实施方式中,所采样的音频信号不是测试信号。在至少一个这种实施方式中,使用双耳线索编码来执行位置确定。在至少一个这种实施方式中,通过分析频域中的子频带来执行位置确定。在至少一个这种实施方式中,使用信道(channel)间时间差来执行位置确定。一种实施方式采用增强现实头戴式设备的方式,所述增强现实头戴式设备包括:(i)多个麦克风;(ii)至少一个音频输出设备;(iii)处理器,以及(iv)数据存储器,包含所述处理器可执行的指令用于促使增强现实头戴式设备执行功能集合,所述功能集合包括(a)从所述多个麦克风采样音频信号;(b)从所采样的音频信号确定至少一个音频源的相应位置;以及(c)经由所述至少一个音频输出设备渲染具有与所述确定的至少一个位置相隔至少阈值间隔的虚拟位置的增强现实音频信号。一种实施方式采用包括以下项的方法的形式:(i)从多个麦克风采样至少一个音频信号;(ii)基于所采样的至少一个音频信号确定混响时间;(iii)至少部分基于所确定的混响时间来修改增强现实音频信号;以及(iv)渲染所修改的增强现实音频信号。在至少一个这种实施方式中,所述方法通过增强现实头戴式设备来执行。在至少一个这种实施方式中,至少部分基于所确定的混响时间来修改所述增强现实音频信号包括将对应于所确定的混响时间的混响应用至所述增强现实音频信号。在至少一个这种实施方式中,至少部分基于所确定的混响时间来修改所述增强现实音频信号包括将对应于所确定的混响时间的混响滤波器应用至所述增强现实音频信号。在至少一个这种实施方式中,至少部分基于所确定的混响时间来修改所述增强现实音频信号包括通过至少部分基于所确定的混响时间确定的量来放缓所述增强现实音频信号。附图说明图1是到达双麦克风阵列的声波的示意性说明。图2是用户体验的声波的示意性说明。图3是示出作为头戴式增强现实设备的空间音频的声源的增加的示意性框图,其中声音处理链包括3D渲染HRTF和混响滤波器。图4是示出音频放大软件模型的示意性框图。图5是示出在上下文估计过程中执行的步骤的流程图。图6是示出在音频增强期间使用上下文信息执行的步骤的流程图。图7是可以在一些实施方式中使用的无线收发信机用户设备的框图。图8是示出根据至少一个实施方式的第一方法的流程图。图9是示出根据至少一个实施方式的第二方法。具体实施方式音频上下文分析方法可以通过集合与感兴趣点相关联的多个音频情景参数化而被改善。在一些实施方式中,检测到的音频源的到达方向和相干性估计一样揭示关于环境的有用信息并且被用于提供上下文的信息。在另一实施方式中,与源的移动相关联的测量可以被用于进一步改善所述分析。在于此描述的各种实施方式中,音频上下文分析可以在不使用测试信号的情况下通过监听环境及现有自然声音而被执行。在一种实施方式中,音频源的到达估计的方向使用包括至少两个麦克风的麦克风阵列而被进行。阵列的输出是所有麦克风的总计信本文档来自技高网
...
用于确定增强现实应用中音频上下文的系统和方法

【技术保护点】
一种方法,该方法包括:从多个麦克风采样音频信号;从所采样的音频信号确定至少一个音频源的相应位置;以及渲染具有与所确定的至少一个位置相隔至少阈值间隔的虚拟位置的增强现实音频信号。

【技术特征摘要】
【国外来华专利技术】2014.07.23 US 62/028,1211.一种方法,该方法包括:从多个麦克风采样音频信号;从所采样的音频信号确定至少一个音频源的相应位置;以及渲染具有与所确定的至少一个位置相隔至少阈值间隔的虚拟位置的增强现实音频信号。2.根据权利要求1所述的方法,通过增强现实头戴式设备完成所述方法。3.根据权利要求1所述的方法,其中渲染包括应用头相关传递函数滤波。4.根据权利要求1所述的方法,其中所确定的位置是角位置,并且其中所述阈值间隔是阈值角距离。5.根据权利要求4所述的方法,其中所述阈值角距离具有从包含5度和10度的组选择的值。6.根据权利要求1所述的方法,其中所述至少一个音频源包括多个音频源,并且其中所述虚拟位置与各所确定的位置中的每一者相隔至少所述阈值间隔。7.根据权利要求6所述的方法,该方法进一步包括基于从包含谐振频率、声级和相干性的范围的组中选择的一个或多个统计特性来在所述多个音频源之间进行区分。8.根据权利要求6所述的方法,其中所述多个音频源中的每一者将相应音频分量贡献至所采样的音频信号,所述方法进一步包括:确定所述音频分量中的每一者具有超过预定相干性等级阈值的相应相干性等级。9.根据权利要求6所述的方法,所述方法进一步包括使用高斯混合模型识别所述多个音频源中的每一者。10.根据权利要求6所述的方法,该方法进一步包括至少部分通过确定到达数据的方向的概率密度函数来识别所述多个音频源中的每一者。11.根据权利要求6所述的方法,该方法进一步包括至少部分通过模型化到达数据的方向概率密度函数作为所述多个音频源的概...

【专利技术属性】
技术研发人员:P·S·奥贾拉
申请(专利权)人:PCMS控股公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1