基于运动来选择音频流制造技术

技术编号:34122172 阅读:14 留言:0更新日期:2022-07-14 13:19
概括而言,描述了用于基于运动选择音频流的技术的各个方面。一种包括处理器和存储器的设备可以被配置为执行所述技术。处理器可以被配置为:获得设备的当前位置,并且获得捕获位置。每个捕获位置可以标识音频流中的相应的一个音频流被捕获的位置。处理器还可以被配置为:基于当前位置和捕获位置来选择音频流的子集,其中,音频流的子集具有与音频流相比更少的音频流。处理器还可以被配置为:基于音频流的子集来再现声场。存储器可以被配置为:存储多个音频流的子集。多个音频流的子集。多个音频流的子集。

Select audio stream based on motion

【技术实现步骤摘要】
【国外来华专利技术】基于运动来选择音频流
[0001]依据35 U.S.C.
§
119要求优先权
[0002]本专利申请要求享受于2019年12月13日递交的、名称为“SELECTING AUDIO STREAMS BASED ON MOTION”的非临时申请No.16/714,150的优先权,上述申请被转让给本申请的受让人并且据此通过引用的方式明确地并入本文中。


[0003]本公开内容涉及对音频数据的处理。

技术介绍

[0004]正在开发计算机介导的现实系统,以允许计算设备对用户体验到的现有现实进行增强或添加、去除或减少、或通常进行修改。计算机介导的现实系统(其也可以被称为“扩展现实系统”或“XR系统”)可以包括例如虚拟现实(VR)系统、增强现实(AR)系统和混合现实(MR)系统。计算机介导的现实系统的感知成功通常与此类计算机介导的现实系统在视频和音频体验两者方面提供真实沉浸式体验(其中视频和音频体验以用户期望的方式对齐)的能力有关。尽管人类视觉系统比人类听觉系统更敏感(例如,在场景内的各种对象的感知定位方面),但是确保充分的听觉体验是在确保真实的沉浸式体验方面越来越重要的因素,尤其是随着视频体验改善以允许更好地定位使得用户能够更好地识别音频内容的源的视频对象。

技术实现思路

[0005]概括而言,本公开内容涉及用于基于用户运动来从一个或多个现有音频流中选择音频流的技术。所述技术可以改善收听者体验,同时也减少声场再现定位错误,因为所选择的音频流可以更好地反映收听者相对于现有音频流的位置,从而改进回放设备(其执行用于再现声场的技术)本身的操作。
[0006]在一个示例中,所述技术涉及一种被配置为处理一个或多个音频流的设备,所述设备包括:一个或多个处理器,其被配置为:获得所述设备的当前位置;获得多个捕获位置,所述多个捕获位置中的每个捕获位置标识多个音频流中的相应的一个音频流被捕获的位置;基于所述当前位置和所述多个捕获位置来选择所述多个音频流的子集,所述多个音频流的所述子集具有与所述多个音频流相比更少的音频流;以及基于所述多个音频流的所述子集来再现声场;以及存储器,其耦合到所述处理器并且被配置为存储所述多个音频流的所述子集。
[0007]在另一示例中,所述技术涉及一种处理一个或多个音频流的方法,所述方法包括:获得设备的当前位置;获得多个捕获位置,所述多个捕获位置中的每个捕获位置标识多个音频流中的相应的一个音频流被捕获的位置;基于所述当前位置和所述多个捕获位置来选择所述多个音频流的子集,所述多个音频流的所述子集具有与所述多个音频流相比更少的音频流;以及基于所述多个音频流的所述子集来再现声场。
[0008]在另一示例中,所述技术涉及一种具有存储在其上的指令的非暂时性计算机可读存储介质,所述指令在被执行时使得设备的一个或多个处理器进行以下操作:获得设备的当前位置;获得多个捕获位置,所述多个捕获位置中的每个捕获位置标识多个音频流中的相应的一个音频流被捕获的位置;基于所述当前位置和所述多个捕获位置来选择所述多个音频流的子集,所述多个音频流的所述子集具有与所述多个音频流相比更少的音频流;以及基于所述多个音频流的所述子集来再现声场。
[0009]在另一示例中,所述技术涉及一种被配置为处理一个或多个音频流的设备,所述设备包括:用于获得设备的当前位置的单元;用于获得多个捕获位置的单元,所述多个捕获位置中的每个捕获位置标识多个音频流中的相应的一个音频流被捕获的位置;用于基于所述当前位置和所述多个捕获位置来选择所述多个音频流的子集的单元,所述多个音频流的所述子集具有与所述多个音频流相比更少的音频流;以及用于基于所述多个音频流的所述子集来再现声场的单元。
[0010]在附图和以下说明书中阐述了本公开内容的一个或多个示例的细节。根据说明书和附图以及根据权利要求,所述技术的各个方面的其它特征、目的和优势将是显而易见的。
附图说明
[0011]图1A和1B是示出可以执行本公开内容中描述的技术的各个方面的系统的图。
[0012]图2A

2G是更详细地示出图1A的示例中所示的流选择单元在执行本公开内容中描述的流选择技术的各个方面时的示例操作的图。
[0013]图3A是示出图1A和1B的插值设备在执行本公开内容中描述的音频流插值技术的各个方面时的进一步的示例操作的框图。
[0014]图3B是示出图1A和1B的插值设备在执行本公开内容中描述的音频流插值技术的各个方面时的进一步的示例操作的框图。
[0015]图3C是示出图1A和1B的插值设备在执行本公开内容中描述的音频流插值技术的各个方面时的进一步的示例操作的框图。
[0016]图4A是更详细地示出图1A

2的插值设备可以如何执行本公开内容中描述的技术的各个方面的图。
[0017]图4B是更详细地示出图1A

2的插值设备可以如何执行本公开内容中描述的技术的各个方面的框图。
[0018]图5A和5B是示出VR设备的示例的图。
[0019]图6A和6B是示出可以执行本公开内容中描述的技术的各个方面的示例系统的图。
[0020]图7是示出图1A、1B

6B的系统在执行本公开内容中描述的音频插值技术的各个方面时的示例操作的流程图。
[0021]图8是图1A和1B的示例中所示的音频回放设备在执行本公开内容中描述的技术的各个方面时的框图。
[0022]图9示出了根据本公开内容的各方面的支持音频流的无线通信系统的示例。
具体实施方式
[0023]存在多种不同的方式来表示声场。示例格式包括基于声道的音频格式、基于对象
的音频格式和基于场景的音频格式。基于声道的音频格式指代5.1环绕声格式、7.1环绕声格式、22.2环绕声格式或将音频声道定位到在收听者周围的特定位置以便重新创建声场的任何其它基于声道的格式。
[0024]基于对象的音频格式可以指代音频对象(通常使用脉冲编码调制(PCM)进行编码并且被称为PCM音频对象)被指定以表示声场的格式。此类音频对象可以包括标识音频对象相对于收听者或声场中的其它参考点的位置的元数据,使得音频对象可以被渲染到用于回放的一个或多个扬声器声道,以努力重新创建声场。在本公开内容中描述的技术可以适用于上述格式中的任何格式,包括基于场景的音频格式、基于声道的音频格式、基于对象的音频格式或其任何组合。
[0025]基于场景的音频格式可以包括以三个维度来定义声场的分级元素集合。分级元素集合的一个示例是球谐系数(SHC)集合。以下表达式展示了使用SHC的声场的描述或表示:
[0026][0027]该表达式表明,在时间t处在声场的任何点处的压力p
i
可以通过SHC唯一地表示。此处,c是声速(~343m/s),是参考点(或观测点),j
n
(
·
)是阶数为n的球贝塞尔函数,并且是阶数为n和子阶数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种被配置为处理一个或多个音频流的设备,所述设备包括:一个或多个处理器,其被配置为:获得所述设备的当前位置;获得多个捕获位置,所述多个捕获位置中的每个捕获位置标识多个音频流中的相应的一个音频流被捕获的位置;基于所述当前位置和所述多个捕获位置来选择所述多个音频流的子集,所述多个音频流的所述子集具有与所述多个音频流相比更少的音频流;以及基于所述多个音频流的所述子集来再现声场;以及存储器,其耦合到所述处理器并且被配置为存储所述多个音频流的所述子集。2.根据权利要求1所述的设备,其中,所述一个或多个处理器被配置为:确定所述当前位置与所述多个捕获位置中的每个捕获位置之间的距离,以获得多个距离;以及基于所述多个距离来选择所述多个音频流的所述子集。3.根据权利要求2所述的设备,其中,所述一个或多个处理器被配置为:将总距离确定为所述多个距离之和;确定所述多个距离中的每个距离的逆距离,以获得多个逆距离;将所述多个逆距离中的每个逆距离的比率确定为所述多个逆距离中的对应的一个逆距离除以所述总距离,以获得多个比率;以及基于所述多个比率来选择所述多个音频流的所述子集。4.根据权利要求3所述的设备,其中,所述一个或多个处理器被配置为:当所述多个比率中的一个比率超过门限时,将所述多个音频流中的对应的一个音频流指派给所述多个音频流的所述子集。5.根据权利要求1所述的设备,其中,所述一个或多个处理器被配置为:确定所述当前位置与所述多个捕获位置中的每个捕获位置之间的相对位置,以获得多个相对位置;以及基于所述多个相对位置和门限来选择所述多个音频流的所述子集。6.根据权利要求1所述的设备,其中,所述当前位置是在第一时间处捕获的第一位置;其中,所述多个音频流的所述子集是所述多个音频流的第一子集;其中,所述一个或多个处理器还被配置为:针对所述第一时间之后的第二时间来更新所述当前位置,经更新的当前位置是在所述第二时间处捕获的第二位置;基于所述经更新的当前位置和所述多个位置来选择所述多个音频流的第二子集;以及基于所述多个音频流的所述第二子集来再现所述声场。7.根据权利要求1所述的设备,其中,所述一个或多个处理器被配置为:确定所述多个捕获位置中的每个捕获位置相对于所述当前位置的角度位置,以获得多个角度位置;以及基于所述多个角度位置来选择所述多个音频流的所述子集。8.根据权利要求7所述的设备,其中,所述一个或多个处理器被配置为:
确定所述多个角度位置的不同子集的方差,以获得一个或多个方差;以及基于所述一个或多个方差来将所述多个音频流中的对应的音频流指派给所述多个音频流的所述子集。9.根据权利要求7所述的设备,其中,所述一个或多个处理器被配置为:确定所述多个角度位置的不同子集的熵,以获得一个或多个熵;以及基于所述一个或多个熵来将所述多个音频流中的对应的音频流指派给所述多个音频流的所述子集。10.根据权利要求1所述的设备,其中,所述设备包括头戴式显示器、虚拟现实(VR)耳麦、增强现实(AR)耳麦和混合现实(MR)耳麦中的一者。11.一种处理一个或多个音频流的方法,所述方法包括:获得设备的当前位置;获得多个捕获位置,所述多个捕获位置中的每个捕获位置标识多个音频流中的相应的一个音频流被捕获的位置;基于所述当前位置和所述多个捕获位置来选择所述多个音频流的子集,所述多个音频流的所述子集具有与所述多个音频流相比更少的音频流;以及基于所述多个音频流的所述子集来再现声场。12.根据权利要求11所述的...

【专利技术属性】
技术研发人员:S
申请(专利权)人:高通股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1