可缩放话音场景媒体服务器制造技术

技术编号:31477449 阅读:23 留言:0更新日期:2021-12-18 12:09
一种通信系统、方法及其计算机可读媒体包括经配置以从对应多个客户端装置接收多个音频流的媒体服务器,所述媒体服务器包含电路系统,所述电路系统经配置以:基于预定度量将所述多个音频流排名;将所述多个音频流的第一部分分组成第一组,所述多个音频流的所述第一部分是N个最高排名音频流;将所述多个音频流的第二部分分组成第二组,所述多个音频流的所述第二部分是M个最低排名音频流;将所述第一组的相应音频流转发到接收器装置;及舍弃所述第二组的相应音频流,其中N与M是独立的整数。其中N与M是独立的整数。其中N与M是独立的整数。

【技术实现步骤摘要】
【国外来华专利技术】可缩放话音场景媒体服务器
[0001]相关申请案的交叉参考
[0002]本申请案主张2020年3月19日提出申请的美国临时专利申请案第62/991,645号、2019年4月30日提出申请的美国临时专利申请案第62/840,857号、2019年7月16日提出申请的欧洲专利申请案第19186491.7号及2020年2月20日提出申请的国际申请案第PCT/CN2020/076047号(其主张2019年4月3日提出申请的国际申请案第PCT/CN2019/081317号的权益)的优先权权益,上述所有申请案特此以全文引用的方式并入。


[0003]本申请案大体上涉及多方通信。更具体来说,本申请案涉及除其它之外还用于音频及话音通信的可缩放话音场景媒体服务器及方法。

技术介绍

[0004]视频及音频电话会议系统可允许多方远程交互以进行会议。通常,用于话音中音频会议的中心媒体服务器的现有设计使用某种策略或呈两种形式中的一者的策略组合。
[0005]在一种形式中,通过将所有传入音频流转发到将在会议上收听所述音频流的所有参与者,服务器能够避免所有处理负载且赋予客户端更多再现灵活性。然而,此方法不能缩放及管理下游带宽。
[0006]在另一种形式中,通过将传入流混合到如将由每一端点接收的特定混合或空间音频场景中,且仅发送所述混合,所述服务器可能够最小化且具有固定下游带宽,而无论会议中的客户端的数目如何。然而,此方法需要在服务器上进行大量处理及音频解码、混合及再编码,这将导致成本及额外处理延迟。即使在此些系统尝试减少且再使用各种处理及混合操作的情况下,这仍保持大负载。一旦经混合,客户端将感知音频场景显著改变成与由服务器提供的场景不同的场景(例如,实施头部跟踪)的可能性便受到限制。
[0007]系统可涉及先前两种形式的某种组合,在针对仅几个讲话者活跃的情况使用转发与许多讲话者活跃的情况使用混合之间交替。然而,此些系统可具有缺点,例如不能够提供效率、缩放性或带宽管理的充分增加。
[0008]因此,存在对管理发送到客户端的峰值及平均数据位速率而无须在服务器上进行密集音频混合的系统及方法的需要。此外,存在对具有将每一流的空间位置个别地再现成似真且感知的连续场景而无论服务器上发生任何混合或剔除操作的能力的系统及方法的需要。

技术实现思路

[0009]本专利技术的各个方面涉及用于包含话音通信的可缩放多方通信的电路、系统及方法。
[0010]在本专利技术的一个示范性方面中,提供一种通信系统,其包括经配置以从对应多个客户端装置接收多个音频流的媒体服务器,所述媒体服务器包含电路系统,所述电路系统
经配置以:基于预定度量将所述多个音频流排名;将所述多个音频流的第一部分分组成第一组,所述多个音频流的所述第一部分是N个最高排名音频流;将所述多个音频流的第二部分分组成第二组,所述多个音频流的所述第二部分是M个最低排名音频流;将所述第一组的相应音频流转发到接收器装置;及舍弃所述第二组的相应音频流,其中N与M是独立的整数。
[0011]在本专利技术的另一示范性方面中,提供一种通信方法,其包括:从对应多个客户端装置接收多个音频流;基于预定度量将所述多个音频流排名;将所述多个音频流的第一部分分组成第一组,所述多个音频流的所述第一部分是N个最高排名音频流;将所述多个音频流的第二部分分组成第二组,所述多个音频流的所述第二部分是M个最低排名音频流;将所述第一组的相应音频流转发到接收器装置;及舍弃所述第二组的相应音频流,其中N与M是独立的整数。
[0012]在本专利技术的另一示范性方面中,提供一种非暂时性计算机可读媒体,其存储指令,所述指令在由媒体服务器的处理器执行时致使所述媒体服务器执行包括以下各项的操作:从对应多个客户端装置接收多个音频流;基于预定度量将所述多个音频流排名;将所述多个音频流的第一部分分组成第一组,所述多个音频流的所述第一部分是N个最高排名音频流;将所述多个音频流的第二部分分组成第二组,所述多个音频流的所述第二部分是M个最低排名音频流;将所述第一组的相应音频流转发到接收器装置;及舍弃所述第二组的相应音频流,其中N与M是独立的整数。
[0013]以此方式,本专利技术的各个方面提供至少在电信
的改进。
[0014]本专利技术可体现为各种形式,包含通过计算机实施的方法控制的硬件或电路,计算机程序产品,计算机系统及网络,用户界面及应用编程界面;以及硬件实施的方法,信号处理电路,存储器阵列,专用集成电路,现场可编程门阵列等等。前述
技术实现思路
仅打算给出本专利技术的各个方面的一般理念,且不以任何方式限制本专利技术的范围。
附图说明
[0015]参考附图,在以下说明中更全面揭示各种实施例的这些及其它更详细及特定特征,附图中:
[0016]图1A到1C分别图解说明根据本专利技术的各个方面的示范性通信系统;
[0017]图2图解说明根据本专利技术的各个方面的示范性语音活动数据的标绘图;
[0018]图3A到3C分别图解说明根据本专利技术的各个方面的示范性加权函数;
[0019]图4图解说明根据本专利技术的各个方面的另一示范性通信系统;
[0020]图5图解说明根据本专利技术的各个方面的示范性通信方法的流程;及
[0021]图6A图解说明根据本专利技术的各个方面的另一示范性通信方法的流程;
[0022]图6B图解说明根据本专利技术的各个方面的另一示范性通信方法的流程;及
[0023]图7图解说明根据本专利技术的各个方面的另一示范性通信方法的流程。
具体实施方式
[0024]在以下说明中,陈述例如电路配置、时序、操作等众多细节,以便提供对本专利技术的一或多个方面的理解。所属领域的技术人员将显而易见,这些特定细节仅是示范性的且不打算限制本申请案的范围。
[0025]此外,虽然本专利技术主要集中于其中在话音通信中使用各种电路的实例,但将理解,这仅是实施方案的一个实例。将进一步理解,所揭示系统及方法可在其中需要创建各种声音源及目的地的普遍音频连接性的任何装置中使用;例如,全局通信、物联网、虚拟及增强现实系统、替代及混合现实系统、更广泛的合作、社区成长及支持等。此外,所揭示系统及方法可适用于仅音频应用以及音频与其它感觉模态的组合。
[0026]概述
[0027]本专利技术的各个方面提供一种其中可能创建具有许多同时讲话者的场景的高质量的且在一些情形中不可区分的印象同时在任何时间点仅传输实际音频流的子组的系统。因此,本专利技术的各个方面利用人类听力中的神经学、神经生理学及感知因素的各方面来创建完整复杂话音场景的错觉,而无需详尽的数据传输或混合。
[0028]在可能的情况下,人类倾向于将跨越时间及频率的音频分量分组成较小组的感知对象。也就是说,人类往往会依据流感知地分析听觉场景,其中空间、频谱、临时行为、纹理、音高、音高移动等的相似性导致对象融合在一起。此外,人类能够感知跨越听觉流的元素的连续性,甚至当刺激中可能不存在此连续性时。
[0029]音位恢复是连续性错觉及其与本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种通信系统,其包括:媒体服务器,其经配置以从对应多个客户端装置接收多个音频流,所述媒体服务器包含经配置以进行以下操作的电路系统:基于预定度量将所述多个音频流排名;其中音频流的所述度量包括所述音频流的帧的经加权能量;其中使用加权函数来确定所述音频流的所述帧的所述经加权能量,所述加权函数撤销强调具有低于1000Hz的频率的频谱频率内容且强调具有高于4000Hz的频率的频谱频率内容,将所述多个音频流的第一部分分组成第一组,所述多个音频流的所述第一部分是N个最高排名音频流,将所述多个音频流的第二部分分组成第二组,所述多个音频流的所述第二部分是M个最低排名音频流,将所述第一组的相应音频流转发到接收器装置,及舍弃所述第二组的相应音频流,其中N与M是独立的整数。2.根据权利要求1所述的通信系统,所述电路系统进一步经配置以:将所述多个音频流的第三部分分组成第三组,所述多个音频流的所述第三部分是排名在所述第一部分与所述第二部分之间的所述音频流,及将所述第三组的音频内容混合到所述第一组的所述音频流中的一者中。3.根据权利要求1或2所述的通信系统,其中所述多个音频流中的相应者包含音频数据及元数据,音频流的所述元数据包含指示所述音频流的帧的所述经加权能量的数据。4.根据权利要求1到3中任一权利要求所述的通信系统,其中待由所述服务器转发的每一流被分配若干个位,其中较高排名的流接收到等于或高于较低排名的流的位。5.根据权利要求3或4所述的通信系统,其中音频流的所述元数据进一步包含指示场景中的空间位置的数据。6.根据权利要求1到5中任一权利要求所述的通信系统,其中所述接收器装置是所述多个客户端装置中的一者。7.一种通信方法,其包括:从对应多个客户端装置接收多个音频流;基于预定度量将所述多个音频流排名;其中音频流的所述度量包括所述音频流的帧的经加权能量;其中使用加权函数来确定所述音频流的所述帧的所述经加权能量,所述加权函数撤销强调具有低于1000Hz的频率的频谱频率内容且强调具有高于4000Hz的频率的频谱频率内容;将所述多个音频流的第一部分分组成第一组,所述多个音频流的所述第一部分是N个最高排名音频流;将所述多个音频流的第二部分分组成第二组,所述多个音频流的所述第二部分是M个最低排名音频流;将所述第一组的相应音频流转发到接收器装置;及舍弃所述第二组的相应音频流,其中N与M是独立的整数。
8.根据权利要求7所述的通信方法,其进一步包括:将所述多...

【专利技术属性】
技术研发人员:G
申请(专利权)人:杜比实验室特许公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1