用于空间会议回放的优化虚拟场景布局制造技术

技术编号:16309655 阅读:64 留言:0更新日期:2017-09-27 03:18
各种公开的实现涉及对涉及多个会议参与者的会议的记录的处理和/或回放。一些实现包括接收或确定会话动态数据。成本函数的一个或多个变量可至少部分地基于会话动态数据。成本函数可以是描述了每个会议参与者在虚拟声学空间中的虚拟会议参与者位置的向量的空间优化成本函数。虚拟声学空间可相对于听众的头部被确定。虚拟会议参与者位置可根据成本函数的解被分配。

Optimized virtual scene layout for space conferencing playback

Various public implementations involve processing and / or playback of records of meetings involving multiple meeting participants. Some implementations include receiving or determining session dynamic data. One or more variables of a cost function may be based at least in part on session dynamic data. The cost function can be a spatial optimization cost function describing the vector of each participant's virtual meeting participant position in the virtual acoustic space. The virtual acoustic space can be determined relative to the head of the listener. The location of the virtual conference participant can be assigned according to the cost function.

【技术实现步骤摘要】
【国外来华专利技术】用于空间会议回放的优化虚拟场景布局相关申请的交叉引用本申请要求2015年2月3日提交的申请号为PCT/CN2015/072154的PCT专利申请;以及2015年3月5日提交的美国临时专利申请第62/128,626号的优先权,它们中的每一个全文通过引用并入本文。
本公开涉及音频信号的处理。特别地,本公开涉及处理与会议相关的音频信号,包括但不限于处理用于电话会议或视频会议的音频信号。
技术介绍
在电话会议领域,通常提供设施以允许记录电话会议以供在电话会议结束之后进行回放。这可以使得那些无法参加会议的人听到会议中发生了什么。它还可以让那些在场的人刷新他们对电话会议期间所发生的事情的记忆。记录设施有时用于确保某些行业(如银行业)的法规遵从。典型的电话会议记录是包含所有各方到记录介质上的混合的单个单声道流。这通常通过将“虚拟”客户端或电话连接到电话会议桥或如下服务器来实现,该服务器对于桥看上去像普通客户端或电话,但实际上这可以是简单地记录其下行链路的机器。在这种系统中,聆听录音的回放的体验与原始电话会议期间在电话或客户端上被动地进行聆听的体验相同或基本相同。
技术实现思路
根据本文公开的一些实现方式,一种方法可以涉及处理音频数据。一些这样的方法可以涉及接收对应于涉及多个会议参与者的会议的记录的音频数据。在一些例子中,会议可能是电话会议。然而,在一些例子中,会议可能是面对面会议(in-personconference)。根据一些示例,音频数据可以包括来自多个端点的音频数据。多个端点中的每一个的音频数据可能已被单独记录。作为替代地或者附加地,音频数据中的至少一些可以来自对应于多个会议参与者的单个端点。音频数据可以包括多个会议参与者中的每个会议参与者的空间信息。在一些实现中,该方法可以涉及分析音频数据以确定会话动态数据。在一些示例中,会话动态数据可以包括指示会议参与者语音的频率和持续时间的数据、指示至少两个会议参与者在其期间同时发言的会议参与者双讲话(doubletalk)的实例的数据、和/或指示会议参与者会话的实例的数据。一些公开的方法可以涉及将会话动态数据应用作为如下向量的空间优化成本函数的一个或多个变量,该向量描述了虚拟声学空间中的每个会议参与者的虚拟会议参与者位置。一些这样的方法可以涉及将优化技术应用于空间优化成本函数以确定局部最优解,并至少部分地基于局部最优解来在虚拟声学空间中分配虚拟会议参与者位置。在一些实现中,虚拟声学空间可以相对于虚拟听众的头部在虚拟声学空间中的位置来确定。根据一些这样的实施方式,空间优化成本函数可以应用对于将参与会议参与者双讲话的会议参与者布置于如下虚拟会议参与者位置处的惩罚,该虚拟会议参与者位置位于相对于虚拟听众头部的位置被定义的“混淆锥(coneofconfusion)”上或者与该“混淆锥”相距在预定的角距离内。通过混淆锥的圆锥切片可能具有相同的耳间时间差异。在一些示例中,空间优化成本函数可以应用对于将参与会议参与者相互会话的会议参与者布置于位于混淆锥上或者与混淆锥相距在预定的角距离内的虚拟会议参与者位置处的惩罚。根据一些示例,分析音频数据可以涉及确定哪些会议参与者(如果有的话)具有感知相似的语音。在一些这样的示例中,空间优化成本函数可以应用对于将具有感知相似的语音的会议参与者布置于位于混淆锥上或者与混淆锥相距在预定的角距离内的虚拟会议参与者位置处的惩罚。在一些示例中,空间优化成本函数可以应用对于将频繁发言的会议参与者布置于在虚拟听众的头部位置旁边、后面、上方或下方的虚拟会议参与者位置处的惩罚。在某些实例中,空间优化成本函数可以应用对于将频繁发言的会议参与者布置于与较不频繁发言的会议参与者的虚拟会议参与者位置相比距虚拟听众头部的位置更远的虚拟会议参与者位置处的惩罚。在一些实现中,空间优化成本函数可以应用对于将很少发言的会议参与者布置于不在虚拟听众的头部位置旁边、后面、上方或下方的虚拟会议参与者位置处的惩罚。根据一些示例,优化技术可能涉及梯度下降技术、共轭梯度技术、牛顿法、Broyden-Fletcher-Goldfarb-Shanno算法、遗传算法、模拟退火算法、蚁群优化方法和/或蒙特卡罗方法。在一些示例中,分配虚拟会议参与者位置可以包括从一组预定的虚拟会议参与者位置中选择虚拟会议参与者位置。在一些实例中,音频数据可包括语音活动检测处理的输出。根据一些示例,分析音频数据可涉及识别对应于个体会议参与者的语音。在一些示例中,音频数据可对应于完整或基本上完整的会议的记录。一些示例可能涉及接收和处理来自多个会议的音频数据。一些公开的方法可涉及在电话会议期间接收(例如,经由接口系统)电话会议音频数据。在一些示例中,电话会议音频数据可以包括多个单独的上行链路数据分组流。每个上行链路数据分组流可以对应于一个或多个电话会议参与者使用的电话端点。该方法可以涉及(例如,经由接口系统)将电话会议音频数据作为单独的上行链路数据分组流发送到存储系统。一些方法可涉及确定不完整的上行链路数据分组流的迟到(late)数据分组已经在迟到分组时间阈值之后被从电话端点接收到。迟到分组时间阈值可以大于或等于电话会议的口到耳延迟时间阈值。在一些示例中,口到耳延迟时间阈值可以大于或等于100毫秒(ms)。在一些实例中,口到耳延迟时间阈值可以是150ms或更短。在一些示例中,迟到分组时间阈值可以是200ms,400ms,500ms或更大。在某些实现中,迟到分组时间阈值可以大于或等于1秒。一些这样的方法可涉及将迟到数据分组添加到不完整的上行链路数据分组流。一些方法可以涉及确定在大于迟到分组时间阈值的丢失分组时间阈值内没有从电话端点接收到不完整上行链路数据分组流的丢失数据分组。一些这样的方法可以涉及向电话端点(例如,经由接口系统)发送关于重新发送丢失的数据分组的请求。如果电话端点重新发送丢失的数据分组,这样的方法可能涉及接收丢失的数据分组,并且将丢失的数据分组添加到不完整的上行数据分组流中。在一些示例中,单独的上行链路数据分组流可以是单独的编码的上行链路数据分组流。上行链路数据分组流中的至少一个可以包括在电话会议的口到耳延迟时间阈值之后接收到、因此在电话会议期间不用于再现音频数据的至少一个数据分组。在一些实例中,至少一个上行链路数据分组流可以对应于多个电话会议参与者,并且可以包括关于多个参与者中的每一个的空间信息。一些公开的方法可以涉及接收(例如,经由接口系统)所记录的电话会议的音频数据。记录的音频数据可以包括对应于由一个或多个电话会议参与者使用的电话端点的单独的上行链路数据分组流。一些这样的方法可以涉及分析单独的上行链路数据分组流中的数据分组的序列号数据。分析过程可以包括确定单独的上行链路数据分组流是否包括至少一个无序数据分组。如果上行链路数据分组流包括至少一个无序数据分组,则这样的方法可以包括根据序列号数据对单独的上行链路数据分组流重新排序。在一些实例中,单独的上行链路数据分组流的至少一个数据分组可能已经在电话会议的口到耳延迟时间阈值之后接收到。一些这样的方法可以包括接收(例如,经由接口系统)电话会议元数据并且至少部分地基于电话会议元数据来对单独的上行链路数据分组流进行索引。在一些实例中,记录的音频数据可以包括多个本文档来自技高网...
用于空间会议回放的优化虚拟场景布局

【技术保护点】
一种用于处理音频数据的方法,所述方法包括:接收对应于涉及多个会议参与者的会议的记录的音频数据,所述音频数据包括以下至少一个:(a)来自多个端点的音频数据,所述多个端点中的各端点的音频数据已被分别记录,或(b)来自对应于多个会议参与者的单个端点的、并且包括所述多个会议参与者中的每个会议参与者的空间信息的音频数据;分析音频数据以确定会话动态数据,所述会话动态数据包括选自数据类型列表的至少一种数据类型,所述数据类型列表包括:指示会议参与者语音的频率和持续时间的数据、指示至少两个会议参与者在其期间同时发言的会议参与者双讲话的实例的数据、以及指示会议参与者会话的实例的数据;将会话动态数据应用作为描述了虚拟声学空间中的每个会议参与者的虚拟会议参与者位置的向量的空间优化成本函数的一个或多个变量;将优化技术应用于空间优化成本函数以确定局部最优解;以及至少部分地基于局部最优解来在虚拟声学空间中分配虚拟会议参与者位置。

【技术特征摘要】
【国外来华专利技术】2015.03.05 US 62/128,626;2015.02.03 CN PCT/CN2015/1.一种用于处理音频数据的方法,所述方法包括:接收对应于涉及多个会议参与者的会议的记录的音频数据,所述音频数据包括以下至少一个:(a)来自多个端点的音频数据,所述多个端点中的各端点的音频数据已被分别记录,或(b)来自对应于多个会议参与者的单个端点的、并且包括所述多个会议参与者中的每个会议参与者的空间信息的音频数据;分析音频数据以确定会话动态数据,所述会话动态数据包括选自数据类型列表的至少一种数据类型,所述数据类型列表包括:指示会议参与者语音的频率和持续时间的数据、指示至少两个会议参与者在其期间同时发言的会议参与者双讲话的实例的数据、以及指示会议参与者会话的实例的数据;将会话动态数据应用作为描述了虚拟声学空间中的每个会议参与者的虚拟会议参与者位置的向量的空间优化成本函数的一个或多个变量;将优化技术应用于空间优化成本函数以确定局部最优解;以及至少部分地基于局部最优解来在虚拟声学空间中分配虚拟会议参与者位置。2.根据权利要求1所述的方法,其中,所述会议是电话会议。3.根据权利要求1或2所述的方法,其中虚拟声学空间是相对于虚拟听众的头部在虚拟声学空间中的位置被确定的,并且其中空间优化成本函数应用对于将参与会议参与者双讲话的会议参与者布置于如下虚拟会议参与者位置处的惩罚,该虚拟会议参与者位置位于相对于虚拟听众头部的位置被定义的混淆锥上或者与该混淆锥相距在预定的角距离内,通过混淆锥的圆锥切片具有相同的耳间时间差异。4.根据权利要求1-3中任一项所述的方法,其中虚拟声学空间是相对于虚拟听众的头部在虚拟声学空间中的位置被确定的,并且其中空间优化成本函数应用对于将参与会议参与者相互会话的会议参与者布置于如下虚拟会议参与者位置处的惩罚,该虚拟会议参与者位置位于相对于虚拟听众头部的位置被定义的混淆锥上或者与该混淆锥相距在预定的角距离内,通过混淆锥的圆锥切片具有相同的耳间时间差异。5.根据权利要求1-4中任一项所述的方法,其中分析音频数据还包括确定哪些会议参与者,如果有的话,具有感知相似的语音。6.根据权利要求5所述的方法,其中虚拟声学空间是相对于虚拟听众的头部在虚拟声学空间中的位置被确定的,并且其中空间优化成本函数应用对于将具有感知相似的语音的会议参与者布置于如下虚拟会议参与者位置处的惩罚,该虚拟会议参与者位置位于相对于虚拟听众头部的位置被定义的混淆锥上或者与该混淆锥相距在预定的角距离内,通过混淆锥的圆锥切片具有相同的耳间时间差异。7.根据权利要求1-6中任一项所述的方法,其中虚拟声学空间是相对于虚拟听众的头部在虚拟声学空间中的位置被确定的,并且其中空间优化成本函数应用对于将频繁发言的会议参与者布置于在虚拟听众的头部位置旁边、后面、上方或下方的虚拟会议参与者位置处的惩罚。8.根据权利要求1-7中任一项所述的方法,其中虚拟声学空间是相对于虚拟听众的头部在虚拟声学空间中的位置被确定的,并且其中空间优化成本函数可以应用对于将频繁发言的会议参与者布置于与较不频繁发言的会议参与者的虚拟会议参与者位置相比距虚拟听众头部的位置更远的虚拟会议参与者位置处的惩罚。9.根据权利要求1-6中任一项所述的方法,其中虚拟声学空间是相对于虚拟听众的头部在虚拟声学空间中的位置被确定的,并且其中空间优化成本函数应用对于将很少发言的会议参与者布置于不在虚拟听众的头部位置旁边、后面、上方或下方的虚拟会议参与者位置处的惩罚。10.根据权利要求1-9中任一项所述的方法,其中优化技术包含选自一组优化技术的至少一种技术,该组优化技术包括梯度下降技术、共轭梯度技术、牛顿法、Broyden-Fletcher-Goldfarb-Shanno算法、遗传算法、模拟退火算法、蚁群优化方法、或蒙特卡罗方法。11.根据权利要求1-10中任一项所述的方法,其中分配虚拟会议参与者位置包括从一组预定的虚拟会议参与者位置中选择虚拟会议参与者位置。12.根据权利要求1-11中任一项所述的方法,其中音频数据包括语音活动检测过程的输出。13.根据权利要求1-12中任一项所述的方法,其中分析音频数据包含识别对应于个体会议参与者的语音。14.根据权利要求1-13中任一项所述的方法,其中音频数据对应于完整或基本上完整的会议的记录。15.一种非暂态介质,在所述非暂态介质上存储有软件,所述软件包括用于控制至少一个设备进行如下操作以便处理音频数据的指令:接收对应于涉及多个会议参与者的会议的记录的音频数据,所述音频数据包括以下至少一个:(a)来自多个端点的音频数据,所述多个端点中的各端点的音频数据已被分别记录,或(b)来自对应于多个会议参与者的单个端点的、并且包括所述多个会议参与者中的每个会议参与者的空间信息的音频数据;分析音频数据以确定会话动态数据,所述会话动态数据包括选自数据类型列表的至少一种数据类型,所述数据类型列表包括:指示会议参与者语音的频率和持续时间的数据、指示至少两个会议参与者在其期间同时发言的会议参与者双讲话的实例的数据、以及指示会议参与者会话的实例的数据;将会话动态数据应用作为描述了虚拟声学空间中的每个会议参与者的虚拟会议参与者位置的向量的空间优化成本函数的一个或多个变量;将优化技术应用于空间优化成本函数以确定局部最优解;以及至少部分地基于局部最优解来在虚拟声学空间中分配虚拟会议参与者位置。16.根据权利要求15所述的非暂态介质,其中虚拟声学空间是相对于虚拟听众的头部在虚拟声学空间中的位置被确定的,并且其中空间优化成本函数应用对于将参与会议参与者双讲话的会议参与者布置于如下虚拟会议参与者位置处的惩罚,该虚拟会议参与者位置位于相对于虚拟听众头部的位置被定义的混淆锥上或者与该混淆锥相距在预定的角距离内,通过混淆锥的圆锥切片具有相同的耳间时间差异。17.根据权利要求15或16所述的非暂态介质,其中虚拟声学空间是相对于虚拟听众的头部在虚拟声学空间中的位置被确定的,并且其中空间优化成本函数应用对于将参与会议参与者相互会话的会议参与者布置于如下虚拟会议参与者位置处的惩罚,该虚拟会议参与者位置位于相对于虚拟听众头部的位置被定义的混淆锥上或者与该混淆锥相距在预定的角距离内,通过混淆锥的圆锥切片具有相同的耳间时间差异。18.根据权利要求15-17中任一项所述的非暂态介质,其中分析音频数据还包括确定哪些会议参与者,如果有的话,具有感知相似的语音。19.根据权利要求18所述的非暂态介质,其中虚拟声学空间是相对于虚拟听众的头部在虚拟声学空间中的位置...

【专利技术属性】
技术研发人员:R·J·卡特莱特H·缪施
申请(专利权)人:杜比实验室特许公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1