Various public implementations involve processing and / or playback of records of meetings involving multiple meeting participants. Some implementations include receiving or determining session dynamic data. One or more variables of a cost function may be based at least in part on session dynamic data. The cost function can be a spatial optimization cost function describing the vector of each participant's virtual meeting participant position in the virtual acoustic space. The virtual acoustic space can be determined relative to the head of the listener. The location of the virtual conference participant can be assigned according to the cost function.
【技术实现步骤摘要】
【国外来华专利技术】用于空间会议回放的优化虚拟场景布局相关申请的交叉引用本申请要求2015年2月3日提交的申请号为PCT/CN2015/072154的PCT专利申请;以及2015年3月5日提交的美国临时专利申请第62/128,626号的优先权,它们中的每一个全文通过引用并入本文。
本公开涉及音频信号的处理。特别地,本公开涉及处理与会议相关的音频信号,包括但不限于处理用于电话会议或视频会议的音频信号。
技术介绍
在电话会议领域,通常提供设施以允许记录电话会议以供在电话会议结束之后进行回放。这可以使得那些无法参加会议的人听到会议中发生了什么。它还可以让那些在场的人刷新他们对电话会议期间所发生的事情的记忆。记录设施有时用于确保某些行业(如银行业)的法规遵从。典型的电话会议记录是包含所有各方到记录介质上的混合的单个单声道流。这通常通过将“虚拟”客户端或电话连接到电话会议桥或如下服务器来实现,该服务器对于桥看上去像普通客户端或电话,但实际上这可以是简单地记录其下行链路的机器。在这种系统中,聆听录音的回放的体验与原始电话会议期间在电话或客户端上被动地进行聆听的体验相同或基本相同。
技术实现思路
根据本文公开的一些实现方式,一种方法可以涉及处理音频数据。一些这样的方法可以涉及接收对应于涉及多个会议参与者的会议的记录的音频数据。在一些例子中,会议可能是电话会议。然而,在一些例子中,会议可能是面对面会议(in-personconference)。根据一些示例,音频数据可以包括来自多个端点的音频数据。多个端点中的每一个的音频数据可能已被单独记录。作为替代地或者附加地,音频数据中的至少一些可以来自对应 ...
【技术保护点】
一种用于处理音频数据的方法,所述方法包括:接收对应于涉及多个会议参与者的会议的记录的音频数据,所述音频数据包括以下至少一个:(a)来自多个端点的音频数据,所述多个端点中的各端点的音频数据已被分别记录,或(b)来自对应于多个会议参与者的单个端点的、并且包括所述多个会议参与者中的每个会议参与者的空间信息的音频数据;分析音频数据以确定会话动态数据,所述会话动态数据包括选自数据类型列表的至少一种数据类型,所述数据类型列表包括:指示会议参与者语音的频率和持续时间的数据、指示至少两个会议参与者在其期间同时发言的会议参与者双讲话的实例的数据、以及指示会议参与者会话的实例的数据;将会话动态数据应用作为描述了虚拟声学空间中的每个会议参与者的虚拟会议参与者位置的向量的空间优化成本函数的一个或多个变量;将优化技术应用于空间优化成本函数以确定局部最优解;以及至少部分地基于局部最优解来在虚拟声学空间中分配虚拟会议参与者位置。
【技术特征摘要】
【国外来华专利技术】2015.03.05 US 62/128,626;2015.02.03 CN PCT/CN2015/1.一种用于处理音频数据的方法,所述方法包括:接收对应于涉及多个会议参与者的会议的记录的音频数据,所述音频数据包括以下至少一个:(a)来自多个端点的音频数据,所述多个端点中的各端点的音频数据已被分别记录,或(b)来自对应于多个会议参与者的单个端点的、并且包括所述多个会议参与者中的每个会议参与者的空间信息的音频数据;分析音频数据以确定会话动态数据,所述会话动态数据包括选自数据类型列表的至少一种数据类型,所述数据类型列表包括:指示会议参与者语音的频率和持续时间的数据、指示至少两个会议参与者在其期间同时发言的会议参与者双讲话的实例的数据、以及指示会议参与者会话的实例的数据;将会话动态数据应用作为描述了虚拟声学空间中的每个会议参与者的虚拟会议参与者位置的向量的空间优化成本函数的一个或多个变量;将优化技术应用于空间优化成本函数以确定局部最优解;以及至少部分地基于局部最优解来在虚拟声学空间中分配虚拟会议参与者位置。2.根据权利要求1所述的方法,其中,所述会议是电话会议。3.根据权利要求1或2所述的方法,其中虚拟声学空间是相对于虚拟听众的头部在虚拟声学空间中的位置被确定的,并且其中空间优化成本函数应用对于将参与会议参与者双讲话的会议参与者布置于如下虚拟会议参与者位置处的惩罚,该虚拟会议参与者位置位于相对于虚拟听众头部的位置被定义的混淆锥上或者与该混淆锥相距在预定的角距离内,通过混淆锥的圆锥切片具有相同的耳间时间差异。4.根据权利要求1-3中任一项所述的方法,其中虚拟声学空间是相对于虚拟听众的头部在虚拟声学空间中的位置被确定的,并且其中空间优化成本函数应用对于将参与会议参与者相互会话的会议参与者布置于如下虚拟会议参与者位置处的惩罚,该虚拟会议参与者位置位于相对于虚拟听众头部的位置被定义的混淆锥上或者与该混淆锥相距在预定的角距离内,通过混淆锥的圆锥切片具有相同的耳间时间差异。5.根据权利要求1-4中任一项所述的方法,其中分析音频数据还包括确定哪些会议参与者,如果有的话,具有感知相似的语音。6.根据权利要求5所述的方法,其中虚拟声学空间是相对于虚拟听众的头部在虚拟声学空间中的位置被确定的,并且其中空间优化成本函数应用对于将具有感知相似的语音的会议参与者布置于如下虚拟会议参与者位置处的惩罚,该虚拟会议参与者位置位于相对于虚拟听众头部的位置被定义的混淆锥上或者与该混淆锥相距在预定的角距离内,通过混淆锥的圆锥切片具有相同的耳间时间差异。7.根据权利要求1-6中任一项所述的方法,其中虚拟声学空间是相对于虚拟听众的头部在虚拟声学空间中的位置被确定的,并且其中空间优化成本函数应用对于将频繁发言的会议参与者布置于在虚拟听众的头部位置旁边、后面、上方或下方的虚拟会议参与者位置处的惩罚。8.根据权利要求1-7中任一项所述的方法,其中虚拟声学空间是相对于虚拟听众的头部在虚拟声学空间中的位置被确定的,并且其中空间优化成本函数可以应用对于将频繁发言的会议参与者布置于与较不频繁发言的会议参与者的虚拟会议参与者位置相比距虚拟听众头部的位置更远的虚拟会议参与者位置处的惩罚。9.根据权利要求1-6中任一项所述的方法,其中虚拟声学空间是相对于虚拟听众的头部在虚拟声学空间中的位置被确定的,并且其中空间优化成本函数应用对于将很少发言的会议参与者布置于不在虚拟听众的头部位置旁边、后面、上方或下方的虚拟会议参与者位置处的惩罚。10.根据权利要求1-9中任一项所述的方法,其中优化技术包含选自一组优化技术的至少一种技术,该组优化技术包括梯度下降技术、共轭梯度技术、牛顿法、Broyden-Fletcher-Goldfarb-Shanno算法、遗传算法、模拟退火算法、蚁群优化方法、或蒙特卡罗方法。11.根据权利要求1-10中任一项所述的方法,其中分配虚拟会议参与者位置包括从一组预定的虚拟会议参与者位置中选择虚拟会议参与者位置。12.根据权利要求1-11中任一项所述的方法,其中音频数据包括语音活动检测过程的输出。13.根据权利要求1-12中任一项所述的方法,其中分析音频数据包含识别对应于个体会议参与者的语音。14.根据权利要求1-13中任一项所述的方法,其中音频数据对应于完整或基本上完整的会议的记录。15.一种非暂态介质,在所述非暂态介质上存储有软件,所述软件包括用于控制至少一个设备进行如下操作以便处理音频数据的指令:接收对应于涉及多个会议参与者的会议的记录的音频数据,所述音频数据包括以下至少一个:(a)来自多个端点的音频数据,所述多个端点中的各端点的音频数据已被分别记录,或(b)来自对应于多个会议参与者的单个端点的、并且包括所述多个会议参与者中的每个会议参与者的空间信息的音频数据;分析音频数据以确定会话动态数据,所述会话动态数据包括选自数据类型列表的至少一种数据类型,所述数据类型列表包括:指示会议参与者语音的频率和持续时间的数据、指示至少两个会议参与者在其期间同时发言的会议参与者双讲话的实例的数据、以及指示会议参与者会话的实例的数据;将会话动态数据应用作为描述了虚拟声学空间中的每个会议参与者的虚拟会议参与者位置的向量的空间优化成本函数的一个或多个变量;将优化技术应用于空间优化成本函数以确定局部最优解;以及至少部分地基于局部最优解来在虚拟声学空间中分配虚拟会议参与者位置。16.根据权利要求15所述的非暂态介质,其中虚拟声学空间是相对于虚拟听众的头部在虚拟声学空间中的位置被确定的,并且其中空间优化成本函数应用对于将参与会议参与者双讲话的会议参与者布置于如下虚拟会议参与者位置处的惩罚,该虚拟会议参与者位置位于相对于虚拟听众头部的位置被定义的混淆锥上或者与该混淆锥相距在预定的角距离内,通过混淆锥的圆锥切片具有相同的耳间时间差异。17.根据权利要求15或16所述的非暂态介质,其中虚拟声学空间是相对于虚拟听众的头部在虚拟声学空间中的位置被确定的,并且其中空间优化成本函数应用对于将参与会议参与者相互会话的会议参与者布置于如下虚拟会议参与者位置处的惩罚,该虚拟会议参与者位置位于相对于虚拟听众头部的位置被定义的混淆锥上或者与该混淆锥相距在预定的角距离内,通过混淆锥的圆锥切片具有相同的耳间时间差异。18.根据权利要求15-17中任一项所述的非暂态介质,其中分析音频数据还包括确定哪些会议参与者,如果有的话,具有感知相似的语音。19.根据权利要求18所述的非暂态介质,其中虚拟声学空间是相对于虚拟听众的头部在虚拟声学空间中的位置...
【专利技术属性】
技术研发人员:R·J·卡特莱特,H·缪施,
申请(专利权)人:杜比实验室特许公司,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。