音频用户交互辨识和上下文精炼制造技术

技术编号:10863380 阅读:207 留言:0更新日期:2015-01-02 00:27
一种跟踪多个参与者之间的社交交互的系统包含:固定波束成形器,其适于输出第一经空间滤波输出,且经配置以从多个可导向波束成形器接收多个第二经空间滤波输出。每一可导向波束成形器输出所述第二经空间滤波输出中与所述参与者中的不同一者相关联的相应一者。所述系统还包含:处理器,其能够确定所述第一经空间滤波输出与所述第二经空间滤波输出中的每一者之间的相似性。所述处理器基于所述第一经空间滤波输出与所述第二经空间滤波输出中的每一者之间的所述相似性确定所述参与者之间的所述社交交互。

【技术实现步骤摘要】
【国外来华专利技术】音频用户交互辨识和上下文精炼相关申请案的交叉参考本申请案依据35U.S.C.§119(e)的权益主张2012年5月11日申请且标题为“音频用户交互辨识和上下文精炼(AUDIOUSERINTERACTIONRECOGNITIONANDCONTEXTREFINEMENT)”的第61/645,818号美国临时专利申请案的优先权,且主张2012年11月12日申请且标题为“音频用户交互辨识和上下文精炼(AUDIOUSERINTERACTIONRECOGNITIONANDCONTEXTREFINEMENT)”的第13/674,690号美国非临时专利申请案的优先权,以上申请案的内容明确地以引用方式并入本文。
技术介绍
通过在不同时间点确定用户正看着的方向可推导大量有用信息,且此信息可用以增强用户与多种计算系统的交互。因此,常见的是已经采取大量使用基于视觉的方法进行的凝视跟踪研究(即,使用若干不同装置跟踪眼睛)。然而,了解用户的凝视方向仅给出关于用户关注的一个维度的语义信息,且不考虑大部分由语音给出的上下文信息。换句话说,与语音跟踪结合的凝视跟踪的组合将在多种不同用户应用中提供较富含的且较有意义的信息。
技术实现思路
使用基于音频的方法确定上下文信息(即,正发送或由用户接收的非视觉信息)。通过朝向特定人或特定声音源导向音频波束可增强接收侧上的音频用户交互。本文描述的技术因此可允许用户较清楚地理解例如对话的上下文。为了实现这些益处,来自一或多个可导向麦克风阵列的输入和来自固定麦克风阵列的输入可用以在正呈现基于音频的上下文信息(或甚至基于视觉的语义信息)的情况下确定一个人正看着谁或一个人相对于正在说话的人注意什么内容。对于各种实施方案,使用两种不同类型的麦克风阵列装置(MAD)。第一类型的MAD是可导向麦克风阵列(本文也称为可导向阵列),其由用户佩戴在关于用户的眼睛的已知定向上,且多个用户可各自佩戴可导向阵列。第二类型的MAD是固定位置麦克风阵列(本文也称为固定阵列),其放置于与用户(其中一或多者正使用可导向阵列)相同的声学空间中。对于某些实施方案,可导向麦克风阵列可为有源噪声控制(ANC)头戴式耳机或助听器的部分。可存在多个可导向阵列,其各自与例如会议或群组中的不同用户或说话者(本文也称为参与者)相关联。在此上下文中,固定麦克风阵列将随后用以使用音频波束来分离在群组会议期间说话和收听的不同人,所述音频波束对应于所述不同人相对于所述固定阵列定位的方向。评估固定阵列的经分离说话者的音频波束与可导向阵列的输出之间的相关或相似性。相关是相似性量度的一个实例,但可使用若干相似性测量或确定技术中的任一者。在一实施方案中,固定阵列的经分离参与者的音频波束与可导向阵列的输出之间的相似性量度可用以跟踪参与者之间的社交交互,包含在不同参与者说话或呈现基于音频的信息时参与者随着时间的凝视方向。在一实施方案中,固定阵列的经分离参与者的音频波束与可导向阵列的输出之间的相似性量度可用以例如放大目标参与者。此缩放又可能在一个用户(在所述时刻是收听者)正凝视着正提供基于音频的信息(即,说话)的另一个人时导致增强的噪声滤波和放大。在一实施方案中,固定阵列的经分离参与者的音频波束与可导向阵列的输出之间的相似性量度可用以自适应地形成目标参与者的较好波束,从而实际上较好地确定用户中的每一者相对于彼此的物理定向。提供此概述以用简化形式介绍概念的选择,所述概念在以下详细描述中进一步描述。此概述既定不识别所主张标的物的关键特征或本质特征,也既定不用以限制所主张标的物的范围。附图说明当结合附图阅读时更好地理解前述概述以及以下对说明性实施例的详细描述。为了说明实施例的目的,在图中展示实施例的实例性构造;然而,实施例不限于所揭示的特定方法和手段。在图中:图1是可用以确定上下文信息的各自佩戴可导向麦克风阵列的用户群组连同固定麦克风阵列的图;图2是使用可导向麦克风阵列和固定麦克风阵列确定用户交互的方法的实施方案的操作流程;图3是使用可导向麦克风阵列和固定麦克风阵列确定用户交互的方法的另一实施方案的操作流程;图4是可提供用户身份和用户正观看哪一方向的指示的实例性显示的图;图5是可产生和显示且指示各种用户交互和会议数据的用户接口的图;图6是可产生且显示(例如,在智能电话显示器上)且指示各种用户交互(例如,在会议期间)的用户接口的实例性显示的图;图7是指示相对于各种话题的各种用户交互的实例性显示的图;图8是指示随着时间的各种用户交互的实例性显示的图;图9是指示随着时间的各种用户交互的另一实例性显示的图;图10是使用交叉相关测量相似性的方法的实施方案的操作流程;图11是使用交叉累积量测量相似性的方法的实施方案的操作流程;图12是使用时域最小二乘法拟合测量相似性的方法的实施方案的操作流程;图13是使用频域最小二乘法拟合测量相似性的方法的实施方案的操作流程;图14是使用板仓-斋藤距离测量相似性的方法的实施方案的操作流程;图15是使用基于特征的方法测量相似性的方法的实施方案的操作流程;图16展示实例性用户接口显示;图17展示示范性用户接口显示以展示显示上的合作缩放;图18是用于放大目标参与者的方法的实施方案的操作流程;图19展示具有额外候选观看方向的实例性用户接口显示;图20是用于自适应地精炼目标说话者的波束的方法的实施方案的操作流程;图21展示相对于麦克风对的平面波传播的远场模型;图22展示线性阵列中的多个麦克风对;图23展示四个不同DOA的未缠绕相位延迟对频率的绘图,且图24展示相同DOA的缠绕相位延迟对频率的绘图;图25展示两个DOA候选的测得相位延迟值和所计算值的实例;图26展示沿着电视机屏幕的顶部边限布置的线性麦克风阵列;图27展示计算帧的DOA差的实例;图28展示计算DOA估计的实例;图29展示针对每一频率识别DOA估计的实例;图30展示使用所计算可能性来针对给定频率识别最佳麦克风对和最佳DOA候选的实例;图31展示可能性计算的实例;图32展示扬声器电话应用的实例;图33展示逐对DOA估计到麦克风阵列的平面中的360°范围的映射;图34和35展示DOA估计中的模糊性;图36展示观测到的DOA的正负号与x-y平面的象限之间的关系;图37到40展示其中源位于麦克风的平面上方的实例;图41展示沿着非正交轴的麦克风对的实例;图42展示使用图41的阵列获得相对于正交x和y轴的DOA估计的实例;图43和44展示针对两对麦克风阵列(例如,如图45中所示)的逐对正规化波束成形器/空波束成形器(BFNF)的实例;图46展示逐对正规化最小方差无失真响应(MVDR)BFNF的实例;图47展示其中矩阵AHA并非条件不良的频率的逐对BFNF的实例;图48展示导向向量的实例;以及图49展示如本文描述的源方向估计的集成方法的流程图。具体实施方式除非由其上下文明确限制,否则术语“信号”在此用以指示其普通意义中的任一者,包含如在电线、总线或其它传输媒体上表示的存储器位置(或存储器位置集合)的状态。除非由其上下文明确限制,否则术语“产生”在此用以指示其普通意义中的任一者,例如计算或以其它方式产生。除非由其上下文明确限制,否则术语“计算”在此用以指示其普通意义中的任一者,例如计算、评估、估计和/或从多个值中选本文档来自技高网...
音频用户交互辨识和上下文精炼

【技术保护点】
一种跟踪多个参与者之间的社交交互的系统,其包括:固定波束成形器,其适于输出第一经空间滤波输出,且经配置以从多个可导向波束成形器接收多个第二经空间滤波输出,每一可导向波束成形器输出所述第二经空间滤波输出中的相应一者且与所述参与者中的不同一者相关联;以及处理器,其能够确定所述第一经空间滤波输出与所述第二经空间滤波输出中的每一者之间的相似性,且能够基于所述第一经空间滤波输出与所述第二经空间滤波输出中的每一者之间的所述相似性确定所述参与者之间的所述社交交互。

【技术特征摘要】
【国外来华专利技术】2012.05.11 US 61/645,818;2012.11.12 US 13/674,6901.一种用于识别用户群组的主动说话用户的设备,所述设备包括:固定麦克风阵列,其经配置以:提供第一组经空间滤波输出,所述第一组经空间滤波输出对应于所述用户群组的多个主动说话用户,所述第一组经空间滤波输出指示多个主动说话用户的数目;以及从多个可导向麦克风阵列接收第二组经空间滤波输出,所述多个可导向麦克风阵列中的每一者经配置以输出所述第二组经空间滤波输出中的各自一者且与所述用户群组的相应用户相关联;处理器,其经配置以:确定所述第一组经空间滤波输出与所述第二组经空间滤波输出之间的相似性;基于所述相似性输出多个说话者识别符ID,所述多个说话者识别符中的每一说话者识别符对应于所述用户群组的不同主动说话用户;基于所述相似性确定所述多个用户之间的社交交互;以及基于所述社交交互识别与每一可导向麦克风阵列相关联的参与状态。2.根据权利要求1所述的设备,其中所述处理器进一步经配置以基于所述第二组经空间滤波输出中的至少一经空间滤波输出来精炼所述固定麦克风阵列的所述第一组经空间滤波输出。3.根据权利要求1所述的设备,其中所述处理器进一步经配置以计算所述固定麦克风阵列的所述第一组经空间滤波输出与来自所述多个可导向麦克风阵列的第一可导向麦克风阵列的特定经空间滤波输出之间的相关。4.根据权利要求1所述的设备,其中所述固定麦克风阵列包含在第一移动装置内,且所述多个可导向麦克风阵列的第一可导向麦克风阵列包含在不同于所述第一移动装置的第二移动装置内。5.根据权利要求1所述的设备,其中所述处理器进一步经配置以基于以下各项中的至少一者来确定所述相似性:相关,在时域或频域中具有可允许时间调整的最小二乘法拟合,使用线性预测译码LPC或梅尔频率倒谱系数MFCC的基于特征的方法,或使用交叉累积量、经验库贝克-李柏发散或板仓-斋藤距离的基于较高阶的方法。6.根据权利要求1所述的设备,其中所述处理器进一步经配置以确定所述用户群组中的至少一者的位置。7.根据权利要求1所述的设备,其中所述固定麦克风阵列进一步经配置以:执行围绕所述固定麦克风阵列的多个到达方向DOA估计;基于所述多个DOA估计确定来自所述用户群组的第一主动说话用户;以及产生对应于所述第一主动说话用户的特定经空间滤波输出,所述特定经空间滤波输出包含在所述第一组经空间滤波输出...

【专利技术属性】
技术研发人员:金莱轩辛钟元埃里克·维瑟
申请(专利权)人:高通股份有限公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1