音频用户交互辨识和上下文精炼制造技术

技术编号：10863380 阅读：214 留言：0更新日期：2015-01-02 00:27

一种跟踪多个参与者之间的社交交互的系统包含：固定波束成形器，其适于输出第一经空间滤波输出，且经配置以从多个可导向波束成形器接收多个第二经空间滤波输出。每一可导向波束成形器输出所述第二经空间滤波输出中与所述参与者中的不同一者相关联的相应一者。所述系统还包含：处理器，其能够确定所述第一经空间滤波输出与所述第二经空间滤波输出中的每一者之间的相似性。所述处理器基于所述第一经空间滤波输出与所述第二经空间滤波输出中的每一者之间的所述相似性确定所述参与者之间的所述社交交互。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】音频用户交互辨识和上下文精炼相关申请案的交叉参考本申请案依据35U.S.C.§119(e)的权益主张2012年5月11日申请且标题为“音频用户交互辨识和上下文精炼(AUDIOUSERINTERACTIONRECOGNITIONANDCONTEXTREFINEMENT)”的第61/645,818号美国临时专利申请案的优先权，且主张2012年11月12日申请且标题为“音频用户交互辨识和上下文精炼(AUDIOUSERINTERACTIONRECOGNITIONANDCONTEXTREFINEMENT)”的第13/674,690号美国非临时专利申请案的优先权，以上申请案的内容明确地以引用方式并入本文。
技术介绍
通过在不同时间点确定用户正看着的方向可推导大量有用信息，且此信息可用以增强用户与多种计算系统的交互。因此，常见的是已经采取大量使用基于视觉的方法进行的凝视跟踪研究(即，使用若干不同装置跟踪眼睛)。然而，了解用户的凝视方向仅给出关于用户关注的一个维度的语义信息，且不考虑大部分由语音给出的上下文信息。换句话说，与语音跟踪结合的凝视跟踪的组合将在多种不同用户应用中提供较富含的且较有意义的信息。
技术实现思路
使用基于音频的方法确定上下文信息(即，正发送或由用户接收的非视觉信息)。通过朝向特定人或特定声音源导向音频波束可增强接收侧上的音频用户交互。本文描述的技术因此可允许用户较清楚地理解例如对话的上下文。为了实现这些益处，来自一或多个可导向麦克风阵列的输入和来自固定麦克风阵列的输入可用以在正呈现基于音频的上下文信息(或甚至基于视觉的语义信息)的情况下确定一个人正看着谁或一个...
音频用户交互辨识和上下文精炼

【技术保护点】
一种跟踪多个参与者之间的社交交互的系统，其包括：固定波束成形器，其适于输出第一经空间滤波输出，且经配置以从多个可导向波束成形器接收多个第二经空间滤波输出，每一可导向波束成形器输出所述第二经空间滤波输出中的相应一者且与所述参与者中的不同一者相关联；以及处理器，其能够确定所述第一经空间滤波输出与所述第二经空间滤波输出中的每一者之间的相似性，且能够基于所述第一经空间滤波输出与所述第二经空间滤波输出中的每一者之间的所述相似性确定所述参与者之间的所述社交交互。

【技术特征摘要】
【国外来华专利技术】2012.05.11 US 61/645,818;2012.11.12 US 13/674,6901.一种用于识别用户群组的主动说话用户的设备，所述设备包括：固定麦克风阵列，其经配置以：提供第一组经空间滤波输出，所述第一组经空间滤波输出对应于所述用户群组的多个主动说话用户，所述第一组经空间滤波输出指示多个主动说话用户的数目；以及从多个可导向麦克风阵列接收第二组经空间滤波输出，所述多个可导向麦克风阵列中的每一者经配置以输出所述第二组经空间滤波输出中的各自一者且与所述用户群组的相应用户相关联；处理器，其经配置以：确定所述第一组经空间滤波输出与所述第二组经空间滤波输出之间的相似性；基于所述相似性输出多个说话者识别符ID，所述多个说话者识别符中的每一说话者识别符对应于所述用户群组的不同主动说话用户；基于所述相似性确定所述多个用户之间的社交交互；以及基于所述社交交互识别与每一可导向麦克风阵列相关联的参与状态。2.根据权利要求1所述的设备，其中所述处理器进一步经配置以基于所述第二组经空间滤波输出中的至少一经空间滤波输出来精炼所述固定麦克风阵列的所述第一组经空间滤波输出。3.根据权利要求1所述的设备，其中所述处理器进一步经配置以计算所述固定麦克风阵列的所述第一组经空间滤波输出与来自所述多个可导向麦克风阵列的第一可导向麦克风阵列的特定经空间滤波输出之间的相关。4.根据权利要求1所述的设备，其中所述固定麦克风阵列包含在第一移动装置内，且所述多个可导向麦克风阵列的第一可导向麦克风阵列包含在不同于所述第一移动装置的第二移动装置内。5.根据权利要求1所述的设备，其中所述处理器进一步经配置以基于以下各项中的至少一者来确定所述相似性：相关，在时域或频域中具有可允许时间调整的最小二乘法拟合，使用线性预测译码LPC或梅尔频率倒谱系数MFCC的基于特征的方法，或使用交叉累积量、经验库贝克-李柏发散或板仓-斋藤距离的基于较高阶的方法。6.根据权利要求1所述的设备，其中所述处理器进一步经配置以确定所述用户群组中的至少一者的位置。7.根据权利要求1所述的设备，其中所述固定麦克风阵列进一步经配置以：执行围绕所述固定麦克风阵列的多个到达方向DOA估计；基于所述多个DOA估计确定来自所述用户群组的第一主动说话用户；以及产生对应于所述第一主动说话用户的特定经空间滤波输出，所述特定经空间滤波输出包含在所述第一组经空间滤波输出...

【专利技术属性】
技术研发人员：金莱轩，辛钟元，埃里克·维瑟，
申请(专利权)人：高通股份有限公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人