本文描述了一种语音-身体身份相关。公开了一种用于随时间推移跟踪图像和音频数据以基于人在多用户游戏或多媒体设置中的语音与身体的相关性来自动地标识人的系统和方法。
Speech body identity
This paper describes a phonetic body identity correlation. A system and method for dynamically tracking a picture and audio data over time to indicate people dynamically based on the relevance of speech to body in a multi-user game or multimedia setting.
【技术实现步骤摘要】
本专利技术涉及一种用于在多用户应用程序中将语音与用户相关联的系统和方法。
技术介绍
诸如计算机游戏和多媒体应用之类的系统已经演变到系统能够利用用户移动和 口头通信作为对系统的输入的地步。此类自然系统可能连向多个用户,在此情况下迫使在 个体之间作出区分。现有技术允许游戏或应用通过各种机制来标识视场内的用户,这些机 制包括能够感测诸如大小、面部特征、衣着颜色等用户特征的三维深度相机。还存在语音识 别技术以通过包括话筒阵列在内的各种机制来标识感知用户语音。传统上,这两种技术还 未曾合作地使用过。在不用涉及用户方的特意装置的情况下自动将用户语音与身体相匹配 将是令人信服的。例如,可能会有单独使用成像技术或单独使用音频技术,人的身份不明确 的情况发生。在低成本的消费者系统中尤其如此。除了帮助明确用户外,音频与视觉身份 的此类关联可被用于支持游戏或应用内的用户体验。
技术实现思路
本文描述了一种用于在多用户应用程序中将语音与用户相关联的系统和方法。该 系统包括能够提供所述图像相机组件的视场中的一个或多个用户的深度图像的图像相机 组件。该系统还包括话筒阵列,其能够接收该话筒阵列的范围内的音频。话筒阵列还能够将 语音的源定位在第一容限内。实施例还包括与图像捕捉组件和话筒阵列两者通信且能够区 别视场中的不同用户达到第二容限的计算环境。在实施例中,第一和第二容限有时可能妨 碍在对来自图像相机的数据和来自话筒阵列的数据进行初始采样后将语音与用户相关联。 然而,计算环境还执行对来自图像相机的数据和来自话筒阵列的数据的附加采样。这些附 加采样允许将语音与用户相关联或者该些附加采样降低了语音与用户相关联的似然性。附图说明图1A-1B示出伴随用户玩游戏的目标识别、分析和跟踪系统的示例实施例。图2示出了可在目标识别、分析和跟踪系统中使用的捕捉设备的示例实施例。图3A示出了可用于在目标识别、分析和跟踪系统中解释一个或多个姿势的计算 环境的示例实施例。图IBB示出了可用于在目标识别、分析和跟踪系统中解释一个或多个姿势的计算 环境的另一示例实施例。图4描绘用于将语音与身体相关联的示例方法的高层流程图。图5描绘用于标识视场内的一个或多个身体的流程图。图6描绘用于标识由本系统的话筒阵列所拾取的语音的流程图。图7描绘用于将语音与身体毫无疑义地相关联的实施例的流程图。图8A和8B—起描绘用于经由对语音和身体位置标识的多次采样将语音与身体相关联的实施例的流程图。 具体实施例方式现在将参照图IA到8B来描述本技术的实施例,其一般涉及一种用于随时间推移 跟踪图像和音频数据以基于人体在多用户游戏或多媒体设置中的语音与身体的相关性来 自动地标识人体的系统。一般而言,该系统包括捕捉设备,包括用于感测视场中诸如人之类 的对象的一个或多个相机,以及用于感测诸如人的语音之类的音频的话筒阵列。相机能够 确定视场中的对象是否是人,并且还能确定所辨识的人的物理特征,诸如骨关节位置。相机 还能够确定视场中的人们彼此之间以及与捕捉设备的相对位置。话筒阵列能够确定所听到 声音是否是语音,并且可不时地区别不同的语音。话筒也可以能够确定一检出语音与其他 检出语音以及与话筒的相对位置。在图像和音频系统能够毫无疑义地确定给定语音属于视场中的给定用户身体的 情况下,存储该语音-身体关联性。然而,可能发生在图像和音频采样之后系统不能建立 单个毫无疑义关联性的情况。作为替代,系统标识所采样语音可能属于的一个或多个候选 用户。在此实例中,本系统可采用各种因素来确定语音与身体是否高于预定阈值置信度 (“TCL”)地相关联。若是,则尽管并非毫无疑义,仍可返回并存储该语音-身体关联性以 供未来采样使用。未来采样将或者强化该关联性,或者显示该关联性仍有疑意,在后一情形 下可移除该关联性。最初参考图1A-2,用于实现本专利技术的技术的硬件包括目标识别、分析和跟踪系统 10,该系统可用于识别、分析和/或跟踪诸如用户A到D等一个或多个人类目标。目标识 别、分析和跟踪系统10的各实施例包括用于执行游戏或其他应用程序的计算环境12,以及 用于从游戏或其他应用程序提供音频和视觉表示的视听设备16。系统10还包括捕捉设备 20,包括一个或多个深度感知相机以及包括两个或更多个话筒的话筒阵列。捕捉设备20与 计算环境12通信,以使得计算环境12可以部分地基于从捕捉设备20收到的信息来控制至 视听设备16的输出。这些组件中的每一各都会在以下详细描述。如图IA和IB所示,在一示例实施例中,在计算环境12上执行的应用程序可以是 多玩家游戏。基于接收自捕捉设备20的信息,计算环境12可使用视听设备16将每个用户 A-D的视觉表示提供作为玩家化身A' -D'。用户可以移进和移出视场。例如,图IA显示 用户A-D,而图IB显示用户A-C。每个化身k’ -D'可以反映相应用户A-D的移动的方式 在屏幕上移动。因此,用户在图IB中已经相对于他们在图IA中的位置进行了移动,以及用 户D'的化身在图IB中不可见,因为用户D已经离开了视场。尽管对于本专利技术技术而言并不是关键点,用户A-D可以执行被在计算环境12上运 行的软件引擎所识别的姿势,以使得在识别出该用户的姿势之际,用户的化身执行某个动 作。尽管在图IA和IB的示例中示出了 4个用户,但应理解本专利技术技术可在诸实施例中在 多于或少于4个用户的情况下工作。此外,本专利技术技术并不限于在游戏上下文中将语音与 说话者相关联,而且也可用在希望基于人的语音与身体的关联性来标识此人的各种其他实 例中。图2示出可在目标识别、分析和跟踪系统10中使用的捕捉设备20的示例实施例。 在一示例实施例中,捕捉设备20可包括图像相机组件22。组件22被配置成经由包括例如飞行时间、结构化光、立体图像等任何合适的技术来捕捉视场中的三维视频图象。根据一实 施例,图像相机组件22可将所计算的深度信息组织为“Z层”,即可与从深度照相机沿其视 线延伸的Z轴垂直的层。关于可组成捕捉设备20的部分的相机的另外细节在共同待审的题为“GESTURETOOL(姿势工具)”的专利申请第_号和共同待审的题为“STANDARD GESTURES (标准姿势)”的专利申请第_号中阐述,这些申请的每一个都通过整体引用结合于此。然而,一般而言,如图2所示,图像相机组件22可捕捉深度图像,深度图像具有所捕捉的场景 的二维0-D)像素区域,其中2-D像素区域中的每一像素可表示来自照相机的所捕捉的场 景中的对象的长度,该长度可采用例如厘米、毫米等单位。图像相机组件22能够对在图IA 和IB中由射线Rl和R2表示的视场内的对象进行成像。如图2所示,根据一示例实施例,图像相机组件22可包括可用于捕捉场景的深度 图像的顶光组件对、三维(3-D)照相机沈、和RGB照相机观。例如,在飞行时间分析中,捕 捉设备20的顶光组件M可将红外光发射到场景上,然后可使用传感器(未示出),使用例 如3-D照相机沈和/或RGB照相机观,来检测来自场景中的一个或多个目标和物体的表面 的反向散射光。根据另一实施例,捕捉设备20可包括两个或更多物理上分开的照相机,这些照相 机可从不同角度查看场景以获得视觉立体数据,该视觉立体数据可被解析以生成深度信 息。在任一实施例中,图像相机组本文档来自技高网...
【技术保护点】
1.在始于未知用户集合(A-D)的多用户应用程序中,一种标识用户与用户语音之间的相关性的方法,所述方法包括以下步骤:(a)接收在多个时段上拍摄的视频捕捉组件的视场内的对象(A′-D′)的多幅图像;(b)确定在所述步骤(a)中接收到的所述图像包括一个还是多个用户;(c)接收多个时段内话筒阵列的范围内的音频;(d)确定在所述步骤(c)中接收到的所述音频包括一个还是多个人类语音;以及(e)基于所述用户在不同图像中的所确定位置以及所述语音在不同时间的所确定源位置的多次采样来将所述步骤(d)中所标识的语音与所述视场内的所述一个或多个用户(A-D)中的用户相关联。
【技术特征摘要】
...
【专利技术属性】
技术研发人员:M·德尼斯,T·莱瓦德,C·克莱恩,李劲宇,
申请(专利权)人:微软公司,
类型:发明
国别省市:US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。