语音-身体身份相关制造技术

技术编号：6046136 阅读：209 留言：0更新日期：2012-04-11 18:40

本文描述了一种语音-身体身份相关。公开了一种用于随时间推移跟踪图像和音频数据以基于人在多用户游戏或多媒体设置中的语音与身体的相关性来自动地标识人的系统和方法。

Speech body identity

This paper describes a phonetic body identity correlation. A system and method for dynamically tracking a picture and audio data over time to indicate people dynamically based on the relevance of speech to body in a multi-user game or multimedia setting.

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种用于在多用户应用程序中将语音与用户相关联的系统和方法。
技术介绍
诸如计算机游戏和多媒体应用之类的系统已经演变到系统能够利用用户移动和口头通信作为对系统的输入的地步。此类自然系统可能连向多个用户，在此情况下迫使在个体之间作出区分。现有技术允许游戏或应用通过各种机制来标识视场内的用户，这些机制包括能够感测诸如大小、面部特征、衣着颜色等用户特征的三维深度相机。还存在语音识别技术以通过包括话筒阵列在内的各种机制来标识感知用户语音。传统上，这两种技术还未曾合作地使用过。在不用涉及用户方的特意装置的情况下自动将用户语音与身体相匹配将是令人信服的。例如，可能会有单独使用成像技术或单独使用音频技术，人的身份不明确的情况发生。在低成本的消费者系统中尤其如此。除了帮助明确用户外，音频与视觉身份的此类关联可被用于支持游戏或应用内的用户体验。
技术实现思路
本文描述了一种用于在多用户应用程序中将语音与用户相关联的系统和方法。该系统包括能够提供所述图像相机组件的视场中的一个或多个用户的深度图像的图像相机组件。该系统还包括话筒阵列，其能够接收该话筒阵列的范围内的音频。话筒阵列还能够将语音的源定位在第一容限内。实施例还包括与图像捕捉组件和话筒阵列两者通信且能够区别视场中的不同用户达到第二容限的计算环境。在实施例中，第一和第二容限有时可能妨碍在对来自图像相机的数据和来自话筒阵列的数据进行初始采样后将语音与用户相关联。然而，计算环境还执行对来自图像相机的数据和来自话筒阵列的数据的附加采样。这些附加采样允许将语音与用户相关联或者该些附加采样降...

【技术保护点】
１．在始于未知用户集合（Ａ－Ｄ）的多用户应用程序中，一种标识用户与用户语音之间的相关性的方法，所述方法包括以下步骤：（ａ）接收在多个时段上拍摄的视频捕捉组件的视场内的对象（Ａ′－Ｄ′）的多幅图像；（ｂ）确定在所述步骤（ａ）中接收到的所述图像包括一个还是多个用户；（ｃ）接收多个时段内话筒阵列的范围内的音频；（ｄ）确定在所述步骤（ｃ）中接收到的所述音频包括一个还是多个人类语音；以及（ｅ）基于所述用户在不同图像中的所确定位置以及所述语音在不同时间的所确定源位置的多次采样来将所述步骤（ｄ）中所标识的语音与所述视场内的所述一个或多个用户（Ａ－Ｄ）中的用户相关联。

【技术特征摘要】
...

【专利技术属性】
技术研发人员：M·德尼斯，T·莱瓦德，C·克莱恩，李劲宇，
申请(专利权)人：微软公司，
类型：发明
国别省市：US

全部详细技术资料下载我是这个专利的主人