描述了跟踪来自图像数据的手部或身体姿势,以例如控制游戏系统、自然用户接口或用于增强现实。在各种示例中,预测引擎取得图像数据的单个帧,并且预测图像数据中所描绘的手部或身体的姿势上的分布。在示例中,随机优化器具有其迭代地提炼的手部或身体的候选姿势池,并且来自所预测的分布的样本用于替换池中的一些候选姿势。在一些示例中,来自池的最佳候选姿势被选择作为当前跟踪的姿势并且选择过程使用手部或身体的3D模型。
【技术实现步骤摘要】
【国外来华专利技术】跟踪手部/身体姿势
技术介绍
来自图像数据的实时铰接式手动跟踪具有打开新人机交互场景的潜能。然而,人手的灵活性和自由度使得完全地铰接式手动的视觉跟踪更具挑战性。这还适于实时铰接式身体跟踪。在此所描述的实施例不限于解决已知手部/身体姿势跟踪器的缺点中的任何或全部的实现。
技术实现思路
以下呈现本公开的简化概要以便向读者提供基本理解。该概要不是本公开的广泛概述并且不标识关键/重要元素或描绘说明书的范围。其唯一目的是以简化形式将在此所公开的概念的选择呈现为稍后呈现的更详细描述的前序。描述了跟踪来自图像数据的手部或身体姿势,以例如控制游戏系统、自然用户接口或用于增强现实。在各种示例中,预测引擎取得图像数据的单个帧,并且预测图像数据中所描绘的手部或身体的姿势上的分布。在示例中,随机优化器具有其迭代地提炼的手部或身体的候选姿势池,并且来自所预测的分布的样本用于替换池中的一些候选姿势。在一些示例中,来自池的最佳候选姿势被选择作为当前跟踪的姿势并且选择过程使用手部或身体的3D模型。通过参考结合附图考虑的以下详细描述,由于许多伴随特征将变得更好理解,因此其将被更容易地理解。附图说明从根据附图阅读的以下详细描述,将更好地理解本描述。图1是使用向前、向上或在用户的肩膀上的图像采集设备来跟踪手部姿势的示意图;图2是手部/身体跟踪器的示意图;图3是预测引擎(诸如图2的预测引擎)的示意图;图4是图3的预测引擎处的方法的第一部分的流程图;图5是图4的方法的第二部分的流程图;图6是初始化或者更新候选姿势池的方法的流程图;图7是评分过程的流程图;图8是随机优化器处的过程的流程图;图9图示了在其中可以实现手部或身体跟踪器的实施例的示例性的基于计算的设备。在附图中,相同附图标记被用于指代相同部件。具体实施方式以下结合附图提供的详细描述旨在作为本示例的描述并且不旨在表示可以构建或利用本示例的仅有形式。该描述阐述示例的功能和步骤的顺序,以用于构建和操作示例。然而,可以通过不同的示例完成相同或等效功能和序列。图1是使用向前、向上或在用户100的肩膀上的图像采集设备102来跟踪手部姿势的示意图。在图1的顶部中所示的示例中,用户100坐在桌子处,在显示屏104的前面做出手部姿势,在显示屏104上是图像采集设备102。在该示例中,根据3D手模型和用户的手的跟踪姿势,在显示屏104上绘制手的图像。然而,这仅是示例并且跟踪的姿势可以被用于其他任务,诸如控制图形用户接口、增强现实应用、视频游戏和其他。在图1的中部所示的示例中,用户站立并且在地板上的图像采集设备102上做出手部姿势。在图1的下部中所示的示例中,用户坐在桌子处,并且图像采集设备102在用户100的肩膀上。用户的手具有许多自由度,可以进行各种复杂的姿势,存在遮挡的问题并且具有许多局部形状相似性。在此所描述的手动跟踪器的各种示例具有恢复的手动姿势中的改进的准确度。例如,通过使用其中预测引擎能够根据单个帧(如果需要的话)预测手部姿势上的分布的新处理管线。先前的方法尚未预测手部姿势上的分布。术语“手部姿势”在此用于指代手部以及手部的多个连接角的全局位置和全局定向。例如,手部姿势可以包括10或超过20个自由度,这取决于使用的手模型的细节和复杂性。通过使得预测引擎能够在每帧基础上根据单个帧操作,与先前的方法相比较,提高了鲁棒性。这是因为预测引擎能够在没有跟踪历史的情况下从单个帧来预测全自由度手部姿势。术语“鲁棒性”在此用于意指根据出于各种原因发生的跟踪故障而恢复得好的能力。例如,突然的手部运动、由其他对象(诸如另一只手、咖啡杯、用户的头发、照明条件的改变和其他)造成的手的遮挡。根据单个帧(如果需要的话)预测手部姿势上的分布不是简单的。在各种示例中,这通过将预测过程分解为阶段或层级实现。例如,通过预测第一阶段中的全局旋转仓上的分布,并且然后预测第二阶段中的进一步的分布。进一步的分布可以是旋转的四元数角表示、平移偏移、以及特定姿势分类内的姿势上的分布。对于机器学习系统而言,通过使用分层方法管理和降低预测手部姿势上的分布的存储器和计算资源的量。这样,手动跟踪器对于实际的应用(诸如对于台式计算机、移动电话、平板计算机和其他操作环境)是可行的。在一些示例中,还通过在不同的层处使用专用类型的机器学习系统实现效率和存储器节省。在一些示例中,特别地有效的方法已经被发现在预测引擎的第一层处使用蕨类(fern)并且在预测引擎的第二层处使用丛林。在各种示例中,预测引擎与随机优化器组合被用于给出改进的准确度。随机优化器是搜索问题的解的迭代过程,其中迭代过程使用随机生成的变量。例如,手部的候选姿势池由随机优化器迭代地被提炼,并且来自所预测的姿势上的分布的样本用于替换候选姿势池中的值。这样,遍及各种各样的人类手部姿势和运动已经发现手部姿势准确度中的改进。在一些示例(诸如图1中所述的那些示例)中,用户能够在任意的方向(不仅朝向传感器)上指手指并且手部姿势可以仍然被准确地跟踪。这可以通过将预测引擎配置为预测姿势上的分布而实现,如上文所提到的并且如下面的示例中更详细地描述的。预测引擎还使得手动跟踪器能够针对采集设备102布置(诸如图1中所图示的那些或其他)成功地工作。预测引擎还可以使得手动跟踪器在存在采集设备的运动和/或全身体运动的情况下成功地工作。在各种示例中,手动跟踪器是利用来自单个采集设备的数据可操作的,其给出成本节省、空间节省和使用多个采集设备的先前的系统上的简单性的益处。在一些示例中(诸如在使用飞行时间深度传感器的情况下),距在其内可以准确地跟踪手部姿势的距离的范围是大约10厘米到数米,其是比许多先前的方法大得多的范围。在一些示例中,手动跟踪器是实时可操作的。在图1中所示的示例中,采集设备102通过无线连接或有线连接与手部/身体跟踪器202通信。在一些示例中,手部/身体跟踪器202被定位在云中并且作为云服务被提供给本地于用户100的计算设备,诸如PC、平板计算机、移动电话、游戏系统或其他终端用户设备。图2是计算机实现的手部/身体跟踪器202的示意图。手部/身体跟踪器202将来自至少一个采集设备102的一个或多个图像流200当作输入。采集设备102能够采集一个或多个图像流。例如,采集设备102包括任何适合的类型(诸如飞行时间、结构化光、立体、散斑去相关)的深度照相机。在一些示例中,补充或者取代深度照相机,采集设备102包括彩色(RGB)视频照相机。例如,来自彩色视频照相机的数据可以用于计算深度信息。在一些示例(其中采集设备102是飞行时间传感器)中,在其上使用在此所描述的示例准确地跟踪手部姿势的距离的范围被发现是特别大的。对手部/身体跟踪器的图像流200输入包括图像帧数据,诸如针对彩色帧的红、绿和蓝通道数据、来自结构化光传感器的深度值、针对来自飞行时间传感器的帧的相位数据的三个通道、来自立体照相机的立体图像对、来自散斑去相关传感器的散斑图像。手部/身体跟踪器202产生跟踪的手(或者身体)姿势值218的流作为输出。姿势可以被表达为值的向量(或其他格式),针对姿势的每个自由度的一个向量被跟踪。例如,10或更多个或20或更多值。在一个示例中,姿势向量包括针对全局旋转分量的3个自由度、针对全局平移分量的3个自由度和针对多个联合转换的每本文档来自技高网...
【技术保护点】
一种跟踪手部或身体的姿势的方法,包括:接收描绘所述手部或所述身体的图像的流;将所述图像中的一副图像的至少一部分输入到预测引擎以获得所述手部或所述身体的姿势上的分布;访问所述手部或所述身体的候选姿势池并且使用随机优化器迭代地提炼所述候选姿势;以及利用来自所述手部或所述身体的姿势上的所述分布的样本来周期性地替换所述池中的所述候选姿势的子集。
【技术特征摘要】
【国外来华专利技术】2014.09.23 US 14/494,4311.一种跟踪手部或身体的姿势的方法,包括:接收描绘所述手部或所述身体的图像的流;将所述图像中的一副图像的至少一部分输入到预测引擎以获得所述手部或所述身体的姿势上的分布;访问所述手部或所述身体的候选姿势池并且使用随机优化器迭代地提炼所述候选姿势;以及利用来自所述手部或所述身体的姿势上的所述分布的样本来周期性地替换所述池中的所述候选姿势的子集。2.根据权利要求1所述的方法,包括利用来自所述手部或所述身体的姿势上的所述分布的样本来初始化所述候选姿势池。3.根据权利要求1所述的方法,其中将所述图像中的一副图像的至少一部分输入到所述预测引擎包括:将所述图像中的一副图像的所述至少一部分输入到所述预测引擎的多个层。4.根据权利要求3所述的方法,包括将所述图像中的一副图像的所述至少一部分输入到所述预测引擎的、包括分类器的第一层,所述第一层被布置为计算所述姿势的全局旋转分类上的分布。5.根据权利要求1所述的方法,其中将所述图像中的一副图像的至少一部分输入到所述预测引擎包括:将所述图像中的一副图像的所述至少一部分输入到所述预测引擎的第一层,并且接收来自所述第一层的结果,并且将所述图像中的一副图像的所述至少一部分输入到所述预测引擎的第二层的一部分,所述第二层的所述一部分使用所述结果被选择。6.根据权利要求3所述的方法,包括将所述图像中的一副图像的所述至少一部分输入到所述预测引擎的、包括有区别的蕨类集成的第一层。7.根据权利要求1所述的方法,其中将所述图像中的一副图像的至少一部分输入到所述预测引擎包括:将所述图像中的一副图像的所述至...
【专利技术属性】
技术研发人员:J·D·J·朔顿,C·科斯金,J·J·泰勒,T·夏普,S·伊扎迪,A·W·菲兹吉邦,P·科利,D·P·罗伯特森,
申请(专利权)人:微软技术许可有限责任公司,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。