实现方案通常使用重建的三维(3D)姿势来执行鲁棒的多视角多目标动作识别。在一些实现方案中,一种方法包括获得环境中的多个被摄体的多个视频,其中所述多个被摄体中的至少一个目标被摄体在所述环境中执行一个或多个动作。该方法还包括跨至少两个相机跟踪所述至少一个目标被摄体。该方法还包括基于所述多个视频和对所述至少一个目标被摄体的跟踪来重建所述至少一个目标被摄体的三维(3D)模型。该方法还包括基于3D模型的重建来识别所述至少一个目标被摄体的一个或多个动作。目标被摄体的一个或多个动作。目标被摄体的一个或多个动作。
【技术实现步骤摘要】
【国外来华专利技术】多视角多目标动作识别
[0001]相关申请的交叉引用
[0002]本申请要求2021年12月22日提交的题为MULTI
‑
VIEW MULTI
‑
TARGET ACTION RECOGNITION的美国专利申请No.17/559,751的优先权,该申请要求2021年8月10日提交的题为ROBUST MULTI
‑
VIEW MULTI
‑
TARGET ACTION RECOGNITION USING RECONSTRUCTED 3D POSES的美国临时专利申请No.63/260,108(客户参考编号SYP340606US01)的优先权,这些申请在此通过引用并入本文中,如同在本申请中完全阐述那样,以用于所有目的。
技术介绍
[0003]动作识别已成为活跃的研究领域,并且此类研究在继续快速发展。一些相机系统能够捕获人的视频,分析人的运动,并生成元数据的图像或视频数据集。为了识别由系统的相机视频捕获的人类动作,人需要手动查看视频。手动监视和事件报告可能是不可靠且耗时的,尤其是在视频相机的位置和角度可能变化并且可能无法提供足够覆盖的情况下。在受控环境中可以使用多个相机。然而,被摄体、运动和背景变化可能仍然受到很大限制。此外,理解复杂环境中多人的姿势信息仍然是挑战。
技术实现思路
[0004]实施例一般涉及多视角多目标动作识别。在一些实施例中,一种系统包括一个或多个处理器,并且包括编码在一个或多个非暂态计算机可读存储介质中以供所述一个或多个处理器执行的逻辑。当被执行时,所述逻辑可操作以使所述一个或多个处理器执行包括以下的操作:获得环境中的多个被摄体的多个视频,其中所述多个被摄体中的至少一个目标被摄体在所述环境中执行一个或多个动作;跨至少两个相机跟踪所述至少一个目标被摄体;基于所述多个视频和对所述至少一个目标被摄体的跟踪来重建所述至少一个目标被摄体的三维(3D)模型;以及基于3D模型的重建来识别所述至少一个目标被摄体的一个或多个动作。
[0005]进一步关于所述系统,在一些实施例中,获得的所述多个视频是二维(2D)视频。在一些实施例中,所述逻辑在被执行时还可操作以使所述一个或多个处理器执行包括以下的操作:为所述至少一个目标被摄体确定一个或多个关键点。在一些实施例中,所述逻辑在被执行时还可操作以使所述一个或多个处理器执行包括以下的操作:确定与所述至少一个目标被摄体相关联的姿势信息。在一些实施例中,所述逻辑在被执行时还可操作以使所述一个或多个处理器执行包括以下的操作:基于姿势信息重建3D模型。在一些实施例中,所述逻辑在被执行时还可操作以使所述一个或多个处理器执行包括以下的操作:确定与所述至少一个目标被摄体相关联的姿势信息;以及基于所述姿势信息的确定来识别所述至少一个目标被摄体的一个或多个动作。在一些实施例中,所述逻辑在被执行时还可操作以使所述一个或多个处理器执行包括以下的操作:基于3D模型的重建,在所述至少一个目标被摄体的多个动作中的不同动作之间进行区分。
[0006]在一些实施例中,提供一种在其上具有程序指令的非暂态计算机可读存储介质。
当由一个或多个处理器执行时,所述指令可操作以使所述一个或多个处理器执行包括以下的操作:获得环境中的多个被摄体的多个视频,其中所述多个被摄体中的至少一个目标被摄体在所述环境中执行一个或多个动作;跨至少两个相机跟踪所述至少一个目标被摄体;基于所述多个视频和对所述至少一个目标被摄体的跟踪来重建所述至少一个目标被摄体的三维(3D)模型;以及基于3D模型的重建来识别所述至少一个目标被摄体的一个或多个动作。
[0007]进一步关于所述计算机可读存储介质,在一些实施例中,获得的所述多个视频是二维(2D)视频。在一些实施例中,所述指令在被执行时还可操作以使所述一个或多个处理器执行包括以下的操作:为所述至少一个目标被摄体确定一个或多个关键点。在一些实施例中,所述指令在被执行时还可操作以使所述一个或多个处理器执行包括以下的操作:确定与所述至少一个目标被摄体相关联的姿势信息。在一些实施例中,所述指令在被执行时还可操作以使所述一个或多个处理器执行包括以下的操作:基于姿势信息重建3D模型。在一些实施例中,所述指令在被执行时还可操作以使所述一个或多个处理器执行包括以下的操作:确定与所述至少一个目标被摄体相关联的姿势信息;以及基于所述姿势信息的确定来识别所述至少一个目标被摄体的一个或多个动作。在一些实施例中,所述指令在被执行时还可操作以使所述一个或多个处理器执行包括以下的操作:基于3D模型的重建,在所述至少一个目标被摄体的多个动作中的不同动作之间进行区分。
[0008]在一些实施例中,一种方法包括:获得环境中的多个被摄体的多个视频,其中所述多个被摄体中的至少一个目标被摄体在所述环境中执行一个或多个动作;跨至少两个相机跟踪所述至少一个目标被摄体;基于所述多个视频和对所述至少一个目标被摄体的跟踪来重建所述至少一个目标被摄体的三维(3D)模型;以及基于3D模型的重建来识别所述至少一个目标被摄体的一个或多个动作。
[0009]进一步关于所述方法,在一些实施例中,获得的所述多个视频是二维(2D)视频。在一些实施例中,所述方法还包括:为所述至少一个目标被摄体确定一个或多个关键点。在一些实施例中,所述方法还包括:确定与所述至少一个目标被摄体相关联的姿势信息。在一些实施例中,所述方法还包括:基于姿势信息重建3D模型。在一些实施例中,所述方法还包括:确定与所述至少一个目标被摄体相关联的姿势信息;以及基于所述姿势信息的确定来识别所述至少一个目标被摄体的一个或多个动作。
[0010]通过参照说明书的其余部分和附图,可以实现对本文中公开的特定实现方案的性质和优点的进一步理解。
附图说明
[0011]图1是用于使用多个相机识别多个人的动作的示例环境100的框图,该示例环境100可以用于本文中描述的实现方案。
[0012]图2是根据一些实现方案的用于使用多个相机识别多个人的动作的示例流程图。
[0013]图3是根据一些实现方案的用于重建多视角姿势的示例流程图。
[0014]图4是用于使用多个相机和重叠区域来识别临床活动的示例环境的框图,该示例环境可以用于本文中描述的实现方案。
[0015]图5是用于识别临床活动的示例环境的框图,该示例环境可以用于本文中描述的
实现方案。
[0016]图6是根据一些实现方案的用于确定多视角姿势的示例流程图。
[0017]图7是根据一些实现方案的用于提供重建的姿势的示例流程图。
[0018]图8是根据一些实现方案的用于识别目标被摄体的动作的示例流程图。
[0019]图9是可以用于本文中描述的一些实现方案的示例网络环境的框图。
[0020]图10是可以用于本文中描述的一些实现方案的示例计算机系统的框图。
具体实施方式
[0021]本文中描述的实现方案使得能够进行、促进和管理使用重建的三维(3D)姿势的鲁棒多视角多目标本文档来自技高网...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种系统,包括:一个或多个处理器;和编码在一个或多个非暂态计算机可读存储介质中以供所述一个或多个处理器执行的逻辑,并且所述逻辑在被执行时可操作以使所述一个或多个处理器执行包括以下的操作:获得环境中的多个被摄体的多个视频,其中所述多个被摄体中的至少一个目标被摄体在所述环境中执行一个或多个动作;跨至少两个相机跟踪所述至少一个目标被摄体;基于所述多个视频和对所述至少一个目标被摄体的跟踪来重建所述至少一个目标被摄体的三维(3D)模型;以及基于3D模型的重建来识别所述至少一个目标被摄体的所述一个或多个动作。2.根据权利要求1所述的系统,其中获得的所述多个视频是二维(2D)视频。3.根据权利要求1所述的系统,其中所述逻辑在被执行时还可操作以使所述一个或多个处理器执行包括以下的操作:为所述至少一个目标被摄体确定一个或多个关键点。4.根据权利要求1所述的系统,其中所述逻辑在被执行时还可操作以使所述一个或多个处理器执行包括以下的操作:确定与所述至少一个目标被摄体相关联的姿势信息。5.根据权利要求1所述的系统,其中所述逻辑在被执行时还可操作以使所述一个或多个处理器执行包括以下的操作:基于姿势信息重建3D模型。6.根据权利要求1所述的系统,其中所述逻辑在被执行时还可操作以使所述一个或多个处理器执行包括以下的操作:确定与所述至少一个目标被摄体相关联的姿势信息;以及基于所述姿势信息的确定来识别所述至少一个目标被摄体的所述一个或多个动作。7.根据权利要求1所述的系统,其中所述逻辑在被执行时还可操作以使所述一个或多个处理器执行包括以下的操作:基于3D模型的重建,在所述至少一个目标被摄体的多个动作中的不同动作之间进行区分。8.一种在其上存储有程序指令的非暂态的计算机可读存储介质,所述程序指令在由一个或多个处理器执行时可操作以使所述一个或多个处理器执行包括以下的操作:获得环境中的多个被摄体的多个视频,其中所述多个被摄体中的至少一个目标被摄体在所述环境中执行一个或多个动作;跨至少两个相机跟踪所述至少一个目标被摄体;基于所述多个视频和对所述至少一个目标被摄体的跟踪来重建所述至少一个目标被摄体的三维(3D)模型;以及基于3D模型的重建来识别所述至少一个目标被摄体的所述一个或多个...
【专利技术属性】
技术研发人员:许婉欣,KK,
申请(专利权)人:美国索尼公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。