当前位置: 首页 > 专利查询>清华大学专利>正文

基于多视角的多人三维人体位姿估计方法及装置制造方法及图纸

技术编号:33916357 阅读:19 留言:0更新日期:2022-06-25 20:18
本申请公开了一种基于多视角的多人三维人体位姿估计方法及装置,其中,方法包括:基于transformer方式估计每张人体图片的每个人的二维人体位姿;利用每个人的二维人体位姿,利用预先构建的行人重识别模型对每张人体图片的每个人进行人员配准识别,确定每个人的二维关节点;以及采用多视点三角化方式对每张图片中每个人的二维关节点进行三角化操作,拟合至三维空间中的三维关键点,生成三维人体姿态。由此,解决了相关技术中由于占用运算资源较多、运行时间较慢难以广泛应用于运算硬件条件较差的场景,适用性较低的技术问题。适用性较低的技术问题。适用性较低的技术问题。

【技术实现步骤摘要】
基于多视角的多人三维人体位姿估计方法及装置


[0001]本申请涉及计算机视觉
,特别涉及一种基于多视角的多人三维人体位姿估计方法及装置。

技术介绍

[0002]人体姿态估计任务是当前计算机视觉领域中的一个重要研究分支,也是当下基于应用和产业需求的研究热点。人体姿态估计任务常用的划分方式有三种:根据提供输入视角数量划分,可以分为单视角估计任务和多视角估计任务;根据检测人数划分可分为单人场景任务和多人场景任务;根据目的信息可分为二维估计任务和三维估计任务。根据其基本分类和应用场景,人体姿态估计任务在全息现实、人体仿真、视频监控、无人机群等领域有着广泛的应用,并且还有着巨大的开发潜力。人体姿态估计也是诸多计算机视觉任务的研究基础,其估计精度对下游任务的效果有着重要的影响。所以,研究人体姿态估计问题,有着愈发重要的意义。
[0003]相关技术遵循单图内二维人体姿态估计、多图内人员配准识别,三维人体姿态拟合三个步骤,采用了一种多路匹配算法,该匹配算法首先通过分析外观信息本身建立交叉匹配矩阵,寻找多个视图中检测到的二维姿态的周期一致性对应,从而匹配多视角图片中不同的人,该匹配算法能够在不知道场景中真实人数的情况下,修剪错误检测并处理视图之间的部分重叠,在跨链接二维视图人员匹配问题上达到了很好的效果。同时,相关技术改良了常规的3DPS(3D pictorial structure,沉浸式投影显示系统)方法,通过在多个视图之间匹配检测到的二维姿态,生成二维姿态簇,每个簇包含不同视图下同一人的二维姿态,解决了身体层次上的对应问题。
[0004]然而,相关技术中,仍存在不少缺陷:
[0005]一、二维人体位姿估计方法较差。相关技术设计的二维人体位姿是在MSCOCO二维人体姿态数据集上训练的CPN(Cascaded Pyramid Network,堆叠金字塔网络),该CPN系统有两个子网络,一个全局网络进行全局的人定位和粗略估计关键点,一个局部精调网络用来估计关节点精细位置。该方法精度较差,并且运行时间慢、占用运算资源较多。
[0006]二、整体系统运行速率慢。该系统与其他类似系统处理步骤基本一致,都遵循单帧间二维姿态估计、人员匹配、三维拟合这个管道过程。相关技术在每个系统中设计了过多的环节来确保精确性,比如人员匹配环节中设计了相似度估计、行人重识别、循环一致性等多种技术来确保拟合精度,三维拟合环节使用了运算量很大的3DPS方法来确保拟合精度,大量占用运算资源,并且延长了许多运算时间。
[0007]综上所述,相关技术中由于占用运算资源较多、运行时间较慢难以广泛应用于运算硬件条件较差的场景,适用性较低,亟需改善。

技术实现思路

[0008]本申请提供一种基于多视角的多人三维人体位姿估计方法及装置,以解决相关技
术中由于占用运算资源较多、运行时间较慢难以广泛应用于运算硬件条件较差的场景,适用性较低,且人体位姿估计的精度较差等技术问题。
[0009]本申请第一方面实施例提供一种基于多视角的多人三维人体位姿估计方法,包括以下步骤:基于transformer方式估计每张人体图片的每个人的二维人体位姿;利用所述每个人的二维人体位姿,利用预先构建的行人重识别模型对所述每张人体图片的每个人进行人员配准识别,确定所述每个人的二维关节点;以及采用多视点三角化方式对所述每张图片中每个人的二维关节点进行三角化操作,拟合至三维空间中的三维关键点,生成三维人体姿态。
[0010]可选地,在本申请的一个实施例中,所述基于transformer方式估计每张人体图片的每个人的二维人体位姿,包括:利用swin

transformer骨架检测所述每张人体图片的每个人的二维人体位姿;或者,利用所述swin

transformer骨架估计所述每个人的关节点位置,确定所述二维人体位姿。
[0011]可选地,在本申请的一个实施例中,在利用所述预先构建的行人重识别模型对所述每张人体图片的每个人进行人员配准识别之前,还包括:获取用于训练模型的公用数据集;利用所述公用数据集在基于深度学习构建的行人重识别模型上进行训练,生成所述预先构建的行人重识别模型。
[0012]可选地,在本申请的一个实施例中,所述基于transformer方式估计每张人体图片的每个人的二维人体位姿,包括:基于ViT的变形框架获取所述每张图片二维人体姿态估计。
[0013]本申请第二方面实施例提供一种基于多视角的多人三维人体位姿估计装置,包括:位姿估计模块,用于基于transformer方式估计每张人体图片的每个人的二维人体位姿;识别模块,用于利用所述每个人的二维人体位姿,利用预先构建的行人重识别模型对所述每张人体图片的每个人进行人员配准识别,确定所述每个人的二维关节点;以及生成模块,用于采用多视点三角化方式对所述每张图片中每个人的二维关节点进行三角化操作,拟合至三维空间中的三维关键点,生成三维人体姿态。
[0014]可选地,在本申请的一个实施例中,所述位姿估计模块进一步用于,利用swin

transformer骨架检测所述每张人体图片的每个人的二维人体位姿;或者,利用所述swin

transformer骨架估计所述每个人的关节点位置,确定所述二维人体位姿。
[0015]可选地,在本申请的一个实施例中,所述识别模块包括:获取单元,用于获取用于训练模型的公用数据集;生成单元,用于利用所述公用数据集在基于深度学习构建的行人重识别模型上进行训练,生成所述预先构建的行人重识别模型。
[0016]可选地,在本申请的一个实施例中,所述位姿估计模块包括:姿态估计单元,用于基于ViT的变形框架获取所述每张图片二维人体姿态估计。
[0017]本申请第三方面实施例提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如上述实施例所述的基于多视角的多人三维人体位姿估计方法。
[0018]本申请第四方面实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以用于实现如权利要求1

4任一项所述的基于多视角的多人三维人体位姿估计方法。
[0019]本申请实施例可以基于transformer方式估计每张人体图片的每个人的二维人体位姿,并利用行人重识别模型进行人员配准识别,提取每个人的二维关节点,通过多视点三角化方式对二维关键点进行三角化操作,进而生成三维人体姿态,无需苛刻的硬件设备运行条件,即可在保证一定精度的前提下,完成多人三维人体位姿估计,适用性更强。由此,解决了相关技术中为实现多人三维人体位姿估计,导致运行时占用运算资源较多、运行时间较慢,难以广泛应用于运算硬件条件较差的场景,适用性较低的技术问题。
[0020]本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多视角的多人三维人体位姿估计方法,其特征在于,包括以下步骤:基于transformer方式估计每张人体图片的每个人的二维人体位姿;利用所述每个人的二维人体位姿,利用预先构建的行人重识别模型对所述每张人体图片的每个人进行人员配准识别,确定所述每个人的二维关节点;以及采用多视点三角化方式对所述每张图片中每个人的二维关节点进行三角化操作,拟合至三维空间中的三维关键点,生成三维人体姿态。2.根据权利要求1所述的方法,其特征在于,所述基于transformer方式估计每张人体图片的每个人的二维人体位姿,包括:利用swin

transformer骨架检测所述每张人体图片的每个人的二维人体位姿;或者,利用所述swin

transformer骨架估计所述每个人的关节点位置,确定所述二维人体位姿。3.根据权利要求1所述的方法,其特征在于,在利用所述预先构建的行人重识别模型对所述每张人体图片的每个人进行人员配准识别之前,还包括:获取用于训练模型的公用数据集;利用所述公用数据集在基于深度学习构建的行人重识别模型上进行训练,生成所述预先构建的行人重识别模型。4.根据权利要求1所述的方法,其特征在于,所述基于transformer方式估计每张人体图片的每个人的二维人体位姿,包括:基于ViT的变形框架获取所述每张图片二维人体姿态估计。5.一种基于多视角的多人三维人体位姿估计装置,其特征在于,包括:位姿估计模块,用于基于transformer方式估计每张人体图片的每个人的二维人体位姿;识别模块,用于利用所述...

【专利技术属性】
技术研发人员:季向阳余杭连晓聪
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1