一种宽视场大场景下的多人三维重建方法技术

技术编号：35104066 阅读：14 留言：0更新日期：2022-10-01 17:13

本发明专利技术公开了一种宽视场大场景下的多人三维重建方法，涉及三维视觉技术领域。本发明专利技术所提供的一种宽视场大场景下的多人三维重建方法，基于端到端的大场景单图像多人三维重建框架，针对十亿像素级别的大场景图像，设计以人为中心的尺度自适应层级表示方案；利用2D关节点估计场景级相机内参和公共地面；提出一种地面引导的渐进式定位方法，将场景级的全局3D定位转换为局部的2D定位和3D偏移，实现场景中多人的精确全局空间定位，克服单彩色相机采集下的深度歧义问题；利用多个分支网络得到人体形态和位置估计所需的SMPL参数、2D位置以及3D偏移；在测试阶段进行场景级微调，进而有效提高对新场景中人的位置预测精度。高对新场景中人的位置预测精度。高对新场景中人的位置预测精度。

全部详细技术资料下载

【技术实现步骤摘要】
Proceedings of the IEEE/CVF International Conference on Computer Vision(ICCV),2021)提出ROMP，根据人体中心特征图提取相机信息和SMPL信息，这种方法基于弱透视投影的假设，只能推断出人在图像上的二维位置；为进一步解决位置问题，Sun等人(Sun Y,Liu W,Bao Q,et al.Putting people in their place:Monocular regression of 3d people in depth.In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR),2022)提出BEV，使用鸟瞰图表示来同时推理图像中的身体中心和深度；但是以上方法都只能得到相对深度而不能得到绝对位置，且不能直接应用于大场景。
[0004]本专利技术针对以上问题，提出了一种基于端到端的大场景单图像多人重建框架，针对十亿像素级别的大场景图像，设计以人为中心的尺度自适应层级表示方案，构建全局与局部联合表示模型，克服单彩色相机采集下的深度歧义问题，实现全局空间一致的多人姿态与形状重建；提出一种地面引导的渐进式定位方法，通过估计场景级相机参数和公共地面，将场景级的全局3D定位转换为局部的2D定位和3D偏移，实现场景中多人的精确全局空间定位；在测试阶段进行场景级微调，进而有效提高对新场景中人的位置预测精度。

技术实现思路

[0005](一)...

【技术保护点】

【技术特征摘要】
1.一种宽视场大场景下的多人三维重建方法，其特征在于：包括如下步骤：S1、对大场景图像进行预处理，通过以人为中心的自适应层级表示以获得不同分辨率的裁剪图像，使得人在裁剪图像中占有合适的比例，在保持图像原有的长宽比的基础上将裁剪图像缩放到统一大小，用于训练网络；S2、通过现有的2D关节点估计方法估计大场景图像的2D关节点，并通过人工修正的方法对估计错误或者缺失的2D关节点进行修正，利用2D关节点估计地面方程和相机内参；S3、利用S1中预处理得到的裁剪图像训练网络，所述网络通过骨干网络实现特征提取，进而利用三个不同的分支网络分别进行人体检测、2D位置估计以及3D偏移和人体参数模型估计；S4、通过地面引导的渐进式定位方法，利用S2中得到的相机内参和地面方程，以及基于S3中得到的2D位置获得人体粗略的3D位置，结合S3中得到的3D偏移，获得人体精确的3D位置；S5、在测试阶段对模型进行场景级微调，对新场景图像进行多人重建，以获得更好的2D投影结果；S6、通过对所有的裁剪图像的多人重建结果进行合并，去掉重复估计的人，得到宽视场大场景下全局空间一致的多人重建结果。2.根据权利要求1所述的一种宽视场大场景下的多人三维重建方法，其特征在于：S1中所述的预处理过程主要包括以下步骤：S101、定义大场景图像中最小和最大的人的身高分别为h
min
和h
max
，定义裁剪区域的上界和下界分别为s和e，使用正方形滑动窗口对大场景图像进行裁剪，在y方向上第i个滑动窗口的长为c
i
，为使裁剪图像中人的高度为裁剪图像高度的一半，c1＝2
×
h
min
，在y方向上最后一个滑动窗口，即第n个滑动窗口，其长有c
n
＝c1×
q
n
‑1且其中q为比例系数；S1中所述以人为中心的自适应层级表示如下：为保证每个人都可以完整的出现在裁剪图像中，在y方向上相邻的两个滑动窗口之间增加一个重叠滑动窗口，其长度为相邻滑动窗口长度之和的一半；S102、保持不同分辨率裁剪图像原有的长宽比，通过双三次插值法将其统一到(512，512)，不足部分用0填充。3.根据权利要求1所述的一种宽视场大场景下的多人三维重建方法，其特征在于：S2中所述的地面方程以及相机参数的估计主要包括以下步骤：S201、通过RMPE方法估计裁剪图像的2D关节点，对估计错误或者缺失的2D关节点进行人工修正，将得到的结果进行合并得到大场景图像的2D关节点信息，根据先验信息对姿势进行过滤，只保留站立姿势；S202、使用小孔相机模型，其焦距为f(f＝f
x
＝f
y
)，主点为图像的中心点，地面方程为N
T
P
G
+D＝0，其中为地面法线，且||N||2＝1，D为常数项，反应地面的位置，为地面上的点；
S203、定义左右脚踝点的中点为其在图像上的投影点为x
b
＝(u
b
,v
b
)，左右肩膀的中心点为其在图像上的投影点为x
t
＝(u
t
,v
t
)，假设X
b
是地面上的点，人站在地面上且有固定的高度h，经过X
b
和X
t
的直线与地面法线平行；S204、根据小孔成像原理可得其中是x
b
的齐次坐标，K为相机内参矩阵，Z
b
为X
b
的深度；因为X
b
为地面上的点，满足N
T
X
b
+D＝0，可得：左右肩膀的中点的投影点可用如下方程计算：其中Z
t
为X
t

【专利技术属性】
技术研发人员：李坤，崔慧丽，温浩，黄敬，
申请(专利权)人：天津大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人