当前位置: 首页 > 专利查询>天津大学专利>正文

一种宽视场大场景下的多人三维重建方法技术

技术编号:35104066 阅读:14 留言:0更新日期:2022-10-01 17:13
本发明专利技术公开了一种宽视场大场景下的多人三维重建方法,涉及三维视觉技术领域。本发明专利技术所提供的一种宽视场大场景下的多人三维重建方法,基于端到端的大场景单图像多人三维重建框架,针对十亿像素级别的大场景图像,设计以人为中心的尺度自适应层级表示方案;利用2D关节点估计场景级相机内参和公共地面;提出一种地面引导的渐进式定位方法,将场景级的全局3D定位转换为局部的2D定位和3D偏移,实现场景中多人的精确全局空间定位,克服单彩色相机采集下的深度歧义问题;利用多个分支网络得到人体形态和位置估计所需的SMPL参数、2D位置以及3D偏移;在测试阶段进行场景级微调,进而有效提高对新场景中人的位置预测精度。高对新场景中人的位置预测精度。高对新场景中人的位置预测精度。

【技术实现步骤摘要】
Proceedings of the IEEE/CVF International Conference on Computer Vision(ICCV),2021)提出ROMP,根据人体中心特征图提取相机信息和SMPL信息,这种方法基于弱透视投影的假设,只能推断出人在图像上的二维位置;为进一步解决位置问题,Sun等人(Sun Y,Liu W,Bao Q,et al.Putting people in their place:Monocular regression of 3d people in depth.In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR),2022)提出BEV,使用鸟瞰图表示来同时推理图像中的身体中心和深度;但是以上方法都只能得到相对深度而不能得到绝对位置,且不能直接应用于大场景。
[0004]本专利技术针对以上问题,提出了一种基于端到端的大场景单图像多人重建框架,针对十亿像素级别的大场景图像,设计以人为中心的尺度自适应层级表示方案,构建全局与局部联合表示模型,克服单彩色相机采集下的深度歧义问题,实现全局空间一致的多人姿态与形状重建;提出一种地面引导的渐进式定位方法,通过估计场景级相机参数和公共地面,将场景级的全局3D定位转换为局部的2D定位和3D偏移,实现场景中多人的精确全局空间定位;在测试阶段进行场景级微调,进而有效提高对新场景中人的位置预测精度。

技术实现思路

[0005](一)本专利技术要解决的技术问题:
[0006]本专利技术的目的是:针对现有方法无法在宽视场大场景数据集上得到深度排序一致性的多人重建结果,提出一种基于端到端的大场景单图像多人重建框架,针对十亿像素级别的大场景图像,设计以人为中心的尺度自适应层级表示方案,构建全局与局部联合表示模型,克服单彩色相机采集下的深度歧义问题,实现全局空间一致的多人姿态与形状重建;提出一种地面引导的渐进式定位方法,通过估计场景级相机参数和公共地面,将场景级的全局3D定位转换为局部的2D定位和3D偏移,实现场景中多人的精确全局空间定位;在测试阶段进行场景级微调,进而有效提高对新场景中人的位置预测精度。
[0007](二)为了实现上述目的,本专利技术采用了如下技术方案:
[0008]一种宽视场大场景下的多人三维重建方法,包括如下步骤:
[0009]S1、对大场景图像进行预处理,通过以人为中心的自适应层级表示以获得不同分辨率的裁剪图像,使得人在裁剪图像中占有合适的比例,在保持图像原有的长宽比的基础上将裁剪图像缩放到统一大小,用于训练网络;
[0010]S2、通过现有的2D关节点估计方法估计大场景图像的2D关节点,并通过人工修正的方法对估计错误或者缺失的2D关节点进行修正,利用2D关节点估计地面方程和相机内参;
[0011]S3、利用S1中预处理得到的裁剪图像训练网络,所述网络通过骨干网络实现特征提取,进而利用三个不同的分支网络分别进行人体检测、2D位置估计以及3D偏移和人体参数模型估计;
[0012]S4、通过地面引导的渐进式定位方法,利用S2中得到的相机内参和地面方程,以及基于S3中得到的2D位置获得人体粗略的3D位置,结合S3中得到的3D偏移,获得人体精确的3D位置;
[0013]S5、在测试阶段对模型进行场景级微调,对新场景图像进行多人重建,以获得更好
的2D投影结果;
[0014]S6、通过对所有的裁剪图像的多人重建结果进行合并,去掉重复估计的人,得到宽视场大场景下全局空间一致的多人重建结果。
[0015]优选的,S1中所述的预处理过程主要包括以下步骤:
[0016]S101、定义大场景图像中最小和最大的人的身高分别为h
min
和h
max
,定义裁剪区域的上界和下界分别为s和e,使用正方形滑动窗口对大场景图像进行裁剪,在y方向上第i个滑动窗口的长为c
i
,为使裁剪图像中人的高度为裁剪图像高度的一半,c1=2
×
h
min
,在y方向上最后一个滑动窗口,即第n个滑动窗口,其长有c
n
=c1×
q
n
‑1且其中q为比例系数;
[0017]S1中所述以人为中心的自适应层级表示如下:
[0018][0019]为保证每个人都可以完整的出现在裁剪图像中,在y方向上相邻的两个滑动窗口之间增加一个重叠滑动窗口,其长度为相邻滑动窗口长度之和的一半;
[0020]S102、保持不同分辨率裁剪图像原有的长宽比,通过双三次插值法将其统一到(512,512),不足部分用0填充。
[0021]优选的,S2中所述的地面方程以及相机参数的估计主要包括以下步骤:
[0022]S201、通过RMPE方法估计裁剪图像的2D关节点,对估计错误或者缺失的2D关节点进行人工修正,将得到的结果进行合并得到大场景图像的2D关节点信息,根据先验信息对姿势进行过滤,只保留站立姿势;
[0023]S202、使用小孔相机模型,其焦距为f(f=f
x
=f
y
),主点为图像的中心点,地面方程为N
T
P
G
+D=0,其中为地面法线,且||N||2=1,D为常数项,反应地面的位置,为地面上的点;
[0024]S203、定义左右脚踝点的中点为其在图像上的投影点为x
b
=(u
b
,v
b
),左右肩膀的中心点为其在图像上的投影点为x
t
=(u
t
,v
t
),假设X
b
是地面上的点,人站在地面上且有固定的高度h,经过X
b
和X
t
的直线与地面法线平行;
[0025]S204、根据小孔成像原理可得其中是x
b
的齐次坐标,K为相机内参矩阵,Z
b
为X
b
的深度;因为X
b
为地面上的点,满足N
T
X
b
+D=0,可得:
[0026][0027]左右肩膀的中点的投影点可用如下方程计算:
[0028][0029]其中Z
t
为X
t
的深度;
[0030]S205、通过基于优化的方法求解相机参数和地面方程,第i个人的损失函数具体如下:
[0031][0032]其中L
余弦
表示余弦距离,λ
角度
,λ
模长
分别是相应损失项的权重;
[0033]S206、将得到的地面沿着法线方向平移0.1米获得真实的地面,而不是脚踝所在的地面。
[0034]优选的,S3的具体实现过程如下:
[0035]S301、通过骨干网本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种宽视场大场景下的多人三维重建方法,其特征在于:包括如下步骤:S1、对大场景图像进行预处理,通过以人为中心的自适应层级表示以获得不同分辨率的裁剪图像,使得人在裁剪图像中占有合适的比例,在保持图像原有的长宽比的基础上将裁剪图像缩放到统一大小,用于训练网络;S2、通过现有的2D关节点估计方法估计大场景图像的2D关节点,并通过人工修正的方法对估计错误或者缺失的2D关节点进行修正,利用2D关节点估计地面方程和相机内参;S3、利用S1中预处理得到的裁剪图像训练网络,所述网络通过骨干网络实现特征提取,进而利用三个不同的分支网络分别进行人体检测、2D位置估计以及3D偏移和人体参数模型估计;S4、通过地面引导的渐进式定位方法,利用S2中得到的相机内参和地面方程,以及基于S3中得到的2D位置获得人体粗略的3D位置,结合S3中得到的3D偏移,获得人体精确的3D位置;S5、在测试阶段对模型进行场景级微调,对新场景图像进行多人重建,以获得更好的2D投影结果;S6、通过对所有的裁剪图像的多人重建结果进行合并,去掉重复估计的人,得到宽视场大场景下全局空间一致的多人重建结果。2.根据权利要求1所述的一种宽视场大场景下的多人三维重建方法,其特征在于:S1中所述的预处理过程主要包括以下步骤:S101、定义大场景图像中最小和最大的人的身高分别为h
min
和h
max
,定义裁剪区域的上界和下界分别为s和e,使用正方形滑动窗口对大场景图像进行裁剪,在y方向上第i个滑动窗口的长为c
i
,为使裁剪图像中人的高度为裁剪图像高度的一半,c1=2
×
h
min
,在y方向上最后一个滑动窗口,即第n个滑动窗口,其长有c
n
=c1×
q
n
‑1且其中q为比例系数;S1中所述以人为中心的自适应层级表示如下:为保证每个人都可以完整的出现在裁剪图像中,在y方向上相邻的两个滑动窗口之间增加一个重叠滑动窗口,其长度为相邻滑动窗口长度之和的一半;S102、保持不同分辨率裁剪图像原有的长宽比,通过双三次插值法将其统一到(512,512),不足部分用0填充。3.根据权利要求1所述的一种宽视场大场景下的多人三维重建方法,其特征在于:S2中所述的地面方程以及相机参数的估计主要包括以下步骤:S201、通过RMPE方法估计裁剪图像的2D关节点,对估计错误或者缺失的2D关节点进行人工修正,将得到的结果进行合并得到大场景图像的2D关节点信息,根据先验信息对姿势进行过滤,只保留站立姿势;S202、使用小孔相机模型,其焦距为f(f=f
x
=f
y
),主点为图像的中心点,地面方程为N
T
P
G
+D=0,其中为地面法线,且||N||2=1,D为常数项,反应地面的位置,为地面上的点;
S203、定义左右脚踝点的中点为其在图像上的投影点为x
b
=(u
b
,v
b
),左右肩膀的中心点为其在图像上的投影点为x
t
=(u
t
,v
t
),假设X
b
是地面上的点,人站在地面上且有固定的高度h,经过X
b
和X
t
的直线与地面法线平行;S204、根据小孔成像原理可得其中是x
b
的齐次坐标,K为相机内参矩阵,Z
b
为X
b
的深度;因为X
b
为地面上的点,满足N
T
X
b
+D=0,可得:左右肩膀的中点的投影点可用如下方程计算:其中Z
t
为X
t

【专利技术属性】
技术研发人员:李坤崔慧丽温浩黄敬
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1