一种基于三维地图辅助的单目视频行人三维定位方法技术

技术编号:31569520 阅读:16 留言:0更新日期:2021-12-25 11:08
本专利公开了一种基于三维地图辅助的单目视频行人三维定位方法:首先,获取包含待定位动态行人的单目视频图像以及视频域范围内的激光雷达点云;其次,通过提取与匹配单目视频图像与激光雷达点云中的特征点,恢复视频相机的位置、姿态和内方位元素;再次,对该视频图像里的待定位行人进行二维检测获取目标特征点像素坐标值,同时对目标所处场景的点云数据进行处理提取地平面,获取地平面在激光雷达坐标系竖直方向上的坐标值;然后,将目标行人始终垂直于地平面这一约束条件引入共线方程,基于上述过程得到的准备数据构建联合求解方程,恢复视频行人特征的三维坐标及身高信息。恢复视频行人特征的三维坐标及身高信息。恢复视频行人特征的三维坐标及身高信息。

【技术实现步骤摘要】
一种基于三维地图辅助的单目视频行人三维定位方法


[0001]本专利技术属于目标追踪领域,特别是涉及到一种基于三维地图辅助的单目视频行人三维定位方法。

技术介绍

[0002]动态目标三维定位在智能交通、灾害应急服务、数字城市、公共疫情防控等领域都具有很好的实用价值。当前,目标三维定位主要依赖全球定位系统(Global Positioning System,GPS),但在高大、密集建筑群或密闭空间中(如室内、隧道、地下停车场等)易受多路径效应及信号遮挡等因素影响导致定位失准。近年来无线定位技术,如超宽带(Ultra

Wide Band,UWB) [1]、无线网络(WIFI)
[2

3]、蓝牙
[4]和红外
[5]等也引起广泛关注,但其定位过程对外部条件依赖较大,成本较高、普适性差。
[0003]在过去的几十年,基于视觉和基于激光雷达的目标定位方法相继提出,并得到了广泛关注。立体视觉的定位技术相对成熟,但主要集中在车辆的三维位置估计上
[6],而行人的身高和体形各不相同,导致缺乏足够的属性信息。传统的行人三维定位方法大多依赖于场景或行人的已知信息,例如利用医学统计得到的身高与身体部位、步幅的关系来定位行人
[7

8];或利用物理约束,通过简单的运动轨迹分析,如跳跃或奔跑,将像素测量值转换为人体高度
[9]。该类方法利用其他度量间接获得行人的三维位置,可能导致误差传播。此外,数码相机、激光雷达、无线传感器、惯性陀螺仪等传感器也可作为数据采集平台,同时获取图像数据和地理位置数据,构建三维地图实现多传感器融合定位
[10

13]。然而,这些方法高度依赖于设备或场景条件,不容易集成到所有公共场所。近年来,众多学者尝试利用人工智能的方法解决行人三维定位问题,提出了不同的神经网络结构,用于立体成像、定位或估计人体三维姿态
[14

16]。然而,在这些研究中依赖大量数据集进行训练且大多假设行人高度相同,会导致存在固有的定位误差,精度难以满足要求。
[0004]综上基于视觉的技术可以捕捉详细的姿态和纹理属性,但受限于每个空间点有且仅有一条透视投影直线与之对应,缺乏深度信息,需要额外信息实现二维到三维坐标的转换。在此背景下,我们提出了一种实现三维定位的有效替代方案,使用地面激光雷达捕捉三维地图来估计单目相机的参数。行人虽是动态目标但总是垂直于地面,所以我们能够确定其三维位置。该方法旨在解决平面定位的局限性,提高传统摄影测量在三维空间中的应用。
[0005]本专利技术考虑在一般情况下,针对上述单目视频动态目标三维定位存在的问题,提出了一种基于三维地图辅助的单目视频行人三维定位方法。该方法实现思路为:首先利用三维地图对单目视频图像进行标定以恢复相机参数,然后完成行人检测得到包括行人头脚位置的二维边界框,之后从单目视频的对应点云数据中提取地平面竖直方向坐标值,利用行人身体始终垂直于地面这一固有条件实现行人三维定位。本专利技术不依赖特殊标定物或训练数据集,不限制场景几何条件,计算过程简单高效,可获得比其他方法更准确的定位结果,还能恢复行人较为准确的身高值,同时具有理论和现实意义。
三、
技术实现思路

[0006](一)解决的技术方案
[0007]本专利技术的目的是对单目视频中的行人进行三维定位。考虑到实际场景中可能并没有可利用的几何约束,此时基于单目视频确定运动目标到摄像机的距离存在困难。针对该问题,本专利技术设计了一种基于三维地图辅助的单目视频行人三维定位方法,首先对视频域场景采集点云数据构建三维地图,然后利用特征匹配进行相机标定获取单目视频图像的内外方位元素,继而对包含待定位动态目标的单目视频图像进行行人检测获取行人框的像素坐标值,同时基于该视频场景的地面点云数据获取地平面竖直方向坐标,将行人始终垂直于地面这一固有条件引入共线方程,基于此对目标特征点进行联合平差求取三维位置。
[0008](二)技术方案
[0009]为实现上述目的,本专利技术公开了一种基于三维地图辅助的单目视频行人三维定位方法,具体包括以下步骤:
[0010]步骤1:分别获取包含待定位动态目标的单目视频图像F和同一场景下未包含该目标的 LiDAR点云C;
[0011]步骤2:利用单目视频图像F和点云C的特征点2D

3D匹配关系恢复相机的内外方位元素,并将外方位元素作为目标场景的全局变换参数;
[0012]步骤3:令P
i
(i∈1,2,3,

,n)表示单目视频图像F中待定位行人,n为待定位行人总数,基于目标检测算法获取行人检测框上下边界线中点的像素坐标,分别用t
i
,b
i
表示;
[0013]步骤4:从该视频图像F所在场景扫描的激光雷达点云C中提取地平面,获取地平面竖直方向坐标值Z
g

[0014]步骤5:利用行人P
i
(i∈1,2,3,

,n)始终垂直于地面这一固有条件,将步骤4中提取的地平面竖直方向坐标值Z
g
引入共线方程,与步骤3获取的某一行人像素坐标(u
t
,v
t
), (u
b
,v
b
)构建联合求解模型;
[0015]步骤6:对步骤5构建的模型进行泰勒多项式展开,多次迭代后求取满足一定阈值范围内的解,即可分别得到不同行人P
i
(i∈1,2,3,

,n)两几何点t
i
,b
i
的三维坐标,实现了单目视频行人三维定位。
[0016](三)有益效果
[0017]1、利用本专利技术,能在目标真实大小未知、场景无特定几何特征的情况下,实现单目视频动态行人的三维定位。
[0018]2、本专利技术可为城市动态行人视频跨境追踪、轨迹分析和行为异常检测等应用提供技术支撑。
四、附图说明
[0019]图1一种基于三维地图辅助的单目视频行人三维定位方法流程图。
[0020]图2激光雷达点云与包含待定位动态行人的单目视频图像示意图。
[0021]图3单目视频图像中待定位动态行人二维检测结果示意图。
[0022]图4单目视频图像中待定位动态行人三维定位示意图。
五、具体实施方式
[0023]以图2、图3和图4为例,详细说明本专利技术的实现过程。具体实施方式如下:
[0024]步骤1:此处以任一待定位行人P
i
(i=1,2,3,

,n)为例进行描述。如图2所示,考虑待定位行人的动态性,首先利用三维激光扫描仪获取不含待定位行人P
i
的激光雷达点云C,然后利用场景部署的监控摄像头截取包含该目标P
i
的单目视频图像F。
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于三维地图辅助的单目视频行人三维定位方法,该方法包括:步骤1:利用三维激光扫描仪获取不含待定位行人P
i
的激光雷达点云C,然后利用场景部署的监控摄像头截取包含该目标P
i
的单目视频图像F。步骤2:分别用O
F

X
F
Y
F
Z
F
和O
C

X
C
Y
C
Z
C
表示单目视频图像F和激光雷达点云C的坐标系,采用直接线性变换算法实现相机标定,即从单目视频图像F和地面点云C中选取至少6对特征点,根据它们的2D

3D匹配关系按式(1)恢复相机的内方位元素矩阵A(u0,v0,f)式(1)中(u0,v0)表示像主点坐标,f为焦距,以及视频图像F获取瞬间的外方位元素矩阵E,包含平移向量T和旋转矩阵R),式(1)中(X
w
,Y
w
,Z
w
)为待定位目标P
i
的物方三维坐标,(u,v)是其像方二维坐标。步骤3:利用YOLO目标检测器获取单目视频图像F中的行人P
i
的二维检测框,即将整个图像作为网络的输入,同时预测目标区域及其类别,将行人检测框上边缘的中点t,即行人头部的位置和下边缘的中点b,即行人脚部的位置,作为标记点,分别用(u
t
,v
t
),(u
b
,v
b
)表示其像素坐标。步骤4:因激光扫描仪中的陀螺仪可保证点云坐标系中的Z轴始终垂直于地面,从激光雷达点云C中提取地平面,获取其竖直方向坐标值Z
g...

【专利技术属性】
技术研发人员:许志华牛一如孙文彬
申请(专利权)人:中国矿业大学北京
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1