一种多视角三维目标识别方法及系统技术方案

技术编号:39499761 阅读:19 留言:0更新日期:2023-11-24 11:29
本发明专利技术公开了一种多视角三维目标识别方法及系统,包括获取多视角单目图像;将所述多视角单目图像输入至预先训练好的三维目标识别模型,获得目标识别结果;利用位置建议网络对所述多视角单目图像进行特征提取

【技术实现步骤摘要】
一种多视角三维目标识别方法及系统


[0001]本专利技术属于目标识别
,具体涉及一种多视角三维目标识别方法及系统


技术介绍

[0002]自动驾驶,旨在使车辆智能地感知周围环境,并在很少或无需人力的情况下安全行驶,近年来取得了快速发展

自动驾驶技术已广泛应用于自动驾驶卡车

无人驾驶出租车

送货机器人等多种场景,能够减少人为错误,提高道路安全

作为自动驾驶系统的核心组成部分,车辆感知通过各种传感器输入帮助自动驾驶汽车了解周围环境

[0003]许多类型的传感器都可以为
3D
目标检测提供原始数据,相机和
LiDAR(
激光雷达
)
传感器是两种最常采用的传感器类型

首先,相机只捕捉外观信息,不能直接获取场景的
3D
结构信息

另一方面,
3D
目标检测通常需要在
3D
空间中进行准确定位,而从图像估计的
3D
信息
(
例如深度
)
通常具有较大的误差

此外,基于图像的检测很容易受到极端天气和时间条件的影响

在夜间或雾天从图像中检测目标比在晴天检测要困难得多,这样的自动驾驶系统无法保证鲁棒性
。LiDAR
传感器比摄像头贵得多,这限制了在驾驶场景中的大规模应用


技术实现思路

[0004]本专利技术的目的在于提供一种多视角三维目标识别方法及系统,利用多视角单目信息同时估计目标物体的三维位置和方向,有效地缓解因遮挡和天气引起的定位误差问题

[0005]为达到上述目的,本专利技术所采用的技术方案是:
[0006]第一方面,本专利技术提供了一种多视角三维目标识别方法,包括:
[0007]获取多视角单目图像;将所述多视角单目图像输入至预先训练好的三维目标识别模型,获得目标识别结果;
[0008]其中所述三维目标识别模型的处理过程包括:
[0009]利用位置建议网络对所述多视角单目图像进行特征提取

特征融合和位置估计,得到目标物体的预测空间位置;
[0010]利用多分支方向估计网络将所述目标物体的预测空间位置与特征视角池区域结合,得到每个视角下的感兴趣区域特征,并估计出每个视角下物体的方向;根据感兴趣区域特征和每个视角下物体的方向利用非极大值抑制
NMS
算法对感兴趣区域上的包围框进行筛选,并输出为目标物体的边界框获得目标识别结果

[0011]优选的,利用位置建议网络对所述多视角单目图像进行特征提取

特征融合和位置估计,得到目标物体的预测空间位置,包括:
[0012]对所述多视角单目图像进行特征提取,得到各个视角的深度特征;
[0013]利用正交变换将各个视角的深度特征投影到
BEV
空间中,并进行特征叠加和特征融合获得全局特征;
[0014]将全局特征输入到全卷积网络中,预测目标物体在每个锚点对应位置出现的概率以及目标物体中心相对于锚点中心的偏移量,获得目标物体的预测空间位置

[0015]优选的,对所述多视角单目图像进行特征提取,包括:
[0016]使用
ResNet

18
作为图像各视角的特征提取器对所述多视角单目图像进行特征提取,得到各个视角的深度特征

[0017]优选的,利用正交变换将各个视角的深度特征投影到
BEV
空间中,并进行特征叠加和特征融合获得全局特征,包括:
[0018]Γ

τ
(R
‑1K
‑1U+R
‑1T)
[0019]公式中,
Γ

BEV
空间中三维位置,
U
为训练图像中像素的齐次坐标;
K
是单目相机矩阵;
R

T
分别为单目相机的旋转矩阵和平移向量,
τ
为比例因子

[0020]优选的,比例因子
τ
的计算公式为:
[0021][0022]公式中,
V|
z
表示向量
V

z
轴值,
V

(R
‑1K
‑1U+R
‑1T)

z
P
是目标物体的高度

[0023]优选的,利用多分支方向估计网络将所述目标物体的预测空间位置与特征视角池区域结合,得到每个视角下的感兴趣区域特征,并估计出每个视角下物体的方向,包括:
[0024]根据目标物体的预测空间位置,通过透视变换计算每个视角图像中
3D
位置对应的特征视角池区域;将所述目标物体的预测空间位置与特征视角池区域结合,得到每个视角下的感兴趣区域;
[0025]利用感兴趣区域池化方法获取感兴趣区域特征,并估计出每个视角下物体的方向

[0026]优选的,将所述目标物体的预测空间位置与特征视角池区域结合,得到每个视角下的感兴趣区域,包括:
[0027]根据目标物体的预测空间位置和预定义
BEV
空间的方向,在特征视角池区域上设定包围框的8个顶点;根据单目相机的参数,通过透视变换计算出包围框的各个顶点的位置;计算包围框的8个顶点的最小外矩形得到感兴趣区域

[0028]优选的,所述三维目标识别模型的训练过程包括:
[0029]采集目标物体的多视角历史单目图像作为训练图像,并构建训练数据集合;所述训练图像配置有真实标签;利用训练数据集合对三维目标识别模型进行训练,所述三维目标识别模型包括位置建议网络和多分支方向估计网络;
[0030]将训练图像输入至位置建议网络输出目标物体的预测空间位置;基于预测空间位置和真实标签计算位置建议网络的预测损失,根据预测损失对位置建议网络的参数进行优化,重复迭代直至预测精度大于设定精度阈值输出训练好的位置建议网络;
[0031]通过训练好的位置建议网络重新对训练图像进行检测,获得包含检测结果的特征图;将包含检测结果的特征图输入至多分支方向估计网络获得检测边界框;根据真实标签计算检测边界框的偏移量和置信度,基于检测边界框的偏移量和置信度对多分支方向估计网络进行优化,重复迭代直至达到设定迭代次数输出训练好的三维目标识别模型

[0032]优选的,基于预测空间位置和真实标签计算位置建议网络的预测损失,表达公式为:
[0033][0034]公式中,表示为第
i
个锚的预测置信度的损失,和
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种多视角三维目标识别方法,其特征在于,包括:获取多视角单目图像;将所述多视角单目图像输入至预先训练好的三维目标识别模型,获得目标识别结果;其中所述三维目标识别模型的处理过程包括:利用位置建议网络对所述多视角单目图像进行特征提取

特征融合和位置估计,得到目标物体的预测空间位置;利用多分支方向估计网络将所述目标物体的预测空间位置与特征视角池区域结合,得到每个视角下的感兴趣区域特征,并估计出每个视角下物体的方向;根据感兴趣区域特征和每个视角下物体的方向利用非极大值抑制
NMS
算法对感兴趣区域上的包围框进行筛选,并输出为目标物体的边界框获得目标识别结果
。2.
根据权利要求1所述的多视角三维目标识别方法,其特征在于,利用位置建议网络对所述多视角单目图像进行特征提取

特征融合和位置估计,得到目标物体的预测空间位置,包括:对所述多视角单目图像进行特征提取,得到各个视角的深度特征;利用正交变换将各个视角的深度特征投影到
BEV
空间中,并进行特征叠加和特征融合获得全局特征;将全局特征输入到全卷积网络中,预测目标物体在每个锚点对应位置出现的概率以及目标物体中心相对于锚点中心的偏移量,获得目标物体的预测空间位置
。3.
根据权利要求2所述的多视角三维目标识别方法,其特征在于,对所述多视角单目图像进行特征提取,包括:使用
ResNet

18
作为图像各视角的特征提取器对所述多视角单目图像进行特征提取,得到各个视角的深度特征
。4.
根据权利要求2所述的多视角三维目标识别方法,其特征在于,利用正交变换将各个视角的深度特征投影到
BEV
空间中,并进行特征叠加和特征融合获得全局特征,包括:
Γ

τ
(R
‑1K
‑1U+R
‑1T)
公式中,
Γ

BEV
空间中三维位置,
U
为训练图像中像素的齐次坐标;
K
是单目相机矩阵;
R

T
分别为单目相机的旋转矩阵和平移向量,
τ
为比例因子
。5.
根据权利要求4所述的多视角三维目标识别方法,其特征在于,比例因子
τ
的计算公式为:公式中,
V|
z
表示向量
V

z
轴值,
V

(R
‑1K
‑1U+R
‑1T)

z
P
是目标物体的高度
。6.
根据权利要求1所述的多视角三维目标识别方法,其特征在于,利用多分支方向估计网络将所述目标物体的预测空间位置与特征视角池区域结合,得到每个视角下的感兴趣区域特征,并估计出每个视角下物体的方向,包括:根据目标物体的预测空间位置,通过透视变换计算每个视角图像中
3...

【专利技术属性】
技术研发人员:张权张惠杰张涛倪世松沈剑
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1