一种基于多摄像头的BEV视觉感知方法技术

技术编号：36091080 阅读：16 留言：0更新日期：2022-12-24 11:08

本发明专利技术公开了一种基于多摄像头的BEV视觉感知方法，包括模型设计，使用nuscenes数据集，输入为6张环视相机图片，模型设计包括encoder结构、Decoder结构和最后的Loss设计，基于densnet去对每张图片进行encode来提取图像卷积特征，然后通过PANET网络来输出3层多尺度特征图加强信息传播，检测头包括6层transformer decoder layer，预先设置300/600/900个object query，每个query是256维的融合特征，object query由一个全连接网络预测出在BEV空间中的3D reference point坐标，坐标经过tanh函数归一化后表示在空间中的相对位置，对object queries预测出来的检测框和所有的真值框之间利用匈牙利算法进行二分图匹配；本发明专利技术提出一种改进的多视角特征提取网络，能够有效解决2D图像到3D场景的理解能力，从而有效提升后续感知任务精度。知任务精度。知任务精度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多摄像头的BEV视觉感知方法

[0001]本专利技术涉及人工智能、自动驾驶领域，特别是涉及一种基于多摄像头的BEV视觉感知方法。

技术介绍

[0002]自动驾驶视觉感知领域，最近两三年的一个热门方向便是更为直接的BEV视角下的视觉感知。不同于深度估计先显式获取各个像素点的深度，再支持其他相关任务，BEV视角下可以实现端到端的目标检测、语义分割、轨迹预测等各项任务。由于这种方法更加简单直接，且能够更好地被下游规划控制所使用(在同一个坐标系)，迅速成为未来自动驾驶感知落地的重要研究方向。
[0003]由于BEV特征需要从多视角图像特征融合得到，所以需要先对多视角图像提取特征，而其中的一个重要难点在于对2D图像到3D场景的特征转换学习。

技术实现思路

[0004]为了克服现有技术的不足，本专利技术提供一种基于多摄像头的BEV视觉感知方法，以解决上述
技术介绍
中提出的BEV特征需要从多视角图像特征融合得到，所以需要先对多视角图像提取特征，而其中的一个重要难点在于对2D图像到3D场景的特征转换学习的问题。
[0005]为解决上述技术问题，本专利技术提供如下技术方案：一种基于多摄像头的BEV视觉感知方法，包括模型设计，使用nuscenes数据集，输入为6张环视相机图片，其中，模型设计主要由三部分组成：包括encoder结构、Decoder结构和最后的Loss设计；
[0006]Encoder结构：
[0007]基于densnet去对每张图片进行encode来提取图像卷积特征，...

【技术保护点】

【技术特征摘要】
1.一种基于多摄像头的BEV视觉感知方法，其特征在于：包括模型设计，使用nuscenes数据集，输入为6张环视相机图片，其中，模型设计主要由三部分组成：包括encoder结构、Decoder结构和最后的Loss设计；Encoder结构：基于densnet去对每张图片进行encode来提取图像卷积特征，然后通过PANET网络来输出3层多尺度特征图加强信息传播；Decoder结构：检测头包括6层transformer decoder layer，预先设置300/600/900个object query，每个query是256维的融合特征，object query由一个全连接网络预测出在BEV空间中的3D reference point坐标(x,y,z)，坐标经过tanh函数归一化后表示在空间中的相对位置；Loss设计：对object queries预测出来的检测框和所有的真值框之间利用匈牙利算法进行二分图匹配，找到使得loss最小的最优匹配，类别间Loss计算采用focal loss减少样本不均衡造成的影响，使用L2regression loss用于计算回归损失便于网络给出稳定解。2.根据权利要求1所述的一种基于多摄像头的BEV视觉感知方法，其特征在于：在Decoder结构中，每层layer之中，所有的objec...

【专利技术属性】
技术研发人员：李鑫武，丁华杰，赵佳佳，谷俊，
申请(专利权)人：上海寻序人工智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人