一种基于多摄像头的BEV视觉感知方法技术

技术编号:36091080 阅读:16 留言:0更新日期:2022-12-24 11:08
本发明专利技术公开了一种基于多摄像头的BEV视觉感知方法,包括模型设计,使用nuscenes数据集,输入为6张环视相机图片,模型设计包括encoder结构、Decoder结构和最后的Loss设计,基于densnet去对每张图片进行encode来提取图像卷积特征,然后通过PANET网络来输出3层多尺度特征图加强信息传播,检测头包括6层transformer decoder layer,预先设置300/600/900个object query,每个query是256维的融合特征,object query由一个全连接网络预测出在BEV空间中的3D reference point坐标,坐标经过tanh函数归一化后表示在空间中的相对位置,对object queries预测出来的检测框和所有的真值框之间利用匈牙利算法进行二分图匹配;本发明专利技术提出一种改进的多视角特征提取网络,能够有效解决2D图像到3D场景的理解能力,从而有效提升后续感知任务精度。知任务精度。知任务精度。

【技术实现步骤摘要】
一种基于多摄像头的BEV视觉感知方法


[0001]本专利技术涉及人工智能、自动驾驶领域,特别是涉及一种基于多摄像头的BEV视觉感知方法。

技术介绍

[0002]自动驾驶视觉感知领域,最近两三年的一个热门方向便是更为直接的BEV视角下的视觉感知。不同于深度估计先显式获取各个像素点的深度,再支持其他相关任务,BEV视角下可以实现端到端的目标检测、语义分割、轨迹预测等各项任务。由于这种方法更加简单直接,且能够更好地被下游规划控制所使用(在同一个坐标系),迅速成为未来自动驾驶感知落地的重要研究方向。
[0003]由于BEV特征需要从多视角图像特征融合得到,所以需要先对多视角图像提取特征,而其中的一个重要难点在于对2D图像到3D场景的特征转换学习。

技术实现思路

[0004]为了克服现有技术的不足,本专利技术提供一种基于多摄像头的BEV视觉感知方法,以解决上述
技术介绍
中提出的BEV特征需要从多视角图像特征融合得到,所以需要先对多视角图像提取特征,而其中的一个重要难点在于对2D图像到3D场景的特征转换学习的问题。
[0005]为解决上述技术问题,本专利技术提供如下技术方案:一种基于多摄像头的BEV视觉感知方法,包括模型设计,使用nuscenes数据集,输入为6张环视相机图片,其中,模型设计主要由三部分组成:包括encoder结构、Decoder结构和最后的Loss设计;
[0006]Encoder结构:
[0007]基于densnet去对每张图片进行encode来提取图像卷积特征,然后通过PANET网络来输出3层多尺度特征图加强信息传播;
[0008]Decoder结构:
[0009]检测头包括6层transformer decoder layer,预先设置300/600/900个object query,每个query是256维的融合特征,object query由一个全连接网络预测出在BEV空间中的3D reference point坐标(x,y,z),坐标经过tanh函数归一化后表示在空间中的相对位置;
[0010]Loss设计:
[0011]对object queries预测出来的检测框和所有的真值框之间利用匈牙利算法进行二分图匹配,找到使得loss最小的最优匹配,类别间Loss计算采用focal loss减少样本不均衡造成的影响,使用L2regression loss用于计算回归损失便于网络给出稳定解。
[0012]作为本专利技术的一种优选技术方案,在Decoder结构中,每层layer之中,所有的object query之间通过自注意力机制来相互交互获取全局信息并避免多个query收敛到同个物体,object query再和图像特征之间做特征匹配,将每个query对应的真实世界的3D坐标通过相机的内参外参投影到图片坐标,利用线性插值来采样对应的多尺度图像特征,如
果投影坐标落在图片范围之外就补零,然后图像特征采样去更新object queries。
[0013]作为本专利技术的一种优选技术方案,更新后的object query通过两个全连接神经网络来分别预测对应物体的类别和bounding box的参数,为了避免因为数据偏差,对每个物体的中心点预测偏移量δ来更新reference points的坐标,每层更新的object queries和reference points作为下一层decoder layer的输入,再次进行计算更新,总共迭代6次。
[0014]作为本专利技术的一种优选技术方案,在Decoder结构中,由于tanh函数的取值范围在[

1,+1]之间,隐藏层的输出被限定在[

1,+1]之间,可以看成是在0值附近分布,均值为0,这样从隐藏层到输出层,数据起到了归一化(均值为0)的效果。
[0015]与现有技术相比,本专利技术能达到的有益效果是:
[0016]1、提出一种改进的多视角特征提取网络,使得投影特征更加丰富;
[0017]2、能够有效解决2D图像到3D场景的理解能力。
附图说明
[0018]图1为本专利技术一种基于多摄像头的BEV视觉感知方法的流程图。
具体实施方式
[0019]为了使本专利技术实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施例,进一步阐述本专利技术,但下述实施例仅仅为本专利技术的优选实施例,并非全部。基于实施方式中的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得其它实施例,都属于本专利技术的保护范围。下述实施例中的实验方法,如无特殊说明,均为常规方法,下述实施例中所用的材料、试剂等,如无特殊说明,均可从商业途径得到。
[0020]实施例:
[0021]如图1所示,本专利技术提供一种基于多摄像头的BEV视觉感知方法,包括模型设计,使用nuscenes数据集,输入为6张环视相机图片,其中,模型设计主要由三部分组成:包括encoder结构、Decoder结构和最后的Loss设计;
[0022]Encoder结构:
[0023]基于densnet去对每张图片进行encode来提取图像卷积特征,然后通过PANET网络来输出3层多尺度特征图加强信息传播,选择Densnet的原因是DenseNet直接连接来自不同层的特征图,这可以实现特征重用,从而提升效率;
[0024]Decoder结构:
[0025]检测头包括6层transformer decoder layer,预先设置300/600/900个object query,每个query是256维的融合特征,object query由一个全连接网络预测出在BEV空间中的3D reference point坐标(x,y,z),坐标经过tanh函数归一化后表示在空间中的相对位置,因为tanh函数的取值范围在[

1,+1]之间,隐藏层的输出被限定在[

1,+1]之间,可以看成是在0值附近分布,均值为0,这样从隐藏层到输出层,数据起到了归一化(均值为0)的效果;
[0026]在每层layer之中,所有的object query之间通过自注意力机制来相互交互获取全局信息并避免多个query收敛到同个物体。object query再和图像特征之间做特征匹配,将每个query对应的真实世界的3D坐标通过相机的内参外参投影到图片坐标,利用线性插
值来采样对应的多尺度图像特征,如果投影坐标落在图片范围之外就补零,然后图像特征采样去更新object queries;
[0027]更新后的object query通过两个全连接神经网络来分别预测对应物体的类别和bounding box的参数,为了避免因为数据偏差,对每个物体的中心点预测偏移量δ来更新reference points的坐标,每层更新的object queries和reference points作为下一层decoder layer的输入,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多摄像头的BEV视觉感知方法,其特征在于:包括模型设计,使用nuscenes数据集,输入为6张环视相机图片,其中,模型设计主要由三部分组成:包括encoder结构、Decoder结构和最后的Loss设计;Encoder结构:基于densnet去对每张图片进行encode来提取图像卷积特征,然后通过PANET网络来输出3层多尺度特征图加强信息传播;Decoder结构:检测头包括6层transformer decoder layer,预先设置300/600/900个object query,每个query是256维的融合特征,object query由一个全连接网络预测出在BEV空间中的3D reference point坐标(x,y,z),坐标经过tanh函数归一化后表示在空间中的相对位置;Loss设计:对object queries预测出来的检测框和所有的真值框之间利用匈牙利算法进行二分图匹配,找到使得loss最小的最优匹配,类别间Loss计算采用focal loss减少样本不均衡造成的影响,使用L2regression loss用于计算回归损失便于网络给出稳定解。2.根据权利要求1所述的一种基于多摄像头的BEV视觉感知方法,其特征在于:在Decoder结构中,每层layer之中,所有的objec...

【专利技术属性】
技术研发人员:李鑫武丁华杰赵佳佳谷俊
申请(专利权)人:上海寻序人工智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1