当前位置: 首页 > 专利查询>江苏大学专利>正文

一种道路场景下基于计算机视觉的端到端语义鸟瞰图生成方法、模型及设备技术

技术编号:39059056 阅读:36 留言:0更新日期:2023-10-12 19:52
本发明专利技术公开了一种道路场景下基于计算机视觉的端到端语义鸟瞰图生成方法、模型及设备,采用基于大核卷积的编码方式,提高模型的长距离建模能力。同时,为有效提升视角转换的准确度,本发明专利技术提出了一种结合维度转换以及空间转换的视角转换模块,并采用双注意力机制结合转换前的视角进行优化,有效提升模型预测的准确度,改善预测细节。采用维度与空间结合的鸟瞰图特征转换模块,将前置图像的特征图通过维度转换以及空间转换两个模块将其投影到俯视图空间,保留了特征在空间以及维度上的完整性。采用一种交叉注意力机制,通过结合前置特征图优化转换得到的俯视特征图,加强俯视特征图对于重点区域的特征表达,提高整体模型的准确性。确性。确性。

【技术实现步骤摘要】
一种道路场景下基于计算机视觉的端到端语义鸟瞰图生成方法、模型及设备


[0001]本专利技术属于智能车自动驾驶领域,涉及一种道路场景下基于计算机视觉的语义鸟瞰图端到端生成方法、模型及设备。

技术介绍

[0002]环境感知系统作为自动驾驶系统的重要组成部分,通过对周边环境的感知理解,整合其重要信息传输给其他下游任务,是其他自动驾驶模块的重要保障。环境感知系统不仅需要对周边环境进行准确检测,同时需要将所感知得到的信息进行表征。一种高效准确的环境表征方式,能够更好的整合周边环境信息,极大的降低下游任务的难度。目前,高精度地图作为一种准确详细的表征方式被广泛用于许多自动驾驶解决方案,然而高精度地图具有构造成本高,耗费时间长等缺点。近年来,为克服高精度地图的上述缺点,一种基于视觉的语义鸟瞰图表征方式凭借着低成本,能够实时构建的特点引起相关学者的注意。
[0003]语义鸟瞰图其基本组成是俯视视角下的语义类别图,能够详细反应出周边环境内道路以及障碍物等距离,位置以及类别信息。目前现有的基于视觉的鸟瞰图生成方法,常常需要针对前置视角下的图像进行深度估计得到深度图,然后结合深度图将前置视角图像映射到三维空间上,最后从自上而下的视角对其进行投影,得到最终的鸟瞰图。然而这种方法过度依赖于前置摄像头的深度估计准确性,其多模型相结合的方法容易造成误差传递,从而影响最终鸟瞰图构建的准确性,同时这种多模型结合的方式往往无法满足实时性的要求。
[0004]鉴于此,本专利技术提出了一种道路场景下的基于前置摄像头结合深度学习模型的端到端语义鸟瞰图生成方法,通过构建端到端的模型克服了误差传递,本专利技术采用基于大核卷积的编码方式,提高模型的长距离建模能力。同时,为有效提升视角转换的准确度,本专利技术提出了一种结合维度转换以及空间转换的视角转换模块,并采用双注意力机制结合转换前的视角进行优化,有效提升模型预测的准确度,改善预测细节,实现了实时在线的语义鸟瞰图构建方法。

技术实现思路

[0005]本专利技术提出的一种基于道路场景下的视觉语义鸟瞰图端到端生成方法、模型及设备,模型主要采用编码

解码形式的网络模型结构,其主要构成部分包括五部分:1、用于提取前置摄像头图像特征的编码器模块。2、用于将前置视角特征图投影到俯视视角特征图的视角转换模块。3、结合前置特征图用于加强俯视视角特征的双层交叉注意力模块;4、基于多帧图像的时序调整模型;5、用于构造完整鸟瞰图输出的解码器模块。
[0006]生成方法的具体步骤如下:
[0007]步骤一,准备基于视觉的语义鸟瞰图数据集,其主要包括连续三个时刻t

1,t,t+1的前置摄像头图像I
t
‑1,I
t
,I
t+1
,每个时刻间隔为0.2s,其每个时刻采集的图像尺寸大小为
(1024,1024,3),以及t+1时刻前置摄像头对应的鸟瞰图语义分割图像,其标签图像大小为(256,256,3),标签内容主要包括前方道路以及车辆具体鸟瞰图信息,其分类类别为三类,道路,车辆以及其他物体。
[0008]步骤二,搭建端到端鸟瞰图生成模型的编码器模块,不同于传统视觉任务,鸟瞰图生成其关注的重点在于图像的整体信息。基于此,本专利技术结合大卷积核以及ResNet模型构造特征提取器,通过采用部分大核卷积提高特征提取模块的感受野,从而加强模型对于前视图的整体理解以及加强模型的远距离特征提取能力,然而传统的大核卷积计算复杂度大,计算成本高。基于此,本专利技术同时采用深度卷积与逐点卷积相结合的方式来降低大卷积核卷积层所带来的计算负担,具体而言编码器结构主要包括三个部分,第一部分为Stem模块,由三层3
×
3的卷积层以及一层最大池化层构成,第二部分则是为克服过拟合,采用与ResNet模块所采取的相同的短连接网络结构,主要包括主干网络分支以及短连接部分,第三部分是为了增大模型感受野所采用的大卷积核模块,其主干网络包括两层3
×
3卷积层以及一层13
×
13的大核卷积层。其中为了降低模型计算量,针对13
×
13的卷积层采用深度卷积的方式,同时采用两层1
×
1卷积结合一层13
×
13的深层卷积短连接部分构成特征前向传递模块。将步骤一采集到的三帧图像I
t
‑1,I
t
,I
t+1
经过相同的特征提取模块之后,得到的特征图F
t
‑1,F
t
,F
t+1
,特征图大小为(32,32,512),为简化计算,三个图像模块共享特征提取模块权重。
[0009]步骤三,搭建前置视角特征图投影到俯视视角特征图的视角转换模块,为有效将前置特征图转换到俯视视角下,本专利技术采用一种结合空间与维度的视角转换模型。其网络结构主要包括两个模块,维度层面的视角转换以及空间层面的视角转换。具体计算方法如下:以t时刻的特征图F
t
为例。首先利用维度特征注意力机制,对特征图F
t
针对不同维度的特征图上进行平均池化操作得到各个维度上的平均向量c
a
∈(32,32,1),并经过一层全连接层,随后将得到的特征输入到激活函数上,得到不同维度上的权重向量M
c
∈(1,1,512),计算公式如下:
[0010]c
a
=Avergepool
c
(F
t
)
ꢀꢀꢀ
(1)
[0011]M
c
=σ(Mlp(c
a
))
ꢀꢀꢀ
(2)
[0012]其中Mlp代表全连接操作,Avergepool
c
代表在维度上进行平均池化,c
a
表示平均池化后的结果,σ代表softmax激活函数。
[0013]然后将其与特征图F
t
进行相乘得到突出不同维度后的特征图,随后采用逐点卷积对其进行维度层面的变换,得到维度上变换后的特征图X
c1
,进一步为抑制过拟合情况出现,同样在此处添加了短连接部分,具体计算公式如下:
[0014][0015]X
c
=X
c1
+F
t
ꢀꢀꢀ
(3)
[0016]其中FDW代表深度卷积操作。
[0017]接着利用空间注意力机制,对空间上的不同像素点进行平均池化操作得到平均向量s
a
∈(1,1,512),然后权重将其进行维度展开,并通过一次全连接层其计算公式如下:
[0018]s
a
=Avergepool
s
(X
c
)
ꢀꢀꢀ
(4)
[0019]M
s
=σ(Mlp(Reshape(s
a
)))本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种道路场景下基于计算机视觉的端到端语义鸟瞰图生成方法,其特征在于,包括如下:S1,制作基于视觉的语义鸟瞰图数据集;S2,搭建视觉语义鸟瞰图端到端生成网络模型;包括五部分:1、用于提取图像特征的编码器模块;2、用于将前置视角特征图投影到俯视视角特征图的视角转换模块;3、结合前置特征图用于加强俯视视角特征的双层交叉注意力模块;4、基于多帧图像的时序调整模块;5、用于构造完整鸟瞰图输出的解码器模块;S3,对搭建的模型进行训练;S4,利用训练好的端到端语义鸟瞰图生成模型实时生成鸟瞰图。2.根据权利要求1所述的一种道路场景下基于计算机视觉的端到端语义鸟瞰图生成方法,其特征在于,所述S1具体包括:包括连续三个时刻t

1,t,t+1的前置摄像头图像I
t
‑1,I
t
,I
t+1
,每个时刻间隔为0.2s,其每个时刻采集的图像尺寸大小为(1024,1024,3),以及t+1时刻前置摄像头对应的鸟瞰图语义分割图像,其标签图像大小为(256,256,3),标签内容主要包括前方道路以及车辆具体鸟瞰图信息,其分类类别为三类,道路,车辆以及其他物体。3.根据权利要求1所述的一种道路场景下基于计算机视觉的端到端语义鸟瞰图生成方法,其特征在于,所述S2中用于提取图像特征的编码器模块:采用大卷积核以及ResNet模型构造特征提取器,通过采用部分大核卷积提高特征提取模块的感受野,从而加强模型对于前视图的整体理解以及加强模型的远距离特征提取能力,同时采用深度卷积与逐点卷积相结合的方式来降低大卷积核卷积层所带来的计算负担,具体而言编码器模块结构包括三个部分:第一部分为Stem模块,由三层3
×
3的卷积层以及一层最大池化层构成,第二部分则是为克服过拟合,采用与ResNet模块所采取的相同的短连接网络结构,主要包括主干网络分支以及短连接部分,第三部分是为了增大模型感受野所采用的大卷积核模块,其主干网络包括两层3
×
3卷积层以及一层13
×
13的大核卷积层;其中为降低计算量,针对13
×
13的卷积层采用深度卷积的方式,同时采用两层1
×
1卷积结合一层13
×
13的深层卷积短连接部分构成特征前向传递模块,将步骤S1采集到的三帧图像I
t
‑1,I
t
,I
t+1
经过相同的特征提取之后,得到特征图F
t
‑1,F
t
,F
t+1
,特征图大小为(32,32,512)。4.根据权利要求1所述的一种道路场景下基于计算机视觉的端到端语义鸟瞰图生成方法,其特征在于,所述S2中前置视角特征图投影到俯视视角特征图的视角转换模块,包括两部分:维度层面的视角转换以及空间层面的视角转换;具体计算方法如下:针对t时刻的特征图F
t
,首先利用维度特征注意力机制,对特征图F
t
针对不同维度的特征图上进行平均池化操作得到各个维度上的平均向量c
a
∈(32,32,1),并经过一层全连接层,随后将得到的特征输入到激活函数上,得到不同维度上的权重向量M
c
∈(1,1,512),计算公式如下:c
a
=Avergepool
c
(F
t
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)M
c
=σ(Mlp(c
a
))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)其中Mlp代表全连接操作,Avergepool
c
代表在维度上进行平均池化,σ代表softmax激活函数;
然后将其与特征图X进行相乘得到突出不同维度后的特征图,随后采用逐点卷积对其进行维度层面的变换,得到维度上变换后的特征图X
c1
,为抑制过拟合情况出现,在此处添加了短连接部分,具体计算公式如下:X
c
=X
c1
+X
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)其中FDW代表深度卷积操作;接着利用空间注意力机制,对空间上的不同像素点进行平均池化操作得到平均向量s
a
∈(1,1,512),然后权重将其进行维度展开,并通过一次全连接层其计算公式如下:s
a
=Avergepool
s
(X
c
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)M
s
=σ(Mlp(Reshape(s
a
)))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)其中Reshape代表展平操作。随后将得到的注意力特征图M
s
∈(32*32,1)与输入特征图X
c
进行相乘,得到加权调整后的特征图,随后利用维度调整操作,将得到特征图维度调整为原始X”∈(32,32,1),最后利用13
×
13尺寸的大核深度卷积模块进行处理,同样为抑制过拟合,添加了短连接模块,从而得到最终转换后的特征图X
bev
,具体计算过程可由下列公式表示:X
bev
=X
c
+X
”ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(...

【专利技术属性】
技术研发人员:饶中钰蔡英凤王海李祎承刘擎超陈龙廉玉波董钊志
申请(专利权)人:江苏大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1