基于深度空间结构信息的街道场景语义分割方法及装置制造方法及图纸

技术编号：38345933 阅读：17 留言：0更新日期：2023-08-02 09:26

本公开提供一种基于深度空间结构信息的街道场景语义分割方法及装置。所述方法包括：采集若干街道场景图像形成数据集，并对所述数据集中的街道场景图像进行预处理；将所述预处理后的街道场景图像输入到预设的网络模型的编码器中进行特征提取和压缩；对提取的特征计算空间结构信息；利用解码器完成上采样；输出预测结果并优化模型。可以实现在不增加计算量的前提下增加模型的准确率。的前提下增加模型的准确率。的前提下增加模型的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
基于深度空间结构信息的街道场景语义分割方法及装置

[0001]本公开属于人工智能
，具体涉及一种基于深度空间结构信息的街道场景语义分割方法及装置。

技术介绍

[0002]随着人工智能技术的日趋成熟，人们的生活也向着便捷化和多样化发展，在汽车领域中，自动驾驶技术是人工智能的重要体现之一。自动驾驶，又称无人驾驶、电脑驾驶或轮式移动机器人，是依靠计算机与人工智能技术在没有人为操纵的情况下，完成完整、安全、有效的驾驶的一项前沿科技。基于视觉的街道场景语义分割是利用计算机视觉的技术，使汽车对当前的道路场景进行一系列分析，从而完成自动驾驶的任务。
[0003]语义分割是典型的计算机视觉问题，其目标是将原始的数据作为输入并将它们转换为具有突出显示的感兴趣区域的掩膜，其中图像中的每个像素根据其所属的对象被分配类别ID，可以简单的将语义分割理解为像素级的图像分类。街道场景语义分割是将语义分割技术应用于街道场景中，相比于其他语义分割任务，街道场景具有复杂性，实时性等特点。近些年来，随着深度学习技术的不断发展，其在语义分割任务中大放异彩，取得了骄人的成绩。利用深度学习的方法完成语义分割多为端到端的网络结构，主要包含编码器和解码器两个模块，其中编码器用于提取或压缩输入的特征；解码器用于将压缩的特征还原到原始输入的大小，其流程为首先将高维的输入图像压缩到低维，再将低维特征恢复到原始输入的大小，完成基于像素点的分类。最初有学者提出用于语义分割的全卷积神经网络FCN，其去除了全连接层和softmax计算，只使用卷积加池化层完成特征的...

【技术保护点】

【技术特征摘要】
1.一种基于深度空间结构信息的街道场景语义分割方法，其特征在于，所述方法包括：采集若干街道场景图像形成数据集，并对所述数据集中的街道场景图像进行预处理；将所述预处理后的街道场景图像输入到预设的网络模型的编码器中进行特征提取和压缩；对提取的特征计算空间结构信息；利用解码器完成上采样；输出预测结果并优化模型。2.根据权利要求1所述的方法，其特征在于，所述对所述数据集中的街道场景图像进行预处理，包括：对所述街道场景图像进行尺寸变化、翻转或压缩处理，实现数据增强。3.根据权利要求1所述的方法，其特征在于，所述将所述预处理后的街道场景图像输入到预设的网络模型的编码器中进行特征提取和压缩，包括：选择deeplabv3作为基准模型，在特征提取时，模型仍然采用deeplabv3的策略，但将deeplabv3中的Resnet101变为轻量化神经网络MobileNetV2；所述MobileNetV2的基本单元是深度可分离卷积，将其分解为两个更小的卷积操作，分别为depthwise卷积和pointwise卷积；其中，所述depthwise卷积针对每个输入通道采用不同的卷积核；所述pointwise卷积采用1x1的卷积核；深度可分离卷积具体步骤如下：首先采用所述depthwise卷积对不同输入通道分别进行卷积，然后采用所述pointwise卷积将上面的输出再进行结合；其中，假设输入为D
F
*D
F
*C
IN
,输出为D
F
*D
F
*C
OUT
，卷积核大小为D
K
*D
K
，则深度可分离卷积与普通卷积的参数对比如下公式(1)所示：其中，DSC为深度可分离卷积，C为普通卷积；MobilenetV2提出了线性瓶颈理论，其指出ReLU会破坏在低维空间的数据，而高维空间影响比较少，在低维空间使用线性激活层代替ReLU在低维空间使用线性激活层代替ReLU；最后MobilenetV2引入了倒残差这一概念，esiduals block是先经过一个1x1的卷积层，把特征图的通道数压缩，再通过3x3卷积层，最后经过一个1x1的卷积层将特征图通道数扩张回去；倒残差是先扩张，后压缩；设扩张倍数为6，其过程如下公式(2)所示：4.根据权利要求1至3任一项所述的方法，其特征在于，所述对提取的特征计算空间结构信息，包括：设提取出的特征为f(I)，空间结构信息模块作用于f(I)，具体为：对f(I)进行1*1卷积加ReLU处理，得到新映射h(I)∈R
N*N*C
，描述了不同特征元的空间信息；h(I)中的每个cell(每个i,j位置)集中代表了图像I中一个区域的语义信息；通过建立不同区域之间的空间连接，以建模对象不同部分之间的结构关系；选用极坐标来建模这种结构关系；N*N平面作为极坐标平面，原点为特征中值最大的位置R
O
＝R
xy
，区域R
i,j
的极坐标可以写成(Γ
i,j
,θ
i,j
),此作为自监督的标签；其中Γ
i,j
和θ
i,j
的
计算公式如下公式(3)和公式(4)所示：θ
i,j
＝(atan2(y
‑
j,x
‑
i)+Π)/2Π (4)atan2公式如下公式(5)所示：对每个cell的h(I)
i,j
和原点处的h(I)
x,y
在通道维度上进...

【专利技术属性】
技术研发人员：李志杰，王贵忠，曹乃虹，杨继明，徐文海，王自强，徐明寿，
申请(专利权)人：北京华能新锐控制技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人