当前位置: 首页 > 专利查询>之江实验室专利>正文

一种针对室内场景RGB-D图像的语义分割方法技术

技术编号:25838727 阅读:108 留言:0更新日期:2020-10-02 14:18
本发明专利技术提供一种针对室内场景RGB‑D图像的语义分割方法,该方法以Resnet101作为特征提取网络,增加一个与RGB输入并行的深度的输入通道,通过池化运算保证深度图尺寸与RGB通道的特征图一致;并将Resnet101网络的第一个卷积层替换为局部像素预分组卷积模块。该方法改进了传统的RGB语义分割方法,使模型对深度信息敏感,进而提升语义分割效果。

【技术实现步骤摘要】
一种针对室内场景RGB-D图像的语义分割方法
本专利技术涉及计算机图像处理领域,尤其涉及一种针对室内场景RGB-D图像的语义分割方法。
技术介绍
语义分割是计算机视觉中非常重要的一个应用,被广泛运用在机器人、自动驾驶、安防监控等诸多领域。目前RGB-D传感器已经相当成熟,它不仅能提供色彩信息,还能提供深度信息。深度信息在色彩边界不明显、纹理特征较弱的场景中,对语义分割有很强的指导作用,而传统的语义分割方法并不能充分利用深度信息。
技术实现思路
针对现有的RGB图像分割算法无法利用图像深度信息的不足,本专利技术提出一种针对室内场景RGB-D图像的语义分割方法,以增强图像分割算法的性能,具体技术方案如下:一种针对室内场景RGB-D图像的语义分割方法,该方法具体包括如下步骤:S1:构建语义分割模型;(1)以开源Deeplabv3+模型为基础,对网络结构进行改造:以Resnet101作为特征提取网络,增加一个与RGB输入并行的深度的输入通道,通过池化运算保证深度图尺寸与RGB通道的特征图一致;(2)将Resnet101网络的第一个卷积层替换为局部像素预分组卷积模块;所述的局部像素预分组卷积模块的计算方式如下:(2.1)设该模块的卷积感受野为k×k,通过该模块对应的深度图获取卷积感受野内像素对应的深度值,并通过深度值转化出所述的k×k个点的点云坐标{pi},i=1,2,…,k2;(2.2)计算所述的k×k个点的协方差矩阵A(2.3)计算矩阵A的特征值,最小特征值对应的特征向量即是近似切平面的法向量;(2.4)计算各个点在方向的投影(2.5)以卷积核中心点的深度值为零点,计算其他各点与中心点的有向距离di,i=1,2,…,k2;(2.6)以s为宽度,划分出k个深度区间[-(k+2)s/2+js,-(k+2)s/2+(j+1)s]jj=1,2,…,k;(2.7)将各点与中心点的有向距离di落入同一个区间的点分到同一个组,共计k组;再将同组的点进行一个2D卷积操作,然后将k个2D卷积输出求和,将求和的结果作为所述的局部像素预分组卷积模块的输出;(3)将Resnet101网络输出的特征图输入Deeplabv3+的解码器解码后输出分类得分图;S2:选择开源RGB-D语义分割数据集,用反向传播算法训练S1得到的语义分割模型;S3:将测试RGB-D图像输入S2训练好的语义分割模型中,根据输出的分类得分图计算各像素点类别,输出语义分割图像。进一步地,所述的解码器的计算过程如下:(1)提取Resnet101网络第一个卷积层输出的特征图,即低层级特征图;(2)将低层级特征图输入多尺度空洞卷积模块;所述的低层级特征图分别通过四个不同尺度的空洞卷积层和一个均值池化操作,并将这五个输出叠加,然后通过1×1的卷积压缩通道数,生成压缩后的特征图;再用双线性差值算法将压缩后的特征图上采样至和低层级特征图一致的尺寸,并将上采样后的特征图与低层级特征图叠加;(3)将步骤(2)得到的叠加后的特征图通过3个3×3卷积,输出通道数为类别数的分类得分图。进一步地,k为3。进一步地,s为0.5。本专利技术的有益效果如下:与传统RGB语义分割算法不同,本方法引入了图像的深度信息,在色彩边界不明显、纹理特征较弱的场景中,深度信息提供的边缘特征能对语义分割提供正确指导,从而相较传统方法有较为明显的性能提升。附图说明图1为本专利技术的模型构架图;图2为专利技术方法效果图。具体实施方式下面根据附图和优选实施例详细描述本专利技术,本专利技术的目的和效果将变得更加明白,应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。如图1所示,本专利技术的针对室内场景RGB-D图像的语义分割方法具体包括如下步骤:S1:构建语义分割模型;(1)使用开源深度学习框架pytorch搭建算法模型。以开源Deeplabv3+模型为基础,对网络结构进行改造:以Resnet101作为特征提取网络,增加一个与RGB输入并行的深度的输入通道。深度(Depth)通道只做均值池化操作,作用域为3×3,步长(stride)为2。总共进行4次池化操作,分别对应Resnet101中4次步长(stride)为2的卷积/池化操作,从而保证深度图尺寸与RGB通道的特征图一致;(2)将Resnet101网络的四个卷积层中的第一个3×3卷积层替换为局部像素预分组卷积模块;所述的局部像素预分组卷积模块的计算方式如下:(2.1)设该模块的卷积感受野为k×k,通过该模块对应的深度图获取卷积感受野内像素对应的深度值,并通过深度值转化出所述的k×k个点的点云坐标{pi},i=1,2,…,k2;k优选为3;(2.2)计算所述的k×k个点的协方差矩阵A(2.3)计算矩阵A的特征值,最小特征值对应的特征向量即是近似切平面的法向量;(2.4)计算各个点在方向的投影(2.5)以卷积核中心点的深度值为零点,计算其他各点与中心点的有向距离di,i=1,2,…,k2;(2.6)以s为宽度,划分出k个深度区间[-(k+2)s/2+js,-(k+2)s/2+(j+1)s]jj=1,2,…,k;s优选为0.5。(2.7)将各点与中心点的有向距离di落入同一个区间的点分到同一个组,共计k组;再将同组的点进行一个2D卷积操作,然后将k个2D卷积输出求和,将求和的结果作为所述的局部像素预分组卷积模块的输出;(3)将Resnet101网络输出的特征图输入Deeplabv3+的解码器解码后输出分类得分图;所述的解码器的计算过程如下:(1)提取Resnet101网络第一个卷积层输出的特征图,即低层级特征图;(2)将Resnet101网络输出的特征图输入多尺度空洞卷积模块;所述的Resnet101网络输出的特征图分别通过四个不同尺度的空洞卷积层和一个均值池化操作,并将这五个输出叠加,然后通过1×1的卷积压缩通道数,生成压缩后的特征图;再用双线性差值算法将压缩后的特征图上采样至和低层级特征图一致的尺寸,并将上采样后的特征图与低层级特征图叠加;其中,四个不同尺度的空洞卷积层分别为:(kernel_size=1,stride=1);(kernel_size=3,stride=1,atrous_rate=6);(kernel_size=3,stride=1,atrous_rate=12);(kernel_size=3,stride=1,atrous_rate=18)。(3)将步骤(2)得到的叠加后的特征图通过3个3×3卷积,输出通道数为类别数的分类得分图。这里的类别数为41。(4)再以交叉熵损失(cross-entropyloss)作为损失函数,以随机梯度下降法作为优化函数。至此模型框架构建完成。...

【技术保护点】
1.一种针对室内场景RGB-D图像的语义分割方法,其特征在于,该方法具体包括如下步骤:/nS1:构建语义分割模型;/n(1)以开源Deeplab v3+模型为基础,对网络结构进行改造:以Resnet101作为特征提取网络,增加一个与RGB输入并行的深度的输入通道,通过池化运算保证深度图尺寸与RGB通道的特征图一致;/n(2)将Resnet101网络的第一个卷积层替换为局部像素预分组卷积模块;/n所述的局部像素预分组卷积模块的计算方式如下:/n(2.1)设该模块的卷积感受野为k×k,通过该模块对应的深度图获取卷积感受野内像素对应的深度值,并通过深度值转化出所述的k×k个点的点云坐标{

【技术特征摘要】
1.一种针对室内场景RGB-D图像的语义分割方法,其特征在于,该方法具体包括如下步骤:
S1:构建语义分割模型;
(1)以开源Deeplabv3+模型为基础,对网络结构进行改造:以Resnet101作为特征提取网络,增加一个与RGB输入并行的深度的输入通道,通过池化运算保证深度图尺寸与RGB通道的特征图一致;
(2)将Resnet101网络的第一个卷积层替换为局部像素预分组卷积模块;
所述的局部像素预分组卷积模块的计算方式如下:
(2.1)设该模块的卷积感受野为k×k,通过该模块对应的深度图获取卷积感受野内像素对应的深度值,并通过深度值转化出所述的k×k个点的点云坐标{pi},i=1,2,…,k2;
(2.2)计算所述的k×k个点的协方差矩阵A



(2.3)计算矩阵A的特征值,最小特征值对应的特征向量即是近似切平面的法向量;
(2.4)计算各个点在方向的投影



(2.5)以卷积核中心点的深度值为零点,计算其他各点与中心点的有向距离di,i=1,2,…,k2;
(2.6)以s为宽度,划分出k个深度区间[-(k+2)s/2+js,-(k+2)s/2+(j+1)s]jj=1,2,…,k;
(2.7)将各点与中心点的有向距离di落入同一个区间的点分到同一个组,共计k组;再将同组的点进行一个2D卷积操作,然后...

【专利技术属性】
技术研发人员:费哲遥张健谢天李月华朱世强
申请(专利权)人:之江实验室
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1