一种基于显式监督区域关系的场景解析模型及方法技术

技术编号:33531758 阅读:16 留言:0更新日期:2022-05-19 02:04
本发明专利技术的目的在于提供一种基于显式监督区域关系的场景解析模型及方法,属于计算机视觉中的图像分割技术领域。本发明专利技术所公开的场景解析模型通过对场景图片中的区域内和区域间关系分别建模,并在网络训练过程中给予两种区域关系对应的显式监督信息,使得区域内关系模块利用了更准确的区域内类别先验信息,提高了困难类别的判别能力;通过区域间关系模块捕捉了更准确的区域间类别相互关系,提高了相似类别的分辨能力,具有解析准确率高、额外计算复杂度低等特点。杂度低等特点。杂度低等特点。

【技术实现步骤摘要】
一种基于显式监督区域关系的场景解析模型及方法


[0001]本专利技术属于计算机视觉中的图像分割
,具体涉及一种基于显式监督区域关系的场景解析系统及方法。

技术介绍

[0002]近年来,随着深度学习技术的进步,计算机视觉领域取得了蓬勃的发展,其中场景解析是该领域最具挑战性和代表性的任务之一。场景解析的主要任务是根据给定的输入场景图片,对场景图片中的每个像素赋予相对应的类别标签,实现对该场景的智能解析和深度理解。该任务在机器人导航、自动驾驶、虚拟现实和精准农业等方面有广泛的应用前景,是国内外计算机视觉领域的研究热点。
[0003]现有的场景解析方法大多基于全卷积网络(Fully Convolutional Network,FCN)结构,得益于深度卷积神经网络(Convolutional Neural Networks,CNN)强大的分类能力。基于FCN结构的方法在简单场景下的像素分类有很好的效果,但是随着场景类别数量的增加,基于FCN结构的方法很难区分一些相似类别,例如书架和橱柜,导致对复杂场景的解析性能下降。最新的一些研究
[1][2]提出了自注意力机制对场景中区域关系建模,试图解决相似类别的解析困难问题。然而,这些方法的区域关系往往缺乏显式的监督信息,通过自注意力机制捕捉到的一些无监督区域间关系可能对网络产生负面影响,使相似类别判断易混淆,场景解析性能下降。此外,现有方法大多关注场景图片中区域间的关系建模,缺少对区域内的关系建模,不利于解决区域内困难类别分类错误问题。
[0004]因此,如何解决现有场景解析方法中存在的缺乏对区域内和区域间关系显式监督缺陷的问题,就成为了研究重点。
[0005][1]Zhang,Hang,et al."Context encoding for semantic segmentation."Proceedings of the IEEE conference on Computer Vision and Pattern Recognition.2018.
[0006][2]Fu,Jun,et al."Dual attention network for scene segmentation."Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.2019.

技术实现思路

[0007]针对
技术介绍
所存在的问题,本专利技术的目的在于提供一种基于显式监督区域关系的场景解析模型及方法。该模型通过对场景图片中的区域内和区域间关系分别建模,并在网络训练过程中给予两种区域关系对应的显式监督信息,提高网络对相似类别和困难类别的分类能力,从而提升场景解析性能。
[0008]为实现上述目的,本专利技术的技术方案如下:
[0009]一种基于显式监督区域关系的场景解析模型,包括网络预处理模块,深度扩张卷积特征提取模块,扩张卷积空间池化金字塔模块,初步解析模块,区域内关系模块,区域间
关系模块和修正解析模块;
[0010]其中,所述网络预处理模块用于对场景图片进行预处理,得到所需场景图像;所述深度扩张卷积特征提取模块用于提取预处理后的场景图像的图像特征;所述扩张卷积空间池化金字塔模块用于对提取的图像特征处理得到多尺度增强的图像特征;
[0011]所述初步解析模块依次包括一个3
×
3卷积层、一个批量归一化层、一个ReLU层、一个Dropout层和一个1x1卷积层,其中,1x1卷积层的输出维度为数据集场景类别标签数量;多尺度增强的图像特征输入初步解析模块后,即可得到初步场景解析结果;
[0012]所述区域内关系模块包括依次连接的一个区域划子分模块和一个区域内关系学习子模块;所述区域划分子模块为一个自适应池化层,区域内关系学习子模块包括依次连接的一个动态卷积层、四个连续的3
×
3卷积

批量归一化

ReLU层和一个sigmoid层;所述区域内关系模块通过区域划分子模块将输入的多尺度增强的图像特征划分成kxk个区域,然后通过动态卷积层自适应地对不同区域特征进行变换,再通过四个连续的3
×
3卷积

批量归一化

ReLU层将变换后的区域特征处理得到区域内关系增强特征,通过sigmoid层得到预测的区域内关系;
[0013]所述区域间关系模块依次包括区域划分子模块和有监督的Non

Local子模块,其中,区域划分子模块为一个自适应池化层,有监督的Non

Local子模块包括三个1
×
1卷积层;区域间关系模块通过区域划分子模块将输入的多尺度增强的图像特征划分成kxk个区域,通过第一个1
×
1卷积层和第二个1
×
1卷积层将不同区域的图像特征进行特征变换、再进行维度重组,将这个1x1卷积层维度重整后的结果进行矩阵乘法处理,得到预测的区域间关系,该关系即为区域间类别相似度矩阵,预测的区域间关系与第三个1
×
1卷积层进行矩阵乘法,得到区域间关系增强特征;
[0014]所述修正解析模块包括依次连接的一个3
×
3卷积

批量归一化

ReLU层、一个Dropout层、一个1x1卷积层和一个线性插值上采样层,1x1卷积层的输出维度为数据集场景类别标签数量;修正解析模块通过3
×
3卷积

批量归一化

ReLU层将区域内关系增强特征和区域间关系增强特征进行特征融合,通过Dropout层和1x1卷积层将融合后的特征进行修正,修正后的结果与初步场景解析结果线性加权得到修正后的解析结果,通过线性插值上采样层将修正后的解析结果上采样到原图分辨率,得到最终场景解析结果。
[0015]进一步地,场景解析模型的损失函数设置为:
[0016]L
total
=L
seg
+αL
Intra
+βL
Inter

[0017]其中,L
seg
表示初步解析模块的交叉熵损失,L
Intra
表示区域内关系模块的交叉熵损失,L
Inter
表示区域间关系模块的交叉熵损失,α和β为预置损失系数;
[0018][0019]其中,N为图像像素个数,C为场景类别个数,D
KL
(m
i
,n
i
)为m
i
和n
i
之间的KL距离,i和j分别为第i和j列的像素,x
i,j
为像素类别预测概率,y
i
为像素类别标签;R为图像区域个数,m
i
为预测的区域内类别分布,n...

【技术保护点】

【技术特征摘要】
1.一种基于显式监督区域关系的场景解析模型,其特征在于,包括网络预处理模块、深度扩张卷积特征提取模块、扩张卷积空间池化金字塔模块、初步解析模块、区域内关系模块、区域间关系模块和修正解析模块;其中,所述网络预处理模块用于对场景图片进行预处理,得到所需场景图像;所述深度扩张卷积特征提取模块用于提取预处理后的场景图像的图像特征;所述扩张卷积空间池化金字塔模块用于对提取的图像特征处理得到多尺度增强的图像特征;所述初步解析模块包括依次连接的一个3
×
3卷积层、一个批量归一化层、一个ReLU层、一个Dropout层和一个1x1卷积层,其中,1x1卷积层的输出维度为数据集场景类别标签数量;多尺度增强的图像特征输入初步解析模块后,即可得到初步场景解析结果;所述区域内关系模块包括依次连接的一个区域划子分模块和一个区域内关系学习子模块;所述区域划分子模块为一个自适应池化层,区域内关系学习子模块包括依次连接的一个动态卷积层、四个连续的3
×
3卷积

批量归一化

ReLU层和一个sigmoid层;所述区域内关系模块通过区域划分子模块将输入的多尺度增强的图像特征划分成kxk个区域,然后通过动态卷积层自适应地对不同区域特征进行变换,再通过四个连续的3
×
3卷积

批量归一化

ReLU层将变换后的区域特征处理得到区域内关系增强特征,通过sigmoid层得到预测的区域内关系;所述区域间关系模块包括依次连接的区域划分子模块和有监督的Non

Local子模块,其中,区域划分子模块为一个自适应池化层,有监督的Non

Local子模块包括三个1
×
1卷积层;区域间关系模块通过区域划分子模块将输入的多尺度增强的图像特征划分成kxk个区域,通过第一个1
×
1卷积层和第二个1
×
1卷积层将不同区域的图像特征进行特征变换、再进行维度重组,将这个1x1卷积层维度重整后的结果进行矩阵乘法处理,得到预测的区域间关系,预测的区域间关系与第三个1
×
1卷积层进行矩阵乘法,得到区域间关系增强特征;所述修正解析模块包括依次连接的一个3
×
3卷积

批量归一化

ReLU层、一个Dropout层、一个1x1卷积层和一个线性插值上采样层,1x1卷积层的输出维度为数据集场景类别标签数量;修正解析模块通过3
×
3卷积

批量归一化

ReLU层将区域内关系增强特征和区域间关系增强特征进行特征融合,通过Dropout层和1x1卷积层将融合后的特征进行修正,修正后的结果与初步场景解析结果线性加权得到修正后的解析结果,通过线性插值上采样层将修正后的解析结果上采样到原图分辨率,得到最终场景解析结果。2.如权利要求1所述的基于显式监督区域关系的场景解析模型,其特征在于,场景解析模型的损失函数设置为:L
total
=L
seg
+αL
Intra
+βL
Inter
,其中,L
seg
表示初步解析模块的交叉熵损失,L
Intra
表示区域内关系模块的交叉熵损失,L
Inter
...

【专利技术属性】
技术研发人员:宋子辰李宏亮孟凡满吴庆波许林峰潘力立邱荷茜
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1