一种引用逆注意力与像素相似度学习的图像语义分割方法技术

技术编号:17250513 阅读:30 留言:0更新日期:2018-02-11 09:12
本发明专利技术提供了一种引用逆注意力与像素相似度学习的图像语义分割方法,包括以下步骤:步骤A:对输入图像进行初步语义分割,利用DeepLab v2 ResneT1‑101网络不同尺度的分支网络提取不同尺度的输入图像的特征;步骤B:在步骤A的基础上利用逆注意力层对输入图像的边界进行分割;步骤C:在步骤A的基础上利用像素相似度学习层进一步对输入图像的边界进行分割;步骤D:对逆注意力层和像素相似度学习层进行优化,定义相应的损失函数;步骤E:训练网络参数。本发明专利技术利用逆注意力机制去纠正目标区域与背景区域间的边界定位,利用像素相似度学习机制解决了目标区域与背景区域间的边界定位模糊和边界平滑问题,从而实现目标区域与背景区域的混淆区域间的有效分割。

【技术实现步骤摘要】
一种引用逆注意力与像素相似度学习的图像语义分割方法
本专利技术涉及计算机视觉领域,尤其涉及一种引用逆注意力与像素相似度学习的图像语义分割方法。
技术介绍
图像语义分割技术是计算机视觉领域的热点和难点问题之一,该技术是将图像分割成若干个不同的语义区域,并识别出每个区域类别,获得最终的语义标注,图像语义分割技术在自动驾驶、基于图像语义的定位导航,医学图像分析等领域均具有广泛的应用价值。根据语义特征提取的不同,通常将图像语义分割分为传统与非传统方法两大类;传统的图像语义分割方法包括基于阈值的图像语义分割、基于区域的图像语义分割和基于边缘特征的图像语义分割;传统的图像语义分割方法主要是利用低级图像语义特征来实现图像分割,不能很好的解决复杂图像场景的分割问题;非传统的图像语义分割方法主要是利用图像中的高级图像语义信息进行图像分割,该类方法大都引入深度学习网络以实现图像语义分割,但当前该类方法所关注的是特征理解和目标类别的预测,而忽略让深度网络有意识学习不同目标类别的区别,另外,深度学习网络中,卷积层大的感受野和池化层的存在会导致最深的全卷积网络较低的空间分辨。
技术实现思路
本专利技术的目的在于提供一种引用逆注意力与像素相似度学习的图像语义分割方法,解决了复杂图像场景的图像分割问题。为了实现上述目的,本专利技术采用以下技术方案:一种引用逆注意力与像素相似度学习的图像语义分割方法,其特征在于,包括以下步骤:步骤A:对输入图像进行初步语义分割,即利用DeepLabv2ResneT1-101网络不同尺度的分支网络提取不同尺度的输入图像的特征;具体采用以下方法:DeepLabv2ResneT1-101网络包含三个分支网络,三个分支网络的输入图像的尺度大小各不相同;通过分别使用1:1、1:0.75和1:0.5三个不同尺度的分支网络来提取输入图像在三个不同尺度下的特征;步骤B:在步骤A的基础上,利用逆注意力层对输入图像中的目标区域和背景区域的混淆区域的边界进行分割;步骤C:在步骤A的基础上,利用像素相似度学习层进一步对输入图像中的目标区域和背景区域的混淆区域的边界进行分割;步骤D:为了对逆注意力层和像素相似度学习层进行优化,设计相应损失函数;步骤E:训练网络参数。所述的步骤B包括以下步骤:步骤B1:将步骤A由Deeplabv2ResneT1-101网络所提取的输入图像在三个不同尺度下的特征,经过双线性插值进行缩放,变成同样的维度,并定义输入图像在三个不同尺度下的特征经过缩放之后的大小均为n×n×m;步骤B2:将步骤B1中得到的大小均为n×n×m的三个不同尺度下的特征经过Max层处理后,取出三个不同尺度下的特征中最大的响应记为T1,T1的大小为n×n×m;步骤B3:将T1分别输入到逆向网络和预测网络;步骤B4:定义逆向掩码Reversemask(i,j):其中,f表示在T1在预测网络中经过卷积之后的特征,i和j表示T1的空间坐标,T1特征经过ReLU激活函数之后的取值范围在[0,+∞],因此的范围在[-4,4]之间,这样就将逆向掩码的值约束在了区间内部;对T1的每个通道都运用公式生成逆向掩码Reversemask(i,j);步骤B5:将步骤B4中得到的逆向掩码Reversemask(i,j)与T1输入逆向网络后经过逆向网络处理的结果相乘得到T1经过逆向网络处理后的预测结果,然后将T1经过预测网络处理的结果减去T1经过逆向网络处理后的预测结果,即得到了精细化的混淆区域边界分割结果,从而对输入图像中的目标区域和背景区域的混淆区域的实现有效分割,即去掉或者减弱逆向网络不精确的预测区域。所述的步骤C包括以下步骤:步骤C1:将输入图像以及输入图像经过Deeplabv2ResneT1-101网络的前两层卷积后的输出特征输入到像素相似度学习层,得到维度为n×n×k的输出特征T2;假设输入图像大小为n×n×3,则输入图像经过Deeplabv2ResneT1-101网络的前两层卷积后的输出特征的大小均为n×n×64,T2的空间大小为n×n,通道数k为131;步骤C2:计算所述T2中在给定半径R内的每一个元素与T2中其他元素的距离L1,其中,大于给定半径R的距离定义为0,因此可生成大小为n2×n2×k的像素距离矩阵F;步骤C3:将像素距离矩阵F通过大小为1×1×k的卷积处理之后得到大小为n2×n2的特征,大小为n2×n2的特征经过指数层进行处理得到归一化的像素相似度矩阵W,该矩阵是对称阵,其维度是n2×n2;步骤C4:利用随机游走理论来对像素之间的关系进行建模以学习像素之间的相似度,具体采用以下方法:将像素看成图中的一个节点,Wi,j∈[0,1]表示节点i和节点j之间的相似程度,定义D为对角阵,该矩阵存储了每个节点的度,对角上的元素值为将T1与像素转移矩阵A相乘得到最终的对输入图像中的目标区域和背景区域的混淆区域的边界分割的结果;其中,像素转移矩阵A=D-1W。所述的步骤D包括以下步骤:步骤D1:定义逆注意力机制损失函数lossrev:为逆注意力层中逆向网络的预测结果,yrev为对应的类标;由于网络的任务是语义分割,使用交叉熵损失函数,逆注意力机制损失函数lossrev定义如下:步骤D2:定义预测网络损失函数lossp:为逆注意力层的预测网络的预测结果,yp为对应的类标;与逆向网络一样预测网络也使用交叉熵损失函数,其对应的预测网络损失函数lossp定义如下:步骤D3:定义像素相似度矩阵损失函数lossw:为像素相似度学习层中上层分支网络所预测的像素相似度矩阵,W为对应像素相似度矩阵类标。由于该分支网络学习的是拟合像素相似度矩阵,因此这里使用欧氏距离损失函数,其对应的像素相似度矩阵损失函数lossw定义如下:步骤D4:定义分割损失函数losss:定义为像素相似度学习层中的下层分支网络所预测的分割结果,y为对应的类标,由于该分支网络的任务是语义分割,因此这里使用交叉熵损失函数,其对应的分割损失函数losss如下:本专利技术的有益效果:本专利技术所述的一种引用逆注意力与像素相似度学习的图像语义分割方法引入了逆注意力机制和像素相似度学习实现语义分割,其中,利用逆注意力机制去纠正目标区域与背景区域间的边界定位,加强目标区域的弱响应;同时,利用像素相似度学习机制解决了目标区域与背景区域间的边界定位模糊和边界平滑问题;实验表明本专利技术所述的一种引用逆注意力与像素相似度学习的图像语义分割方法能够提高语义分割的精度,从而实现目标区域与背景区域的混淆区域间的有效分割。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术的方法流程图。具体实施方式下面将结合附图对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示:本专利技术所述的一种引用逆注意力与像素相似度学习的图像语义分割方法,包本文档来自技高网...
一种引用逆注意力与像素相似度学习的图像语义分割方法

【技术保护点】
一种引用逆注意力与像素相似度学习的图像语义分割方法,其特征在于,包括以下步骤:步骤A:对输入图像进行初步语义分割,即利用DeepLab v2ResneT1‑101网络不同尺度的分支网络提取不同尺度的输入图像的特征;具体采用以下方法:DeepLab v2ResneT1‑101网络包含三个分支网络,三个分支网络的输入图像的尺度大小各不相同;通过分别使用1:1、1:0.75和1:0.5三个不同尺度的分支网络来提取输入图像在三个不同尺度下的特征;步骤B:在步骤A的基础上,利用逆注意力层对输入图像中的目标区域和背景区域的混淆区域的边界进行分割;步骤C:在步骤A的基础上,利用像素相似度学习层进一步对输入图像中的目标区域和背景区域的混淆区域的边界进行分割;步骤D:对逆注意力层和像素相似度学习层进行优化,定义相应的损失函数;步骤E:训练网络参数。

【技术特征摘要】
1.一种引用逆注意力与像素相似度学习的图像语义分割方法,其特征在于,包括以下步骤:步骤A:对输入图像进行初步语义分割,即利用DeepLabv2ResneT1-101网络不同尺度的分支网络提取不同尺度的输入图像的特征;具体采用以下方法:DeepLabv2ResneT1-101网络包含三个分支网络,三个分支网络的输入图像的尺度大小各不相同;通过分别使用1:1、1:0.75和1:0.5三个不同尺度的分支网络来提取输入图像在三个不同尺度下的特征;步骤B:在步骤A的基础上,利用逆注意力层对输入图像中的目标区域和背景区域的混淆区域的边界进行分割;步骤C:在步骤A的基础上,利用像素相似度学习层进一步对输入图像中的目标区域和背景区域的混淆区域的边界进行分割;步骤D:对逆注意力层和像素相似度学习层进行优化,定义相应的损失函数;步骤E:训练网络参数。2.根据权利要求1所述的一种引用逆注意力与像素相似度学习的图像语义分割方法,其特征在于,所述的步骤B包括以下步骤:步骤B1:将步骤A由Deeplabv2ResneT1-101网络所提取的输入图像在三个不同尺度下的特征,经过双线性插值进行缩放,变成同样的维度,并定义输入图像在三个不同尺度下的特征经过缩放之后的大小均为n×n×m;步骤B2:将步骤B1中得到的大小均为n×n×m的三个不同尺度下的特征经过Max层处理后,取出三个不同尺度下的特征中最大的响应记为T1,T1的大小为n×n×m;步骤B3:将T1分别输入到逆向网络和预测网络;步骤B4:定义逆向掩码Reversemask(i,j):其中,f表示在T1在预测网络中经过卷积之后的特征,i和j表示T1的空间坐标,T1特征经过ReLU激活函数之后的取值范围在[0,+∞],因此的范围在[-4,4]之间,这样就将逆向掩码的值约束在了区间内部;对T1的每个通道都运用公式生成逆向掩码;步骤B5:将步骤B4中得到的逆向掩码Reversemask(i,j)与T1输入逆向网络后经过逆向网络处理的结果相乘得到T1经过逆向网络处理后的预测结果,然后将T1经过预测网络处理的结果减去T1经过逆向网络处理后的预测结果,即得到了精细化的混淆区域边界分割结果,从而对输入图像中的目标区域和背景区域的混淆区域的实现有效分割,即去掉或者减弱逆向网络不精确的预测区域。3.根据权利要求1所述的一种引用逆注意力与像素相似度学习的图像语义分割方法,其特征在于,所述的步骤C包括以下步骤:步骤C1:将输入图像以及输入图像经过Deeplabv2ResneT1-101网...

【专利技术属性】
技术研发人员:肖立智李涛赵雪专裴利沈李冬梅朱晓珺曲豪张栋梁汪伟邹香玲郭航宇
申请(专利权)人:盐城禅图智能科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1