一种基于双路区域注意力编解码的图像视觉语义分割方法技术

技术编号:29134580 阅读:18 留言:0更新日期:2021-07-02 22:30
本发明专利技术公开了一种基于双路区域注意力编解码的图像视觉语义分割方法,具体步骤包括提前获取特定场景的图像样本;对样本图像的RBG通道进行归一化,准备训练深度模型;通过双路编码器对图像进行编码,获取多尺度的、精细化的图像深度特征;使用基于区域注意力的解码器,通过区域信息对不同分布的目标进行自适应通道特征增强;通过skip‑connection融合不同提取阶段中的编码器浅层特征以及解码器深层特征,最大限度的复用深度特征;最后进行深度神经网络最终卷积层到原图像的映射,对每一个像素点进行分类,得到最终图像视觉分割图。本发明专利技术能够嵌入监控探头等设备中并通过区域信息对分布复杂的图像进行指导,从而实现图像的精确视觉语义分割。

【技术实现步骤摘要】
一种基于双路区域注意力编解码的图像视觉语义分割方法
本专利技术涉及图像处理
,特别涉及一种基于双路区域注意力编解码的图像视觉语义分割方法。
技术介绍
随着社会的发展,语义分割作为一种基于双路区域注意力编解码的图像视觉语义分割方法重要的技术越来越受到人们的重视,应用范围也逐渐扩大,从常规的日常图像语义分割渐渐扩展到特定应用场景的语义分割。在深度学习应用到语义分割之后,常规图像的语义分割得到了极大改善,但是针对特定的工作场景的语义分割效果不是很明显,这是因为常规图像在拍摄的时候是以地面为参照的,照片中的目标横平竖直,并且占据一张图像中的大部分面积,容易被识别,而某些特定场景中图像中的目标通常具有任意的方向,并且占据一张图像的极少部分,比如多车道的场景下,获取的图像是车来向的侧上方视角图像。在双路区域注意力编解码网络构建之后,使用者可以通过双路编码器提取更精确的特征,通过注意力解码器更精确的识别区域内的目标,并且本专利技术可以嵌入监控系统摄像头当中,进行实时的图像语义分割,通过监控摄像头的配置,从而实现灵活地调整图像语义分割推断算法,达到更高的语义分割精度。一般的语义分割系统主要通过以下方式实现:一、查询阶段:监控人员提取出监控画面中的图像,手动送至语义分割系统中进行分析;二、批量测试:将每个摄像头采集的图像自动输送至语义分割系统中进行分析。方式一和方式二受限于人力以及摄像头的角度,缺乏针对性,不能很好地过滤掉大部分非必要的图像以及应对突发事件。为了增强语义分割系统的灵活性,研究人员将语义分割系统嵌入至监控探头等含有摄像头的设备之中,进而通过摄像头的运动来实现对图像的语义分割,然而,这种方法通常是将计算机视觉语义分割任务更换了搭载平台,忽视了图像自带的特性。在实际应用场景中,这类方法往往会因为镜头中的目标占比过小,方向变幻莫测,同时由于摄像头视野角度问题,目标容易被其他物体遮挡,造成不同目标边界轮廓的不确定性,无法实现对目标的精确分割。
技术实现思路
本专利技术的目的克服现有技术存在的不足,为实现以上目的,采用一种基于双路区域注意力编解码的图像视觉语义分割方法,以解决上述
技术介绍
中提出的问题。一种基于双路区域注意力编解码的图像视觉语义分割方法,包括:获取场景图像样本;对场景图像样本进行预处理,且导入构建的深度模型训练;搭建网络编解码器,对图像样本进行特征融合并获得解码特征图;利用已训练的深度模型嵌入设备判断场景图像样本,进行像素点分类,得到最终图像视觉分隔图。作为本专利技术的进一步的方案:所述图像视觉语义分割方法的具体步骤为:获取特定场景的图像样本数据,所述图像样本数据包括m张图像的训练数据、n张图像的验证数据,以及若干张图像的测试数据,所述训练数据与验证数据包括与原图像对应的标签图像;对输入的图像样本的RBG通道归一化处理,限定于-1至1之间,再进行损失函数和优化器的配置,并训练深度模型;利用搭建的网络编码器进行特征提取,获得融合特征;利用搭建的网络解码器和编码器进行特征结合,获得更精确的解码特征图;通过已训练的深度模型判断输入的图像中的像素点是否属于待提取目标,将模型嵌入设备,配合进行实时的语义分隔,同时对交叠区域进行测试增强操作,获得更精确地分割结果。作为本专利技术的进一步的方案:所述对场景图像样本进行处理,损失函数和优化器的配置,并训练深度模型的具体步骤包括:设置场景图像样本的训练集为m张图像T={T1,T2,…,Ti,…,Tm},设置m张对应的标签图像为TL={TL1,TL2,…,TLi,…,TLm},其中Ti表示训练集中第i张图像,TLi表示训练集中第i张图像的标签图像,i<m;设置场景图像样本的验证集为m张图像V={V1,V2,…,Vi,…,Vn},设置n张对应的标签图像为VL={VL1,VL2,…,VLi,…,VLn},其中Vi表示验证集中第i张图像,VLi表示验证集中第i张图像的标签图像,i<n;制定深度模型训练策略,设定训练集与测试集的比例为m:n=4:1;再对输入的图像样本进行归一化处理:(image/255)×2-1,其中image为输入的样本图像;将优化器设定为Adam,再根据二值交叉熵损失函数和交并比损失函数,获得最终的损失函数。作为本专利技术的进一步的方案:所述根据二值交叉熵损失函数和交并比损失函数,获得最终的损失函数的具体步骤包括:根据二值交叉熵损失函数LossBCE和交并比损失函数LossIoU,获得损失函数Lossfinal;其中,LossBCE表示二值交叉熵损失函数,其中yi表示图像中第i个像素点的真值,表示图像中第i个像素点的预测值;LossIoU表示交并比损失函数,A∩B表示一张图像中真值区域A与预测区域B的交集,A∪B表示一张图像中真值区域A与预测区域B的并集;Lossfinal表示最终构成的损失函数,其中α和β分别代表二值交叉熵损失和交并比损失的权重且有α+β=1,N输入的图像中所有像素点的个数,N=W×H,W和H分别表示输入图像的宽和高。作为本专利技术的进一步的方案:所述利用搭建的网络编码器进行特征提取,获得融合特征的具体步骤包括:搭建编码器的第一路,采用残差网络提取特征,共计进行5次下采样,得到特征图P={P0,P1,P2,P3,P4},其中Pi的尺寸是Pi+1的2倍;搭建编码器的第二路,采用堆积的空洞卷积提取特征,共计进行5次下采样,得到特征图Q={Q0,Q1,Q2,Q3,Q4},其中Qi的尺寸是Qi+1的2倍;对不同尺寸的特征图进行融合,得到融合特征图S={S0,S1,S2,S3,S4},融合特征图Si的计算公式为:其中,Si为编码阶段第i层融合特征图,Pi表示编码阶段第i层残差特征图,Qi表示编码阶段第i层空洞卷积特征图,为element-wiseaddition,即对应元素的相加,0≤i≤4,Smn为在宽度为m、高度为n的特征图中坐标为(m,n)的像素点所对应的通道特征,其维度为Ci为第i层融合特征图的通道数量。作为本专利技术的进一步的方案:所述利用搭建的网络解码器和编码器进行特征结合,获得更精确的解码特征图的具体步骤包括:利用编码器与解码器中对应尺度的特征图,采用skip-connection的方式将编码阶段的low-level特征与解码阶段的high-level特征结合,再采用element-wiseaddition操作以获得融合特征F={F0,F1,F2,F3}:其中,Up(·)为表示特征图上采样操作,Fi表示解码阶段第i层融合特征图,Si表示编码阶段第i层融合特征图,Si+1表示编码阶段第i+1层融合特征图;为element-wiseaddition,即对应元素的相加,通过skip-connection的操作将编码器与解码器中不同尺寸的特征进行融合,0≤i≤3,在前4个不同尺寸的特征图上进行skip-本文档来自技高网
...

【技术保护点】
1.一种基于双路区域注意力编解码的图像视觉语义分割方法,其特征在于,包括以下步骤:/n获取场景图像样本;/n对场景图像样本进行预处理,且导入构建的深度模型训练;/n搭建网络编解码器,对图像样本进行特征融合并获得解码特征图;/n利用已训练的深度模型嵌入设备判断场景图像样本,进行像素点分类,得到最终图像视觉分隔图。/n

【技术特征摘要】
1.一种基于双路区域注意力编解码的图像视觉语义分割方法,其特征在于,包括以下步骤:
获取场景图像样本;
对场景图像样本进行预处理,且导入构建的深度模型训练;
搭建网络编解码器,对图像样本进行特征融合并获得解码特征图;
利用已训练的深度模型嵌入设备判断场景图像样本,进行像素点分类,得到最终图像视觉分隔图。


2.根据权利要求1所述一种基于双路区域注意力编解码的图像视觉语义分割方法,其特征在于,所述图像视觉语义分割方法的具体步骤为:
获取特定场景的图像样本数据,所述图像样本数据包括m张图像的训练数据、n张图像的验证数据,以及若干张图像的测试数据,所述训练数据与验证数据包括与原图像对应的标签图像;
对输入的图像样本的RBG通道归一化处理,限定于-1至1之间,再进行损失函数和优化器的配置,并训练深度模型;
利用搭建的网络编码器进行特征提取,获得融合特征;
利用搭建的网络解码器和编码器进行特征结合,获得更精确的解码特征图;
通过已训练的深度模型判断输入的图像中的像素点是否属于待提取目标,将模型嵌入设备,配合进行实时的语义分隔,同时对交叠区域进行测试增强操作,获得更精确地分割结果。


3.根据权利要求2所述一种基于双路区域注意力编解码的图像视觉语义分割方法,其特征在于,所述对场景图像样本进行处理,损失函数和优化器的配置,并训练深度模型的具体步骤包括:
设置场景图像样本的训练集为m张图像T={T1,T2,…,Ti,…,Tm},设置m张对应的标签图像为TL={TL1,TL2,…,TLi,…,TLm},其中Ti表示训练集中第i张图像,TLi表示训练集中第i张图像的标签图像,i<m;
设置场景图像样本的验证集为m张图像V={V1,V2,…,Vi,…,Vn},设置n张对应的标签图像为VL={VL1,VL2,…,VLi,…,VLn},其中Vi表示验证集中第i张图像,VLi表示验证集中第i张图像的标签图像,i<n;
制定深度模型训练策略,设定训练集与测试集的比例为m:n=4:1;
再对输入的图像样本进行归一化处理:(image/255)×2-1,其中image为输入的样本图像;
将优化器设定为Adam,再根据二值交叉熵损失函数和交并比损失函数,获得最终的损失函数。


4.根据权利要求3所述一种基于双路区域注意力编解码的图像视觉语义分割方法,其特征在于,所述根据二值交叉熵损失函数和交并比损失函数,获得最终的损失函数的具体步骤包括:
根据二值交叉熵损失函数LossBCE和交并比损失函数LossIoU,获得损失函数Lossfinal;









其中,LossBCE表示二值交叉熵损失函数,其中yi表示图像中第i个像素点的真值,表示图像中第i个像素点的预测值;LossIoU表示交并比损失函数,A∩B表示一张图像中真值区域A与预测区域B的交集,A∪B表示一张图像中真值区域A与预测区域B的并集;Lossfinal表示最终构成的损失函数,其中α和β分别代表二值交叉熵损失和交并比损失的权重且有α+β=1,N输入的图像中所有像素点的个数,N=W×H,W和H分别表示输入图像的宽和高。


5.根据权利要求2所述一种基于双路区域注意力编解码的图像视觉语义分割方法,其特征在于,所述利用搭建的网络编码器进行特征提取,获得融合特征的具体步骤包括:
搭建编码器的第一路,采用残差网络提取特征,共计进行5次下采样,得到特征图P={P0,P1,P2,P3,P4},其中Pi的尺寸是Pi+1的2倍;
搭建编码器的第二路,采用堆积的空洞卷积提取特征,共计进行5次下采样,得到特征图Q={Q0,Q1,Q2,Q3,Q4},其中Qi的尺寸是Qi+1的2倍;
对不同尺寸的特征图进行融合,得到融合特征图S={S0,S1,S2,S3,S4},融合特征图Si的计算公式为:



其中,Si为编码阶段第i层融合特征图,Pi表示编码阶段第i层残差特征图,Qi表示编码阶段第i层空洞卷积特征图,为element-wiseaddition,即对应元素的...

【专利技术属性】
技术研发人员:陈思宝吕建春纪宇昕张克林王文中吕强汤进王雪雁郑刚胡昌隆
申请(专利权)人:合肥市正茂科技有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1