【技术实现步骤摘要】
一种基于双路区域注意力编解码的图像视觉语义分割方法
本专利技术涉及图像处理
,特别涉及一种基于双路区域注意力编解码的图像视觉语义分割方法。
技术介绍
随着社会的发展,语义分割作为一种基于双路区域注意力编解码的图像视觉语义分割方法重要的技术越来越受到人们的重视,应用范围也逐渐扩大,从常规的日常图像语义分割渐渐扩展到特定应用场景的语义分割。在深度学习应用到语义分割之后,常规图像的语义分割得到了极大改善,但是针对特定的工作场景的语义分割效果不是很明显,这是因为常规图像在拍摄的时候是以地面为参照的,照片中的目标横平竖直,并且占据一张图像中的大部分面积,容易被识别,而某些特定场景中图像中的目标通常具有任意的方向,并且占据一张图像的极少部分,比如多车道的场景下,获取的图像是车来向的侧上方视角图像。在双路区域注意力编解码网络构建之后,使用者可以通过双路编码器提取更精确的特征,通过注意力解码器更精确的识别区域内的目标,并且本专利技术可以嵌入监控系统摄像头当中,进行实时的图像语义分割,通过监控摄像头的配置,从而实现灵活地调整图像语义分割推断算法,达到更高的语义分割精度。一般的语义分割系统主要通过以下方式实现:一、查询阶段:监控人员提取出监控画面中的图像,手动送至语义分割系统中进行分析;二、批量测试:将每个摄像头采集的图像自动输送至语义分割系统中进行分析。方式一和方式二受限于人力以及摄像头的角度,缺乏针对性,不能很好地过滤掉大部分非必要的图像以及应对突发事件。为了增强语义分割系统的灵活性,研究人员将语义分割系统嵌入 ...
【技术保护点】
1.一种基于双路区域注意力编解码的图像视觉语义分割方法,其特征在于,包括以下步骤:/n获取场景图像样本;/n对场景图像样本进行预处理,且导入构建的深度模型训练;/n搭建网络编解码器,对图像样本进行特征融合并获得解码特征图;/n利用已训练的深度模型嵌入设备判断场景图像样本,进行像素点分类,得到最终图像视觉分隔图。/n
【技术特征摘要】
1.一种基于双路区域注意力编解码的图像视觉语义分割方法,其特征在于,包括以下步骤:
获取场景图像样本;
对场景图像样本进行预处理,且导入构建的深度模型训练;
搭建网络编解码器,对图像样本进行特征融合并获得解码特征图;
利用已训练的深度模型嵌入设备判断场景图像样本,进行像素点分类,得到最终图像视觉分隔图。
2.根据权利要求1所述一种基于双路区域注意力编解码的图像视觉语义分割方法,其特征在于,所述图像视觉语义分割方法的具体步骤为:
获取特定场景的图像样本数据,所述图像样本数据包括m张图像的训练数据、n张图像的验证数据,以及若干张图像的测试数据,所述训练数据与验证数据包括与原图像对应的标签图像;
对输入的图像样本的RBG通道归一化处理,限定于-1至1之间,再进行损失函数和优化器的配置,并训练深度模型;
利用搭建的网络编码器进行特征提取,获得融合特征;
利用搭建的网络解码器和编码器进行特征结合,获得更精确的解码特征图;
通过已训练的深度模型判断输入的图像中的像素点是否属于待提取目标,将模型嵌入设备,配合进行实时的语义分隔,同时对交叠区域进行测试增强操作,获得更精确地分割结果。
3.根据权利要求2所述一种基于双路区域注意力编解码的图像视觉语义分割方法,其特征在于,所述对场景图像样本进行处理,损失函数和优化器的配置,并训练深度模型的具体步骤包括:
设置场景图像样本的训练集为m张图像T={T1,T2,…,Ti,…,Tm},设置m张对应的标签图像为TL={TL1,TL2,…,TLi,…,TLm},其中Ti表示训练集中第i张图像,TLi表示训练集中第i张图像的标签图像,i<m;
设置场景图像样本的验证集为m张图像V={V1,V2,…,Vi,…,Vn},设置n张对应的标签图像为VL={VL1,VL2,…,VLi,…,VLn},其中Vi表示验证集中第i张图像,VLi表示验证集中第i张图像的标签图像,i<n;
制定深度模型训练策略,设定训练集与测试集的比例为m:n=4:1;
再对输入的图像样本进行归一化处理:(image/255)×2-1,其中image为输入的样本图像;
将优化器设定为Adam,再根据二值交叉熵损失函数和交并比损失函数,获得最终的损失函数。
4.根据权利要求3所述一种基于双路区域注意力编解码的图像视觉语义分割方法,其特征在于,所述根据二值交叉熵损失函数和交并比损失函数,获得最终的损失函数的具体步骤包括:
根据二值交叉熵损失函数LossBCE和交并比损失函数LossIoU,获得损失函数Lossfinal;
其中,LossBCE表示二值交叉熵损失函数,其中yi表示图像中第i个像素点的真值,表示图像中第i个像素点的预测值;LossIoU表示交并比损失函数,A∩B表示一张图像中真值区域A与预测区域B的交集,A∪B表示一张图像中真值区域A与预测区域B的并集;Lossfinal表示最终构成的损失函数,其中α和β分别代表二值交叉熵损失和交并比损失的权重且有α+β=1,N输入的图像中所有像素点的个数,N=W×H,W和H分别表示输入图像的宽和高。
5.根据权利要求2所述一种基于双路区域注意力编解码的图像视觉语义分割方法,其特征在于,所述利用搭建的网络编码器进行特征提取,获得融合特征的具体步骤包括:
搭建编码器的第一路,采用残差网络提取特征,共计进行5次下采样,得到特征图P={P0,P1,P2,P3,P4},其中Pi的尺寸是Pi+1的2倍;
搭建编码器的第二路,采用堆积的空洞卷积提取特征,共计进行5次下采样,得到特征图Q={Q0,Q1,Q2,Q3,Q4},其中Qi的尺寸是Qi+1的2倍;
对不同尺寸的特征图进行融合,得到融合特征图S={S0,S1,S2,S3,S4},融合特征图Si的计算公式为:
其中,Si为编码阶段第i层融合特征图,Pi表示编码阶段第i层残差特征图,Qi表示编码阶段第i层空洞卷积特征图,为element-wiseaddition,即对应元素的...
【专利技术属性】
技术研发人员:陈思宝,吕建春,纪宇昕,张克林,王文中,吕强,汤进,王雪雁,郑刚,胡昌隆,
申请(专利权)人:合肥市正茂科技有限公司,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。