一种基于深度估计的显著性目标检测方法技术

技术编号:36812577 阅读:17 留言:0更新日期:2023-03-09 00:54
本发明专利技术提供了一种基于深度估计的显著性目标检测方法,属于目标检测技术领域;解决了现有技术存在的检测目标的检测结果不准确、不清晰、错误的问题;包括如下步骤:图像数据集获取;图像预处理;以编码器

【技术实现步骤摘要】
一种基于深度估计的显著性目标检测方法


[0001]本专利技术提供了一种基于深度估计的显著性目标检测方法,属于显著性目标检测


技术介绍

[0002]随着深度学习、高性能图形处理器和处理数据的能力快速发展,计算机视觉技术在智慧视频监控、机器人、工业检测等应用场景中能够模拟人类视觉去解决现实中的问题,显著性目标检测技术的核心功能是根据人类的视觉注意力机制从图像中识别出重要信息。显著性目标检测技术是最重要的计算机视觉数据预处理技术之一,是目前学术界和工业界研究的热点技术。
[0003]现有技术的分类和优缺点:以2014年为界限,将显著性目标检测分为传统方法和基于深度学习的方法。在传统方法中,先验信息作为其中的重要性内容通过手工的方式提取,耗费了大量的时间和精力,得到的显著性预测图的效果差强人意。存在着几个方面的问题,(1)随着图像数据的爆炸式增长,手工处理的方式难以达到目标;(2)提取图像的深度特征较为困难,而一些显著性目标检测仅提取浅层特征,检测性能较差。基于深度学习的显著性目标检测方法,利用卷积神经网络提取图像的各种特征信息,为显著性目标检测的最终检测提供了丰富的特征。其中,图像的特征信息被广泛提取,不仅包括浅层的特征信息,还包括深层的全局上下文特征信息,将其应用在不同的显著性目标检测算法中,使得神经网络得到更好的训练,并有效提升显著性检测性能。
[0004]目前,基于深度学习的显著性目标检测方法分为两个类别,一类是自底向上的显著性目标检测,另一类是自上而下的显著性目标检测研究。其中,自底向上的显著性目标检测是由数据驱动的,而自上而下的显著性目标检测是由任务驱动的。
[0005]随着如自动驾驶、3D视觉、VR和人机交互等众多应用的快速发展,图像的深度信息成为了关注的重点,如何从一幅二维图像中恢复出不同目标与拍摄人员的距离信息将直接影响到最终的图像结果,相对于使用专业的设备如激光雷达等获取方式来看,存在着几个问题:(1)成本较高,使用相关物理设备去获取图像信息,将会消耗大量的人力和物力;(2)适用场景较少,针对目前大量的图像数据来看,专业去获取其对应的Depth图像只适合于少部分场景。
[0006]因此,单目深度估计方法受到广泛的关注,而单目深度估计方法又分为两种,一种是无监督的学习方法,该方法不需要利用真实的深度图像用于监督的过程中,在训练时使用神经网络的编码器生成预测的深度图像,并与原始的图像构造为一组对应的图像对,然后利用解码器的网络结构生成最终的深度图,并结合适用的损失函数监督整个神经网络。另一种是有监督的学习方法,通常是使用增加外部设备,如深度相机或激光雷达。该方法获取深度的图像作为预测的标签,将单目深度估计的研究转化为回归任务或者是分类任务进行处理。单目深度估计的方法一般采用编码

解码的神经网络结构,但是其提取的特征信息不充分且特征提取的过程中容易造成部分特征信息的丢失,而且考虑到真实复杂场景下,
该神经网络难以实现上下文语义信息的提取,导致得到的深度图像模糊且部分结果缺失。因此,大多数的学者提出聚合多特征的神经网络结构引入单目深度估计中,不仅考虑到低层的特征信息,也能关注图像的深层次特征信息,提升深度图像的质量。单目图像深度估计方法采用的神经网络模型中,主要使用的方式仍然是传统的卷积结构的设计理念,缺乏对图像的场景中检测目标的重视,只考虑到图像中的视场深度问题,而仅仅应用深度分布的深度图在二维图像的处理研究过程中,仍存在许多不足,因此,本专利技术提出了结合显著性目标检测和深度估计的方法,在多特征的特征信息的融合过程中,增加图像的深度信息,约束显著性目标的场景检测能力。

技术实现思路

[0007]本专利技术为了解决现有技术存在的检测目标的边界与其他背景相接的地方模糊不清;检测的图像中有多目标时,难以检测出其中的最显著的目标;检测前景和背景相似的图像时,检测结果出错等问题,提出了一种基于深度估计的显著性目标检测方法。
[0008]为了解决上述技术问题,本专利技术采用的技术方案为:一种基于深度估计的显著性目标检测方法,包括如下步骤:
[0009]S1:图像数据集获取:所述图像数据集包括两部分内容:一部分是用于深度估计的数据集,包含RGB图像和其对应的深度图像;另一部分是包含RGB图像和真值图像的数据集;
[0010]S2:图像预处理;
[0011]S3:构建神经网络:以编码器

解码器神经网络为基础框架,搭建神经网络模型,其中编码器部分包括深度估计模块和多层次特征提取模块,所述深度估计模块用于提取初始深度预测图,所述多层次特征提取模块用于在提取颜色、纹理、方向浅层特征信息的同时得到深层语义特征信息,从而得到初始显著性预测图;
[0012]解码器包括上采样和融合模块,将初始深度预测图和初始显著性预测图同时输入解码器进行融合得到显著性预测图,以合成的显著性预测图作为损失函数来监督编码

解码器网络的训练;
[0013]S4:监督后输出对应的初始显著性检测图像,由编码器最后一层输出经过处理的最终显著性检测图像。
[0014]所述深度估计模块包括超像素分割模块、深度预估网络、深度掩膜网络和上下文全局信息提取模块,并增加条件随机场进行最后的拟合,训练深度估计模块的是depth图像;
[0015]将经过预处理后的RGB图像输入深度估计模块进行深度估计,得到预测深度图像;
[0016]上下文语义信息提取模块与编码器共用神经网络结构。
[0017]所述超像素分割模块采用简单线性迭代聚类。
[0018]所述深度预估网络的结构包括ConvP1、ConvP2、ConvP3、ConvP4和ConvP5五个卷积层,ConvP1是7*7的卷积核,步长为2,输入通道数为3,输出通道数为16;
[0019]ConvP2是5*5的卷积核,步长为2,输入通道数为16,输出通道数为32;
[0020]ConvP3是3*3的卷积核,步长为2,输入通道数为32,输出通道数为64;
[0021]ConvP4是3*3的卷积核,步长为2,输入通道数为64,输出通道数为128;
[0022]ConvP5是3*3的卷积核,步长为2,输入通道数为128,输出通道数为256。
[0023]所述深度掩膜网络的组成是由5个卷积层构成,与位姿估计网络同时使用ConvP1、ConvP2、ConvP3、ConvP4和ConvP5,并增加掩膜遮罩处理预测的深度图像,并利用Depth图像实现监督。
[0024]所述多层次特征提取模块用于提取浅层特征信息和上下文语义信息,网络模型分为5个部分,分别是Conv1、Conv2_1、Conv2_2、Conv3_1和Conv3_2,其中Conv1为输入7*7*64的卷积,Conv2_1、Conv2_2、Conv3_1和Conv3_2分别由不同残差块组合构成;
[0025]Conv2_1由两个残差块组成,残差块的连接方式基于ResN本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度估计的显著性目标检测方法,其特征在于:包括如下步骤:S1:图像数据集获取:所述图像数据集包括两部分内容:一部分是用于深度估计的数据集,包含RGB图像和其对应的深度图像;另一部分是包含RGB图像和真值图像的数据集;S2:图像预处理;S3:构建神经网络:以编码器

解码器神经网络为基础框架,搭建神经网络模型,其中编码器部分包括深度估计模块和多层次特征提取模块,所述深度估计模块用于提取初始深度预测图,所述多层次特征提取模块用于在提取颜色、纹理、方向浅层特征信息的同时得到深层语义特征信息,从而得到初始显著性预测图;解码器包括上采样和融合模块,将初始深度预测图和初始显著性预测图同时输入解码器进行融合得到显著性预测图,以合成的显著性预测图作为损失函数来监督编码

解码器网络的训练;S4:监督后输出对应的初始显著性检测图像,由编码器最后一层输出经过处理的最终显著性检测图像。2.根据权利要求1所述的一种基于深度估计的显著性目标检测方法,其特征在于:所述深度估计模块包括超像素分割模块、深度预估网络、深度掩膜网络和上下文全局信息提取模块,并增加条件随机场进行最后的拟合,训练深度估计模块的是depth图像;将经过预处理后的RGB图像输入深度估计模块进行深度估计,得到预测深度图像;上下文语义信息提取模块与编码器共用神经网络结构。3.根据权利要求2所述的一种基于深度估计的显著性目标检测方法,其特征在于:所述超像素分割模块采用简单线性迭代聚类。4.根据权利要求2所述的一种基于深度估计的显著性目标检测方法,其特征在于:所述深度预估网络的结构包括ConvP1、ConvP2、ConvP3、ConvP4和ConvP5五个卷积层,ConvP1是7*7的卷积核,步长为2,输入通道数为3,输出通道数为16;ConvP2是5*5的卷积核,步长为2,输入通道数为16,输出通道数为32;ConvP3是3*3的卷积核,步长为2,输入通道数为32,输出通道数为64;ConvP4是3*3的卷积核,步长为2,输入通道数为64,输出通道数为128;ConvP5是3*3的卷积核,步长为2,输入通道数为128,输出通道数为256。5.根据权利要求4所述的一种基于深度估计的显著性目标检测方法,其特征在于:所述深度掩膜网络的组成是由5个卷积层构成,与位姿估计网络同时使用ConvP1、ConvP2、ConvP3、ConvP4和ConvP5,并增加掩膜遮罩处理预测的深度图像,并利用Depth图像实现监督。6.根据权利要求5所述的一种基于深度估计的显著性目标检测方法,其特征在于:所述多层次特征提取模块用于提取浅层特征信息和上下文语义信息,网络模型分为5个部分,分别是Conv1、Conv2_1、Conv2_2、Conv3_1和Conv3_2,其中Conv1为输入7*7*64的卷积,Conv2_1、Conv2_2、Conv3_1和Conv3_2分别由不同残差块组合构成;Conv2_1由两个残差块组成,残差块的连接方式基于ResNet的残差模块修改,由1*1、3*3和1*1的三个卷积连接,并增加Batch Normal和Relu激活函数,将输入的显著性图像特征下采样到112*112的分辨率;5.3 Conv2_2由两个残差块组成,残差块的连接方式基于ResNet的残差模块修改,由1*
1、3*3和1*1的三个卷积连接,并增加Batch Normal和Relu激活函数,将输入的显著性图像特征下采样到56*56的分辨率;5.4 Conv3_1由三个残差块组成,残差块的连接方式基于ResNet的残差模块修改,由1*1...

【专利技术属性】
技术研发人员:赵娜刘桂楠张凯浩
申请(专利权)人:山西云时代智慧城市技术发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1