一种基于深度估计的显著性目标检测方法技术

技术编号：36812577 阅读：17 留言：0更新日期：2023-03-09 00:54

本发明专利技术提供了一种基于深度估计的显著性目标检测方法，属于目标检测技术领域；解决了现有技术存在的检测目标的检测结果不准确、不清晰、错误的问题；包括如下步骤：图像数据集获取；图像预处理；以编码器

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度估计的显著性目标检测方法

[0001]本专利技术提供了一种基于深度估计的显著性目标检测方法，属于显著性目标检测

技术介绍

[0002]随着深度学习、高性能图形处理器和处理数据的能力快速发展，计算机视觉技术在智慧视频监控、机器人、工业检测等应用场景中能够模拟人类视觉去解决现实中的问题，显著性目标检测技术的核心功能是根据人类的视觉注意力机制从图像中识别出重要信息。显著性目标检测技术是最重要的计算机视觉数据预处理技术之一，是目前学术界和工业界研究的热点技术。
[0003]现有技术的分类和优缺点：以2014年为界限，将显著性目标检测分为传统方法和基于深度学习的方法。在传统方法中，先验信息作为其中的重要性内容通过手工的方式提取，耗费了大量的时间和精力，得到的显著性预测图的效果差强人意。存在着几个方面的问题，(1)随着图像数据的爆炸式增长，手工处理的方式难以达到目标；(2)提取图像的深度特征较为困难，而一些显著性目标检测仅提取浅层特征，检测性能较差。基于深度学习的显著性目标检测方法，利用卷积神经网络提取图像的各种特征信息，为显著性目标检测的最终检测提供了丰富的特征。其中，图像的特征信息被广泛提取，不仅包括浅层的特征信息，还包括深层的全局上下文特征信息，将其应用在不同的显著性目标检测算法中，使得神经网络得到更好的训练，并有效提升显著性检测性能。
[0004]目前，基于深度学习的显著性目标检测方法分为两个类别，一类是自底向上的显著性目标检测，另一类是自上而下的显著性目标检测研究。其中，自底向上的...

【技术保护点】

【技术特征摘要】
1.一种基于深度估计的显著性目标检测方法，其特征在于：包括如下步骤：S1：图像数据集获取：所述图像数据集包括两部分内容：一部分是用于深度估计的数据集，包含RGB图像和其对应的深度图像；另一部分是包含RGB图像和真值图像的数据集；S2：图像预处理；S3：构建神经网络：以编码器
‑
解码器神经网络为基础框架，搭建神经网络模型，其中编码器部分包括深度估计模块和多层次特征提取模块，所述深度估计模块用于提取初始深度预测图，所述多层次特征提取模块用于在提取颜色、纹理、方向浅层特征信息的同时得到深层语义特征信息，从而得到初始显著性预测图；解码器包括上采样和融合模块，将初始深度预测图和初始显著性预测图同时输入解码器进行融合得到显著性预测图，以合成的显著性预测图作为损失函数来监督编码
‑
解码器网络的训练；S4：监督后输出对应的初始显著性检测图像，由编码器最后一层输出经过处理的最终显著性检测图像。2.根据权利要求1所述的一种基于深度估计的显著性目标检测方法，其特征在于：所述深度估计模块包括超像素分割模块、深度预估网络、深度掩膜网络和上下文全局信息提取模块，并增加条件随机场进行最后的拟合，训练深度估计模块的是depth图像；将经过预处理后的RGB图像输入深度估计模块进行深度估计，得到预测深度图像；上下文语义信息提取模块与编码器共用神经网络结构。3.根据权利要求2所述的一种基于深度估计的显著性目标检测方法，其特征在于：所述超像素分割模块采用简单线性迭代聚类。4.根据权利要求2所述的一种基于深度估计的显著性目标检测方法，其特征在于：所述深度预估网络的结构包括ConvP1、ConvP2、ConvP3、ConvP4和ConvP5五个卷积层，ConvP1是7*7的卷积核，步长为2，输入通道数为3，输出通道数为16；ConvP2是5*5的卷积核，步长为2，输入通道数为16，输出通道数为32；ConvP3是3*3的卷积核，步长为2，输入通道数为32，输出通道数为64；ConvP4是3*3的卷积核，步长为2，输入通道数为64，输出通道数为128；ConvP5是3*3的卷积核，步长为2，输入通道数为128，输出通道数为256。5.根据权利要求4所述的一种基于深度估计的显著性目标检测方法，其特征在于：所述深度掩膜网络的组成是由5个卷积层构成，与位姿估计网络同时使用ConvP1、ConvP2、ConvP3、ConvP4和ConvP5，并增加掩膜遮罩处理预测的深度图像，并利用Depth图像实现监督。6.根据权利要求5所述的一种基于深度估计的显著性目标检测方法，其特征在于：所述多层次特征提取模块用于提取浅层特征信息和上下文语义信息，网络模型分为5个部分，分别是Conv1、Conv2_1、Conv2_2、Conv3_1和Conv3_2，其中Conv1为输入7*7*64的卷积，Conv2_1、Conv2_2、Conv3_1和Conv3_2分别由不同残差块组合构成；Conv2_1由两个残差块组成，残差块的连接方式基于ResNet的残差模块修改，由1*1、3*3和1*1的三个卷积连接，并增加Batch Normal和Relu激活函数，将输入的显著性图像特征下采样到112*112的分辨率；5.3 Conv2_2由两个残差块组成，残差块的连接方式基于ResNet的残差模块修改，由1*
1、3*3和1*1的三个卷积连接，并增加Batch Normal和Relu激活函数，将输入的显著性图像特征下采样到56*56的分辨率；5.4 Conv3_1由三个残差块组成，残差块的连接方式基于ResNet的残差模块修改，由1*1...

【专利技术属性】
技术研发人员：赵娜，刘桂楠，张凯浩，
申请(专利权)人：山西云时代智慧城市技术发展有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人