当前位置: 首页 > 专利查询>福州大学专利>正文

一种基于多层次融合的RGBD图像显著性检测方法及系统技术方案

技术编号:25804071 阅读:47 留言:0更新日期:2020-09-29 18:38
本发明专利技术涉及一种基于多层次融合的RGBD图像显著性检测方法及系统,包括:步骤S1:进行数据增强,同时对彩色图像以及对应的深度图和人工标注图进行处理;步骤S2:设计多层次卷积神经网络结构,提取并融合深度图与彩色图像特征,融合多层次的特征,得到各个层次预测的显著性图S

【技术实现步骤摘要】
一种基于多层次融合的RGBD图像显著性检测方法及系统
本专利技术涉及图像处理以及计算机视觉领域,特别是一种基于多层次融合的RGBD图像显著性检测方法及系统。
技术介绍
显著性目标检测在计算机视觉领域已经被广泛研究了几十年。它的目的是通过对输入图像中最重要或最突出的目标像素的精确分割来建模人类视觉系统的注意机制。它可以应用于很多领域,如目标识别,目标检测,分割,图像质量评估,视觉跟踪。随着最近深度学习技术的成功,显著性检测也得到了显著的提高。虽然对单个彩色图像的显著目标检测性能有所提高,但对背景杂乱的图像如何鲁棒地产生令人满意的结果仍然是一个挑战。因此,与标准RGB相机相比,利用额外的深度信息从RGBD相机中寻求补偿是合理的。因此,它们能够为确定突出目标的任务提供重要的补充。在深度卷积神经网络(CNN)的背景下,提出了将彩色图像与深度图直接融合的方法。由于深度CNNs的能力,与基于RGB的基准相比,它们在几个公共基准上获得了明显的改进。这些方法大致分成三类:一些方法直接将深度图当作额外的通道的输入单支流网络,另外是分别将彩色图和深度图输入双流网络再在后端融合,除此之外就是多层次融合彩色图特征和深度图特征。但是,利用已有的方法从RGBD图像中检测突出目标时,还存在一些不足之处。特别指出,现有方法中颜色和深度融合的方式不是最优的,因此交叉模态融合过程中的冲突可能会降低性能。此外,从最先进的RGBD摄像机捕获的深度图仍然是有噪声的,特别是在物体的边界附近。
技术实现思路
有鉴于此,本专利技术的目的是提供一种基于多层次融合的RGBD图像显著性检测方法及系统,可以在一定程度上缓解上述问题,提高RGBD图像显著性检测的性能。本专利技术采用以下方案实现:一种基于多层次融合的RGBD图像显著性检测方法及系统,包括以下步骤:步骤S1:进行RGBD图像数据增强,同时对彩色图像以及对应的深度图和人工标注图进行处理,增加训练数据的多样性;步骤S2:设计多层次卷积神经网络结构,提取并融合深度图与彩色图像特征,融合多层次的特征,得到各个层次预测的显著性图Sk;步骤S3:设计一个融合优化模块,然后融合各个层次的显著性图Sk,得到最终的显著性图Sfinal;步骤S4:通过求解最小化损失函数,学习到RGBD图像显著性检测模型的最优参数,得到训练好的RGBD图像显著性检测模型;步骤S5:最后,将RGBD图像输入训练好的RGBD图像显著性检测模型,通过模型计算得到输入图像的显著性检测结果,即显著性图。进一步地,所述步骤S1的具体内容为:步骤S11:提供一数据集,并对数据集中的每一张RGBD图像中的彩色图像、深度图和其对应的显著性图的人工标注图一同进行缩放,用以使计算设备能够承担神经网络的计算量;步骤S12:对数据集中的每一张彩色图像、深度图和其对应的显著性图的人工标注图一同进行随机裁剪操作,用以增加数据的多样性;步骤S13:对数据集中的彩色图像随机地加入一些噪声,防止模型过拟合;步骤S14:对数据集中的彩色图像、深度图以及显著性图的人工标注图同时随机地水平翻转,增加数据样本;步骤S15:对数据集中的彩色图像和深度图进行归一化,突显图像前景特征。进一步地,所述步骤S2具体包括以下步骤:步骤S21:设计一种多层次卷积神经网络结构,网络由两个VGG16网络构成:分别输入彩色图像和深度图;步骤S22:该多层次网络结构使用VGG16中的5个卷积层和一个池化层Conv1,Conv2,Conv3,Conv4,Conv5,Pool5提取各个层次的特征,分别为第1,2,...,6层特征;其中一个VGG16网络的输入是彩色图像,得到的是彩色图像特征,另一个VGG16网络的输入是深度图,得到的是深度图特征;然后,在每个层次将颜色特征和深度特征拼接起来,公式如下:其中Xkfusion表示第k层将彩色图特征和深度图特征拼接的特征,Xkrgb表示第k层的彩色图特征,Xkdepth表示第k层的深度图特征,表示拼接操作;然后经过跨模态特征采样模块(Cross-modalFeatureSampling,CFS)将两种特征融合起来;所述CFS模块通过输入的特征经过全局平均池化和全局方差池化以及两个全连接层来估计两种特征各个通道的权重,公式如下:其中,Wk表示第k层融合特征各个通道上的权重,wavg,wvar分别表示全局平均池化分支和全局平均方差池化分支上的可训练参数,wkavg表示拼接特征经过全局平均池化层和全连接层学习到的各个通道上的权重,wkvar表示拼接特征经过全局方差池化层和全连接层学习到的各个通道上的权重;最后经过卷积核为1的卷积核将融合的特征进行降维减少参数量;公式如下:表示逐像素点乘,Conv1×1代表卷积核大小为1的卷积,Xk′表示降维后的特征;步骤S23:为了各个层次能够得到更加良好的显著性图,降维后的Xi′特征会经过3层卷积层进行空间上的转化将这一系列的卷积操作定义为Fst,则有:Hk=Fst(Xk′)Hk表示第k层经过空间转化后的特征;为了获得更加精细的显著性图,将深层的特征通过密集连接的方式整合到浅层,与浅层特征结合来获得更加精确的语义;整合后的特征经过降维再被用来预测各个层次的显著性图Sk(k=1...6)。具体公式如下:其中,表示从第t层到第6层连续拼接,Ht代表第t层经过空间转化后的特征,Fup表示上采样,Hk′表示第k层特征经过深层特征密集聚合后的特征,Hkout表示第k层特征Hk′经过降维并放缩到与输入图像块相同尺寸后的特征,该特征是输出显著性图前的特征,σ表示Sigmoid激活函数,Sk代表第k层输出的显著性图。进一步地,所述步骤S3的具体内容为:将这个融合优化模块定义为Ffrm,此模块是一个编码器和解码器结构,由前面各层的显著性图融合计算得到最终的显著性图,具体的公式如下:Sfinal=Ffrm(Sk;k=1…6)k表示第k层,Sfinal表示最终的显著性图,Sk表示第k层输出的显著性图,Ffrm表示一个编码器和解码器结构的融合模块。进一步地,所述步骤S4具体包括以下步骤:步骤541:使用各种损失函数作为约束,优化RGBD图像显著性检测模型,具体的公式如下:其中,表示最终训练的损失函数,其中∑表示求和,k∈{1,…,6},是作用在第k层上的边缘损失,是作用在最终的显著性图上的约束形状相似性的损失函数,是分别作用在第k层和最终的显著性图的交叉熵损失函数;上面的具体计算公式如下:其中,ΔY,ΔSk分别表示输入的显著性图真值图求导后的图和计算的第k层的显著性图Sk求导后的图,Sfinal表示最终融合得到的显著性图,log表示log函数,Y表示输入的显著性图的人工标注图,[i,j]表示本文档来自技高网...

【技术保护点】
1.一种基于多层次融合的RGBD图像显著性检测方法,其特征在于:包括以下步骤:/n步骤S1:进行RGBD图像数据增强,同时对彩色图像以及对应的深度图和人工标注图进行处理,增加训练数据的多样性;/n步骤S2:设计多层次卷积神经网络结构,提取并融合深度图与彩色图像特征,融合多层次的特征,得到各个层次预测的显著性图S

【技术特征摘要】
1.一种基于多层次融合的RGBD图像显著性检测方法,其特征在于:包括以下步骤:
步骤S1:进行RGBD图像数据增强,同时对彩色图像以及对应的深度图和人工标注图进行处理,增加训练数据的多样性;
步骤S2:设计多层次卷积神经网络结构,提取并融合深度图与彩色图像特征,融合多层次的特征,得到各个层次预测的显著性图Sk;
步骤S3:设计一个融合优化模块,然后融合各个层次的显著性图Sk,得到最终的显著性图Sfinal;
步骤S4:通过求解最小化损失函数,学习到RGBD图像显著性检测模型的最优参数,得到训练好的RGBD图像显著性检测模型;
步骤S5:最后,将RGBD图像输入训练好的RGBD图像显著性检测模型,通过模型计算得到输入图像的显著性检测结果,即显著性图。


2.根据权利要求1所述的一种基于多层次融合的RGBD图像显著性检测方法,其特征在于:所述步骤S1的具体内容为:
步骤S11:提供一数据集,并对数据集中的每一张RGBD图像中的彩色图像、深度图和其对应的显著性图的人工标注图一同进行缩放,用以使计算设备能够承担神经网络的计算量;
步骤S12:对数据集中的每一张彩色图像、深度图和其对应的显著性图的人工标注图一同进行随机裁剪操作,用以增加数据的多样性;
步骤S13:对数据集中的彩色图像随机地加入一些噪声,防止模型过拟合;
步骤S14:对数据集中的彩色图像、深度图以及显著性图的人工标注图同时随机地水平翻转,增加数据样本;
步骤S15:对数据集中的彩色图像和深度图进行归一化,突显图像前景特征。


3.根据权利要求1所述的一种基于多层次融合的RGBD图像显著性检测方法,其特征在于:所述步骤S2具体包括以下步骤:
步骤S21:设计一种多层次卷积神经网络结构,网络由两个VGG16网络构成:分别输入彩色图像和深度图;
步骤S22:该多层次网络结构使用VGG16中的5个卷积层和一个池化层Conv1,Conv2,Conv3,Conv4,Conv5,Pool5提取各个层次的特征,分别为第1,2,...,6层特征;其中一个VGG16网络的输入是彩色图像,得到的是彩色图像特征,另一个VGG16网络的输入是深度图,得到的是深度图特征;然后,在每个层次将颜色特征和深度特征拼接起来,公式如下:



其中Xkfusion表示第k层将彩色图特征和深度图特征拼接的特征,Xkrgb表示第k层的彩色图特征,Xkdepth表示第k层的深度图特征,表示拼接操作;然后经过跨模态特征采样模块将两种特征融合起来;
所述CFS模块通过输入的特征经过全局平均池化和全局方差池化以及两个全连接层来估计两种特征各个通道的权重,公式如下:



其中,wk表示第k层融合特征各个通道上的权重,wavg,wvar分别表示全局平均池化分支和全局平均方差池化分支上的可训练参数,wkavg表示拼接特征经过全局平均池化层和全连接层学习到的各个通道上的权重,wkvar表示拼接特征经过全局方差池化层和全连接层学习到的各个通道上的权重;
最后经过卷积核为1的卷积核将融合的特征进行降维减少参数量;公式如下:

...

【专利技术属性】
技术研发人员:牛玉贞张宇杰龙观潮刘文犀
申请(专利权)人:福州大学
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1