基于多层跨模态集成网络的立体图像显著性检测方法技术

技术编号:35026703 阅读:12 留言:0更新日期:2022-09-24 22:58
本发明专利技术公开了一种基于多层跨模态集成网络的立体图像显著性检测方法,该方法的神经网络包括输入层、输出层和隐藏层,输入层包括RGB图像输入层和depth图像输入层,隐藏层包括主干特征提取网络和加强特征提取网络,主干特征提取网络包括RGB特征提取模块、depth特征提取模块和跨模态集成模块,训练过程中,将训练集中立体图像的RGB图像和depth图像输入卷积神经网络得到相应的显著性图像,然后计算该显著性图像和gt图像之间的损失函数值,将训练集的数据成批喂入模型,循环多次,得到训练好模型。在测试阶段,将待测试的立体图像的RGB图像和depth图像输入训练好的模型得到预测结果。本发明专利技术的基于多层跨模态集成网络的立体图像显著性检测方法,具有较高的准确性。具有较高的准确性。具有较高的准确性。

【技术实现步骤摘要】
基于多层跨模态集成网络的立体图像显著性检测方法


[0001]本专利技术属于计算机视觉
,具体涉及一种基于多层跨模态集成网络的立体图像显著性检测方法。

技术介绍

[0002]人类视觉系统在面对自然场景时具有快速搜索和定位感兴趣目标的能力,这种视觉注意机制是人们日常生活中处理视觉信息的重要机制。随着互联网带来的大数据量的传播,如何从海量的图像和视频数据中快速地获取重要信息,已经成为计算机视觉领域一个关键的问题。通过在计算机视觉任务中引入这种视觉注意机制,即视觉显著性,可以为视觉信息处理任务带来一系列重大的帮助和改善。
[0003]引入视觉显著性的优势主要表现在两个方面,第一,它可将有限的计算资源分配给图像视频中更重要的信息,第二,引入视觉显著性的结果更符合人的视觉认知需求。视觉显著性检测在目标识别,图像视频压缩,图像检索,图像重定向等中有着重要的应用价值。视觉显著性检测模型是通过计算机视觉算法去预测图像或视频中的哪些信息更受到视觉注意的过程。
[0004]近年来,基于RGB

D的显著对象检测受到了越来越多的关注。早期基于RGB

D的显著对象检测模型倾向于提取手工制作的特征,然后融合RGB图像和深度图。尽管使用手工制作功能的传统方法很有效,但它们的低级功能往往是为了限制泛化能力,而且它们缺乏对复杂场景所需的高级推理。最近,各种基于深度学习的模型都专注于利用有效的多模态相关性和多尺度或水平信息来提高显著对象检测性能。
[0005]一些基于RGB

D的显著性目标检测工作集中于单流架构,以实现显著性预测。这些模型通常在特征学习部分融合RGB图像和深度信息。双流模型有两个独立的分支来分别处理RGB图像和深度线索,并且通常生成不同的高级特征或显著性图,然后在两个流的中间阶段或最后合并它们。最近的基于深度学习的模型利用这种双流架构,多个模型捕获了多层RGB图像和深度线索之间的相关性。此外,一些模型利用多流结构,然后设计不同的融合模块,有效地融合RGB和深度信息,以利用它们的相关性。然而,上述的现有技术,存在的最关键问题是:如何有效地将多模态信息进行融合,充分利用跨模态的互补信息。因此,有必要对RGB

D图像的跨模态融合问题进行进一步研究,从而提高立体图像显著性检测的准确性。

技术实现思路

[0006]本专利技术提供了一种基于多层跨模态集成网络的立体图像显著性检测方法解决上述提到的技术问题,具体采用如下的技术方案:
[0007]一种基于多层跨模态集成网络的立体图像显著性检测方法,包含训练阶段和测试阶段:
[0008]训练阶段的具体步骤为:
[0009]步骤一、建立训练集:训练集包括M幅立体图像,每幅立体图像都包括一个RGB图
像、一个Depth图像和一个GT图像,RGB图像是三通道的彩色图,Depth图像是深度图,GT图像是真实人眼关注点图,训练集表示为{S
i
(x,y)},其中S
i
为一个立体图像样本点,彩色图表示为{RGB
i
(x,y)},深度图表示为{Depth
i
(x,y)},真实人眼关注点图表示为{GT
i
(x,y)},其中,M≥500是正整数,表示样本点个数,1≤i≤M为正整数,表示第i副图像,RGB
i
(x,y)表示第i幅彩色图中像素点(x,y)的像素值,Depth
i
(x,y)表示第i幅深度图中像素点(x,y)的像素值,GT
i
(x,y)表示第i幅真实人眼关注点图中像素点(x,y)的像素值,其中,1≤x≤W,1≤y≤H,W和H是图像的宽和高,图像输入时把宽和高都调整为352;
[0010]步骤二、建立卷积神经网络:卷积神经网络包括输入层、隐藏层和输出层,输入层包括RGB图像输入层和Depth图像输入层,隐藏层包括主干特征提取网络和加强特征提取网络,主干特征提取网络由RGB特征提取模块、Depth特征提取模块和跨模态集成模块三部分组成,RGB特征提取模块包含5个神经网络块,分别编号为1~5,Depth特征提取模块包含5个神经网络块,分别编号为6~10,跨模态集成模块包含9个神经网络块和3个池化层,9个神经网络块分别编号为11~19,3个池化层分别编号1~3,加强特征提取网络包含5个神经网络块和3个上采样层,5个神经网络块分别编号为20~24,三个上采样层分别编号为1~3,输出层包含第1卷积层和1个上采样层,上采样层编号为4,第1卷积层的卷积核个数为1,卷积核大小为1
×
1,步长为1,填充为0;
[0011]RGB输入层将一副彩色图输入到隐藏层的RGB特征提取模块,Depth输入层将一副深度图输入到隐藏层的Depth特征提取模块;
[0012]在RGB特征提取模块中,第1个神经网络块接收RGB输入层传来的彩色图,输出64幅宽度为88且高度为88的特征图,将这64幅88
×
88的特征图集合记为F
1RGB
,第2个神经网络块以F
1RGB
为输入,输出256幅宽度为88且高度为88的特征图,将这256幅88
×
88的特征图集合记为第3个神经网络块以为输入,输出512幅宽度为44且高度为44的特征图,将这512幅44
×
44的特征图集合记为第4个神经网络块以为输入,输出1024幅宽度为22且高度为22的特征图,将这1024幅22
×
22的特征图集合记为第5个神经网络块以为输入,然后输出2048幅宽度为11且高度为11的特征图,将这2048幅11
×
11的特征图集合记为
[0013]在Depth特征提取模块中,第6个神经网络块接收Depth输入层传来的深度图,输出64幅宽度为88且高度为88的特征图,将这64幅88
×
88的特征图集合记为F
1D
,第2个神经网络块以F
1D
为输入,输出256幅宽度为88且高度为88的特征图,将这256幅88
×
88的特征图集合记为第3个神经网络块以为输入,输出512幅宽度为44且高度为44的特征图,将这512幅44
×
44的特征图集合记为第4个神经网络块以为输入,输出1024幅宽度为22且高度为22的特征图,将这1024幅22
×
22的特征图集合记为第5个神经网络块以为输入,输出2048幅宽度为11且高度为11的特征图,将这2048幅11
×
11的特征图集合记为
[0014]对于跨模态集成模块,第11个神经网络块接收F
1RGB
和F
1D
作为输入,输出64幅宽度为88且高度为88的特征图,将这64幅88
×
88的特征图集合记为F
1C
,第12个神经网络块接收和作为输入,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多层跨模态集成网络的立体图像显著性检测方法,其特征在于,包含训练阶段和测试阶段:训练阶段的步骤包含:步骤一、建立训练集:训练集包括M幅立体图像,每幅立体图像都包括一个RGB图像、一个Depth图像和一个GT图像,RGB图像是三通道的彩色图,Depth图像是深度图,GT图像是真实人眼关注点图,训练集表示为{S
i
(x,y)},其中S
i
为一个立体图像样本点,彩色图表示为{RGB
i
(x,y)},深度图表示为{Depth
i
(x,y)},真实人眼关注点图表示为{GT
i
(x,y)},其中,M≥500是正整数,表示样本点个数,1≤i≤M为正整数,表示第i副图像,RGB
i
(x,y)表示第i幅彩色图中像素点(x,y)的像素值,Depth
i
(x,y)表示第i幅深度图中像素点(x,y)的像素值,GT
i
(x,y)表示第i幅真实人眼关注点图中像素点(x,y)的像素值,其中,1≤x≤W,1≤y≤H,W和H是图像的宽和高,图像输入时把宽和高都调整为352;步骤二、建立卷积神经网络:卷积神经网络包括输入层、隐藏层和输出层,输入层包括RGB图像输入层和Depth图像输入层,隐藏层包括主干特征提取网络和加强特征提取网络,主干特征提取网络由RGB特征提取模块、Depth特征提取模块和跨模态集成模块三部分组成,RGB特征提取模块包含5个神经网络块,分别编号为1~5,Depth特征提取模块包含5个神经网络块,分别编号为6~10,跨模态集成模块包含9个神经网络块和3个池化层,9个神经网络块分别编号为11~19,3个池化层分别编号1~3,加强特征提取网络包含5个神经网络块和3个上采样层,5个神经网络块分别编号为20~24,三个上采样层分别编号为1~3,输出层包含第1卷积层和1个上采样层,上采样层编号为4,第1卷积层的卷积核个数为1,卷积核大小为1
×
1,步长为1,填充为0;RGB输入层将一副彩色图输入到隐藏层的RGB特征提取模块,Depth输入层将一副深度图输入到隐藏层的Depth特征提取模块;在RGB特征提取模块中,第1个神经网络块接收RGB输入层传来的彩色图,输出64幅宽度为88且高度为88的特征图,将这64幅88
×
88的特征图集合记为F
1RGB
,第2个神经网络块以F
1RGB
为输入,输出256幅宽度为88且高度为88的特征图,将这256幅88
×
88的特征图集合记为F
2RGB
,第3个神经网络块以F
2RGB
为输入,输出512幅宽度为44且高度为44的特征图,将这512幅44
×
44的特征图集合记为F
3RGB
,第4个神经网络块以F
3RGB
为输入,输出1024幅宽度为22且高度为22的特征图,将这1024幅22
×
22的特征图集合记为F
4RGB
,第5个神经网络块以F
4RGB
为输入,然后输出2048幅宽度为11且高度为11的特征图,将这2048幅11
×
11的特征图集合记为F
5RGB
;在Depth特征提取模块中,第6个神经网络块接收Depth输入层传来的深度图,输出64幅宽度为88且高度为88的特征图,将这64幅88
×
88的特征图集合记为F
1D
,第2个神经网络块以F
1D
为输入,输出256幅宽度为88且高度为88的特征图,将这256幅88
×
88的特征图集合记为F
2D
,第3个神经网络块以F
2D
为输入,输出512幅宽度为44且高度为44的特征图,将这512幅44
×
44的特征图集合记为F
3D
,第4个神经网络块以F
3D
为输入,输出1024幅宽度为22且高度为22的特征图,将这1024幅22
×
22的特征图集合记为F
4D
,第5个神经网络块以F
4D
为输入,输出2048幅宽度为11且高度为11的特征图,将这2048幅11
×
11的特征图集合记为F
5D
;对于跨模态集成模块,第11个神经网络块接收F
1RGB
和F
1D
作为输入,输出64幅宽度为88且高度为88的特征图,将这64幅88
×
88的特征图集合记为F
1C
,第12个神经网络块接收F
2RGB
和F
2D
作为输入,输出128幅宽度为88且高度为88的特征图,记为K1,将K1中的所有特征图和F
1C
中的所有特征图进行堆叠操作,输出192幅宽度为88且高度为88的特征图,记为C1,第16个神经网络块接收C1作为输入,输出128幅宽度为88且高度为88的特征图,记为F
2C
,第13个神经网络块接收F
3RGB
和F
3D
作为输入,输出256幅宽度为44且高度为44的特征图,记为K2,第1个池化层接收F
2C
作为输入,输出128幅宽度为44且高度为44的特征图,记为P1,将K2中的所有特征图和P1中的所有特征图进行堆叠操作,输出384幅宽度为44且高度为44的特征图,记为C2,第17个神经网络块接收C2作为输入,输出256幅宽度为44且高度为44的特征图,记为F
3C
,第14个神经网络块接收F
4RGB
和F
4D
作为输入,输出512幅宽度为22且高度为22的特征图,为K3,第2个池化层接收F
3C
作为输入,输出256幅宽度为22且高度为22的特征图,记为P2,将K3中的所有特征图和P2中的所有特征图进行堆叠操作,输出768幅宽度为22且高度为22的特征图,记为C3,第18个神经网络块接收C3作为输入,输出512幅宽度为22且高度为22的特征图,记为F
4C
,第15个神经网络块接收F
5RGB
和F
5D
作为输入,输出1024幅宽度为11且高度为11的特征图,记为K4,第3个池化层接收F
4C
作为输入,输出512幅宽度为11且高度为11的特征图,记为P3,将K4中的所有特征图和P3中的所有特征图进行堆叠操作,输出1536幅宽度为11且高度为11的特征图,记为C4,第19个神经网络块接收C4作为输入,输出1024幅宽度为11且高度为11的特征图,记为F
5C
;对于加强特征提取网络,第20个神经网络块接收F
5C
作为输入,输出32幅宽度为11且高度为11的特征图,记为E1,第1个上采样层接收E1作为输入,输出32幅宽度为22且高度为22的特征图,记为UP1,将UP1中的所有特征图和F
4C
中的所有特征图进行堆叠操作,输出544幅宽度为22且高度为22的特征图,记为B1,第21个神经网络块接收B1作为输入,输出32幅宽度为22且高度为22的特征图,记为E2,第2个上采样层接收E2作为输入,输出32幅宽度为44且高度为44的特征图,记为UP2,将UP2中的所有特征图和F
3C
中的所有特征图进行堆叠操作,输出288幅宽度为44且高度为44的特征图,记为B2,第22个神经网络块接收B2作为输入,输出32幅宽度为44且高度为44的特征图,记为E3,第3个上采样层接收E3作为输入,输出32幅宽度为88且高度为88的特征图,记为UP3,将UP3中的所有特征图和F
2C
中的所有特征图进行堆叠操作,输出160幅宽度为88且高度为88的特征图,记为B3,第23个神经网络块接收B3作为输入,输出32幅宽度为88且高度为88的特征图,记为E4,将E4中的所有特征图和F
1C
中的所有特征图进行堆叠操作,输出96幅宽度为88且高度为88的特征图,记为B4,第24个神经网络块接收B4作为输入,输出32幅宽度为88且高度为88的特征图,将这32幅88
×
88的特征图集合记为E5;对于输出层,第1卷积层接收E5作为输入,输出一副宽为88且高为88的特征图,记为O1,第4个上采样层接收O1为输入,输出一副宽为352且高为352的训练立体图对应的显著性图像;步骤三,将训练集中每幅立体图像的RGB图像和Depth图像输入到卷积神经网络中进行训练,得到训练集中每幅立体图像对应的显著性图像,将立体图像{S
i
(x,y)}对应的显著性图像记为{SA
i
(x,y)},其中,SA
i
(x,y)为第i幅显著性图像第(x,y)个像素点的像素值;步骤四,计算训练集中每幅立体图像的显著性图像与真实人眼关注点图像之间的损失函数值,将{SA
i
(x,y)}与{GT
i
(x,y)}之间的损失函数值记为Loss({SA
i
(x,y)},{GT
i
(x,y)}),Loss采用交叉熵损失函数;步骤五,重复执行步骤三和步骤四共epoch次,在每个epoch循环中,数据集成批喂入网
络,对每批数据计算损失函数值,并进行反向传播,用梯度下降方法来优化网络参数,得出模型权重文件pt;测试阶段的步骤包含:步骤一,表示待测试的立体图像,将的RGB图像和Depth图像分别记为和和表示测试集中第i幅立体图坐标为(x,y)的像素点的像素值,表示测试集中第i幅彩色图坐标为(x,y)的像素点的像素值,表示测试集中第i幅深度图坐标为(x,y)的像素点的像素值,步骤二,用模型权重文件pt初始化卷积神经网络,将和输入到卷积神经网络中进行预测,得到立体图像的显著性预测结果图,记为其中,表示测试结果集中第i幅显著...

【专利技术属性】
技术研发人员:郑志军彭艳斌丰明坤翟治年潘志刚
申请(专利权)人:浙江科技学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1