本发明专利技术公开了一种基于卷积神经网络的区域和像素级融合的显著性检测方法,该方法研究的对象是静态图像,其中图像的内容可以是任意的,研究的目标是从图像中找出吸引人眼注意力的目标,并为其赋予不同的显著性值。本发明专利技术主要提出了一种自适应的区域生成技术,并设计了两个CNN网络结构,分别用于像素级显著性预测和显著性融合。这两个CNN网络模型以图像作为输入,以图像的真实结果作为监督信号用于网络模型的训练,并最终输出与输入图像大小一致的显著性图。本发明专利技术能有效地进行区域级显著性估计和像素级显著性预测,得到两个显著性图,最后使用进行显著性融合的CNN将两个显著性图及原始图像进行融合得到最终的显著性图。
【技术实现步骤摘要】
本专利技术涉及一种基于深度学习的图像处理方法,具体涉及一种基于卷积神经网络的区域和像素级融合的显著性检测方法。
技术介绍
随着深度学习的发展和兴起,基于深度学习的显著性检测技术也不断发展。显著性检测可分为自底向上的数据驱动模型和自顶向下的任务驱动模型两大类。自底向上的显著性检测是指对于给定的任意一幅图像,找出图中引人注意的目标,该目标可为任何类别的事物。而自顶向下的显著性检测方法通常从给定图片中找出给定类别的目标,并赋予不同的显著性值。目前,对自底向上的显著性检测方法的研究最多。已有的自底向上的显著性检测方法可分为两类,分别为基于手工设计特征的方法和基于卷积神经网络的方法。由于基于手工设计特征的方法通常利用图像中的表面信息(比如颜色、纹理等)来进行特征提取,而提取的这些手工特征不能捕捉显著性目标的深层特性和多尺度信息,从而不能取得很好的性能。最近随着深度学习的兴起,有部分研究者开始使用卷积神经网络来进行显著性目标检测。目前已有的大部分基于卷积神经网络(CNN)的显著性目标检测方法首先将图像分割成多个区域,然后对每个区域用训练好的CNN模型来预测其显著性值。但这些方法不能得到精确的像素级的显著性预测结果。
技术实现思路
为了克服上述问题,本专利技术提出了一种新的基于CNN的显著性检测方法,即基于卷积神经网络的区域和像素级融合的显著性检测方法。该方法包含三个阶段,分别为区域级显著性估计、像素级显著性预测和显著性融合,每个阶段都涉及到一个CNN模型。该方法可得到精确的像素级的显著性图,从而能更有效地推动基于显著性的相关应用的发展。本专利技术的目的是通过以下技术方案实现的:本专利技术提供了一种基于卷积神经网络的区域和像素级融合的显著性检测方法,该方法研究的对象是静态图像,其中图像的内容可以是任意的,研究的目标是从图像中找出吸引人眼注意力的目标,并为其赋予不同的显著性值。本专利技术主要提出了一种自适应的区域生成技术,并设计了两个CNN网络结构,分别用于像素级显著性预测和显著性融合。这两个CNN网络模型以图像作为输入,以图像的真实结果作为监督信号用于网络模型的训练,并最终输出与输入图像大小一致的显著性图。本专利技术能有效地进行区域级显著性估计和像素级显著性预测,得到两个显著性图,最后使用进行显著性融合的CNN将两个显著性图及原始图像进行融合得到最终的显著性图,整个系统框图如图1所示。本专利技术的具体实施步骤如下:一、区域级显著性估计第一步、采用自适应的区域生成技术对输入图像I进行分割(1)使用SLIC算法对输入图像I进行超像素分割,得到n个超像素;(2)从每个超像素中提取一个简单的特征向量,用来表征该超像素的特性;(3)使用一个基于图的合并聚类算法对超像素进行聚类得到不同的区域;第二步、使用Clarifai网络模型进行区域显著性估计(1)从每个区域的中心线周围随机选取m个超像素;(2)设置m个超像素的中心作为窗口的中心构建m个窗口,且这些窗口包含整个图像;(3)将构造的m个窗口图像经过CNN模型,得到m个显著性值;(4)计算m个显著性值的均值并将其作为该区域的显著性值;二、像素级显著性预测(1)以模型VGGNet作为预训练模型,将VGGNet中的最后一个模块移除,对第四和第五模块的输出进行去卷积操作,并在特征通道方向将它们进行拼接,用于多尺度特征学习;然后采用大小为1* 1的卷积核对拼接后的特征图进行卷积得到一个概率图;(2)在像素级CNN模型训练阶段,使用叉熵损失函数计算概率图和真实结果图之间的误差,并将误差进行回传以便更新像素级CNN模型参数;(3)像素级CNN模型训练完之后,将输入图像I直接输入到像素级CNN模型中预测其对应的像素级显著性图;三、显著性融合(1)构建融合CNN网络结构:CNN网络结构包含一个拼接层、三个卷积层和一个损失层;(2)将输入图像I和步骤一、二的两个显著性图拼接成一个5通道的图像,然后将其送入三个卷积层;(3)在融合CNN网络训练阶段,使用损失层中的叉熵损失函数计算最后一个卷积层的输出与真实显著性图之间的误差,并将误差进行回传以便更新融合CNN模型参数;(4)测试时,将输入图像I直接输入到训练好的融合CNN模型中,该模型最后一个卷积层的输出即为最终预测的显著性图。本专利技术具有如下优点:1、本专利技术提出了一种新的基于CNN的显著性检测方法,该方法充分发挥了区域级显著性估计和像素级显著性预测的优势,并取得了很好的显著性检测性能。2、本专利技术提出了一种自适应的区域生成技术,该技术可为不同的图像生成不同数量的区域,并能很好的保持物体的边缘。3、本专利技术设计了一个CNN网络结构,该网络结构可有效地挖掘图像中的多尺度信息,除了可用于像素级显著性预测外,还可进行与像素分类相关的任务,比如图像分割。4、本专利技术提出了一种新的基于CNN的显著性融合策略,不仅充分利用了显著性图之间的互补信息,还利用了原始图像中丰富的信息,从而在很大程度上提高了显著性检测的性能。附图说明图1为本专利技术整个系统框图;图2为自适应区域生成结果实例,a-原始图像,b-真实结果,c-超像素分割结果,d-区域生成结果;图3为区域级显著性估计结果实例,a-原始图像,b-真实结果,c-区域级结果;图4为像素级CNN网络结构;图5为像素级显著性预测结果实例,a-原始图像,b-真实结果,c-像素级结果;图6为融合CNN网络结构;图7为本专利技术进行显著性检测的结果,a-原始图像,b-真实结果,c-融合结果,d-像素级结果,e-区域级结果。具体实施方式下面结合附图对本专利技术的技术方案作进一步的说明,但并不局限于此,凡是对本专利技术技术方案进行修改或者等同替换,而不脱离本专利技术技术方案的精神和范围,均应涵盖在本专利技术的保护范围中。本专利技术提供了一种基于卷积神经网络的区域和像素级融合的显著性检测方法,具体实施步骤如下:一、区域级显著性估计在区域级显著性估计过程中,其中第一步就是从输入图像中生成大量的区域。最简单的方法是使用超像素作为区域来进行显著性估计,从而使得如何确定分割的超像素个数变得很困难。如果超像素个数太少,从而使得属于同一个显著性目标的区域可能会被欠分割。如果超像素个数太多,从而使得属于显著性目标或背景的区域可能会被过分割。无论是欠分割还是过分割,都可能使得显著性目标或背景的显著性值不一致。因此,对于不同的图像,由于它们的不同特性,应该被分割成不同数量的超像素。为了解决上述问题,本专利技术提出一种自适应的区域生成技术来进行图像分割。给定一个输入图像I,该自适应区域生成技术的过程如下:(1)使用SLIC算法对I进行超像素分割得到n个超像素。综合考虑到方法的效果和效率,在本专利技术中,n=300。(2)从每个超像素中提取一个简单的特征向量(包含了Lab颜色空间上的平均颜色和平均空间位置坐标),用来表征该超像素的特性。(3)使用一个基于图的合并聚类算法对超像素进行聚类得到不同的区域。经过上述过程之后,图像I中颜色相似的且相邻的超像素通常被聚类到同一个区域中。对于不同的图像,最终聚类后得到的区域个数也是不同的,且都要远远小于超像素的个数n。图2给出自适应区域生成技术得到的三个生成的结果实例。得到生成的区域之后,下一步是区域显著性估计。本专利技术使用Clarifai网络模型(其是ImageNet20本文档来自技高网...
【技术保护点】
一种基于卷积神经网络的区域和像素级融合的显著性检测方法,其特征在于所述方法步骤如下:一、区域级显著性估计第一步、采用自适应的区域生成技术对输入图像I进行分割(1)使用SLIC算法对输入图像I进行超像素分割,得到n个超像素;(2)从每个超像素中提取一个简单的特征向量,用来表征该超像素的特性;(3)使用一个基于图的合并聚类算法对超像素进行聚类得到不同的区域;第二步、使用Clarifai网络模型进行区域显著性估计(1)从每个区域的中心线周围随机选取m个超像素;(2)设置m个超像素的中心作为窗口的中心构建m个窗口,且这些窗口包含整个图像;(3)将构造的m个窗口图像经过CNN模型,得到m个显著性值;(4)计算m个显著性值的均值并将其作为该区域的显著性值;二、像素级显著性预测(1)以模型VGGNet作为预训练模型,将VGGNet中的最后一个模块移除,对第四和第五模块的输出进行去卷积操作,并在特征通道方向将它们进行拼接,用于多尺度特征学习;然后采用大小为1* 1的卷积核对拼接后的特征图进行卷积得到一个概率图;(2)在像素级CNN模型训练阶段,使用叉熵损失函数计算概率图和真实结果图之间的误差,并将误差进行回传以便更新像素级CNN模型参数;(3)像素级CNN模型训练完之后,将输入图像I直接输入到像素级CNN模型中预测其对应的像素级显著性图;三、显著性融合(1)构建融合CNN网络结构:CNN网络结构包含一个拼接层、三个卷积层和一个损失层;(2)将输入图像I和步骤一、二的两个显著性图拼接成一个5通道的图像,然后将其送入三个卷积层;(3)在融合CNN网络训练阶段,使用损失层中的叉熵损失函数计算最后一个卷积层的输出与真实显著性图之间的误差,并将误差进行回传以便更新融合CNN模型参数;(4)测试时,将输入图像I直接输入到训练好的融合CNN模型中,该模型最后一个卷积层的输出即为最终预测的显著性图。...
【技术特征摘要】
1.一种基于卷积神经网络的区域和像素级融合的显著性检测方法,其特征在于所述方法步骤如下:一、区域级显著性估计第一步、采用自适应的区域生成技术对输入图像I进行分割(1)使用SLIC算法对输入图像I进行超像素分割,得到n个超像素;(2)从每个超像素中提取一个简单的特征向量,用来表征该超像素的特性;(3)使用一个基于图的合并聚类算法对超像素进行聚类得到不同的区域;第二步、使用Clarifai网络模型进行区域显著性估计(1)从每个区域的中心线周围随机选取m个超像素;(2)设置m个超像素的中心作为窗口的中心构建m个窗口,且这些窗口包含整个图像;(3)将构造的m个窗口图像经过CNN模型,得到m个显著性值;(4)计算m个显著性值的均值并将其作为该区域的显著性值;二、像素级显著性预测(1)以模型VGGNet作为预训练模型,将VGGNet中的最后一个模块移除,对第四和第五模块的输出进行去卷积操作,并在特征通道方向将它们进行拼接,用于多尺度特征学习;然后采用...
【专利技术属性】
技术研发人员:邬向前,卜巍,唐有宝,
申请(专利权)人:哈尔滨工业大学,
类型:发明
国别省市:黑龙江;23
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。