本发明专利技术属于计算机视觉技术领域,提供了一种交互式自然图像抠图方法,实现一种用户友好地简单交互式图像抠图框架,分为超像素划分、信息区域选取、用户划线、马尔科夫传播和CNN传播5个阶段。整体框架通过简单的用户交互实现准确、高效的图像蒙版生成,一些图像细节都可以准确地预测。马尔科夫链与深度学习的结合在有限邻域和全图上进行有效的标签传播与扩散,实现有限用户交互的最大化标注。本发明专利技术得到更为精准的抠图蒙版,同时又比依赖于三分图的抠图算法节省大量的运算时间,实现了图像抠图准确度与代价之间的有效平衡。
【技术实现步骤摘要】
一种交互式自然图像抠图方法
本专利技术属于计算机视觉
,涉及马尔可夫链与深度学习的交互式自然图像抠图的方法。
技术介绍
近年来,随着互联网与移动设备的不断发展,图像越来越成为人类生活中不可或缺的一部分,相应一些图像相关的处理技术也伴随着大众的需求而在研究领域逐渐发展起来。图像分类、语义分割等技术一直是图像处理领域的热门话题,但伴随着电影制作、在线直播、人像美化等工业、生活应用水平的提高,传统的图像分割已经不能满足人们对于前景精细化的要求,而对应的图像抠图得到了更多的重视与关注。相比于图像分割,抠图技术不仅仅要求将图像中的物体分割出来,更要求一些头发丝、动物毛发,植物枝干等精细化的图像细节,都能在分割结果中精确的展示。这样精细化的分割更能满足人们对于高质量生活的追求,对于一些工业、研究等领域更具有吸引力和挑战性。图像抠图要求精确到像素的准确分割,对应的出发点是最基本的图像合成公式:Iz=αFz+(1-α)Bz,α∈[0,1](1)其中z表示图像中的一个像素点,而I表示我们实际观测到的z点,F和B分别表示z点出的前景值和背景值,α表示前景和背景所占的比例,也可以看作是前景到背景的透明度。图像合成公式定义了最基本的图像成像的像素级解释:图像中的每一个像素点都是由前景和背景组成的,α=1表示z点为前景,即完全不透明,α=0表示z点为背景,即完全透明。α∈(0,1)的区域表示该像素点处于前景和背景的临界区域(如人的头发,植物密密麻麻的枝干,半透明区域等),这些区域是由前景和背景混合在一起形成的,这就是图像抠图需要求解的过渡区域。由α值构成的灰度图像,即是抠图技术的目标图像蒙版(alphamatte)。公式(1)是一个欠约束的公式,对于常见的彩色RGB三通道图片来说,有7个需要求解的变量,因此现有的抠图算法都是依赖额外的辅助图片,结合输入的RGB图片来实现图像蒙版的计算。主要的辅助图片有两大类:三分图和笔画图。三分图将原始彩色图片分成白色、黑色和灰色三部分,其中白色区域表示前景,黑色区域表示背景,而灰色区域则表示前景和背景之间的过渡区域。笔画图则是简单地在图片上绘制几笔来标明前景、背景和过渡区域。两类辅助图片都可以对于图像中的一些像素点进行分类,抠图算法解决的问题就是如何根据辅助图片提供的已有信息来实现整张图像蒙版的计算。虽然三分图能够提供整张的注释,但需要大量的时间和精力来进行标注,在实际应用中的可行性很差。而笔画图虽然对于用户比较友好,用户只需要绘制几笔就可以实现图像蒙版的计算,显然笔画的数量对于蒙版质量有着决定性的作用,而笔画的位置也需要满足一些边界平滑性的假设或先验分布。近几年产生了很多基于深度学习的方法,但它们大都依赖三分图来保证预测蒙版的质量,而且深度学习的方法通常在合成数据集上进行训练,导致它们在真实世界的图片上效果较差。
技术实现思路
本专利技术针对现有方法的不足之处,提出了一种基于级联传播的交互式图像抠图框架。本框架能够自主选择出一些满足抠图算法先验分布或边缘光滑性假设的区域,称之为信息区域,然后由用户在信息区域进行简单地绘制,标明前景、背景和过渡区域。用户给出的类别标签先是经过马尔可夫链进行邻域之间的传播,然后更新出超像素之间的类别转移概率,然后由卷积神经网络(CNN)进行整张图片的传播,实现最终的精细化图像蒙版。本专利技术的技术方案:一种交互式自然图像抠图方法,综合考虑了蒙版计算的准确度和时间要求,实现了用户劳动和蒙版精度之间的平衡,所采用的模型包含五个阶段,具体技术方案如下:(1)超像素划分阶段超像素划分阶段主要对于输入图像进行超像素的划分;超像素是表示颜色和文理特征的像素块,后续信息区域的计算,用户标签的传播都以超像素为单位,在显著减少计算时间的同时,利用超像素之间的相似性提高传播的效率;(2)信息区域的选取阶段传统绘制笔画的方法,对于笔画的位置要着较为严格的要求,笔画需要满足抠图算法的一些边缘平滑性假设或者先验分布,这就要求用户对抠图有丰富的专业性知识。为了提升画线过程对于用户的友好性,本专利技术提出了一种自动化的区域选择算法,具体流程如图1所示。将输入图像平均划分成16个区域,根据区域内部的超像素信息来计算每一个区域的信息量,信息量的计算综合考虑每个区域内部的颜色、文理、标签熵和对象边界信息:Info=I+J+E+S(2)式中:I、J、E和S分别表示该区域与其他区域之间的相似度、内部超像素的多样性、已有的标签熵以及内部包含的对象边界信息;等式(2)中的变量都是以超像素为单位进行计算的,其中I和J参考的是超像素的颜色和文理信息,具体定义如下:其中,cmi、chi和thi分别是对应超像素i的颜色均值、颜色直方图和文理直方图,θ是为了防止被除数为0的偏置,λ1,λ2和λ3为平衡系数,在实际运行中分别取0.4,0.35和0.25;J的计算整体取负数;I考虑的是该区域与与其他区域之间的相似度,与其他区域相似度高的区域更能表达图像整体的特征;J考虑的是该区域内部超像素之间的差异性,内部差异较大的区域更有可能位于前景和背景之间的过渡区域,对于用户划线标注的过程更有意义;标签熵的定义如下:其中,pbi、pui和pfi分别表示超像素i属于背景、过渡区域或前景的概率,已经标记过或经过传播后可明确类别的超像素显然没有再进行标记的必要,对应的E计算肯定比较低,那些没有被用户标记而且传播过程也无法处理的区域,对应的都是初始较大的类别概率,通过标签熵的约束有更大的可能被选出来进行下一次的用户画线;对象边界的计算参考边界映射图中的对应值:其中,ei是对应超像素的边界映射值,是根据超像素内部的像素集Ψi汇总出来的,emk表示Ψi中的像素点k在边界映射图中的数值,δ和ε是平衡系数,根据Ψi中的像素数量计算得到,一个参考的边界映射图样例如图2(b)所示(取值在[0,1]之间,白色表示可能位于对象边界的像素点)。(3)用户画线阶段依据上述区域信息量的计算公式,每一次迭代都计算对应区域的信息量Info,然后将信息量最大的区域选择出来进行用户画线标记,用户只需要用红色、绿色和蓝色来分别标记前景、过渡区域和背景,不需要任何专业的技巧,每种类别只需要画一笔或两笔就可以,对于用户来说相当友好。(4)马尔可夫传播用户画线后,将标记信息最大化的传播到整张图像,实现精致的图像蒙版计算,首先依赖马尔可夫链来实现邻域内标签扩散;把每个超像素看作马尔可夫链中的节点,依据超像素之间的颜色、文理相似性构建概率转移矩阵,其中已经有明确标签信息的超像素视为吸收节点;每一次画线结束后都会更新概率矩阵,计算每个节点到不同类别吸收节点的最新转移概率pbi、pui和pfi,最终的三分图由最终的概率转移矩阵计算得到;信息区域选取、用户画线和马尔可夫传播的过程迭代进行(图1),最大化实现标记信息在邻域内的传播;为了在用户劳动力和蒙版质量之间取得平衡,根据经验主义将迭代次数设为6次,也就是本文档来自技高网...
【技术保护点】
1.一种交互式自然图像抠图方法,其特征在于,综合考虑蒙版计算的准确度和时间要求,实现用户劳动和蒙版精度之间的平衡,所采用的模型包含五个阶段,具体技术方案如下:/n(1)超像素划分阶段/n超像素划分阶段主要对于输入图像进行超像素的划分;超像素是表示颜色和文理特征的像素块;/n(2)信息区域的选取阶段/n将输入图像平均划分成16个区域,根据区域内部的超像素信息来计算每一个区域的信息量,信息量的计算综合考虑每个区域内部的颜色、文理、标签熵和对象边界信息:/nInfo=I+J+E+S (2)/n式中:I、J、E和S分别表示该区域与其他区域之间的相似度、内部超像素的多样性、已有的标签熵以及内部包含的对象边界信息;等式(2)中的变量都是以超像素为单位进行计算的,其中I和J参考的是超像素的颜色和文理信息,具体定义如下:/n
【技术特征摘要】
1.一种交互式自然图像抠图方法,其特征在于,综合考虑蒙版计算的准确度和时间要求,实现用户劳动和蒙版精度之间的平衡,所采用的模型包含五个阶段,具体技术方案如下:
(1)超像素划分阶段
超像素划分阶段主要对于输入图像进行超像素的划分;超像素是表示颜色和文理特征的像素块;
(2)信息区域的选取阶段
将输入图像平均划分成16个区域,根据区域内部的超像素信息来计算每一个区域的信息量,信息量的计算综合考虑每个区域内部的颜色、文理、标签熵和对象边界信息:
Info=I+J+E+S(2)
式中:I、J、E和S分别表示该区域与其他区域之间的相似度、内部超像素的多样性、已有的标签熵以及内部包含的对象边界信息;等式(2)中的变量都是以超像素为单位进行计算的,其中I和J参考的是超像素的颜色和文理信息,具体定义如下:
其中,cmi、chi和thi分别是对应超像素i的颜色均值、颜色直方图和文理直方图,θ是为了防止被除数为0的偏置,λ1,λ2和λ3为平衡系数,在实际运行中分别取0.4,0.35和0.25;
J的计算整体取负数;I考虑的是该区域与其他区域之间的相似度,与其他区域相似度高的区域更能表达图像整体的特征;J考虑的是该区域内部超像素之间的差异性,内部差异较大的区域更有可能位于前景和背景之间的过渡区域,对于用户划线标注的过程更有意义;
标签熵的定义如下:
其中,pbi、pui和pfi分别表示超像素i属于背景、过渡区域或前景的概率,已经标记过或经过传播后可明确类别的超像素显然没有再进行标记的必要,对应的E计算肯定比较低,那些没有被用户标记而且传播过程也无法处理的区域,对应的都是初始较大的类别概率,通过标签熵的约束有更大的可能被选出来进行下...
【专利技术属性】
技术研发人员:乔羽,杨鑫,魏小鹏,张强,尹宝才,
申请(专利权)人:大连理工大学,
类型:发明
国别省市:辽宁;21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。