一种人像抠图方法及计算机可读存储介质技术

技术编号:26035497 阅读:32 留言:0更新日期:2020-10-23 21:13
本发明专利技术提供一种人像抠图方法及计算机可读存储介质,方法包括:获取人像数据,所述人像数据包括人像图片或人像视频;基于训练好的深度学习网络计算得到所述人像数据中人像的透明度为第一透明度;利用所述第一透明度与所述人像数据得到第一人像前景;调整所述人像的透明度为第二透明度;利用所述第二透明度得到第二人像前景,完成人像抠图。通过深度学习网络自动实现人像抠取;在得到自动人像抠取的结果后,提供了交互式抠图功能,容许用户在自动人像抠图的结果上通过交互操作进一步修缮抠图效果,以实现更高质量的抠图结果。运行速度快,占用内存少,可以部署在多种智能设备上进行实时性的人像抠图处理。

【技术实现步骤摘要】
一种人像抠图方法及计算机可读存储介质
本专利技术涉及人像抠图
,尤其涉及一种人像抠图方法及计算机可读存储介质。
技术介绍
抠图是一项基础的图像编辑技术,有着广泛的应用和重要的经济价值。抠图是视觉特效、艺术设计和影视后期等工作中的基础操作。在我们的日常生活中,可以接触到很多用于抠图或集成了抠图功能的商业化产品。目前的抠图技术主要有两类:第一类是以设计软件“Photoshop”为代表的交互式抠图方法。该类方法需要用户通过交互操作引导抠图算法完成抠图。该类方法的抠图效果好,但交互操作十分繁琐,需要耗费使用者大量的时间,对使用者也有着一定的学习成本和技巧要求。抠图是个不适定问题。为了求解该问题可以引入额外的交互信息。从交互信息中算法可以得知部分前景和部分背景。采样建模法基于数理统计的方法,对已知前景和已知背景分别采样,建立前景分布模型和背景分布模型。未知区域的分布模型是前景模型和背景模型的混合模型。具体包括Ruzon和Tomasi抠图算法与贝叶斯抠图算法等参数法,以及频数直方图个性化表示数据分布模型的非参数法。基于亲和性度量的方法将前景的透明度理解为未知区域像素相对图像背景与图像前景的亲和性,如泊松抠图法、随机行走法、测地距离法和闭式法。然而,当交互信息的形式较为粗糙时,样本信息不足会引起较大的误差;当图像纹理较为复杂时,模型的估计误差较大。第二类是以智能证件照类应用为代表的全自动人像抠图方法。该类方法无需用户交互引导,可以自动实现人像抠取。该类方法操作简单快捷,但抠图的效果差。全自动人像抠图方法主要基于深度学习理论实现,如DAPM模型、SHM模型、LDN+FB模型、MMNet模型和SDPN模型,不再需要用户提供交互信息。然而,抠图效果有待提高。所以,现有技术中缺乏一种抠图效果好的、简单方便的人像抠图方法。以上
技术介绍
内容的公开仅用于辅助理解本专利技术的构思及技术方案,其并不必然属于本专利申请的现有技术,在没有明确的证据表明上述内容在本专利申请的申请日已经公开的情况下,上述
技术介绍
不应当用于评价本申请的新颖性和创造性。
技术实现思路
本专利技术为了解决现有的问题,提供一种人像抠图方法及计算机可读存储介质。为了解决上述问题,本专利技术采用的技术方案如下所述:一种人像抠图方法,包括如下步骤:S1:获取人像数据,所述人像数据包括人像图片或人像视频;S2:基于训练好的深度学习网络计算得到所述人像数据中人像的透明度为第一透明度;S3:利用所述第一透明度与所述人像数据得到第一人像前景;S4:调整所述人像的透明度为第二透明度;S5:利用所述第二透明度得到第二人像前景,完成人像抠图。优选地,所述深度学习的网络结构包括编码器单元和解码器单元;每个所述编码器单元包括两条支路:编码分支和空间注意力分支;所述编码分支用于编码并将结果输入到下一个所述编码器单元;所述空间注意力分支用于生成空间注意力分布图,以点对点对应相加的方式融合进对应的解码器单元;每个所述解码器单元只有一条支路,先对输入特征作上采样,然后按照对应元素相加的操作融合来自对应的所述编码器单元输出的空间注意力分布图,然后进行解码,最后输出到下一解码器单元;所述解码器单元的输出数据通过Sigmoid函数归一化到0~1,即得到所述人像的所述第一透明度。优选地,所述编码器单元的编码分支依序包括:二维卷积层、批归一化层、修正的线性激活层、二维卷积层、批归一化层、修正的线性激活层、最大池化层;所述空间注意力分支依序包括:二维卷积层、批归一化层、修正的线性激活层;所述解码器单元包括:2倍上采样层、二维卷积层、批归一化层、修正的线性激活层、二维卷积层、批归一化层、修正的线性激活层。优选地,所述编码器单元为5个,所述解码器单元为5个。优选地,采用数据集训练深度学习网络,所述数据集包括人像图片或人像视频以及对应的标签,训练时的损失函数为:L(A,Agt)=γLmse(A,Agt)+tLrgb(A,Agt)+wLgrad(A,Agt)其中,Lmse(A,Agt)是均方差损失,Lrgb(A,Agt)是合成损失,Lgrad(A,Agt)是梯度损失,γ,t,w分别为均方差损失,合成损失和梯度损失的权重系数;所述均方差损失为:所述合成损失为:所述梯度损失为:其中,z表示人像图片或人像视频帧的像素点,A表示所述深度学习网络输出的人像透明度,Az表示所述深度学习网络输出的人像透明度在像素点z处的数值,Agt表示人像图片或人像视频帧的标签,表示人像图片或人像视频帧的标签在像素点z处的数值,Iz表示输入的人像图片或视频帧,是梯度算子,k表示图像或视频帧的像素数量。优选地,采用自适应矩估计作为优化器。优选地,调整所述人像的透明度为第二透明度包括:根据所述人像图片中所述人像的所述第一透明度将所述人像图片显示为第一灰度图,调整所述第一灰度图的黑色区域和白色区域,得到调整后的第二灰度图,将所述第二灰度图归一化到0-1,得到所述人像的所述第二透明度。优选地,调整所述人像的透明度为第二透明度包括:所述人像视频帧中的所述人像的所述第一透明度由如下Sigmoid函数得到:根据如下公式将所述人像的第一透明度调整为所述第二透明度:其中,x是解码器单元5的输出数据,P是x的自定义的系数。优选地,还包括采用梯度误差,连通度误差,平均绝对值误差和均方误差对人像抠图的效果进行评价;所述平均绝对值误差为:所述均方误差为:所述梯度误差为:所述连通度误差为:其中,z表示人像图片或人像视频帧的像素点,A表示所述深度学习网络输出的人像透明度,Az表示所述深度学习网络输出的人像透明度在像素点z处的数值,Agt表示人像图片或人像视频帧的标签,表示人像图片或人像视频帧的标签在像素点z处的数值,是梯度算子,k表示人像图片或人像视频帧的像素数量,表示根据像素点z的邻域Ωz计算输出透明度Az在像素点z处的连通度,表示根据像素点z的邻域Ωz计算人像图片或人像视频帧的标签在像素点z处的连通度。本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上任一所述方法的步骤。本专利技术的有益效果为:提供一种人像抠图方法及计算机可读存储介质,通过深度学习网络自动实现人像抠取;在得到自动人像抠取的结果后,提供了交互式抠图功能,容许用户在自动人像抠图的结果上通过交互操作进一步修缮抠图效果,以实现更高质量的抠图结果。进一步地,本专利技术方法运行速度快,占用内存少,可以部署在多种智能设备上进行实时性的人像抠图处理。附图说明图1是本专利技术实施例中一种人像抠图方法的示意图。图2(a)和图2(b)是本专利技术实施例中一种深度学习的网络结构包括编码器单元和解码器单元的示意图。图3是本专利技术实施例中一种深度学习的网络结构的示意图。<本文档来自技高网
...

【技术保护点】
1.一种人像抠图方法,其特征在于,包括如下步骤:/nS1:获取人像数据,所述人像数据包括人像图片或人像视频;/nS2:基于训练好的深度学习网络计算得到所述人像数据中人像的透明度为第一透明度;/nS3:利用所述第一透明度与所述人像数据得到第一人像前景;/nS4:调整所述人像的透明度为第二透明度;/nS5:利用所述第二透明度得到第二人像前景,完成人像抠图。/n

【技术特征摘要】
1.一种人像抠图方法,其特征在于,包括如下步骤:
S1:获取人像数据,所述人像数据包括人像图片或人像视频;
S2:基于训练好的深度学习网络计算得到所述人像数据中人像的透明度为第一透明度;
S3:利用所述第一透明度与所述人像数据得到第一人像前景;
S4:调整所述人像的透明度为第二透明度;
S5:利用所述第二透明度得到第二人像前景,完成人像抠图。


2.如权利要求1所述的人像抠图方法,其特征在于,所述深度学习的网络结构包括编码器单元和解码器单元;
每个所述编码器单元包括两条支路:编码分支和空间注意力分支;
所述编码分支用于编码并将结果输入到下一个所述编码器单元;
所述空间注意力分支用于生成空间注意力分布图,以点对点对应相加的方式融合进对应的解码器单元;
每个所述解码器单元只有一条支路,先对输入特征作上采样,然后按照对应元素相加的操作融合来自对应的所述编码器单元输出的空间注意力分布图,然后进行解码,最后输出到下一解码器单元;
所述解码器单元的输出数据通过Sigmoid函数归一化到0~1,即得到所述人像的所述第一透明度。


3.如权利要求2所述的人像抠图方法,其特征在于,所述编码器单元的编码分支依序包括:二维卷积层、批归一化层、修正的线性激活层、二维卷积层、批归一化层、修正的线性激活层、最大池化层;
所述空间注意力分支依序包括:二维卷积层、批归一化层、修正的线性激活层;
所述解码器单元包括:2倍上采样层、二维卷积层、批归一化层、修正的线性激活层、二维卷积层、批归一化层、修正的线性激活层。


4.如权利要求3所述的人像抠图方法,其特征在于,所述编码器单元为5个,所述解码器单元为5个。


5.如权利要求4所述的人像抠图方法,其特征在于,采用数据集训练深度学习网络,所述数据集包括人像图片或人像视频以及对应的标签,训练时的损失函数为:
L(A,Agt)=γLmse(A,Agt)+tLrgb(A,Agt)+wLgrad(A,Agt)
其中,Lmse(A,Agt)是均方差损失,Lrgb(A,Agt)是合成损失,Lgrad(A,Agt)是梯度损失,γ,t,w分别为均方差损失,合成损失和梯度损失的权重系数;
所述均方差损失为:



所述合成损失为:



所述梯度损...

【专利技术属性】
技术研发人员:董宇涵王克张凯李志德
申请(专利权)人:清华大学深圳国际研究生院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1