【技术实现步骤摘要】
一种训练方法、生成方法及装置、电子设备
[0001]本专利技术涉及计算机视觉
,尤其涉及一种训练方法、抠图方法及装置、电子设备。
技术介绍
[0002]自动抠图是指给定一张含有物体的图片,在没有人工指定所需抠出的物体的情况下,自动将主要物体精细地抠出来,其通常用于电影拍摄制作,图片后期编辑,海报制作等场景。
[0003]相关技术中,大多数使用深度学习技术进行自动抠图。在自动抠图过程中,可以指定所需抠出的物体。
技术实现思路
[0004]根据本公开的一方面,提供了一种训练方法,用于训练阿尔法通道图生成模型,所述阿尔法通道图生成模型包括第一网络模型和第二网络模型,所述第一网络模型用于生成三元图,所述第二网络模型用于生成阿尔法通道图,所述方法包括:基于第一样本图像的阿尔法通道图标定所述第一样本图像的三元图;基于所述第一样本图像和经过标定的所述第一样本图像的三元图训练第一网络模型;基于训练完成的所述第一网络模型预测第二样本图像的三元图;基于所述第二样本图像、所述第二样本图像的三元图和标定的所述第二样本图像的阿尔法通道图训练第二网络模型。
[0005]根据本公开的另一方面,提供了一种生成方法,应用所述方法生成的阿尔法通道图生成模型生成阿尔法通道图,所述阿尔法通道图生成模型包括第一网络模型和第二网络模型,所述方法包括:基于第一网络模型生成原始图像的三元图;基于通道图生成模型处理所述原始图像和所述三元图,获得所述原始图像的阿尔法通道图。
[0006]根据本公开的另一方面,提供了一种训练 ...
【技术保护点】
【技术特征摘要】
1.一种训练方法,其特征在于,用于训练阿尔法通道图生成模型,所述阿尔法通道图生成模型包括第一网络模型和第二网络模型,所述第一网络模型用于生成三元图,所述第二网络模型用于生成阿尔法通道图,所述方法包括:基于第一样本图像的阿尔法通道图标定所述第一样本图像的三元图;基于所述第一样本图像和经过标定的所述第一样本图像的三元图训练第一网络模型;基于训练完成的所述第一网络模型预测第二样本图像的三元图;基于所述第二样本图像、所述第二样本图像的三元图和标定的所述第二样本图像的阿尔法通道图训练第二网络模型。2.根据权利要求1所述的方法,其特征在于,所述基于第一样本图像的阿尔法通道图标定所述第一样本图像的三元图,包括:基于所述第一样本图像的阿尔法通道图生成透明子图、半透明子图和不透明子图;基于所述透明子图、所述半透明子图和所述不透明子图,确定所述第一样本图像的三元图。3.根据权利要求1所述的方法,其特征在于,所述第一样本图像的阿尔法通道图包括透明子图、半透明子图和不透明子图,所述半透明子图用于标定所述第一样本图像的阿尔法通道含有的未知区域,所述半透明子图的阿尔法值大于或等于0.5且小于1。4.根据权利要求3所述的方法,其特征在于,所述透明子图为所述第一样本图像的前景图,所述不透明子图为所述第一样本图像的背景图;或,所述透明子图为所述第一样本图像的背景图,所述不透明子图为所述第一样本图像的前景图像。5.根据权利要求1所述的方法,其特征在于,所述第一网络模型的架构和所述第二网络模型的架构为端到端网络架构,所述端到端网络架构包括全卷积神经网络架构和U
‑
Net神经网络架构。6.根据权利要求1~5任一项所述的方法,其特征在于,所述第一网络模型在训练阶段的监督信息为经过标定的所述第一样本图像的三元图;所述第一网络模型包括第一网络结构和第二网络结构,所述第一网络结构与所述第二网络结构不同;所述第一网络结构用于基于所述第一样本图像预测多级三元图编码特征,随着所述三元图编码特征的级数增加,所述三元图编码特征的尺度减小;所述第二网络结构用于基于多级所述三元图编码特征预测所述第一样本图像的三元图,获得三元图预测结果,所述三元图预测结果的尺度与所述第一样本图像的尺度相同。7.根据权利要求6所述的方法,其特征在于,所述第一网络结构包括M级级联的第一子网络,所述第二网络结构包括第一拼接单元和N级第二子网络,M和N均为大于1的整数;其中,每级所述第一子网络用于提取相应级三元图编码特征,在第1级所述第一子网络至第t级所述第一子网络中,随着所述第一子网络的级数增加,所述第一子网络的深度减小;在第t+1级所述第一子网络至N级所述第一子网络中,每个所述第一子网络包括多个特征提取层,每个特征提取层生成的特征图尺度相同,t为大于或等于3且小于或等于N的整数;每级所述第二子网络用于提取相应级三元图解码特征,所述第一拼接单元用于拼接第
M级所述三元图编码特征、第1级所述三元图解码特征至第N级所述三元图解码特征,获得三元图预测结果;第1级所述第二子网络的输入特征为第一拼接特征,所述第一拼接特征包括第N级所述三元图编码特征和第N
‑
1级所述三元图编码特征,第s级所述第二子网络的输入特征为第二拼接特征,所述第二拼接特征包括第s
‑
1级所述三元图解码特征和第k级三元图编码特征,k为大于或等于1且小于N的整数,s为大于或等于2且小于或等于N的整数。8.根据权利要求7所述的方法,其特征在于,每个所述第一子网络的架构和每个所述第二子网络的架构包括U
‑
Net神经网络架构或全卷积神经网络架构。9.根据权利要求1~5任一项所述的方法,其特征在于,所述第二网络模型的监督信息为经过标定的所述第二样本图像的阿尔法通道图;所述第二网络模型包括:第三网络结构和第四网络结构,所述第一网络结构、所述第二网络结构、所述第三网络结构和所述第四网络结构不同;所述第三网络结构用于基于所述第二样本图像和所述第二样本图像的三元图生成多级通道编码特征,随着所述通道编码特征的级数增加,所述通道编码特征的尺度变小;所述第四网络结构用于基于多级所述通道编码特征和所述第二样本图像的底层特征,预测所述第二样本图像的阿尔法通道图,获得阿尔法通道图预测结果,所述阿尔法通道图预测结果的尺度与所述第二样本图像的尺度相同。10.根据权利要求9所述的方法,其特征在于,所述第三网络结构包括P级第一提取模块和1个第二提取模块,P为大于或等于2的整数;所述第四网络结构包括Q级第三提取模块,Q为大于或等于2的整数;每级所述第一提取模块用于提取相应级通道编码特征,所述第二提取模块用于提取所述第二样本图像的底层特征,每级所述第三提取模块用于提取相应级通道解码特征,第r级所述第三提取模块的输入特征为第三拼接特征,所述第三拼接特征包括第r
‑
1级所述通道解码特征和第u级所述通道编码特征,r为大于1且小于或等于Q的整数,u为大于或等于1且小于P的整数;当所述第二提取模块还用于向至少一级所述第一提取模型输入所述底层特征,至少一级所述通道编码特征融合有所述底层特征,所述底层特征用于指引相应级所述通道编码特征的未知区域;所述第二提取模块还用于向至少一级所述第三提取模块输入所述底层特征,至少一级所述通道解码特征融合有所述底层特征,所述底层特征用于指引相应级所述通道解码特征的未知区域。11.根据权利要求10所述的方法,其特征在于,当第m级所述通道编码特征融合有所述底层特征,第m级所述第一提取模块包括第一透明信息特征提取单元和第一指引上下文注意力单元,所述第一透明信息提取单元用于从第m
‑
1级所述通道编码特征提取第一透明度特征,所述第一指引上下文注意力单元用于基于所述底层特征和所述第一透明度特征获得相应级通道编码特征,m为大于1且小于或等于P的整数;和/或,当第n级所述通道解码特征融合有底层特征,第n级所述第三提取单元包括第二透明信息特征提取单元和第二指引上下文注意力单元,所述第二透明信息特征提取单元用于提取第二透明度特征,所述第二指引上下文注意力单元用于基于所述底层特征和所述第二透明
度特征获得相应级通道解码特征,n为大于或等于1且小于或等于Q的整数。12.根据权利要求11所述的方法,其特征在于,当第m级所述通道编码特征和第n级所述通道解码特征均融合有底层特征,第n级所述第三提取模块还包括第二拼接单元,用于拼接所述第二透明度特征和第m级所述通道编码特征,获得透明度融合特征,所述第二指引上下文注意力单元用于基于所述透明度...
【专利技术属性】
技术研发人员:金益欣,贾文浩,高原,刘霄,
申请(专利权)人:北京世纪好未来教育科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。