一种训练方法、生成方法及装置、电子设备制造方法及图纸

技术编号:30646797 阅读:15 留言:0更新日期:2021-11-04 00:56
本公开提供一种训练方法、生成方法及装置、电子设备,涉及计算机视觉技术领域,所述训练方法包括:基于第一样本图像的阿尔法通道图标定所述第一样本图像的三元图,基于所述第一样本图像和经过标定的所述第一样本图像的三元图训练第一网络模型,基于训练完成的所述第一网络模型预测所述第二样本图像的三元图,基于所述第二样本图像、所述第二样本图像的三元图和标定的所述第二样本图像的阿尔法通道图和训练第二网络模型。本公开可以在没有预先指定抠图区域的情况下,自动实现精细的抠图。自动实现精细的抠图。自动实现精细的抠图。

【技术实现步骤摘要】
一种训练方法、生成方法及装置、电子设备


[0001]本专利技术涉及计算机视觉
,尤其涉及一种训练方法、抠图方法及装置、电子设备。

技术介绍

[0002]自动抠图是指给定一张含有物体的图片,在没有人工指定所需抠出的物体的情况下,自动将主要物体精细地抠出来,其通常用于电影拍摄制作,图片后期编辑,海报制作等场景。
[0003]相关技术中,大多数使用深度学习技术进行自动抠图。在自动抠图过程中,可以指定所需抠出的物体。

技术实现思路

[0004]根据本公开的一方面,提供了一种训练方法,用于训练阿尔法通道图生成模型,所述阿尔法通道图生成模型包括第一网络模型和第二网络模型,所述第一网络模型用于生成三元图,所述第二网络模型用于生成阿尔法通道图,所述方法包括:基于第一样本图像的阿尔法通道图标定所述第一样本图像的三元图;基于所述第一样本图像和经过标定的所述第一样本图像的三元图训练第一网络模型;基于训练完成的所述第一网络模型预测第二样本图像的三元图;基于所述第二样本图像、所述第二样本图像的三元图和标定的所述第二样本图像的阿尔法通道图训练第二网络模型。
[0005]根据本公开的另一方面,提供了一种生成方法,应用所述方法生成的阿尔法通道图生成模型生成阿尔法通道图,所述阿尔法通道图生成模型包括第一网络模型和第二网络模型,所述方法包括:基于第一网络模型生成原始图像的三元图;基于通道图生成模型处理所述原始图像和所述三元图,获得所述原始图像的阿尔法通道图。
[0006]根据本公开的另一方面,提供了一种训练装置,用于训练阿尔法通道图生成模型,所述阿尔法通道图生成模型包括第一网络模型和第二网络模型,所述第一网络模型用于生成三元图,所述第二网络模型用于生成阿尔法通道图,所述设备包括:标定模块,用于基于第一样本图像的阿尔法通道图标定所述第一样本图像的三元图;第一训练模块,用于基于所述第一样本图像和经过标定的所述第一样本图像的三元图训练第一网络模型;预测模块,用于基于训练完成的所述第一网络模型预测第二样本图像的三元图;第二训练模块,用于基于所述第二样本图像、所述第二样本图像的三元图和标定
的所述第二样本图像的阿尔法通道图训练第二网络模型。
[0007]根据本公开的另一方面,提供了一种生成装置,应用上述设备训练的阿尔法通道图生成模型生成阿尔法通道图,所述阿尔法通道图生成模型包括第一网络模型和第二网络模型,所述装置包括:第一生成模块,用于基于第一网络模型生成原始图像的三元图;第二生成模块,基于通道图生成模型处理所述原始图像和所述三元图,获得所述原始图像的阿尔法通道图。
[0008]本公开实施例中提供的一个或多个技术方案,基于阿尔法通道图和三元图各个区域的透明度对应关系,在训练阶段采用阿尔法通道图标定三元图的方式建立三元图和阿尔法通道图之间的透明度映射,并以标定的三元图为目标,训练第一网络模型,因此,在生成阿尔法通道图时,可以在没有预先指定的抠出区域的前提下,第二网络模型依靠三元图与阿尔法通道图的映射关系,以第一网络模型生成的三元图为参考,准确生成阿尔法通道图。在此基础上,利用阿尔法通道图可以自动准确的从原始图像抠出精细度比较高的图像。
附图说明
[0009]在下面结合附图对于示例性实施例的描述中,本公开的更多细节、特征和优点被公开,在附图中:图1示出了根据本公开示例性实施例提供的方法示例出的系统架构示意图;图2示出了本公开示例性实施例的训练方法的流程图;图3示出了本公开示例性实施例的第一样本图像的示意图;图4示出了本公开示例性实施例的第一样本图像的阿尔法通道图的示意图;图5示出了本公开示例性实施例的第一网络模型的基本架构图;图6A示出了本公开示例性实施例的第一网络模型的架构示意图;图6B示出了本公开示例性实施例的第一编码器的架构示意图;图6C示出本公开示例性实施例的第二编码器的架构示意图;图6D示出了本公开示例性实施例的第三编码器的架构示意图;图6E示出了本公开示例性实施例的第四编码器的架构示意图;图6F示出了本公开示例性实施例的第五编码器的架构示意图;图7示出了本公开示例性的第二网络模型的基本架构示意图;图8示出了本公开示例性的涉及GCA模块的单元结构的示意图;图9A示出了本公开示例性实施例的第一网络模型的架构示意图;图9B示出了本公开示例性实施例的第一编码器的结构示意图;图9C示出了本公开示例性实施例的第二编码器的结构示意图;图9D示出了本公开示例性实施例的第三编码器的结构示意图;图9E示出了本公开示例性实施例的第四编码器的结构示意图;图9F示出了本公开示例性实施例的第五编码器的结构示意图;图9G示出了本公开示例性实施例的第一解码器的结构示意图;图9H示出了本公开示例性实施例的第二解码器的结构示意图;图9I示出了本公开示例性实施例的第五解码器的结构示意图;
图10示出了本公开示例性实施例提供的生成方法的流程图;图11示出了根据本公开示例性实施例的训练装置的功能模块示意性框图;图12示出了根据本公开示例性实施例的生成装置的功能模块示意性框图;图13示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。
具体实施方式
[0010]下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
[0011]应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
[0012]本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
[0013]需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
[0014]本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
[0015]在介绍本公开实施例之前首先对本公开实施例中涉及到的相关名词作如下释义:三元图,又称trimap,是一种对图片前景、背景和未知区域进行标记的图片,往往是图片alpha通道生成模型的输入。
[0016]阿尔法通道图(Alpha Channel),又称Alpha通道图,是指一种“非彩色”通道图,可以体本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种训练方法,其特征在于,用于训练阿尔法通道图生成模型,所述阿尔法通道图生成模型包括第一网络模型和第二网络模型,所述第一网络模型用于生成三元图,所述第二网络模型用于生成阿尔法通道图,所述方法包括:基于第一样本图像的阿尔法通道图标定所述第一样本图像的三元图;基于所述第一样本图像和经过标定的所述第一样本图像的三元图训练第一网络模型;基于训练完成的所述第一网络模型预测第二样本图像的三元图;基于所述第二样本图像、所述第二样本图像的三元图和标定的所述第二样本图像的阿尔法通道图训练第二网络模型。2.根据权利要求1所述的方法,其特征在于,所述基于第一样本图像的阿尔法通道图标定所述第一样本图像的三元图,包括:基于所述第一样本图像的阿尔法通道图生成透明子图、半透明子图和不透明子图;基于所述透明子图、所述半透明子图和所述不透明子图,确定所述第一样本图像的三元图。3.根据权利要求1所述的方法,其特征在于,所述第一样本图像的阿尔法通道图包括透明子图、半透明子图和不透明子图,所述半透明子图用于标定所述第一样本图像的阿尔法通道含有的未知区域,所述半透明子图的阿尔法值大于或等于0.5且小于1。4.根据权利要求3所述的方法,其特征在于,所述透明子图为所述第一样本图像的前景图,所述不透明子图为所述第一样本图像的背景图;或,所述透明子图为所述第一样本图像的背景图,所述不透明子图为所述第一样本图像的前景图像。5.根据权利要求1所述的方法,其特征在于,所述第一网络模型的架构和所述第二网络模型的架构为端到端网络架构,所述端到端网络架构包括全卷积神经网络架构和U

Net神经网络架构。6.根据权利要求1~5任一项所述的方法,其特征在于,所述第一网络模型在训练阶段的监督信息为经过标定的所述第一样本图像的三元图;所述第一网络模型包括第一网络结构和第二网络结构,所述第一网络结构与所述第二网络结构不同;所述第一网络结构用于基于所述第一样本图像预测多级三元图编码特征,随着所述三元图编码特征的级数增加,所述三元图编码特征的尺度减小;所述第二网络结构用于基于多级所述三元图编码特征预测所述第一样本图像的三元图,获得三元图预测结果,所述三元图预测结果的尺度与所述第一样本图像的尺度相同。7.根据权利要求6所述的方法,其特征在于,所述第一网络结构包括M级级联的第一子网络,所述第二网络结构包括第一拼接单元和N级第二子网络,M和N均为大于1的整数;其中,每级所述第一子网络用于提取相应级三元图编码特征,在第1级所述第一子网络至第t级所述第一子网络中,随着所述第一子网络的级数增加,所述第一子网络的深度减小;在第t+1级所述第一子网络至N级所述第一子网络中,每个所述第一子网络包括多个特征提取层,每个特征提取层生成的特征图尺度相同,t为大于或等于3且小于或等于N的整数;每级所述第二子网络用于提取相应级三元图解码特征,所述第一拼接单元用于拼接第
M级所述三元图编码特征、第1级所述三元图解码特征至第N级所述三元图解码特征,获得三元图预测结果;第1级所述第二子网络的输入特征为第一拼接特征,所述第一拼接特征包括第N级所述三元图编码特征和第N

1级所述三元图编码特征,第s级所述第二子网络的输入特征为第二拼接特征,所述第二拼接特征包括第s

1级所述三元图解码特征和第k级三元图编码特征,k为大于或等于1且小于N的整数,s为大于或等于2且小于或等于N的整数。8.根据权利要求7所述的方法,其特征在于,每个所述第一子网络的架构和每个所述第二子网络的架构包括U

Net神经网络架构或全卷积神经网络架构。9.根据权利要求1~5任一项所述的方法,其特征在于,所述第二网络模型的监督信息为经过标定的所述第二样本图像的阿尔法通道图;所述第二网络模型包括:第三网络结构和第四网络结构,所述第一网络结构、所述第二网络结构、所述第三网络结构和所述第四网络结构不同;所述第三网络结构用于基于所述第二样本图像和所述第二样本图像的三元图生成多级通道编码特征,随着所述通道编码特征的级数增加,所述通道编码特征的尺度变小;所述第四网络结构用于基于多级所述通道编码特征和所述第二样本图像的底层特征,预测所述第二样本图像的阿尔法通道图,获得阿尔法通道图预测结果,所述阿尔法通道图预测结果的尺度与所述第二样本图像的尺度相同。10.根据权利要求9所述的方法,其特征在于,所述第三网络结构包括P级第一提取模块和1个第二提取模块,P为大于或等于2的整数;所述第四网络结构包括Q级第三提取模块,Q为大于或等于2的整数;每级所述第一提取模块用于提取相应级通道编码特征,所述第二提取模块用于提取所述第二样本图像的底层特征,每级所述第三提取模块用于提取相应级通道解码特征,第r级所述第三提取模块的输入特征为第三拼接特征,所述第三拼接特征包括第r

1级所述通道解码特征和第u级所述通道编码特征,r为大于1且小于或等于Q的整数,u为大于或等于1且小于P的整数;当所述第二提取模块还用于向至少一级所述第一提取模型输入所述底层特征,至少一级所述通道编码特征融合有所述底层特征,所述底层特征用于指引相应级所述通道编码特征的未知区域;所述第二提取模块还用于向至少一级所述第三提取模块输入所述底层特征,至少一级所述通道解码特征融合有所述底层特征,所述底层特征用于指引相应级所述通道解码特征的未知区域。11.根据权利要求10所述的方法,其特征在于,当第m级所述通道编码特征融合有所述底层特征,第m级所述第一提取模块包括第一透明信息特征提取单元和第一指引上下文注意力单元,所述第一透明信息提取单元用于从第m

1级所述通道编码特征提取第一透明度特征,所述第一指引上下文注意力单元用于基于所述底层特征和所述第一透明度特征获得相应级通道编码特征,m为大于1且小于或等于P的整数;和/或,当第n级所述通道解码特征融合有底层特征,第n级所述第三提取单元包括第二透明信息特征提取单元和第二指引上下文注意力单元,所述第二透明信息特征提取单元用于提取第二透明度特征,所述第二指引上下文注意力单元用于基于所述底层特征和所述第二透明
度特征获得相应级通道解码特征,n为大于或等于1且小于或等于Q的整数。12.根据权利要求11所述的方法,其特征在于,当第m级所述通道编码特征和第n级所述通道解码特征均融合有底层特征,第n级所述第三提取模块还包括第二拼接单元,用于拼接所述第二透明度特征和第m级所述通道编码特征,获得透明度融合特征,所述第二指引上下文注意力单元用于基于所述透明度...

【专利技术属性】
技术研发人员:金益欣贾文浩高原刘霄
申请(专利权)人:北京世纪好未来教育科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1