System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及虚拟换发型,尤其涉及一种融合transformer架构与lora训练的虚拟换发型方法及系统。
技术介绍
1、合适的发型能很好地体现一个人的风格,发型对于整体的穿搭也起到了非常重要的作用。随着对美的追求不断深化,人们越来越注重自己的发型选择。人们希望尝试新发型之前预览发型效果,从而极大地减少不满意的理发体验。传统的换发型技术通常借助修图工具来完成,特别是较为复杂的发型,在细节处理需要花费大量时间。
2、传统的换发型技术通常借助修图工具来完成,不仅需要找到新发型和本人照片角度相匹配的图片,还需要花费一定时间来将图修得真实自然。随着人工智能技术的发展,虚拟换发型技术应运而生,它能够将目标发型以自然的方式融入用户的照片之中,同时保持发型的细节和用户面部特征的清晰度。近年来,尽管基于生成对抗网络(gan)的方法在虚拟换发型领域占据主导地位,但其在处理发型细节时仍存在挑战,容易产生不自然的伪影。
技术实现思路
1、为了解决上述技术问题,本专利技术提供了一种融合transformer架构与lora训练的虚拟换发型方法及系统。
2、根据本专利技术的一方面,提出一种融合transformer架构与lora训练的虚拟换发型方法,该方法包括:
3、获取有头发的源图片和发型参考图片;
4、提取发型参考图片的发型描述词;
5、对所述源图片和所述发型参考图片进行处理,利用发型生成模型生成第一阶段换发型图片;
6、对所述第一阶
7、对所述遮挡发型图片和所述发型参考图片的发型描述词进行处理,利用发型重绘dit模型生成最终的换发型图片;其中,所述发型重绘dit模型包含多个串联的基于transformer架构的扩散模型。
8、进一步地,所述对源图片和发型参考图片进行处理,利用发型生成模型生成第一阶段换发型图片包括:利用秃顶生成器对源图片进行处理,生成秃顶图片;根据发型参考图片和秃顶图片,利用发型生成模型生成第一阶段换发型图片;其中,所述秃顶生成器包含vae编码器、秃顶生成模型、秃顶controlnet、vae解码器,所述秃顶生成模型和所述秃顶controlnet均包含多个串联的基于transformer架构的扩散模型,所述秃顶controlnet为所述秃顶生成模型的可训练副本。
9、进一步地,所述利用秃顶生成器对源图片进行处理,生成秃顶图片包括:将源图片输入到vae编码器中,得到隐空间编码;将隐空间编码输入到秃顶controlnet中,经过分块化处理、线性层处理后输入到多个串联的基于transformer架构的扩散模型中进行处理,获得源图片参考信息;将所述源图片参考信息输入到秃顶生成模型中;随机生成隐空间高斯噪声,并将所述噪声输入到秃顶生成模型中,经过分块化处理、线性层处理后,得到特征图,将所述特征图和秃顶controlnet输出的源图片参考信息一同输入到多个串联的基于transformer架构的扩散模型中进行处理,得到的输出经过多层感知机处理后,再进行反分块化处理;将反分块化处理后的结果输入vae解码器中,获得源图片对应的秃顶图片。
10、进一步地,所述发型生成模型包含多个串联的基于transformer架构的扩散模型;所述根据发型参考图片和秃顶图片,利用发型生成模型生成第一阶段换发型图片包括:将发型参考图片和秃顶生成器生成的秃顶图片分别输入预训练的vae编码器中,得到对应的隐空间编码;将发型参考图片对应的隐空间编码输入发型参考网络中进行处理,获得发型细节特征;并将所述发型细节特征输入到发型生成模型中;随机生成隐空间高斯噪声,并将所述噪声和秃顶图片对应的隐空间编码一同输入到发型生成模型中,经过分块化处理、线性层处理后,得到特征图,将所述特征图和发型参考网络输出的发型细节特征一同输入到多个串联的基于transformer架构的扩散模型中进行处理,得到的输出经过多层感知机处理后,再进行反分块化处理;将反分块化处理后的结果输入vae解码器中,获得源图片对应的第一阶段换发型图片。
11、进一步地,所述对第一阶段换发型图片和源图片进行处理,获取遮挡发型图片包括:
12、对第一阶段换发型图片和源图片分别进行图像分割,获取对应的分割图片;
13、将两个分割图片叠加,获得发型二值掩码;
14、对发型二值掩码进行扩张,得到扩张之后的发型二值掩码;
15、将扩张之后的发型二值掩码和第一阶段换发型图片叠加,获取遮挡发型图片。
16、进一步地,所述对遮挡发型图片和发型参考图片的发型描述词进行处理,利用发型重绘dit模型生成最终的换发型图片包括:
17、对发型描述词进行文本编码,获得文本编码;
18、将遮挡发型图片输入到vae编码器中,获得重绘背景隐编码;
19、生成隐空间随机高斯噪声,将重绘背景隐编码、隐空间随机高斯噪声和扩张之后的发型二值掩码沿通道进行拼接,得到多通道输入矩阵;
20、将多通道输入矩阵进行分块化处理,再经过线性层处理,并将处理得到的特征图和文本编码一同输入到多个串联的基于transformer架构的扩散模型中进行循环去噪;
21、得到的输出经过多层感知机处理后,再进行反分块化处理还原回输入的遮挡发型图片大小;将反分块化处理后的结果输入vae解码器中,获得最终的换发型图片。
22、进一步地,所述基于transformer架构的扩散模型分为编码块和解码块;其中,编码块用于对输入图片进行压缩,以获得图片不同层次的特征,编码块包含自注意力模块、交叉注意力模块和前向传播网络;解码块用于还原图片大小,解码块包含自注意力模块、交叉注意力模块、前向传播网络和跳跃模块。
23、进一步地,所述发型生成模型和所述发型重绘dit模型均是预先训练好的模型,且在所述发型重绘dit模型的推理过程中利用训练好的低秩适应微调模型对发型重绘dit模型中基于transformer架构的扩散模型的权重参数进行微调,微调公式为:
24、
25、式中,表示微调后的权重;表示基于transformer架构的扩散模型的原始权重参数,表示低秩适应微调模型的参数,为分解得到的两个矩阵。
26、进一步地,所述发型生成模型训练过程中的损失函数如下所示:
27、
28、其中,表示高斯噪声;表示vae编码器;表示发型生成模型中基于transformer架构的扩散模型;表示发型参考网络;分别表示发型参考图片和秃顶图片;表示隐空间编码;t表示时间步;表示分布下期望;
29、所述低秩适应微调模型训练过程中的损失函数如下所示:
30、
31、其中,表示低秩适应微调模型中基于transformer架构的扩散模型;表示文本编码;表示分布下期望。
32、根据本专利技术的另一方面,提出一种融合tr本文档来自技高网...
【技术保护点】
1.一种融合Transformer架构与LoRA训练的虚拟换发型方法,其特征在于,包括:
2.根据权利要求1所述的一种融合Transformer架构与LoRA训练的虚拟换发型方法,其特征在于,所述对源图片和发型参考图片进行处理,利用发型生成模型生成第一阶段换发型图片包括:利用秃顶生成器对源图片进行处理,生成秃顶图片;根据发型参考图片和秃顶图片,利用发型生成模型生成第一阶段换发型图片;其中,所述秃顶生成器包含VAE编码器、秃顶生成模型、秃顶ControlNet、VAE解码器,所述秃顶生成模型和所述秃顶ControlNet均包含多个串联的基于Transformer架构的扩散模型,所述秃顶ControlNet为所述秃顶生成模型的可训练副本。
3.根据权利要求2所述的一种融合Transformer架构与LoRA训练的虚拟换发型方法,其特征在于,所述利用秃顶生成器对源图片进行处理,生成秃顶图片包括:将源图片输入到VAE编码器中,得到隐空间编码;将隐空间编码输入到秃顶ControlNet中,经过分块化处理、线性层处理后输入到多个串联的基于Transformer架构的扩
4.根据权利要求3所述的一种融合Transformer架构与LoRA训练的虚拟换发型方法,其特征在于,所述发型生成模型包含多个串联的基于Transformer架构的扩散模型;所述根据发型参考图片和秃顶图片,利用发型生成模型生成第一阶段换发型图片包括:将发型参考图片和秃顶生成器生成的秃顶图片分别输入预训练的VAE编码器中,得到对应的隐空间编码;将发型参考图片对应的隐空间编码输入发型参考网络中进行处理,获得发型细节特征;并将所述发型细节特征输入到发型生成模型中;随机生成隐空间高斯噪声,并将所述噪声和秃顶图片对应的隐空间编码一同输入到发型生成模型中,经过分块化处理、线性层处理后,得到特征图,将所述特征图和发型参考网络输出的发型细节特征一同输入到多个串联的基于Transformer架构的扩散模型中进行处理,得到的输出经过多层感知机处理后,再进行反分块化处理;将反分块化处理后的结果输入VAE解码器中,获得源图片对应的第一阶段换发型图片。
5.根据权利要求1所述的一种融合Transformer架构与LoRA训练的虚拟换发型方法,其特征在于,所述对第一阶段换发型图片和源图片进行处理,获取遮挡发型图片包括:
6.根据权利要求5所述的一种融合Transformer架构与LoRA训练的虚拟换发型方法,其特征在于,所述对遮挡发型图片和发型参考图片的发型描述词进行处理,利用发型重绘DIT模型生成最终的换发型图片包括:
7.根据权利要求1-6中任一项所述的一种融合Transformer架构与LoRA训练的虚拟换发型方法,其特征在于,所述基于Transformer架构的扩散模型分为编码块和解码块;其中,编码块用于对输入图片进行压缩,以获得图片不同层次的特征,编码块包含自注意力模块、交叉注意力模块和前向传播网络;解码块用于还原图片大小,解码块包含自注意力模块、交叉注意力模块、前向传播网络和跳跃模块。
8.根据权利要求7所述的一种融合Transformer架构与LoRA训练的虚拟换发型方法,其特征在于,所述发型生成模型和所述发型重绘DIT模型均是预先训练好的模型,且在所述发型重绘DIT模型的推理过程中利用训练好的低秩适应微调模型对发型重绘DIT模型中基于Transformer架构的扩散模型的权重参数进行微调,微调公式为:
9.根据权利要求8所述的一种融合Transformer架构与LoRA训练的虚拟换发型方法,其特征在于,所述发型生成模型训练过程中的损失函数如下所示:
10.一种融合Transformer架构与LoRA训练的虚拟换发型系统,其特征在于,包括:
...【技术特征摘要】
1.一种融合transformer架构与lora训练的虚拟换发型方法,其特征在于,包括:
2.根据权利要求1所述的一种融合transformer架构与lora训练的虚拟换发型方法,其特征在于,所述对源图片和发型参考图片进行处理,利用发型生成模型生成第一阶段换发型图片包括:利用秃顶生成器对源图片进行处理,生成秃顶图片;根据发型参考图片和秃顶图片,利用发型生成模型生成第一阶段换发型图片;其中,所述秃顶生成器包含vae编码器、秃顶生成模型、秃顶controlnet、vae解码器,所述秃顶生成模型和所述秃顶controlnet均包含多个串联的基于transformer架构的扩散模型,所述秃顶controlnet为所述秃顶生成模型的可训练副本。
3.根据权利要求2所述的一种融合transformer架构与lora训练的虚拟换发型方法,其特征在于,所述利用秃顶生成器对源图片进行处理,生成秃顶图片包括:将源图片输入到vae编码器中,得到隐空间编码;将隐空间编码输入到秃顶controlnet中,经过分块化处理、线性层处理后输入到多个串联的基于transformer架构的扩散模型中进行处理,获得源图片参考信息;将所述源图片参考信息输入到秃顶生成模型中;随机生成隐空间高斯噪声,并将所述噪声输入到秃顶生成模型中,经过分块化处理、线性层处理后,得到特征图,将所述特征图和秃顶controlnet输出的源图片参考信息一同输入到多个串联的基于transformer架构的扩散模型中进行处理,得到的输出经过多层感知机处理后,再进行反分块化处理;将反分块化处理后的结果输入vae解码器中,获得源图片对应的秃顶图片。
4.根据权利要求3所述的一种融合transformer架构与lora训练的虚拟换发型方法,其特征在于,所述发型生成模型包含多个串联的基于transformer架构的扩散模型;所述根据发型参考图片和秃顶图片,利用发型生成模型生成第一阶段换发型图片包括:将发型参考图片和秃顶生成器生成的秃顶图片分别输入预训练的vae编码器中,得到对应的隐空间编码;将发型参考图片对应的隐空间编码输入发型参考网络中进行处理...
【专利技术属性】
技术研发人员:车宏图,
申请(专利权)人:美众天津科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。