System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于扩散模型的虚拟试衣方法技术_技高网

基于扩散模型的虚拟试衣方法技术

技术编号:40433596 阅读:15 留言:0更新日期:2024-02-22 22:59
基于扩散模型的虚拟试衣方法,其特征在于,包括如下步骤:模型训练阶段:获取三幅图像:人物图像I<subgt;0</subgt;(未穿上所需试穿的衣服)、衣服图像I<subgt;c</subgt;,人物穿上衣服后的真实图像I<subgt;gt</subgt;,利用该三幅图像训练模型,直至模型收敛;模型使用阶段:获取人物图像I<subgt;0</subgt;’和衣服图像I<subgt;c</subgt;’,基于人物图像I<subgt;0</subgt;’和衣服图像I<subgt;c</subgt;’得到虚拟试衣图像。本发明专利技术将stable diffusion的backbone替换为Vision Transformer模型,从而实现了更加准确和细粒度的特征提取,从而大幅度提高了模型性能,以及生成试衣图像的可靠度。

【技术实现步骤摘要】

本专利技术涉及人工智能,具体涉及基于扩散模型的虚拟试衣方法


技术介绍

1、虚拟试衣是人工智能领域一个重要的研究方向,目的是将衣服从一幅图像转移到另一幅图像,同时保存人和衣服的细节,随着技术的发展,虚拟试衣依赖于生成对抗网络(gan)取得了巨大的进步,但是仍然存在很多不足之处,尤其是再高分辨率的图像下,虚拟试衣的结果仍在不同程度上存在着衣服层面、人物层面、或者人衣合成不够自然等问题。

2、gan网络需要同时训练判别器和生成器,比较难平衡,这使得训练不稳定,生成的虚拟试衣结果仍在不同程度上存在着衣服层面、人物层面、或者人衣合成不够自然等问题,尤其是在高分辨率图像上最为明显。此外,仅仅简单的使用衣服作为条件来引导扩散模型,不足以保持衣服的细节。

3、近年来,扩散模型的发展推动了图像以及视频任务的发展,为了获得最佳结果,扩散模型利用了一种引导技术,该技术以样本多样性为代价提高了样本保真度,本方法将stablediffusion的backbone替换为vision transformer模型,大幅度提高了模型性能,以及生成试衣图像的可靠度。viton-hd算法可以在高分辨率图像上生成虚拟试衣结果,表现出了杰出的性能。clip已经成为一个成功的图像表示学习者,clip嵌入具有许多令人满意的特性:它们对图像分布变化具有鲁棒性,具有令人印象深刻的zero-shot能力,并且经过微调,可以在各种视觉和语言任务上获得最先进的结果。


技术实现思路

1、为解决已有技术存在的不足,本专利技术提供了一种基于扩散模型的虚拟试衣方法,包括如下步骤:

2、步骤s1:模型训练阶段:

3、获取三幅图像:人物图像i0(未穿上所需试穿的衣服)、衣服图像ic,人物穿上衣服后的真实图像igt,利用该三幅图像训练模型,直至模型收敛;

4、步骤s2:模型使用阶段:

5、获取人物图像i0’和衣服图像ic’,基于人物图像i0’和衣服图像ic’得到虚拟试衣图像。

6、其中,所述步骤s1中,通过重构分支和细化分支分别得到两个损失值,两个损失值相加得到的总损失收敛时模型训练完毕;

7、其中,重构分支的训练过程如下:

8、步骤s11:将人物图像i0经过编码器得到嵌入图像z0,再利用公式1可得到z0=ε(i0)在时间t的嵌入图像:

9、

10、其中,αt=α1*α2*α3*…*αt;即t个时刻的α连续相乘,其中,αt=(1-βt),βt为随机生成的介于0到1之间的数,在每个训练周期中,t随机生成;

11、ε为均值和方差分别为0和1的服从高斯分布的一个高斯噪声;

12、步骤s12:基于人物图像i0生成衣服不可知图像ia,衣服图像ic利用viton-hd中的扭曲算法得到扭曲图像iw,然后生成扭曲图像的掩码图像im及扭曲图像掩码m,将衣服不可知图像ia和衣服扭曲图像iw相加得到粗糙生成图像iaw0;

13、步骤s13:将粗糙生成图像iaw0输入到编码器中得到嵌入图像zaw0;

14、步骤s14:将嵌入图像zaw0、zt及扭曲图像掩码m连接{zt,zaw0,m},作为重构分支的输入;同时,通过clip模型提取衣服图像ic的特征c,通过交叉注意力机制将特征c,以及所连接的{zt,zaw0,m}均输入到vision transformer网络中,得到一个预测的噪声∈θ(zt,zaw0,m,c,t);

15、步骤s15:计算预测噪声和原始噪声之间的loss值:

16、

17、其中,细化分支的训练过程如下:

18、步骤s1a:将粗糙生成图像iaw0输入到编码器中得到嵌入图像zaw0,然后基于公式(3)得到zawt;

19、

20、其中,αt=α1*α2*α3*…*αt;即t个时刻的α连续相乘,其中,αt=(1-βt),βt为随机生成的介于0到1之间的数,在每个训练周期中,t随机生成;

21、ε为均值和方差分别为0和1的服从高斯分布的一个高斯噪声;

22、步骤s1b:将{zawt,zaw0,m}沿通道方向连接作为vision transformer的输入,同时,通过clip模型提取衣服图像ic的特征c,通过交叉注意力机制将特征c,以及所连接的{zawt,zaw0,m}均输入到vision transformer网络中,得到预测的噪声;然后根据公式(3)通过反方向得到去噪后的潜变量然后将输入到解码器中,得到

23、步骤s1c:计算与人物穿上衣服后的真实图像igt的感知损失,计算公式如下:

24、

25、其中,模型训练的总损失为:

26、其中,模型使用阶段,通过如下步骤得到虚拟试衣图像:

27、步骤s21:解析人物图像i0’,得到人物的扭曲情况,基于所解析出来的扭曲情况,对衣服图像ic’利用viton-hd中的扭曲算法得到扭曲图像iw’;然后生成扭曲图像的掩码图像im’及扭曲图像掩码m’;

28、步骤s22:基于人物图像i0’生成衣服不可知图像ia’;

29、步骤s23:将衣服不可知图像ia’和衣服扭曲图像iw’相加得到粗糙生成图像iaw0’;

30、步骤s24:将粗糙生成图像iaw0’输入到编码器中得到嵌入图像zaw0’,加躁后得到zawt’:

31、

32、其中,αt=α1*α2*α3*…*αt;即t个时刻的α连续相乘,其中,αt=(1-βt),βt为随机生成的介于0到1之间的数,在每个训练周期中,t随机生成;

33、ε为均值和方差分别为0和1的服从高斯分布的一个高斯噪声;

34、步骤s25:将{zawt’,zaw0’,m’}沿通道方向连接作为vision transformer的输入,得到预测的噪声;然后根据公式(6)通过反方向得到去噪后的潜变量然后将输入到解码器中,得到即为最终的虚拟试衣图像。

35、本专利技术将stablediffusion的backbone替换为vision transformer模型,相比于传统的卷积神经网络,vision transformer通过self-attention机制学习图像中不同部分之间的关系,从而实现了更加准确和细粒度的特征提取,从而大幅度提高了模型性能,以及生成试衣图像的可靠度。

本文档来自技高网...

【技术保护点】

1.基于扩散模型的虚拟试衣方法,其特征在于,包括如下步骤:

2.如权利要求1所述的基于扩散模型的虚拟试衣方法,其特征在于,所述步骤S1中,通过重构分支和细化分支分别得到两个损失值,两个损失值相加得到的总损失收敛时模型训练完毕;

3.如权利要求2所述的基于扩散模型的虚拟试衣方法,其特征在于,细化分支的训练过程如下:

4.如权利要求3所述的基于扩散模型的虚拟试衣方法,其特征在于,

5.如权利要求1所述的基于扩散模型的虚拟试衣方法,其特征在于,模型使用阶段,通过如下步骤得到虚拟试衣图像:

【技术特征摘要】

1.基于扩散模型的虚拟试衣方法,其特征在于,包括如下步骤:

2.如权利要求1所述的基于扩散模型的虚拟试衣方法,其特征在于,所述步骤s1中,通过重构分支和细化分支分别得到两个损失值,两个损失值相加得到的总损失收敛时模型训练完毕;

3.如权利要求2...

【专利技术属性】
技术研发人员:刘丽欣韩福海
申请(专利权)人:先进操作系统创新中心天津有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1