基于扩散模型的虚拟试衣方法技术

技术编号：40433596 阅读：15 留言：0更新日期：2024-02-22 22:59

基于扩散模型的虚拟试衣方法，其特征在于，包括如下步骤：模型训练阶段：获取三幅图像：人物图像I<subgt;0</subgt;(未穿上所需试穿的衣服)、衣服图像I<subgt;c</subgt;，人物穿上衣服后的真实图像I<subgt;gt</subgt;，利用该三幅图像训练模型，直至模型收敛；模型使用阶段：获取人物图像I<subgt;0</subgt;’和衣服图像I<subgt;c</subgt;’，基于人物图像I<subgt;0</subgt;’和衣服图像I<subgt;c</subgt;’得到虚拟试衣图像。本发明专利技术将stable diffusion的backbone替换为Vision Transformer模型，从而实现了更加准确和细粒度的特征提取，从而大幅度提高了模型性能，以及生成试衣图像的可靠度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，具体涉及基于扩散模型的虚拟试衣方法。

技术介绍

1、虚拟试衣是人工智能领域一个重要的研究方向，目的是将衣服从一幅图像转移到另一幅图像，同时保存人和衣服的细节，随着技术的发展，虚拟试衣依赖于生成对抗网络(gan)取得了巨大的进步，但是仍然存在很多不足之处，尤其是再高分辨率的图像下，虚拟试衣的结果仍在不同程度上存在着衣服层面、人物层面、或者人衣合成不够自然等问题。

2、gan网络需要同时训练判别器和生成器，比较难平衡，这使得训练不稳定，生成的虚拟试衣结果仍在不同程度上存在着衣服层面、人物层面、或者人衣合成不够自然等问题，尤其是在高分辨率图像上最为明显。此外，仅仅简单的使用衣服作为条件来引导扩散模型，不足以保持衣服的细节。

3、近年来，扩散模型的发展推动了图像以及视频任务的发展，为了获得最佳结果，扩散模型利用了一种引导技术，该技术以样本多样性为代价提高了样本保真度，本方法将stablediffusion的backbone替换为vision transformer模型，大幅度提高了模型性能，以及生成试衣图像的可靠度。viton-hd算法可以在高分辨率图像上生成虚拟试衣结果，表现出了杰出的性能。clip已经成为一个成功的图像表示学习者，clip嵌入具有许多令人满意的特性：它们对图像分布变化具有鲁棒性，具有令人印象深刻的zero-shot能力，并且经过微调，可以在各种视觉和语言任务上获得最先进的结果。

技术实现思路

1、为解决已有技术存在的不足，

2、步骤s1：模型训练阶段：

3、获取三幅图像：人物图像i0(未穿上所需试穿的衣服)、衣服图像ic，人物穿上衣服后的真实图像igt，利用该三幅图像训练模型，直至模型收敛；

4、步骤s2：模型使用阶段：

5、获取人物图像i0’和衣服图像ic’，基于人物图像i0’和衣服图像ic’得到虚拟试衣图像。

6、其中，所述步骤s1中，通过重构分支和细化分支分别得到两个损失值，两个损失值相加得到的总损失收敛时模型训练完毕；

7、其中，重构分支的训练过程如下：

8、步骤s11：将人物图像i0经过编码器得到嵌入图像z0，再利用公式1可得到z0＝ε(i0)在时间t的嵌入图像：

9、

10、其中，αt＝α1*α2*α3*…*αt；即t个时刻的α连续相乘，其中，αt＝(1-βt)，βt为随机生成的介于0到1之间的数，在每个训练周期中，t随机生成；

11、ε为均值和方差分别为0和1的服从高斯分布的一个高斯噪声；

12、步骤s12：基于人物图像i0生成衣服不可知图像ia，衣服图像ic利用viton-hd中的扭曲算法得到扭曲图像iw，然后生成扭曲图像的掩码图像im及扭曲图像掩码m，将衣服不可知图像ia和衣服扭曲图像iw相加得到粗糙生成图像iaw0；

13、步骤s13：将粗糙生成图像iaw0输入到编码器中得到嵌入图像zaw0；

14、步骤s14：将嵌入图像zaw0、zt及扭曲图像掩码m连接{zt，zaw0，m}，作为重构分支的输入；同时，通过clip模型提取衣服图像ic的特征c，通过交叉注意力机制将特征c，以及所连接的{zt，zaw0，m}均输入到vision transformer网络中，得到一个预测的噪声∈θ(zt,zaw0,m,c,t)；

15、步骤s15：计算预测噪声和原始噪声之间的loss值：

16、

17、其中，细化分支的训练过程如下：

18、步骤s1a：将粗糙生成图像iaw0输入到编码器中得到嵌入图像zaw0，然后基于公式(3)得到zawt；

19、

20、其中，αt＝α1*α2*α3*…*αt；即t个时刻的α连续相乘，其中，αt＝(1-βt)，βt为随机生成的介于0到1之间的数，在每个训练周期中，t随机生成；

21、ε为均值和方差分别为0和1的服从高斯分布的一个高斯噪声；

22、步骤s1b：将{zawt，zaw0，m}沿通道方向连接作为vision transformer的输入，同时，通过clip模型提取衣服图像ic的特征c，通过交叉注意力机制将特征c，以及所连接的{zawt，zaw0，m}均输入到vision transformer网络中，得到预测的噪声；然后根据公式(3)通过反方向得到去噪后的潜变量然后将输入到解码器中，得到

23、步骤s1c：计算与人物穿上衣服后的真实图像igt的感知损失，计算公式如下：

24、

25、其中，模型训练的总损失为：

26、其中，模型使用阶段，通过如下步骤得到虚拟试衣图像：

27、步骤s21：解析人物图像i0’，得到人物的扭曲情况，基于所解析出来的扭曲情况，对衣服图像ic’利用viton-hd中的扭曲算法得到扭曲图像iw’；然后生成扭曲图像的掩码图像im’及扭曲图像掩码m’；

28、步骤s22：基于人物图像i0’生成衣服不可知图像ia’；

29、步骤s23：将衣服不可知图像ia’和衣服扭曲图像iw’相加得到粗糙生成图像iaw0’；

30、步骤s24：将粗糙生成图像iaw0’输入到编码器中得到嵌入图像zaw0’，加躁后得到zawt’：

31、

32、其中，αt＝α1*α2*α3*…*αt；即t个时刻的α连续相乘，其中，αt＝(1-βt)，βt为随机生成的介于0到1之间的数，在每个训练周期中，t随机生成；

33、ε为均值和方差分别为0和1的服从高斯分布的一个高斯噪声；

34、步骤s25：将{zawt’，zaw0’，m’}沿通道方向连接作为vision transformer的输入，得到预测的噪声；然后根据公式(6)通过反方向得到去噪后的潜变量然后将输入到解码器中，得到即为最终的虚拟试衣图像。

35、本专利技术将stablediffusion的backbone替换为vision transformer模型，相比于传统的卷积神经网络，vision transformer通过self-attention机制学习图像中不同部分之间的关系，从而实现了更加准确和细粒度的特征提取，从而大幅度提高了模型性能，以及生成试衣图像的可靠度。

本文档来自技高网...

【技术保护点】

1.基于扩散模型的虚拟试衣方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于扩散模型的虚拟试衣方法，其特征在于，所述步骤S1中，通过重构分支和细化分支分别得到两个损失值，两个损失值相加得到的总损失收敛时模型训练完毕；

3.如权利要求2所述的基于扩散模型的虚拟试衣方法，其特征在于，细化分支的训练过程如下：

4.如权利要求3所述的基于扩散模型的虚拟试衣方法，其特征在于，

5.如权利要求1所述的基于扩散模型的虚拟试衣方法，其特征在于，模型使用阶段，通过如下步骤得到虚拟试衣图像：

【技术特征摘要】

1.基于扩散模型的虚拟试衣方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于扩散模型的虚拟试衣方法，其特征在于，所述步骤s1中，通过重构分支和细化分支分别得到两个损失值，两个损失值相加得到的总损失收敛时模型训练完毕；

3.如权利要求2...

【专利技术属性】
技术研发人员：刘丽欣，韩福海，
申请(专利权)人：先进操作系统创新中心天津有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人