System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及图像生成领域,尤其是一种基于扩散模型的虚拟模特服装展示图像智能生成方法及装置。
技术介绍
1、随着人工智能(ai)的发展,生成式人工智能(aigc)技术已经能够自动生成高质量的图像、视频等数字内容。因此,aigc技术也被广泛用于服装展示任务,生成特定的服装展示图像。但是当前的服装展示图像生成技术存在依赖成对数据训练、无法很好地保持服装版型和纹理等信息、生成多样性不足等问题,无法为消费者带来真实的穿着效果,难以全面满足不同商家和消费者的需求,限制了aigc在服装展示任务中的广泛应用和进一步推广。
2、目前的服装展示图像生成大多为真实模特服装图像生成,按照生成式模型的技术脉络,可分为基于cnn或gan的方法,此类方法均通过二维图像的几何匹配近似模拟服装的变形,但这类变形仅通过对图像的映射、扭曲得到,无法模拟真实世界中褶皱、飘动等服装的细致变化。随着diffusion模型的发展,也逐渐产生基于diffusion模型的真实模特服装图像生成方法。尽管diffusion模型在服装展示中展示了其在生成高质量图像方面的潜力,但目标为复杂服装时,仍存在细节保留不足、控制精度不高等问题。在数据方面,复杂服装的多样性和细节特征也使得构建足够全面和高质量的数据集变得困难,这可能导致模型在处理未见过的复杂服装时表现不佳。
3、综上所述,目前服装展示图像生成技术正在快速发展,生成结果的质量也越来越高,然而当前大多服装展示方法是根据已有真人模特生成的真实模特服装展示方法,这类方法通常需要服装-模特对应的成对数据集进行训练
4、针对以往服装展示图像生成方法的不足,本专利技术提出一种基于扩散模型的虚拟模特服装展示图像智能生成方法,该方法突破成对数据对模型训练的限制,在更有效保留服装纹理细节的同时,通过先验目标服装生成匹配服装的多姿态虚拟模特服装展示图像,有更多样化生成结果的同时能让商家直接进行商业化服装展示。
技术实现思路
1、针对上述不足,本专利技术提供一种基于扩散模型的虚拟模特服装展示图像智能生成方法及装置,该方法只需要一张素体人台模特或任意人物身穿目标服装的图像,即可以生成多种姿态的虚拟模特服装展示图像,该方法创新性地提出服装外扩的新模式,同时,融合服装自适应姿态生成、无分类器引导模块,更好保留服装细节,提高生成质量和多样性,实现更高质量的虚拟模特服装展示图像生成。
2、为了实现上述目的,本专利技术的技术方案是:第一方面,本专利技术提供了一种基于扩散模型的虚拟模特服装展示图像智能生成方法,该方法包括以下步骤:
3、(1)获取{服装图像,模特服装展示图像}的成对数据集以及只包含模特服装展示图像的非成对数据集,并分割出模特服装展示图像的目标服装图像;同时进行姿态估计和文本描述提取,得到{文本描述,目标服装图像,姿态图像}的数据对;
4、(2)基于步骤(1)中的数据对训练条件扩散模型,得到自适应姿态生成模型m1;
5、(3)将模特服装展示图像中除服装外的区域划分为待生成区域,得到待生成图像和待生成掩码,将服装图像分别与服装图像、待生成图像、姿态图像和模特服装展示图像在空间维度进行拼接,将待生成掩码与初始化为0的同样大小的掩码拼接;
6、(4)基于拼接后的图像及掩码训练条件扩散模型,得到服装增强的展示图像生成模型m2,用于从特征融合、引导生成两部分进行服装细节增强;
7、(5)获取需要进行虚拟模特服装展示的图像,分割出目标服装图像;输入到模型m1中,得到适应服装的生成姿态图像,将目标服装图像、生成姿态图像共同输入到模型m2中,得到初步的虚拟模特服装展示图像,并基于人脸修复模型得到优化后的最终虚拟模特服装展示图像。
8、进一步地,所述步骤(1)包含以下步骤:
9、(1.1)获取含有{服装图像,模特服装展示图像}数据对的成对数据集和只有服装展示图像的非成对数据集进行数据处理,对数据集进行指定大小的缩放,数据类型转换,数据归一化;
10、(1.2)对模特服装展示图像使用预训练的服装分割模型,得到原图像的服装分割掩码,服装分割掩码的大小与原图像相等,且服装部分值为1,其余部分值为0,根据服装分割掩码得到目标服装图像;
11、(1.3)对数据集进行姿态估计和文本描述提取,得到对应模特服装展示图像的姿态图像并通过步骤(1.2)所得的目标服装图像构建为{文本描述,目标服装图像,姿态图像}的数据d1。
12、进一步地,所述步骤(2)包含以下步骤:
13、(2.1)vae重建变分自编码器为encoder-decoder结构,包含一个有22层卷积、10个残差块的编码器和与之对称的解码器;
14、(2.2)vae重建变分自编码器分别以服装图像和姿态图像作为训练数据,进行固定缩放、类型转换、归一化后作为输入;
15、(2.3)vae重建变分自编码器损失由重建损失和感知损失组成;
16、(2.4)使用adam优化器进行优化,并调节学习率、batch size超参数,参数设置完毕后开始训练,训练完成后得到服装图像重建变分自编码器r1,姿态重建变分自编码器r2;
17、(2.5)自适应姿态生成模型m1以u-net为基础网络,包括vae编码器、u-net网络和vae解码器;
18、(2.6)自适应姿态生成模型m1以步骤(1.3)中的数据d1为训练数据,将目标服装图像与姿态图像编码至隐空间,通过通道维度的拼接concat操作后,作为u-net网络的输入;
19、(2.7)在条件扩散模型的加噪过程中,将潜在表示逐步添加噪声,经过时间步长步加噪后的潜变量为,在去噪过程中,训练一个去噪网络,预测出在步加的噪声,将减去预测的噪声得到预测的,迭代这一过程,最终逐步还原潜在表示为预测的初始潜在表示,整个训练过程损失函数如下所示:
20、
21、其中,表示均方差损失,表示第步加噪后的姿态编码,表示服装编码,表示噪声,是噪声预测网络,用于预测到的噪声;表示l2范数的平方,即各元素的平方和;
22、(2.8)使用adamw优化器进行优化,并调节学习率、batch size超参数,参数设置完毕后开始训练,训练完成后得到自适应姿态生成模型m1。
23、进一步地,所述步骤(3)包含以下步骤:
24、(3.1)将步骤(1.2)得到的服装分割掩码作为待生成掩码,服装部分值为1,其余部分为值为0的待生成部分,将步骤(1.2)得到的目标服装图像作为待生成图像;
25、(3.2)将步骤(3.1)得到的待生成掩码与待生成图像构建得到{文本描述,服装图像,待生成掩码,待生成图像,姿态图像,模特服装展示图像}的对应数据d2;
26、(3本文档来自技高网...
【技术保护点】
1.一种基于扩散模型的虚拟模特服装展示图像智能生成方法,其特征在于:该方法包括以下步骤:
2.根据权利要求1所述的基于扩散模型的虚拟模特服装展示图像智能生成方法,其特征在于:所述步骤(1)包含以下步骤:
3.根据权利要求2所述的基于扩散模型的虚拟模特服装展示图像智能生成方法,其特征在于:所述步骤(2)包含以下步骤:
4.根据权利要求2所述的基于扩散模型的虚拟模特服装展示图像智能生成方法,其特征在于:所述步骤(3)包含以下步骤:
5.根据权利要求4所述的基于扩散模型的虚拟模特服装展示图像智能生成方法,其特征在于:所述步骤(4)包含以下步骤:
6.根据权利要求5所述的基于扩散模型的虚拟模特服装展示图像智能生成方法,其特征在于:对在步骤(4.2)中使用的特征融合方法包括:使用特征空间连接,将数据D2与对应的服装图像或掩码在空间维度上concat得到数据D3后,送入编码器得到各个潜在表示,将所有潜在表示concat后作为U-Net网络的输入;使用注意力机制,将通过大规模文本图像预训练模型CLIP编码得到的文本特征通过交叉注意力的
7.根据权利要求1所述的基于扩散模型的虚拟模特服装展示图像智能生成方法,其特征在于:所述步骤(5)包含以下步骤:
8.一种基于扩散模型的虚拟模特服装展示图像智能生成装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,其特征在于,所述处理器执行所述可执行代码时,实现如权利要求1-7中任一项所述的一种基于扩散模型的虚拟模特服装展示图像智能生成方法。
9.一种计算机可读存储介质,其上存储有程序,其特征在于,所述程序被处理器执行时,实现如权利要求1-7中任一项所述的一种基于扩散模型的虚拟模特服装展示图像智能生成方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1-7任一项所述的一种基于扩散模型的虚拟模特服装展示图像智能生成方法。
...【技术特征摘要】
1.一种基于扩散模型的虚拟模特服装展示图像智能生成方法,其特征在于:该方法包括以下步骤:
2.根据权利要求1所述的基于扩散模型的虚拟模特服装展示图像智能生成方法,其特征在于:所述步骤(1)包含以下步骤:
3.根据权利要求2所述的基于扩散模型的虚拟模特服装展示图像智能生成方法,其特征在于:所述步骤(2)包含以下步骤:
4.根据权利要求2所述的基于扩散模型的虚拟模特服装展示图像智能生成方法,其特征在于:所述步骤(3)包含以下步骤:
5.根据权利要求4所述的基于扩散模型的虚拟模特服装展示图像智能生成方法,其特征在于:所述步骤(4)包含以下步骤:
6.根据权利要求5所述的基于扩散模型的虚拟模特服装展示图像智能生成方法,其特征在于:对在步骤(4.2)中使用的特征融合方法包括:使用特征空间连接,将数据d2与对应的服装图像或掩码在空间维度上concat得到数据d3后,送入编码器得到各个潜在表示,将所有潜在表示concat后作为u-net网络的输入;使用注意力机制,将通过大规模文本图像预训练模型clip编码得到的文本特征通过交叉注意力的方式注入...
【专利技术属性】
技术研发人员:张荣,王静楠,王勋,左智文,董建锋,金小刚,
申请(专利权)人:浙江工商大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。