System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于多条件扩散模型的姿势引导人物图像合成方法与系统技术方案_技高网
当前位置: 首页 > 专利查询>中山大学专利>正文

基于多条件扩散模型的姿势引导人物图像合成方法与系统技术方案

技术编号:42405295 阅读:14 留言:0更新日期:2024-08-16 16:25
本发明专利技术公开了一种基于多条件扩散模型的姿势引导人物图像合成方法与系统,基于多条件扩散模型,并通过引入与扩散模型噪声空间相匹配的特征,以增强合成图像的质量及其与用户输入的一致性。以参考图像和姿势图像作为引导,在合成图像的过程中,系统将确保合成的图像既具备与风格参考相符的人物、花纹等视觉特征,同时也保持了与姿势图像相一致的高质量、自然的效果,避免此前方法使用像素层面拼接的姿势融合方法所带来的不自然的扭曲以及信息遗失的问题。并且针对图像去噪过程中噪声等级的不同对应使用了不同的特征,因此能够增强合成图像质量和与输入的对应性,最终合成姿势以及风格都符合用户输入需求的图像。

【技术实现步骤摘要】

本专利技术涉及计算机视觉领域,更具体地,涉及一种基于多条件扩散模型的姿势引导人物图像合成方法与系统


技术介绍

1、姿势引导的人物图像合成方法旨在接收用户提供的姿势图和外观参考图,合成符合姿势和风格(包括人物、服装、纹理等)的人物图像。该项技术在虚拟试穿、电子商务、游戏、虚拟现实等领域有着广阔的潜在应用。

2、目前已有的基于扩散模型进行人物图像生成的方法没有正确利用两种输入对于结果的不同贡献而简单处理,容易造成图像破碎变形。同时没有针对在去噪合成过程中每一步噪声程度的不同而全过程使用相同的特征,导致了最终合成的图像与提供输入对应性不够好。


技术实现思路

1、本专利技术为克服上述容易造成合成的图像破碎变形和对齐度低的缺陷,提供一种基于多条件扩散模型的姿势引导人物图像合成方法与系统,有效提高图像合成的质量。

2、为解决上述技术问题,本专利技术的技术方案如下:

3、本专利技术提供了一种基于多条件扩散模型的姿势引导人物图像合成方法,所述方法包括:

4、获取训练人物图像数据集和文本提示词;

5、对所述训练人物图像数据集进行预处理,获得预处理后的训练人物图像数据集;

6、利用预处理后的训练人物图像数据集和文本提示词对构建的多条件扩散模型进行训练,获得训练好的多条件扩散模型;

7、将待合成人物图像数据集和文本提示词输入训练好的多条件扩散模型中不断迭代去噪,获得合成后的人物图像。

8、优选地,所述训练人物图像数据集包括参考图像、姿势图像和目标图像;所述待合成人物图像数据集包括参考图像和姿势图像。

9、优选地,所述构建的多条件扩散模型包括vae编码器、vae解码器、文本编码器、去噪网络、视觉编码器和姿势编码器;

10、所述姿势特征提取器的输出端与去噪网络的输入端连接;所述视觉编码器的输出端与去噪网络的输入端连接;所述文本编码器的输出端与去噪网络的输入端连接;所述变分编码器的输出端与去噪网络的输入端连接;所述去噪网络的输出端与vae解码器的输入端连接。

11、优选地,获得训练好的多条件扩散模型具体为:

12、利用姿势特征提取器对所述训练人物图像数据集的姿势图像进行特征提取,获得多尺度的姿势特征;

13、将所述训练人物图像数据集的参考图像通过视觉编码器进行特征提取,获得多尺度的视觉特征;

14、利用vae编码器对所述训练人物图像数据集的参考图像和目标图像进行映射,获得训练人物图像数据集的参考图像和目标图像对应的隐空间;

15、利用文本编码器对文本提示词进行提取,获得文本特征;

16、对所述参考图像和目标图像对应的隐空间添加预设的原始噪声,获得参考图像加噪隐空间和目标图像加噪隐空间;

17、将所述参考图像加噪隐空间、目标图像加噪隐空间、多尺度的姿势特征、多尺度的视觉特征和文本特征输入去噪网络,获得目标图像隐空间的预测噪声;

18、设置损失函数,根据所述预测噪声和所述原始噪声,计算损失函数值,并对构建的多条件扩散模型的模型参数进行调整;

19、当损失函数值达到预设值或训练次数达到预设值时,保存对应的模型参数,获得训练好的多条件扩散模型。

20、优选地,对所述参考图像和目标图像对应的隐空间进行加噪处理的公式为:

21、

22、

23、其中,为加噪参数;x0为目标图像的隐空间;xsrc为参考图像的隐空间;∈为噪声;xt为目标图像加噪隐空间;xsrc,t为参考图像加噪隐空间。

24、优选地,所述损失函数具体为:

25、

26、其中,∈θ(xt,t,xpose,ctext,xsrc)为预测噪声;ctext为文本特征;xsrc为参考图像;xpose为姿势图像;xt为目标图像加噪隐空间;∈为原始噪声;为损失函数的期望;t~[0,t]为时间步范围;x0~q(x)为真实图像的数据分布;∈~n(0,i)为噪声分布。

27、优选地,将待合成人物图像数据集和文本提示词输入训练好的多条件扩散模型中不断迭代去噪,获得合成后的人物图像具体为:

28、将待合成的人物图像数据集和文本提示词输入训练好的多条件扩散模型,获得待合成人物图像隐空间的预测噪声;

29、将待合成的人物图像数据集置零并将文本提示词设置为空字符串后输入训练好的多条件扩散模型,获得置零的待合成人物图像隐空间的预测噪声;

30、将待合成人物图像隐空间的预测噪声和置零的待合成人物图像隐空间的预测噪声进行加权求和,获得待合成人物图像隐空间的最终预测噪声;

31、利用去噪网络对待合成人物图像隐空间中的最终预测噪声进行迭代去噪,获得去噪后的待合成人物图像隐空间;

32、所述去噪后的待合成人物图像隐空间通过vae解码器进行解码后,获得合成后的人物图像。

33、优选地,所述待合成人物图像隐空间的最终预测噪声公式为:

34、

35、其中,∈uncond为置零的待合成人物图像隐空间的预测噪声;s为引导值;∈cond为待合成人物图像隐空间的预测噪声。

36、优选地,利用去噪网络对待合成人物图像隐空间中的最终预测噪声进行迭代去噪的公式为:

37、

38、其中,为待合成人物图像隐空间的最终预测噪声;为第t时间步下的加噪参数;为第t-1时间步下的加噪参数。

39、本专利技术还提供了一种基于多条件扩散模型的姿势引导人物图像合成系统,用于实现上述的方法,所述系统包括:

40、数据获取模块,获取训练人物图像数据集和文本提示词;

41、预处理模块,对所述训练人物图像数据集进行预处理,获得预处理后的训练人物图像数据集;

42、模型训练模块,利用预处理后的训练人物图像数据集和文本提示词对构建的多条件扩散模型进行训练,获得训练好的多条件扩散模型;

43、合成模块,将待合成人物图像数据集和文本提示词输入训练好的多条件扩散模型中不断迭代去噪,获得合成后的人物图像。

44、与现有技术相比,本专利技术技术方案的有益效果是:

45、本专利技术提出了一种基于多条件扩散模型的姿势引导人物图像合成方法与系统,基于多条件扩散模型,并通过引入与扩散模型噪声空间相匹配的特征,以增强合成图像的质量及其与用户输入的一致性。以参考图像和姿势图像作为引导,在合成图像的过程中,系统将确保合成的图像既具备与风格参考相符的人物、花纹等视觉特征,同时也保持了与姿势图像相一致的高质量、自然的效果,避免此前方法使用像素层面拼接的姿势融合方法所带来的不自然的扭曲以及信息遗失的问题。并且针对图像去噪过程中噪声等级的不同对应使用了不同的特征,因此能够增强合成图像质量和与输入的对应性,最终合成姿势以及风格都符合用户输入需求的图像。

本文档来自技高网...

【技术保护点】

1.一种基于多条件扩散模型的姿势引导人物图像合成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于多条件扩散模型的姿势引导人物图像合成方法,其特征在于,所述训练人物图像数据集包括参考图像、姿势图像和目标图像;所述待合成人物图像数据集包括参考图像和姿势图像。

3.根据权利要求1所述的基于多条件扩散模型的姿势引导人物图像合成方法,其特征在于,所述构建的多条件扩散模型包括VAE编码器、VAE解码器、文本编码器、去噪网络、视觉编码器和姿势编码器;

4.根据权利要求2或3所述的基于多条件扩散模型的姿势引导人物图像合成方法,其特征在于,获得训练好的多条件扩散模型具体为:

5.根据权利要求4所述的基于多条件扩散模型的姿势引导人物图像合成方法,其特征在于,对所述参考图像和目标图像对应的隐空间进行加噪处理的公式为:

6.根据权利要求4所述的基于多条件扩散模型的姿势引导人物图像合成方法,其特征在于,所述损失函数具体为:

7.根据权利要求4所述的基于多条件扩散模型的姿势引导人物图像合成方法,其特征在于,将待合成人物图像数据集和文本提示词输入训练好的多条件扩散模型中不断迭代去噪,获得合成后的人物图像具体为:

8.根据权利要求7所述的基于多条件扩散模型的姿势引导人物图像合成方法,其特征在于,所述待合成人物图像隐空间的最终预测噪声公式为:

9.根据权利要求7所述的基于多条件扩散模型的姿势引导人物图像合成方法,其特征在于,利用去噪网络对待合成人物图像隐空间中的最终预测噪声进行迭代去噪的公式为:

10.一种基于多条件扩散模型的姿势引导人物图像合成系统,用于实现权利要求1-9所述的方法,其特征在于,所述系统包括:

...

【技术特征摘要】

1.一种基于多条件扩散模型的姿势引导人物图像合成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于多条件扩散模型的姿势引导人物图像合成方法,其特征在于,所述训练人物图像数据集包括参考图像、姿势图像和目标图像;所述待合成人物图像数据集包括参考图像和姿势图像。

3.根据权利要求1所述的基于多条件扩散模型的姿势引导人物图像合成方法,其特征在于,所述构建的多条件扩散模型包括vae编码器、vae解码器、文本编码器、去噪网络、视觉编码器和姿势编码器;

4.根据权利要求2或3所述的基于多条件扩散模型的姿势引导人物图像合成方法,其特征在于,获得训练好的多条件扩散模型具体为:

5.根据权利要求4所述的基于多条件扩散模型的姿势引导人物图像合成方法,其特征在于,对所述参考图像和目标图像对应的隐空间进行加噪处理的公式...

【专利技术属性】
技术研发人员:郭立言赖韩江印鉴
申请(专利权)人:中山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1