System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及扩散模型和图像生成领域,尤其涉及一种基于扩散模型的图像风格迁移方法、装置及介质。
技术介绍
1、每一幅图像都有其特定的内容和独特的风格。当我们对一种特定的风格感兴趣,想把自己的照片变成与这种风格相结合的新图像时,这被称为风格转移,即一种将一幅图像的风格注入另一幅图像内容的技术。风格转移的主要目标是在不破坏内容本质结构的前提下,将风格形象的艺术特征注入到内容形象中,这不是一项简单的任务,已经被广泛研究。如何在内容保存和样式注入之间找到平衡仍然是一个挑战。现有的方法无法产生平衡的风格化图像,表现为艺术特征过多,偏离了原始内容;或内容特征过于强劲,风格特征不足。此外,目标艺术风格往往非常微妙,导致训练有素的网络难以很好地掌握它们。这些限制严重影响了风格化的质量。
2、最近,具有文本与图像特征交互能力的文本到图像扩散模型为各种视觉任务提供了多模态能力。预训练的扩散模型被用于学习风格图像的文本嵌入,或者设计目标函数来微调去噪的u-net。
3、本专利技术结合风格图像的文本特征和空间特征,以更准确地引导风格化过程。通过这种结合,本专利技术能够更有效地控制风格迁移的方向和程度,确保生成的图像在内容和风格上都达到预期的效果。同时,为了适应内容和风格不同性质的需求,本专利技术设计了不同的注入模块,这些模块能够确保风格特征与内容特征在目标分支中实现有效融合。
技术实现思路
1、专利技术目的:本专利技术提供一种基于扩散模型的免训练图像风格迁移方法、装置及介质,使基于
2、技术方案:本专利技术所述的一种基于扩散模型的免训练图像风格迁移方法,包括以下步骤:
3、(1)基于blip-diffusion中的多模态blip-2编码器生成与样式图像对应的文本嵌入;
4、(2)基于u-net的残差模块和自注意模块,通过去噪扩散隐式模型ddim反演技术,从内容分支和样式分支中提取关键的中间特征;所述中间特征被用作目标分支中待替换的空间特征;
5、(3)根据内容和风格的不同需求,在内容注入中有选择性地替换残差块和自注意模块的特定层,在风格注入中替换自注意模块的特定层,实现内容和风格的最优融合;
6、(4)利用扩散模型的逐步特性,将目标分支中的内容注入和风格注入分开进行。
7、进一步地,所述步骤(1)实现过程如下:
8、将预训练的blip-2编码器表示为f,以将样式图像的视觉特征转换为与文本对齐的表示;在扩散模型中保留clip文本编码器ψ的文本嵌入,以增强内容信息的表达;将上述两种文本嵌入通过连接操作结合起来,以指导后续的风格迁移过程:
9、
10、其中,pc是一个可选的指导文本,is是风格图像。
11、进一步地,步骤(2)所述中间特征的提取过程如下:
12、预训练扩散u-net的每一层由残差块、增强表征的自注意模块和与文本条件交互的交叉注意模块组成;对于u-net中第1层的步骤t,具有中间特征的残差块将输出基于自注意模块增强的图像为:
13、
14、其中,是自注意力的最终输出,是残差块的输出的映射。
15、进一步地,步骤(3)所述不同的自注意模块替换策略为:
16、在内容注入中,将目标分支中的残差特征替换为内容分支中的残差特征自注意模块中的查询q、键k也被在步骤t中替换:
17、
18、其中,是内容分支的投影出来的,是目标分支的投影出来的;
19、在风格注入中,与内容注入类似,在步骤t将风格空间特征注入目标分支中,替换键k、值v元素:
20、
21、其中,风格分支的投影出来的,是目标分支的投影出来的。
22、进一步地,步骤(3)所述在内容注入中有选择性地替换残差块和自注意模块的特定层为替换残差块中的第3至第8层以及自注意力模块中的第4至第11层。
23、进一步地,步骤(3)所述在风格注入中替换自注意模块的特定层为替换自注意力模块中的第4至第11层。
24、进一步地,步骤(4)所述在目标分支实现分步注入如下:
25、在预训练扩散模型的逆向过程的早期阶段执行内容注入,在后期阶段执行样式注入;并引入一个超参数α,计算不同注入的时间分隔节点在目标分支进行分开注入的公式如下:
26、
27、其中,t∈(0,t];t是扩散模型总步数。
28、进一步地,根据权利要求7所述的基于扩散模型的免训练图像风格迁移方法,其特征在于,所述超参数α的取值为0.2。
29、本专利技术所述的一种装置设备,包括存储器和处理器,其中:
30、存储器,用于存储能够在处理器上运行的计算机程序;
31、处理器,用于在运行所述计算机程序时,执行如上所述的基于扩散模型的免训练图像风格迁移方法的步骤。
32、本专利技术所述的一种存储介质上存储有计算机程序,所述计算机程序被至少一个处理器执行时实现如上所述的基于扩散模型的免训练图像风格迁移方法的步骤。
33、有益效果:与现有技术相比,本专利技术的有益效果:本专利技术利用blip-2编码器提取的文本特征与去噪扩散隐式模型ddim获得的空间特征,共同作为样式指导,从而显著提高了风格化过程中的风格匹配程度;这种结合不仅增强了风格迁移的准确性,也提升了最终图像的艺术表现力;本专利技术设计了两种不同的自注意力替换策略,针对内容和风格的特征,通过替换查询q、键k和值v来优化结构信息和高级信息的保留,这种差异化的处理方法使得风格迁移结果更加符合预期;本专利技术注重内容信息的保留,通过替换残差特征来确保内容图像的基本结构不被破坏;为了控制风格化的程度,利用超参数来控制内容和风格空间注入的比例,从而实现对风格化程度的精确控制;这种控制机制为用户提供了更多的灵活性,以根据具体需求调整风格迁移的效果;本专利技术采用免训练方式,避免了传统训练过程中的资源消耗和时间成本;这种方法使得基于扩散模型的图像生成模型能够快速输出符合风格迁移要求的结果,实现了可控的、更高质量的图像风格迁移。
本文档来自技高网...【技术保护点】
1.一种基于扩散模型的免训练图像风格迁移方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于扩散模型的免训练图像风格迁移方法,其特征在于,所述步骤(1)实现过程如下:
3.根据权利要求1所述的基于扩散模型的免训练图像风格迁移方法,其特征在于,步骤(2)所述中间特征的提取过程如下:
4.根据权利要求1所述的基于扩散模型的免训练图像风格迁移方法,其特征在于,步骤(3)所述不同的自注意模块替换策略为:
5.根据权利要求1所述的基于扩散模型的免训练图像风格迁移方法,其特征在于,步骤(3)所述在内容注入中有选择性地替换残差块和自注意模块的特定层为替换残差块中的第3至第8层以及自注意力模块中的第4至第11层。
6.根据权利要求1所述的基于扩散模型的免训练图像风格迁移方法,其特征在于,步骤(3)所述在风格注入中替换自注意模块的特定层为替换自注意力模块中的第4至第11层。
7.根据权利要求1所述的基于扩散模型的免训练图像风格迁移方法,其特征在于,步骤(4)所述在目标分支实现分步注入如下:
8.根据权利要
9.一种装置设备,其特征在于,包括存储器和处理器,其中:
10.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被至少一个处理器执行时实现如权利要求1至8任一项所述的基于扩散模型的免训练图像风格迁移方法的步骤。
...【技术特征摘要】
1.一种基于扩散模型的免训练图像风格迁移方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于扩散模型的免训练图像风格迁移方法,其特征在于,所述步骤(1)实现过程如下:
3.根据权利要求1所述的基于扩散模型的免训练图像风格迁移方法,其特征在于,步骤(2)所述中间特征的提取过程如下:
4.根据权利要求1所述的基于扩散模型的免训练图像风格迁移方法,其特征在于,步骤(3)所述不同的自注意模块替换策略为:
5.根据权利要求1所述的基于扩散模型的免训练图像风格迁移方法,其特征在于,步骤(3)所述在内容注入中有选择性地替换残差块和自注意模块的特定层为替换残差块中的第3至第8层以及自注意力模块中的第4至第11层。
<...【专利技术属性】
技术研发人员:高攀,胡颖,庄晨怡,秦杰,
申请(专利权)人:南京航空航天大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。