基于先验约束反演算法的图像编辑方法技术

技术编号：43637250 阅读：23 留言：0更新日期：2024-12-13 12:36

本发明专利技术公开了基于先验约束反演算法的图像编辑方法，该方法首先用户输入原始文本、编辑文本以及对应图像，利用大型语言模型LLM进行预处理，获得过滤之后的原始文本、编辑文本，以及编辑文本此次编辑的关键词素。其次将预处理后的原始文本和编辑文本，结合关键词素以及对应图像，通过扩散模型，获取编辑后的图像；具体包括：使用预处理后的原始文本以及对应图像输入到扩散模型中得到最终时间步骤的潜空间编码；使潜空间编码以及预处理后的原始文本、编辑文本输入到扩散模型，生成最终的编辑图像。本发明专利技术为了增强编辑效果并利用扩散模型的固有特性，引入引导强度选择子，提升了编辑图像的多样性与编辑图像的质量。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像编辑，特别涉及基于先验约束反演算法的图像编辑方法。

技术介绍

1、随着扩散模型的发展，特别是潜在扩散模型( latent diffusion models，ldms)的出现，图像生成领域发生了革命性的变化。利用预训练的ldms出色的语义理解能力，研究人员已经成功地将其应用到许多下游任务中，例如文本到图像的生成，风格迁移以及文本驱动的图像编辑。特别是针对真实图像特定属性编辑应用场景，得到了广泛的研究，修改真实图像的特定属性生成符合用户需求的图像，在社交媒体、影视娱乐等方面展现了广泛的应用场景，而反演技术则是其中非常关键的步骤。

2、尽管基于反演技术的图像编辑方法已经取得了显著的成效，但是使用目标提示对图像进行编辑时，可能会产生伪影，针对真实图像编辑任务依然存在一定的挑战。

3、（1）如何平衡潜空间编码的可编辑性与重构性

4、可重构性是指给定原始文本，潜空间编码可以对图像进行忠实重构；可编辑性是指给定编辑文本潜空间编码可以生成符合文本语义的图像目前很多工作使用去噪扩散隐式模型（ddim）的确定性反演技术来解决这个问题，但是ddim反演技术在实际应用中存在假设影响了编辑的质量，如何基于ddim反演技术平衡编辑性与重构性，进一步提升编辑图像质量依然存在挑战。

5、（2）编辑图像的多样性较差

6、文生图广泛应用的无分类器引导技术虽然会提升生成质量，但是也会造成多样性的降低，如何保证编辑质量的同时提升编辑多样性，依然存在挑战。

技术实现思路

1、针对上述问题本专利技术提出一种新的图像编辑方法，旨在提高扩散模型，尤其是stable diffusion（sd）模型在图像编辑任务中的性能。通过这些创新，将推动图像编辑技术的发展，并为 aigc 技术在图像编辑、个性化内容生成、虚拟试衣等领域的应用提供更高效、更准确的解决方案。

2、在反演阶段提出了一种基于先验约束的不动点优化方法。这种方法通过引入不动点约束来减少ddim确定性反演方法的副作用，并利用先验约束来增强潜空间编码在每个时间步骤的泛化能力，从而便于后续编辑。这种双重约束确保了原始图像的准确重构，平衡潜在编码的重构能力与编辑能力。

3、在编辑阶段，本专利技术针对扩散模型中无分类器引导技术可能导致编辑图像多样性和质量降低的问题，引入了引导强度选择子（gds）。gds能够自适应地调整每个时间步骤的引导强度，旨在提升生成图像的质量和编辑效果的多样性。

4、基于先验约束反演算法的图像编辑方法，其步骤如下：

5、步骤(1)：用户输入原始文本、编辑文本以及对应图像，利用大型语言模型llm进行预处理。

6、用户输入原始文本、编辑文本以及对应图像，将用户输入的原始文本编辑文本输入到大型语言模型（llm）进行预处理，获得过滤以及优化之后的原始文本以及编辑文本，使用大模型的强大语义理解能力，利用原始文本以及编辑文本获取此次编辑的关键词素，关键词素出现在编辑文本中表示了此次的编辑过程中改变的词,应用于编辑阶段。

7、这步骤（2）：将预处理后的原始文本和编辑文本，结合预处理得到的关键词素以及对应图像，通过扩散模型sd，获取编辑后的图像。

8、步骤(2.1)进入反演阶段，使用预处理后的原始文本以及对应图像输入到扩散模型中得到最终时间步骤的潜空间编码。

9、步骤(2.2)进入编辑阶段，使潜空间编码以及预处理后的原始文本、编辑文本输入到扩散模型结合一些成熟的编辑工具生成最终的编辑图像。

10、所述步骤（1）中，将原始文本以及编辑文本输入大语言模型中过滤一些敏感词汇，避免编辑技术会影响他人的合法权益。同时使用原始文本以及编辑文本，通过大语言模型得到此次编辑的关键词素。

11、所述步骤（2.1）中，目的是使用步骤（1）得到的原始文本以及对应的单例图像通过设定的迭代次数获取最终时间步骤的潜空间编码。为实现此目标，本专利技术采用了广泛使用的stable diffusion（sd）模型。sd模型是一种经过大规模文本-图像对训练的先进开源模型，它在图像生成领域展现出卓越的性能。sd模型由三部分组成：sd编码器、解码器以及用于预测噪声的u-net网络。所述sd模型结合了无分类器引导技术cfg。首先，输入的图像经过sd编码器，获得潜空间编码，原始文本经过clip文本编码器生成输入文本的嵌入编码，同理编辑文本经过clip文本编码器生成输入文本的嵌入编码；将，以及当前时间步骤作为输入u-net网络预测当前时间步骤的噪声，由公式（1）表示：

12、（1）

13、其中，为时间步长，为sd模型的u-net网络，为时间时的潜空间编码，此时文本的嵌入编码将作为引导生成的条件。得到当前时间步骤的噪声与当前时间步骤的利用公式（2）获取下一时间步骤的潜空间编码，表示与当前时间步骤相关的噪声计划参数。但是公式（2）是对公式（3）在实际反演情况下的近似，这种近似在迭代次数较多的情况下能够提供一定的效果，但由于前向反演与后向生成（编辑）之间的不可逆性，导致了重构过程中的精确度不足。特别是在前向过程中，无法应用高强度引导，这降低潜空间编码的可编辑性。

14、（2）

15、使用不动点技术，将公式（2）作为的函数，如公式（3）所示：

16、（3）

17、使用作为初始的优化鞍点结合公式（3）构造关于不动点函数的约束损失函数式如公式（4）所示：

18、（4）

19、同时为了进一步提升潜空间编码的编辑能力，降低原始文本与当前潜空间编码的耦合性，提升编辑图像的质量。本专利技术进一步使用了扩散模型sd先验约束如公式（5）所示：

20、 (5)

21、利用上述两项约束损失函数对潜空间编码进行优化，直到潜空间编码的差值小于阈值，或者达到设置的优化次数，得到最终的下一时间步骤的潜空间编码，使用重复上述过程预先设置的反演次数步骤，得到最终时间步骤的潜空间编码。

22、所述步骤（2.2）首先将嵌入文本编码，结合潜空间编码输入到sd模型中的u-net网络中，获取图像特征作为查询q，而关键词素作为键（k），通过交叉注意力机制计算关键词素对应的交叉注意力图，得到预测的噪声以及针对关键词素的交叉注意力图。根据此时的交叉注意力图判断此时间步骤是否含有对应词素的语义，进而得到此时间步骤的引导强度。由于u-net含有多层,对应多种尺寸的交叉注意力图，在实际过程中选择了16x16尺寸的交叉注意力图。

23、具体的说得到关键词素对应的交叉注意力图之后，采用拉普拉斯算子，如公式（6）所示：

24、（6）

25、使用该核与交叉注意力图进行卷积，具体的计算方式如下:

26、（7）

27、根据预先设置的阈值对进行二值化进而生成掩膜，判断是否含本文档来自技高网...

【技术保护点】

1.基于先验约束反演算法的图像编辑方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于先验约束反演算法的图像编辑方法，其特征在于，所述步骤1具体实现过程如下：

3.根据权利要求1所述的基于先验约束反演算法的图像编辑方法，其特征在于，所述步骤2.1具体实现过程如下：

4.根据权利要求3所述的基于先验约束反演算法的图像编辑方法，其特征在于，所述步骤2.2具体实现过程如下：

5.根据权利要求4所述的基于先验约束反演算法的图像编辑方法，其特征在于，所述引导强度的获取过程如下：

【技术特征摘要】

1.基于先验约束反演算法的图像编辑方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于先验约束反演算法的图像编辑方法，其特征在于，所述步骤1具体实现过程如下：

3.根据权利要求1所述的基于先验约束反演算法的图像编辑方法，其特征在于，...

【专利技术属性】
技术研发人员：顾晓玲，金博航，
申请(专利权)人：杭州电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人