基于扩散模型的遮挡物体移动和编辑方法及系统技术方案

技术编号：44954325 阅读：3 留言：0更新日期：2025-04-12 01:25

本发明专利技术公开了一种基于扩散模型的遮挡物体移动和编辑方法及系统，属于计算机视觉与图像处理技术领域。包括：获取原始图像和可视区域掩膜并进行预处理，生成标准输入图像和标准掩码；通过去遮挡分支对标准输入图像和标准掩码进行处理，利用交叉注意力机制和自注意力机制引导扩散过程，生成去遮挡物体图像；获取目标位置，将原始图像、可视区域掩码和目标位置输入移动分支进行处理，引入潜在空间调整操作，以局部文本条件引导，生成遮挡物体移动图像。能够使被遮挡的物体在编辑后保持完整性和真实性，实现目标位置的自然融合和原始位置的无痕重建，解决了现有内容补全不足、目标位置融合不自然以及原始位置残留伪影的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉与图像处理，特别是涉及一种基于扩散模型的遮挡物体移动和编辑方法及系统。

技术介绍

1、本部分的陈述仅仅是提到了与本专利技术相关的
技术介绍
，并不必然构成现有技术。

2、图像编辑中物体的移动是一个常见需求，但在处理被遮挡物体时需要补全被遮挡的物体部分，将物体移动至目标位置后，需要与周围环境自然融合，并且原始位置区域需要合理重建背景内容；这使得图像编辑中物体的移动仍面临较大挑战。

3、现有技术中，依赖两个独立的网络来预测遮挡物体的完整掩膜并填充内容，但生成的内容通常缺乏细节和自然性。近年来，扩散模型凭借其强大的生成能力，为解决该问题提供了新的机会；然而，现有基于扩散的编辑方法主要侧重于内容拖拽，这些方法通过用户设置的拖拽点控制物体的移动轨迹，是一种高交互性的方法。

4、例如，将拖拽点引导机制扩展到扩散模型，增强了生成能力和鲁棒性；或者，进一步提升编辑的灵活性和生成的真实性，能够在复杂场景中实现高质量的内容操作。但是，这些方法主要针对内容变形或局部拖拽，对于整体物体的移动任务尤其是遮挡物体的移动，仍然存在显著不足。当移动对象被部分遮挡时，这些方法难以完成遮挡部分的重建，同时在目标位置与背景融合方面也表现欠佳。

5、现有的文本引导编辑、拖拽编辑和遮挡补全方法虽然在各自任务上有所突破，但在处理遮挡物体的移动任务时存在以下问题：

6、(1)内容补全与移动任务的割裂：当前方法难以将遮挡部分的重建与物体移动任务有效结合，导致生成结果不完整或不自然。

8、(3)原始位置的残留问题：物体移动后，原始位置的背景重建通常存在残留伪影，降低了整体视觉效果的真实性。

技术实现思路

1、为了解决现有技术的不足，本专利技术提供了一种基于扩散模型的遮挡物体移动和编辑方法、系统、电子设备、计算机可读存储介质及计算机程序产品，通过双分支设计同时完成遮挡物体的去遮挡和移动任务，实现高质量的图像编辑效果。

2、第一方面，本专利技术提供了一种基于扩散模型的遮挡物体移动和编辑方法；

3、一种基于扩散模型的遮挡物体移动和编辑方法，包括：

4、获取包含被遮挡物体的原始图像和对应的可视区域掩膜并进行预处理，生成标准输入图像和标准掩码；

5、通过训练好的去遮挡分支对所述标准输入图像和所述标准掩码进行处理，通过背景颜色填充策略初始化可视区域，并利用交叉注意力机制和自注意力机制引导扩散过程，生成去遮挡物体图像；

6、获取目标位置，将所述原始图像、所述可视区域掩码和所述目标位置输入训练好的移动分支进行处理，引入潜在空间调整操作，以局部文本条件引导，生成遮挡物体移动图像。

7、在一些实施方式中，所述去遮挡分支包括依次连接的变分自编码器、ddim反演模型、去噪扩散模型u-net、潜变量保持层和变分自解码器，去噪扩散模型u-net中包括交叉注意力机制和自注意力机制。

8、在一些实施方式中，所述移动分支包括依次连接的变分自编码器、ddim反演模型、去噪扩散模型u-net、潜变量保持层、局部文本引导层、潜变量优化层和变分自解码器，其中，去噪扩散模型u-net中包括交叉注意力机制和自注意力机制。

9、在一些实施方式中，通过训练好的去遮挡分支对所述标准输入图像和所述标准掩码进行处理包括：

10、利用预训练的变分自编码器对所述标准输入图像进行编码，生成潜变量；通过去噪扩散隐式模型对所述潜变量进行反演，获取反演生成的中间噪声潜变量；

11、利用所述标准掩码对所述潜变量进行初始化和填充，通过去噪扩散模型u-net对填充结果进行处理，经交叉注意力机制和自注意力机制引导，获取生成潜变量；

12、引入潜变量保持策略，利用反演生成的中间噪声潜变量和标准掩码，将生成潜变量中的可见区域，替换为反演结果；

13、通过变分自解码器将替换后的生成潜变量解码为去遮挡物体图像。

14、在一些实施方式中，将所述原始图像、所述可视区域掩码和所述目标位置输入训练好的移动分支进行处理包括：

15、通过预训练的变分自编码器对所述原始图像进行编码，生成初始潜变量；通过去噪扩散隐式模型对所述初始潜变量进行反演并存储中间键值对；

16、将反演后的所述初始潜变量输入去噪扩散模型u-net，通过交叉注意力机制对所述初始潜变量进行处理，引入局部文本引导策略，调整目标位置的潜变量生成内容；通过自注意力机制将调整后初始潜变量的查询向量与中间键值对替换，更新背景信息；引入潜变量，通过潜变量优化策略，最小化目标对象与目标区域的潜变量差距；

17、通过噪声填充策略引导背景信息在目标对象的原位置进行区域修复，通过变分自解码器对修复后的图像进行解码，获取遮挡物体移动图像。

18、在一些实施方式中，所述去遮挡分支引入低秩适配技术，以对可见区域进行风格一致性监督。

19、第二方面，本专利技术提供了一种基于扩散模型的遮挡物体移动和编辑系统；

20、一种基于扩散模型的遮挡物体移动和编辑系统，包括：

21、预处理模块，被配置为：获取包含被遮挡物体的原始图像和对应的可视区域掩膜并进行预处理，获取标准输入图像和标准掩码；

22、去遮挡模块，被配置为：通过训练好的去遮挡分支对所述标准输入图像和所述标准掩码进行处理，通过背景颜色填充策略初始化可视区域，并利用交叉注意力机制和自注意力机制引导扩散过程，生成去遮挡物体图像；

23、移动模块，被配置为：获取目标位置，将所述原始图像、所述可视区域掩码和所述目标位置输入训练好的移动分支进行处理，引入潜在空间调整操作，以局部文本条件引导，生成遮挡物体移动图像。第三方面，本专利技术提供了一种电子设备；

24、一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，所述处理器执行所述计算机程序以实现上述基于扩散模型的遮挡物体移动和编辑方法的步骤。

25、第四方面，本专利技术提供了一种计算机可读存储介质；

26、一种计算机可读存储介质，其上存储有计算机程序/指令，该计算机程序/指令被处理器执行时实现上述基于扩散模型的遮挡物体移动和编辑方法的步骤。

27、第五方面，本专利技术提供了一种计算机程序产品；

28、一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现上述基于扩散模型的遮挡物体移动和编辑方法的步骤。

29、与现有技术相比，本专利技术的有益效果是：

30、1、本专利技术提供的技术方案，通过去遮挡分支生成高质量的内容补全；在扩散过程的初始阶段应用背景颜色填充策略，以填补遮挡区域的潜在表示，从而生成一致的目标内容；使用渐进式更新掩膜机制，确保模型生成的内容逐步贴合物体的真实形状；引入l本文档来自技高网...

【技术保护点】

1.基于扩散模型的遮挡物体移动和编辑方法，其特征在于，包括：

2.如权利要求1所述的基于扩散模型的遮挡物体移动和编辑方法，其特征在于，所述去遮挡分支包括依次连接的变分自编码器、DDIM反演模型、去噪扩散模型U-net、潜变量保持层和变分自解码器，去噪扩散模型U-net中包括交叉注意力机制和自注意力机制。

3.如权利要求1所述的基于扩散模型的遮挡物体移动和编辑方法，其特征在于，所述移动分支包括依次连接的变分自编码器、DDIM反演模型、去噪扩散模型U-net、潜变量保持层、局部文本引导层、潜变量优化层和变分自解码器，其中，去噪扩散模型U-net中包括交叉注意力机制和自注意力机制。

4.如权利要求1所述的基于扩散模型的遮挡物体移动和编辑方法，其特征在于，通过训练好的去遮挡分支对所述标准输入图像和所述标准掩码进行处理包括：

5.如权利要求1所述的基于扩散模型的遮挡物体移动和编辑方法，其特征在于，将所述原始图像、所述可视区域掩码和所述目标位置输入训练好的移动分支进行处理包括：

6.如权利要求1所述的基于扩散模型的遮挡物体移动和编辑

7.基于扩散模型的遮挡物体移动和编辑系统，其特征在于，包括：

8.一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现权利要求1-6任一项所述基于扩散模型的遮挡物体移动和编辑方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1-6任一项所述基于扩散模型的遮挡物体移动和编辑方法的步骤。

10.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1-6任一项所述基于扩散模型的遮挡物体移动和编辑方法的步骤。

...

【技术特征摘要】

1.基于扩散模型的遮挡物体移动和编辑方法，其特征在于，包括：

2.如权利要求1所述的基于扩散模型的遮挡物体移动和编辑方法，其特征在于，所述去遮挡分支包括依次连接的变分自编码器、ddim反演模型、去噪扩散模型u-net、潜变量保持层和变分自解码器，去噪扩散模型u-net中包括交叉注意力机制和自注意力机制。

3.如权利要求1所述的基于扩散模型的遮挡物体移动和编辑方法，其特征在于，所述移动分支包括依次连接的变分自编码器、ddim反演模型、去噪扩散模型u-net、潜变量保持层、局部文本引导层、潜变量优化层和变分自解码器，其中，去噪扩散模型u-net中包括交叉注意力机制和自注意力机制。

5.如权利要求1所述的基于扩散模型的遮挡物体移动和编辑方法，其特征在于，将所述原...

【专利技术属性】
技术研发人员：李重仪，段正鹏，郭春乐，张佳维，邹冬青，任思捷，
申请(专利权)人：南开大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人