基于可控生成的图像处理方法、系统、终端和介质技术方案

技术编号：44223656 阅读：13 留言：0更新日期：2025-02-11 13:29

本发明专利技术提供了一种基于可控生成的图像处理方法、系统、终端和介质，包括：获取图像处理任务的条件信号以及信息提取模型，构建第一损失函数；选择预训练的扩散模型；基于扩散模型和第一损失函数进行迭代，包含：M1，从序列蒙特卡洛的初始分布中采样多个样本；M2，建立建议分布的优化估计和无条件的转移概率分布，获得序列蒙特卡洛的权重方程；M3，重采样得到新的样本；重复M1‑M3直至设定的迭代步数，得到最后的权重方程和采样的多个样本，得到最终生成的图像。本发明专利技术在文本条件图像生成、分割图条件图像生成、人脸图条件图像生成和风格图条件图像生成等任务中，能够实现高质量的多样的且免训练的图像条件生成，满足通用处理的需求。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像处理领域，具体地，涉及一种基于可控生成的图像处理方法和系统、终端和介质。

技术介绍

1、随着媒体技术的不断进步，扩散模型在生成任务中表现出优于现有生成模型的优势，如生成对抗网络(gans)、变分自编码器(vaes)和归一化流(normalizing flows)。扩散模型凭借其强大的生成能力，推动了其在众多下游任务中的广泛应用研究。在这些应用中，条件生成因其能够在给定条件下进行可控生成，成为了一个备受瞩目的领域。许多条件扩散模型已针对不同的条件进行了优化，包括类别标签、文本提示、退化图像、参考图像、分割图以及风格图像等。

2、利用扩散模型进行条件生成的方法通常分为基于训练的方法和无需训练的方法。基于训练的策略需要根据给定条件对模型进行再训练。这类方法虽然能带来优异的生成性能，但缺乏灵活性，尤其是在面对新条件时，重新训练或微调模型代价高昂，适应性较差。相比之下，免训练的条件生成方法旨在克服额外训练带来的挑战。这些方法利用现成的损失函数与预训练的(无条件或有条件的)扩散模型结合，以指导采样过程。例如，在2023年conference on computer vision and pattern recognition(cvpr)会议上发表的“freedom:training-free energy-guided conditional diffusion model”，以及2023年international conference on machine learning(icml)会议上的“loss-g

技术实现思路

1、本专利技术针对现有基于扩散模型进行免训练条件生成的技术，无法生成与给定条件充分符合的图像、以及生成图像质量不高的问题，提供了基于可控生成的图像处理方法、系统、终端和介质，能够生成出高质量且充分符合给定条件的图像，满足当前图像可控生成领域的需求。

2、根据本专利技术的第一方面，提供一种可控生成的图像处理方法，包括：

3、获取图像处理任务的条件信号以及信息提取模型，并基于所述条件信号和所述信息提取模型构建第一损失函数；

4、选择一个预训练的扩散模型；

5、基于所述预训练的扩散模型和所述第一损失函数进行迭代，得到最终生成的图像；

6、其中：基于所述预训练的扩散模型和所述第一损失函数进行迭代，得到最终生成的图像，包括：

7、m1，从序列蒙特卡洛的初始分布中采样多个样本，作为粒子滤波器；

8、m2，基于所述预训练的扩散模型和所述第一损失函数，建立建议分布的优化估计和无条件的转移概率分布，获得序列蒙特卡洛的权重方程；

9、m3，基于所述序列蒙特卡洛的权重方程和重采样策略，进行重采样得到新的样本；

10、重复上述步骤m1-m3直至设定的迭代步数，得到最后的权重方程和最后采样的多个样本，得到最终生成的图像。

11、本专利技术在文本条件图像生成、分割图条件图像生成、人脸图条件图像生成和风格图条件图像生成等任务中，能够免训练实现多样的高质量图像条件生成，满足通用处理的需求。

12、优选的，获取图像处理任务的条件信号y以及信息提取模型h，根据任务类型确定。所述信息提取模型h包括：去噪图像信息提取模型条件信息提取模型包括：

13、-当所述图像处理任务为文本条件图像生成时：条件信号y为文本条件，信息提取模型h是一个clip模型，对应的去噪图像信息提取模型为clip图像编码器，条件信息提取模型为clip文字编码器；

14、-当所述图像处理任务为分割图条件图像生成时：条件信号y为分割图条件，信息提取模型h是图像分割网络，对应的去噪图像信息提取模型为预训练、带有分割头的mobilenetv3-large，条件信息提取模型为恒等操作；

15、-当所述图像处理任务为人脸图条件图像生成时：条件信号y为人脸图条件，信息提取模型h是人脸id特征提取网络，对应的去噪图像信息提取模型为人脸id识别网络，条件信息提取网络为同样的人脸id识别网络；

16、-当所述图像处理任务为风格图条件图像生成时：条件信号y为风格图条件，信息提取模型h是clip图像编码器，对应的去噪图像信息提取模型为clip图像编码器得到特征的gram矩阵，条件信息提取网络为同样的clip图像编码器得到特征的gram矩阵。

17、优选的，基于条件信号和信息提取网络构建损失函数，包括：

18、-当所述图像处理任务为文本条件图像生成时：条件信号y为文本条件，定义x0为最终生成的图像，构建损失函数l(y,x0)为给定y和x0的余弦相似度；

19、-当所述图像处理任务为分割图条件图像生成时：条件信号y为分割图条件，定义x0为最终生成的图像，构建损失函数l(y,x0)为y与x0的预测分割图之间每个像素的交叉熵损失之和；

20、-当所述图像处理任务为人脸图条件图像生成时：条件信号y为人脸图条件，定义x0为最终生成的图像，构建损失函数l(y,x0)为y与x0的人脸id特征之间的l2欧几里得距离；

21、-当所述图像处理任务为风格图条件图像生成时：条件信号y为风格图条件，定义x0为最终生成的图像，构建损失函数l(y,x0)为y与x0的gram矩阵之间的l2欧几里得距离。

22、根据本专利技术的第二个方面，一种可控生成的图像处理系统，其特征在于，包括：

23、数据获取模块：获取图像处理任务的条件信号y以及信息提取模型h；

24、构建模块：基于所述数据获取模块获得的条件信号和信息提取模型构建第一损失函数，同时，构建扩散模型，并在图像数据集中使用预测噪声的第二损失函数进行训练，得到预训练的扩散模型；

25、图像处理模块：基于所述预训练的扩散模型和所述第一损失函数进行迭代，以得到最终生成的图像；

26、其中，所述图像处理模块包括：

27、模块m1，从序列蒙特卡洛的初始分布中采样多个样本，作为粒子滤波器；

28、模块m2，基于所述预训练的扩散模型和所述第一损失函数，建立建议分布的优化估计和无条件的转移概率分布，获得序列蒙特卡洛的权重方程；

29、模块m3，基于所述序列蒙特卡洛的权重方程和重采样策略，进行重采样得到新的样本；

30、按照顺序执行上述模块m1-m3，直至设定的迭代步数，得本文档来自技高网...

【技术保护点】

1.一种基于可控生成的图像处理方法，其特征在于，包括：

2.根据权利要求1的基于可控生成的图像处理方法，其特征在于，所述信息提取模型为去噪图像信息提取模型或条件信息提取模型

3.根据权利要求1所述的基于可控生成的图像处理方法，其特征在于，基于所述条件信号和所述信息提取模型构建第一损失函数，具体为如下任一种：

4.根据权利要求1所述的基于可控生成的图像处理方法，其特征在于，所述从序列蒙特卡洛的初始分布中采样多个样本，作为粒子滤波器，包括：

5.根据权利要求1所述的基于可控生成的图像处理方法，其特征在于，基于所述预训练的扩散模型和所述第一损失函数，建立建议分布的优化估计和无条件的转移概率分布，包括：

6.根据权利要求5所述的基于可控生成的图像处理方法，其特征在于，所述获得序列蒙特卡洛的权重方程，包括：

7.根据权利要求1所述的基于可控生成的图像处理方法，其特征在于，基于所述序列蒙特卡洛的权重方程和重采样策略，进行重采样得到新的样本，包括：

8.一种基于可控生成的图像处理系统，其特征在于，包括：

...

【技术特征摘要】

1.一种基于可控生成的图像处理方法，其特征在于，包括：

2.根据权利要求1的基于可控生成的图像处理方法，其特征在于，所述信息提取模型为去噪图像信息提取模型或条件信息提取模型

3.根据权利要求1所述的基于可控生成的图像处理方法，其特征在于，基于所述条件信号和所述信息提取模型构建第一损失函数，具体为如下任一种：

4.根据权利要求1所述的基于可控生成的图像处理方法，其特征在于，所述从序列蒙特卡洛的初始分布中采样多个样本，作为粒子滤波器，包括：

6.根据权利要求5...

【专利技术属性】
技术研发人员：郑紫阳，田佳豪，彭欣宇，薛朵朵，戴文睿，邹君妮，熊红凯，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人