图像生成模型的训练方法、装置、电子设备及存储介质制造方法及图纸

技术编号：44613706 阅读：13 留言：0更新日期：2025-03-14 13:05

本公开提供了一种图像生成模型的训练方法、装置、电子设备及存储介质，属于计算机技术领域。在该方法中，对第一训练数据集进行图像去重和文本添加，得到第一中间数据集和第二中间数据集，进而得到第二训练数据集。由于第二训练数据集中的图像为被保留的样本图像，且每张样本图像对应有多条样本文本，因此使用第二训练数据集进行训练不仅减少了低质量数据的干扰，还提高了训练样本的多样性。相较于使用第一训练数据集训练的图像生成模型，使用上述方式训练图像生成模型不仅避免了图像生成模型的过拟合问题，提高了模型的泛化性能，还避免了过曝光、过饱和以及细节残缺等问题，提高了生成图像的图像质量和多样性。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及计算机，特别涉及一种图像生成模型的训练方法、装置、电子设备及存储介质。

技术介绍

1、随着计算机技术的发展，基于扩散模型的图像生成模型也日益进步。相较于传统的基于生成对抗网络的图像生成模型，基于扩散模型的图像生成模型能够通过逐步去噪的方式，获得质量更高且多样性更好的生成图像。但是，基于扩散的图像生成模型在处理某些特定领域的任务时可能出现过拟合问题，导致生成图像的效果不佳。例如，通过图像生成模型生成某个动物的图像时，图像生成模型的生成图像可能会出现过曝光、过饱和以及细节残缺等质量问题。因此，如何训练基于扩散模型的图像生成模型，以提高生成图像的质量，是一个亟待解决的问题。

技术实现思路

1、本公开提供一种图像生成模型的训练方法、装置、电子设备及存储介质，通过对训练数据集进行图像去重和文本添加，避免了图像生成模型的过拟合问题，还避免了过曝光、过饱和以及细节残缺等问题，提高了生成图像的图像质量和多样性。本公开的技术方案如下：

2、根据本公开实施例的一方面，提供了一种图像生成模型的训练方法，所述方法包括：

3、对第一训练数据集进行图像去重，得到第一中间数据集，所述第一训练数据集包括多张样本图像和每张样本图像的原始描述文本，所述第一中间数据集中的图像为所述多张样本图像中被保留的样本图像，所述第一中间数据集中每张样本图像对应有原始描述文本；

4、对所述第一训练数据集进行文本添加，得到第二中间数据集，所述第二中间数据集中的图像为所述多张样本图像，所述第

5、基于所述第一中间数据集和所述第二中间数据集，确定第二训练数据集，所述第二训练数据集中的图像为所述多张样本图像中被保留的样本图像，所述第二训练数据集中每张样本图像对应有多条样本文本；

6、基于所述第二训练数据集，训练图像生成模型，所述图像生成模型用于基于输入所述图像生成模型的文本生成满足所述文本的描述的图像。

7、根据本公开实施例的另一方面，提供了一种图像生成模型的训练装置，所述装置包括：

8、图像处理单元，被配置为对第一训练数据集进行图像去重，得到第一中间数据集，所述第一训练数据集包括多张样本图像和每张样本图像的原始描述文本，所述第一中间数据集中的图像为所述多张样本图像中被保留的样本图像，所述第一中间数据集中每张样本图像对应有原始描述文本；

9、文本处理单元，被配置为对所述第一训练数据集进行文本添加，得到第二中间数据集，所述第二中间数据集中的图像为所述多张样本图像，所述第二中间数据集中每张样本图像对应有多条样本文本，每张样本图像的多条样本文本包括所述样本图像的原始描述文本和所述样本图像的附加描述文本，所述附加描述文本和所述原始描述文本用于从不同角度描述所述样本图像；

10、确定单元，被配置为基于所述第一中间数据集和所述第二中间数据集，确定第二训练数据集，所述第二训练数据集中的图像为所述多张样本图像中被保留的样本图像，所述第二训练数据集中每张样本图像对应有多条样本文本；

11、训练单元，被配置为基于所述第二训练数据集，训练图像生成模型，所述图像生成模型用于基于输入所述图像生成模型的文本生成满足所述文本的描述的图像。

12、在一些实施例中，所述图像处理单元，包括：

13、特征提取子单元，被配置为将所述第一训练数据集中每张样本图像输入到图像提取模型中进行特征提取，分别得到所述第一训练数据集中每张样本图像的图像特征，所述图像提取模型用于基于输入所述图像提取模型的图像输出图像特征，所述图像特征包括颜色特征、纹理特征以及形状特征中的至少一项；

14、聚类子单元，被配置为基于所述第一训练数据集中每张样本图像的图像特征，对所述第一训练数据集中多张样本图像进行多层次聚类，得到多个聚类组，每个聚类组内的多张样本图像之间的相似度不小于相似度阈值；

15、图像处理子单元，被配置为对于所述多个聚类组，保留每个聚类组内满足预设条件的样本图像，丢弃每个聚类组内其他的样本图像，得到所述第一中间数据集。

16、在一些实施例中，所述聚类子单元，被配置为基于所述第一训练数据集中每张样本图像的图像特征，对所述第一训练数据集中多张样本图像进行第一层次聚类，得到预设数量个中间聚类组，每个中间聚类组内的样本图像属于相同领域；对于所述预设数量个中间聚类组，对每个中间聚类组内的样本图像分别进行第二层次聚类，得到所述多个聚类组。

17、在一些实施例中，所述聚类子单元，被配置为对于所述多个聚类组，将每个聚类组内多张样本图像输入到图像评分模型中进行评分，分别得到每个聚类组内多张样本图像的分值，每张样本图像的分值由美学分值、分辨率分值以及图像质量分值中的至少一项确定；按照每个聚类组内多张样本图像的分值由高到低的顺序，保留每个聚类组内名次不低于名次阈值的样本图像，丢弃每个聚类组内名次低于所述名次阈值的样本图像。

18、在一些实施例中，所述图像处理子单元，被配置为对于所述多个聚类组，将每个聚类组内多张样本图像输入到图像评分模型中进行评分，分别得到每个聚类组内多张样本图像的分值，每张样本图像的分值由美学分值、分辨率分值以及图像质量分值中的至少一项确定；

19、基于每个聚类组内多张样本图像的分值，保留分值不小于分值阈值的样本图像，丢弃分值小于所述分值阈值的样本图像。

20、在一些实施例中，所述文本处理单元，被配置为将指令文本和所述第一训练数据集中每张样本图像输入图像描述模型中进行文本描述，分别得到所述第一训练数据集中每张样本图像的附加描述文本，所述指令文本用于控制所述图像描述模型生成满足要求的文本，所述图像描述模型用于基于输入所述图像描述模型的图像生成文本；将所述每张样本图像的附加描述文本添加在第一训练数据集中，得到所述第二中间数据集。

21、在一些实施例中，所述训练单元，被配置为对所述第二训练数据集中的多张样本图像进行采样，将被采样到的样本图像作为样本输入图像；对于任一样本输入图像，基于不同样本文本对应的预设采样概率，对所述样本输入图像对应的多条样本文本进行采样，将被采样到的样本文本作为所述样本输入图像的样本输入文本；基于所述样本输入图像和每张样本输入图像的样本输入文本，训练图像生成模型。

22、在一些实施例中，所述装置还包括：

23、获取单元，被配置为获取时间步阈值和文本引导系数，所述时间步阈值为区分第一时间步区间和第二时间步区间的阈值，所述第一时间步区间在所述第二时间步区间之前，所述文本引导系数的大小与文本对所述图像生成模型的影响程度呈正相关，所述文本引导系数包括第一引导系数和第二引导系数，所述第一引导系数小于所述第二引导系数；

24、去噪单元，被配置为将本文档来自技高网...

【技术保护点】

1.一种图像生成模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的图像生成模型的训练方法，其特征在于，所述对第一训练数据集进行图像去重，得到第一中间数据集，包括：

3.根据权利要求2所述的图像生成模型的训练方法，其特征在于，所述基于所述第一训练数据集中每张样本图像的图像特征，对所述第一训练数据集中多张样本图像进行多层次聚类，得到多个聚类组，包括：

4.根据权利要求2所述的图像生成模型的训练方法，其特征在于，所述对于所述多个聚类组，保留每个聚类组内满足预设条件的样本图像，丢弃每个聚类组内其他的样本图像，得到所述第一中间数据集，包括：

5.根据权利要求2所述的图像生成模型的训练方法，其特征在于，所述对于所述多个聚类组，保留每个聚类组内满足预设条件的样本图像，丢弃每个聚类组内其他的样本图像，得到所述第一中间数据集，包括：

6.根据权利要求1所述的图像生成模型的训练方法，其特征在于，所述对所述第一训练数据集进行文本添加，得到第二中间数据集，包括：

7.根据权利要求1所述的图像生成模型的训练方法，其特

8.根据权利要求1所述的图像生成模型的训练方法，其特征在于，所述方法还包括：

9.根据权利要求8所述的图像生成模型的训练方法，其特征在于，所述将提示文本输入到所述图像生成模型中进行多个时间步区间的去噪处理，得到结果图像，包括：

10.一种图像生成模型的训练装置，其特征在于，所述装置包括：

11.一种电子设备，其特征在于，所述电子设备包括：

12.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至9任一项所述的图像生成模型的训练方法。

13.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现如权利要求1至9任一项所述的图像生成模型的训练方法。

...

【技术特征摘要】

1.一种图像生成模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的图像生成模型的训练方法，其特征在于，所述对第一训练数据集进行图像去重，得到第一中间数据集，包括：

6.根据权利要求1所述的图像生成模型的训练方法，其特征在于，所述对所述第一训练数据集进行文本添加，...

【专利技术属性】
技术研发人员：汤野骏，李岩，成乐乐，张迪，
申请(专利权)人：北京达佳互联信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人