图像生成模型训练方法和装置、图像处理方法和装置制造方法及图纸

技术编号：40754696 阅读：16 留言：0更新日期：2024-03-25 20:09

本公开提供了一种图像生成模型训练方法和装置，涉及人工智能技术领域，具体涉及计算机视觉、深度学习、大模型等技术领域，可应用于人工智能的内容生成等场景。具体实现方案为：获取图像样本集；获取预先构建的图像生成网络，图像生成网络包括：依次连接的图文识别模块、大语言模型以及文本生成图像模型；将从图像样本集中选取的图像样本输入图像生成网络，得到图像生成网络输出的生成图像；采用图像评分模型对生成图像进行评分，得到生成图像的评估值；基于评估值，计算图像生成网络的网络损失值；基于图像生成网络的网络损失值，训练图像生成网络，得到经训练的图像生成模型。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及人工智能，具体涉及计算机视觉、深度学习、大模型等，可应用于人工智能的内容生成等场景，尤其涉及一种图像生成模型训练方法和装置、图像处理方法和装置、电子设备、计算机可读存储介质以及计算机程序产品。

技术介绍

1、随着sd(stable diffusion，稳定扩散)模型的提出，生成式图像模型已经展现出强大的能力，包括更加真实的场景，更加丰富的细节以及良好的指令跟随能力。

2、对于广泛应用的深度学习文本到图像生成模型，将提示词输入深度学习文本到图像生成模型，几乎可以生成任何一种人类想象出的图像。

技术实现思路

1、本公开提供了一种图像生成模型训练方法和装置、图像处理方法和装置、电子设备、计算机可读存储介质以及计算机程序产品。

2、根据第一方面，提供了一种图像生成模型训练方法，该方法包括：获取图像样本集，图像样本集包括至少一个图像样本；获取预先构建的图像生成网络，图像生成网络包括：依次连接的图文识别模块、大语言模型以及文本生成图像模型，图文识别模块基于输入的图像，得到识别文本；大语言模型基于识别文本，得到具有多图像描述特征的提示词文本；文本生成图像模型基于提示词文本，得到生成图像；执行以下总训练步骤：将从图像样本集中选取的图像样本输入图像生成网络，得到图像生成网络输出的生成图像；采用图像评分模型对生成图像进行评分，得到生成图像的评估值；基于评估值，计算图像生成网络的网络损失值；基于图像生成网络的网络损失值，训练图像生成网络，得到经训练的图像生成模型。>

3、根据第二方面，提供了一种图像处理方法，该方法包括：获取待处理图像；将待处理图像输入采用如第一方面任一实现方式描述的方法生成的图像生成模型中，得到待处理图像的图像生成结果。

4、根据第三方面，提供了一种图像生成模型训练装置，该装置包括：集合获取单元，被配置成获取图像样本集，图像样本集包括至少一个图像样本；网络获取单元，被配置成获取预先构建的图像生成网络，图像生成网络包括：依次连接的图文识别模块、大语言模型以及文本生成图像模型，图文识别模块基于输入的图像，得到识别文本；大语言模型基于识别文本，得到具有多图像描述特征的提示词文本；文本生成图像模型基于提示词文本，得到生成图像；样本输入单元，被配置成将从图像样本集中选取的图像样本输入图像生成网络，得到图像生成网络输出的生成图像；评分单元，被配置成采用图像评分模型对生成图像进行评分，得到生成图像的评估值；计算单元，被配置成基于评估值，计算图像生成网络的网络损失值；模型得到单元，被配置成基于图像生成网络的网络损失值，训练图像生成网络，得到经训练的图像生成模型。

5、根据第四方面，又提供了一种图像处理装置，该装置包括：图像获取单元，被配置成获取待处理图像；结果得到单元，被配置成将待处理图像输入采用如第三方面任一实现方式描述的装置生成的图像生成模型中，输出待处理图像的图像生成结果。

6、根据第五方面，提供了一种电子设备，该电子设备包括：至少一个处理器；以及与至少一个处理器通信连接的存储器，其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如第一方面或第二方面任一实现方式描述的方法。

7、根据第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行如第一方面或第二方面任一实现方式描述的方法。

8、根据第七方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如第一方面或第二方面任一实现方式描述的方法。

9、本公开的实施例提供的图像生成模型训练方法和装置，首先，获取图像样本集，图像样本集包括至少一个图像样本；其次，获取预先构建的图像生成网络，图像生成网络包括：依次连接的图文识别模块、大语言模型以及文本生成图像模型，图文识别模块基于输入的图像，得到识别文本；大语言模型基于识别文本，得到具有多图像描述特征的提示词文本；文本生成图像模型基于提示词文本，得到生成图像；再次，将从图像样本集中选取的图像样本输入图像生成网络，得到图像生成网络输出的生成图像；从次，采用图像评分模型对生成图像进行评分，得到生成图像的评估值；然后，基于评估值，计算图像生成网络的网络损失值；最后，基于图像生成网络的网络损失值，训练图像生成网络，得到经训练的图像生成模型。本公开通过大语言模型对识别文本进行多图像描述特征的提示词文本的生成，提高了提示词对文本生成图像模型的指导性；在图像生成网络训练过程中，通过图像评分模型对生成图像进行评分，并基于评分得到的评估值得到图像生成模型，提高了图像生成模型训练的可靠性和准确性，提高了模型进行图像生成的效果。

10、本公开的实施例提供的图像处理方法和装置，获取待处理图像，将待处理图像输入图像生成模型训练方法生成的图像生成模型中，得到待处理图像的图像生成结果。由此，采用包括大语言模型的图像生成模型生成图像生成结果，提高了图像生成结果得到的可靠性和准确性。

11、应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种图像生成模型训练方法，所述方法包括：

2.根据权利要求1所述的方法，其中，所述基于所述评估值，计算所述图像生成网络的网络损失值包括：

3.根据权利要求1或2所述的方法，其中，所述基于所述图像生成网络的网络损失值，训练所述图像生成网络，得到经训练的图像生成模型，包括：

4.根据权利要求3所述的方法，其中，所述方法还包括：

5.根据权利要求1所述的方法，其中，所述多图像描述特征包括：元素特征、构图特征以及风格特征。

6.根据权利要求1所述的方法，其中，所述图像评分模型通过训练多模态图文识别网络得到，所述多模态图文识别网络的训练步骤包括：

7.一种图像处理方法，所述方法包括：

8.根据权利要求7所述的方法，在将所述待处理图像输入图像生成模型之前，所述方法还包括：

9.根据权利要求7所述的方法，所述图像生成模型包括：图文识别模块、大语言模型以及文本生成图像模型，所述将所述待处理图像输入采用如权利要求1-6中任一项所述的方法生成的图像生成模型中，输出所述待处理图像的图像生成结果包括：p>

10.根据权利要求9所述的方法，所述方法还包括：

11.一种图像生成模型训练装置，所述装置包括：

12.根据权利要求11所述的装置，其中，所述计算单元进一步被配置成：获取所述文本生成图像模型的损失函数；基于选取的图像样本和所述损失函数，计算所述文本生成图像模型的模型损失值；基于所述评估值，调整所述模型损失值，得到所述网络损失值。

13.根据权利要求11或12所述的装置，其中，所述模型得到单元进一步被配置成：响应于所述图像生成网络的网络损失值满足训练完成条件，将所述图像生成网络作为图像生成模型。

14.根据权利要求13所述的装置，其中，所述装置还包括：调整单元，被配置成响应于所述图像生成网络的网络损失值不满足训练完成条件，基于所述网络损失值，调整所述大语言模型的参数，并控制所述样本输入单元工作。

15.根据权利要求11所述的装置，其中，所述多图像描述特征包括：元素特征、构图特征以及风格特征。

16.根据权利要求11所述的装置，其中，所述图像评分模型通过训练多模态图文识别网络得到，所述多模态图文识别网络通过训练单元训练得到，所述训练单元被配置成：将获取的第一图像样本和描述文本输入所述多模态图文识别网络，得到所述多模态图文网络输出的答案文本；拼接所述第一图像样本、所述描述文本、所述答案文本以及评分文本，得到第一拼接信息，并将所述第一拼接信息输入所述多模态图文识别网络，得到所述多模态图文网络输出的第一评分；基于所述第一评分，计算所述多模态图文网络的损失值；基于所述多模态图文网络的损失值，得到第一评分模型；将获取的第二图像样本、所述评分文本输入所述第一评分模型，得到所述第一评分模型输出的第二评分；基于所述第二评分，计算所述第一评分模型的损失值；基于所述第一评分模型的损失值，得到图像评分模型。

17.一种图像处理装置，所述装置包括：

18.根据权利要求17所述的装置，所述装置还包括：检测单元，所述检测单元被配置成：检测所述待处理图像的尺寸是否为标准尺寸；响应于所述待处理图像的尺寸不是标准尺寸，将所述待处理图像调整到标准尺寸。

19.根据权利要求17所述的装置，其中，所述图像生成模型包括：图文识别模块、大语言模型以及文本生成图像模型，所述结果得到单元进一步被配置成：将所述待处理图像输入所述图文识别模块，得到所述图文识别模块输出的识别文本；将所述识别文本输入所述大语言模型，得到所述大语言模型输出的提示词文本；将所述提示词文本输入所述文本生成图像模型，得到所述文本生成图像模型输出的生成图像。

20.根据权利要求19所述的装置，所述装置还包括：

21.一种电子设备，其特征在于，包括：

22.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-10中任一项所述方法。

23.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现权利要求1-10中任一项所述的方法。

...

【技术特征摘要】