多模态生成模型的训练、图像生成方法及装置制造方法及图纸

技术编号：44474628 阅读：6 留言：0更新日期：2025-03-04 17:44

本公开实施例提供一种多模态生成模型的训练、图像生成方法及装置，该方法包括：获取包括第一样本描述、第二样本描述和样本指令的第一对话样本；基于第一样本描述通过图像生成网络，得到第一生成图像；基于第二样本描述和样本指令通过文本生成网络，得到第一生成描述；基于第一生成图像和第一生成描述通过多模态生成网络，得到与多模态生成网络的输出相关的第二生成描述；基于第二生成描述，生成第二生成图像；基于第一样本描述、多模态生成网络的输出和第二生成图像，确定目标生成损失；以最小化目标生成损失为目标，调整包含前述三个网络的多模态生成模型的参数，以训练得到可以生成更好的图像描述的模型。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及计算机，尤其涉及一种多模态生成模型的训练、图像生成方法及装置。

技术介绍

1、在图像生成领域内，一般可以利用图像描述(也可以称文本提示prompt)，通过基于内容生成技术的图像生成网络(例如为基于diffusion model(扩散模型)的图像生成网络)，生成得到图像描述对应的图像。生成图像的过程中，为了提高所生成图像的质量，提升图像描述的质量至关重要。

2、那么，如何得到质量更好的图像描述成为亟待解决的问题。

技术实现思路

1、本公开一个或多个实施例提供了一种多模态生成模型的训练、图像生成方法及装置，以实现训练得到可以生成更好的图像描述的模型，以得到质量更好的图像描述，进而得到质量更好的图像。

2、根据第一方面，提供一种多模态生成模型的训练方法，所述多模态生成模型包括图像生成网络、文本生成网络以及多模态生成网络，所述方法包括：

3、获取训练样本集中任意的第一对话样本，所述第一对话样本包括第一样本描述及其对应的第二样本描述和样本指令，所述样本指令用于指示所述第二样本描述的生成方向；

4、基于所述第一样本描述，通过所述图像生成网络，得到第一生成图像；

5、基于所述第二样本描述和所述样本指令，通过所述文本生成网络，得到第一生成描述；

6、基于所述第一生成图像和所述第一生成描述，通过所述多模态生成网络，得到第二生成描述，所述第二生成描述与所述多模态生成网络的输出相关；

7、基于所述第二生成描述，生成第二生成图像；

8、基于所述第一样本描述、所述多模态生成网络的输出和所述第二生成图像，确定目标生成损失；

9、以最小化所述目标生成损失为目标，调整所述多模态生成模型的参数。

10、根据第二方面，提供一种图像生成方法，包括：

11、获取待处理数据和用于指示所述待处理数据的生成方向的第一指令；

12、基于所述第一指令，通过目标多模态生成模型的目标文本生成网络，得到第三生成描述；

13、基于所述待处理数据和所述第三生成描述，通过所述目标多模态生成模型的目标多模态生成网络，得到第四生成描述；

14、基于所述第四生成描述，通过所述目标多模态生成模型的目标图像生成网络，得到与所述待处理数据和所述第一指令相对应的生成图像。

15、根据第三方面，提供一种多模态生成模型的训练装置，所述多模态生成模型包括图像生成网络、文本生成网络以及多模态生成网络，所述装置包括：

16、第一获取模块，配置为获取训练样本集中任意的第一对话样本，所述第一对话样本包括第一样本描述及其对应的第二样本描述和样本指令，所述样本指令用于指示所述第二样本描述的生成方向；

17、第一得到模块，配置为基于所述第一样本描述，通过所述图像生成网络，得到第一生成图像；

18、第二得到模块，配置为基于所述第二样本描述和所述样本指令，通过所述文本生成网络，得到第一生成描述；

19、第三得到模块，配置为基于所述第一生成图像和所述第一生成描述，通过所述多模态生成网络，得到第二生成描述，所述第二生成描述与所述多模态生成网络的输出相关；

20、生成模块，配置为基于所述第二生成描述，生成第二生成图像；

21、第一确定模块，配置为基于所述第一样本描述、所述多模态生成网络的输出和所述第二生成图像，确定目标生成损失；

22、第一调整模块，配置为以最小化所述目标生成损失为目标，调整所述多模态生成模型的参数。

23、根据第四方面，提供一种图像生成装置，包括：

24、第二获取模块，配置为获取待处理数据和用于指示所述待处理数据的生成方向的第一指令；

25、第四得到模块，配置为基于所述第一指令，通过目标多模态生成模型的目标文本生成网络，得到第三生成描述；

26、第五得到模块，基于所述待处理数据和所述第三生成描述，通过所述目标多模态生成模型的目标多模态生成网络，得到第四生成描述；

27、第六得到模块，基于所述第四生成描述，通过所述目标多模态生成模型的目标图像生成网络，得到与所述待处理数据和所述第一指令相对应的生成图像。

28、根据第五方面，提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面或第二方面所述的方法。

29、根据第六方面，提供一种电子设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面或第二方面所述的方法。

30、根据本公开实施例提供的多模态生成模型的训练、图像生成方法及装置，第一对话样本包括第一样本描述、该第一样本描述对应的第二样本描述以及用于指示第二样本描述的生成方向的样本指令，基于第一样本描述通过多模态生成模型的图像生成网络，得到第一生成图像，接着基于第二样本描述和样本指令通过多模态生成模型的文本生成网络，得到第二样本描述按照样本指令指示的生成方向而生成的第一生成描述；接着，基于第一生成图像和第一生成描述，通过多模态生成模型的多模态生成网络，得到融合有多模态数据(即第一生成图像的特征和第一生成描述的特征)的第二生成描述，该第二生成描述与该多模态生成网络的输出相关；基于第二生成描述，生成第二生成图像；基于第一样本描述、多模态生成网络的输出以及第二生成图像，确定目标生成损失，并以最小化目标生成损失为目标，调整多模态生成模型的参数，以利用多模态学习的思路，调整该多模态生成模型，以提升该多模态生成模型生成质量更高的图像描述的能力，进而可以利用该多模态生成模型得到质量更高的图像描述，提升基于该图像描述所生成图像的质量。

本文档来自技高网...

【技术保护点】

1.一种多模态生成模型的训练方法，所述多模态生成模型包括图像生成网络、文本生成网络以及多模态生成网络，所述方法包括：

2.如权利要求1所述的方法，还包括：

3.如权利要求1所述的方法，其中，所述确定目标生成损失，包括：

4.如权利要求3所述的方法，其中，所述确定目标生成损失，包括：

5.如权利要求4所述的方法，其中，所述第一对话样本还包括所述第一样本描述对应的第一样本图像；

6.如权利要求5所述的方法，其中，所述利用所述第二生成损失、所述第一生成损失、所述第一匹配损失和所述第二匹配损失，确定所述目标生成损失，包括：

7.如权利要求1所述的方法，其中，所述多模态生成网络，包括文本编码器、图像编码器、融合器和解码器；

8.如权利要求1所述的方法，在所述得到第一生成图像之前，还包括：

9.如权利要求1所述的方法，在所述得到第一生成描述之前，还包括：

10.一种图像生成方法，包括：

11.如权利要求10所述的方法，其中，所述待处理数据包括待处理图像。

12.

13.如权利要求10-12任一项所述的方法，其中，所述目标多模态生成模型为利用权利要求1-9任一所述的多模态生成模型的训练方法训练所得的模型。

14.一种多模态生成模型的训练装置，所述多模态生成模型包括图像生成网络、文本生成网络以及多模态生成网络，所述装置包括：

15.一种图像生成装置，包括：

16.一种电子设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-13中任一项所述的方法。

17.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-13中任一项所述的方法。

...

【技术特征摘要】