图像生成模型的训练方法、图像生成方法、装置及介质制造方法及图纸

技术编号：42221679 阅读：4 留言：0更新日期：2024-08-02 13:40

本发明专利技术公开了一种图像生成模型的训练方法、图像生成方法、装置、电子设备及存储介质。其中，图像生成模型包括编码器、解码器、图像建模模块；上述训练方法包括：将训练图像输入到所述编码器得到图像token；将所述图像token输入到解码器和图像建模模块，在同一次训练中，对编码器、解码器和图像建模模块进行参数调整。从而解决了现有技术中不同训练阶段对图像token的需求不一致的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及本公开涉及人工智能，尤其涉及图像生成领域，特别涉及一种图像生成模型的训练方法、图像生成方法、装置、电子设备及存储介质。

技术介绍

1、人工智能技术是计算机科学的一个分支，是一种通过计算机和算法实现智能化的技术。它通过不断的学习和演化，使计算机变得越来越“聪明”，能够进行对话、推理、学习等复杂的操作。人工智能领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

2、图像生成是利用计算机视觉技术和深度学习模型，自动生成具有特定内容或风格的图像、图形等。图像生成技术主要依赖于深度学习模型，如生成对抗网络(gan)、变分自编码器(vae)、自回归模型等，以及一些强化学习、概率模型等技术。在应用方面，图像生成技术可以应用于各种领域，如艺术创作、设计、娱乐、广告、医学影像、视频处理等。通过自动生成图像内容，可以提高创作效率、降低成本，并且能够实现一些人类难以完成的任务，如根据文字描述自动生成图像、修复老旧图片等。

3、上述的图像生成模型一般都需要通过训练之后可以具备具体图像生成的功能。其中，回归式图像生成模型的训练一般分为两个训练阶段：图像token的表示学习和基于图像token的图像建模。图像token的表示学习是学习到表示复杂图像的元表示(基本单元)，比如一些简单图像概念。基于图像token的图像建模是如何组合这些元表示构建出完整且复杂的图像。目前，大部分的方法分别从表示学习和图像建模角度出发，提升自回归式图像生成模型的能力。例如，mask-git提出了双向transformer解码

4、图像token的表示学习的目标是更好的重建图像本身，使得图像token更关注一些高频细节，而基于图像token的图像建模目标是更好地区分和组合图像token，这样，该阶段希望图像token之间的差异性大，要更关注低频语义。因此上述两个训练阶段对图像token的需求上存在不一致性：当前的训练方式无法解决上述不一致性。

技术实现思路

1、为此，本专利技术提供了一种图像生成模型的训练方法、图像生成方法、装置、电子设备及存储介质，以力图解决或者至少缓解上面存在的至少一个问题。

2、根据本专利技术的一个方面，提供一种图像生成模型的训练方法，适于在计算设备中执行，所述图像生成模型包括编码器、解码器、图像建模模块；所述训练方法包括：

3、将训练图像输入到所述编码器得到图像token；

4、将所述图像token输入到解码器和图像建模模块，在同一次训练中对编码器、解码器和图像建模模块进行参数调整。

5、可选的，所述将所述图像token输入到解码器和图像建模模块，在同一次训练中对编码器、解码器和图像建模模块进行参数调整的步骤，包括：

6、将所述图像token输入到解码器和图像建模模块，所述解码器输出第一图像，所述图像建模模块输出预测图像token；

7、基于总损失对所述图像生成模型进行训练；

8、其中，所述总损失包括第一损失和第二损失；所述第一损失用于表示所述第一图像和所述训练图像的相似性，所述第二损失用于表示所述预测图像token与目标图像token的偏差。

9、可选的，所述将所述图像token输入到解码器和图像建模模块，在同一次训练中对编码器、解码器和图像建模模块进行参数调整的步骤，还包括：

10、在将所述图像token输入到图像建模模块的同时，将第一训练文本也输入到图像建模模块；其中，第一训练文本是与所述训练图像相关联的文本。

11、可选的，所述第一损失包括l2损失、生成对抗损失和感知损失；第二损失为交叉熵损失。

12、可选的，所述将训练图像输入到所述编码器得到图像token的步骤，包括：

13、将训练图像输入到所述编码器得到中间图像特征；

14、对所述中间图像特征进行处理得到图像token。

15、可选的，对所述中间图像特征进行处理得到图像token的步骤，包括：

16、利用离散向量空间对所述中间图像特征进行处理得到图像token。

17、可选的，所述利用离散向量空间对所述中间图像特征进行处理得到图像token的步骤包括：

18、获取离散向量空间；

19、从所述离散向量空间中选出与所述中间图像特征的编码位置距离最相近的向量作为所述图像token。

20、可选的，所述总损失还包括第三损失，所述第三损失用于表示所述中间图像特征与所述图像token的偏差。

21、可选的，所述编码器和解码器中的至少一个为卷积神经网络或者tranformer模型；所述图像建模模块为双向tranformer模型。

22、根据本专利技术的另一个方面，还提供一种基于图像生成模型的图像生成方法，适于在计算设备中执行，该图像生成方法包括：

23、将输入文本输入到第一图像生成模型；

24、所述第一图像生成模型根据所述输入文本生成结果图像；

25、其中，所述第一图像生成模型是由初始图像生成模型经过上述的训练方法训练得到。

26、可选的，所述第一图像生成模型包括第一图像建模模块和第一解码器；所述图像生成方法具体包括：

27、将输入文本输入到所述第一图像建模模块，输出预测结果图像token；

28、将所述预测结果图像token输入到所述第一解码器，输出所述结果图像。

29、根据本专利技术的另一个方面，还提供一种图像生成模型的训练装置，所述图像生成模型包括编码器、解码器、图像建模模块；所述训练装置包括：

30、图像token获取模块，用于将训练图像输入到所述编码器得到图像token；

31、训练模块，将所述图像token输入到解码器和图像建模模块，在同一次训练中对编码器、解码器和图像建模模块进行参数调整。

32、可选的，所述训练模块包括：

33、第一获取模块，用于将所述图像token输入到解码器和图像建模模块，使所述解码器输出第一图像，使所述图像建模模块输出预测图像token；

34、第一训练模块，用于基于总损失对所述图像生成模型进行训练；

35、其中，所述总损失包括第一损失和第二损失；第一损失用于表示第一图像和训练图像的相似性，第二损失用于表示所述预测图像token与目标图像token的偏差。

36、可选的，所述训练模块还包括：

37、文本输入模块，用于在将所述图像token输入到图像建模模块的同时，将第一训练文本也输入到所述图像建模模块；其中，第一训练文本是与所述训练图像相关联的文本。

38、可选的，所述第一损失包括l2损失、生成对抗损失和感知损失；第二损失为交叉熵损失。

39、可选的，所本文档来自技高网...

【技术保护点】

1.一种图像生成模型的训练方法，其特征在于，所述图像生成模型包括编码器、解码器、图像建模模块；所述训练方法包括：

2.根据权利要求1所述的训练方法，其特征在于，所述将所述图像token输入到解码器和图像建模模块，在同一次训练中对所述编码器、所述解码器和所述图像建模模块进行参数调整的步骤，包括：

3.根据权利要求2所述的训练方法，其特征在于，所述将所述图像token输入到解码器和图像建模模块，在同一次训练中对所述编码器、所述解码器和所述图像建模模块进行参数调整的步骤，还包括：

4.根据权利要求2所述的训练方法，其特征在于，所述第一损失包括L2损失、生成对抗损失和感知损失；第二损失为交叉熵损失。

5.根据权利要求2所述的训练方法，其特征在于，所述将训练图像输入到所述编码器得到图像token的步骤，包括：

6.根据权利要求5所述的训练方法，其特征在于，对所述中间图像特征进行处理得到图像token的步骤，包括：

7.根据权利要求6所述的训练方法，其特征在于，所述利用离散向量空间对所述中间图像特征进行处理得到图像token的步骤包括：

8.根据权利要求5所述的训练方法，其特征在于，所述总损失还包括第三损失，所述第三损失用于表示所述中间图像特征与所述图像token的偏差。

9.根据权利要求1-8任一项所述的训练方法，其特征在于，所述编码器和解码器中的至少一个为卷积神经网络或者tranformer模型；所述图像建模模块为双向tranformer模型。

10.一种基于图像生成模型的图像生成方法，其特征在于，包括：

11.根据权利要求10所述的图像生成方法，其特征在于，所述第一图像生成模型包括第一图像建模模块和第一解码器；所述图像生成方法具体包括：

12.一种图像生成模型的训练装置，其特征在于，所述图像生成模型包括编码器、解码器、图像建模模块；所述训练装置包括：

13.一种基于图像生成模型的图像生成装置，其特征在于，包括：

14.一种电子设备，其特征在于，包括：

15.一种存储有程序指令的可读存储介质，其特征在于，当所述程序指令被计算设备读取并执行时，使得所述计算设备执行如权利要求1-8中任一项所述的训练方法。

...

【技术特征摘要】

1.一种图像生成模型的训练方法，其特征在于，所述图像生成模型包括编码器、解码器、图像建模模块；所述训练方法包括：

4.根据权利要求2所述的训练方法，其特征在于，所述第一损失包括l2损失、生成对抗损失和感知损失；第二损失为交叉熵损失。

5.根据权利要求2所述的训练方法，其特征在于，所述将训练图像输入到所述编码器得到图像token的步骤，包括：

6.根据权利要求5所述的训练方法，其特征在于，对所述中间图像特征进行处理得到图像token的步骤，包括：

7.根据权利要求6所述的训练方法，其特征在于，所述利用离散向量空间对所述中间图像特征进行处理得到图像toke...

【专利技术属性】
技术研发人员：杨同，
申请(专利权)人：上海阶跃星辰智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人