文本到图像的生成模型优化方法、装置、设备及存储介质制造方法及图纸

技术编号:38549604 阅读:12 留言:0更新日期:2023-08-22 20:57
本公开的实施例提供了文本到图像的生成模型优化方法、装置、设备及存储介质。应用于深度学习技术领域,所述方法包括获取与主题对应的参考图像组,其中,参考图像组中的每个参考图像携带有包含主题标识的源文本提示和目标文本提示,目标文本提示是对源文本提示中对参考图像中主题所在语境的扩展描述;将参考图像组输入至预训练的文本到图像生成模型中,对预训练的文本到图像生成模型进行优化,得到优化后文本到图像生成模型,其中,优化后文本到图像生成模型用于根据主题所在语境的描述信息生成目标图像。以此方式,可以解决图像生成模型无法实现主题重新语境化的技术问题。型无法实现主题重新语境化的技术问题。型无法实现主题重新语境化的技术问题。

【技术实现步骤摘要】
文本到图像的生成模型优化方法、装置、设备及存储介质


[0001]本公开涉及深度学习
,尤其涉及一种文本到图像的生成模型优化方法、装置、设备及存储介质。

技术介绍

[0002]文本到图像合成任务旨在生成清晰、照片逼真的图像,与相应的文本引导具有高度语义相关性。由于文本描述通常是模糊的,这项任务非常具有挑战性。目前的模型虽然可以根据文本描述生成照片,但由于语义本身的多义性和不确定性,在不同情况下生成的图像可能具有较大差异,无法实现主题重新语境化。
[0003]针对图像生成模型无法实现主题重新语境化的技术问题,目前尚未提出有效的解决方案。

技术实现思路

[0004]本公开提供了一种文本到图像的生成模型优化方法、装置、设备及存储介质。
[0005]根据本公开的第一方面,提供了一种文本到图像的生成模型优化方法。该方法包括:获取与主题对应的参考图像组,其中,参考图像组中的每个参考图像携带有包含主题标识的源文本提示和目标文本提示,目标文本提示是对源文本提示中对参考图像中主题所在语境的扩展描述;将参考图像组输入至预训练的文本到图像生成模型中,对预训练的文本到图像生成模型进行优化,得到优化后文本到图像生成模型,其中,优化后文本到图像生成模型用于根据主题所在语境的描述信息生成目标图像。
[0006]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,将参考图像组输入至预训练的文本到图像生成模型中,对预训练的文本到图像生成模型进行优化,得到优化后文本到图像生成模型,包括:将参考图像组输入至预训练的文本到图像生成模型中;通过反向传播和梯度下降法来优化预训练的文本到图像生成模型的参数,直至损失函数收敛。
[0007]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,损失函数按照如下公式确定:
[0008][0009]其中,λ为超参数且为正实数,c
i
表示源文本提示的嵌入,c
j
表示目标文本提示的嵌入,l为嵌入数量,W
k
和W
v
为参数矩阵,k
*
为交叉注意层中的键向量,v
*
为交叉注意层中的值向量。
[0010]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,预训练的文本到图像生成模型是通过以下步骤训练得到的:初始化包括生成器和判别器的生成对抗网络;基于训练数据集对生成器和判别器进行交替训练,直到对抗损失函数收敛,其中,训练
数据集中包括真实图像以及与真实图像对应的描述信息,描述信息用于描述预期生成的图像;将生成器作为预训练的文本到图像生成模型。
[0011]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,基于训练数据集对生成器和判别器进行交替训练,直到对抗损失函数收敛,包括:
[0012]固定生成器,训练判别器,包括:在生成器中利用随机噪声和描述信息生成虚假图像;将虚假图像和真实图像输入至判别器,计算判别器损失函数;利用判别器损失函数进行反向传播求取梯度,采用梯度下降法更新判别器中的参数;循环执行以上步骤直至判别器损失函数最小化;
[0013]以及,
[0014]固定判别器,训练生成器,包括:在生成器中利用随机噪声和描述信息生成虚假图像;将虚假图像和真实图像输入至判别器,计算生成器损失函数;利用生成器损失函数进行反向传播求取梯度,采用梯度下降法更新生成器中的参数;循环执行以上步骤直至生成器损失函数最小化。
[0015]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,生成器包括文本编码层、图像编码层、融合层和反卷积神经网络,文本编码层用于将输入描述信息中的文本转换成文本向量,图像编码层用于将输入描述信息中的图像转换成图像向量,融合层用于将文本向量与图像向量在交叉注意力模块中融合后输入Adapter层以得到融合特征,反卷积神经网络用于根据输入的融合特征生成图像。Adapter层是一种特殊的神经网络层,用于在不同的网络模块之间进行信息交换和特征提取,其作用类似于一个中间接口,可以将不同的特征数据转换为适合特定模块的形式,以便更好地融合和利用这些特征。
[0016]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,生成器还包括上下文编码层,上下文编码层用于对输入描述信息中的上下文信息进行编码以得到上下文向量,融合层还用于将文本向量、图像向量以及上下文向量在交叉注意力模块中融合后输入Adapter层以得到融合特征。
[0017]根据本公开的第二方面,提供了一种文本到图像的生成模型优化装置。该装置包括:
[0018]获取模块,用于获取与主题对应的参考图像组,其中,参考图像组中的每个参考图像携带有包含主题标识的源文本提示和目标文本提示,目标文本提示是对源文本提示中对参考图像中主题所在语境的扩展描述;
[0019]优化模块,用于将参考图像组输入至预训练的文本到图像生成模型中,对预训练的文本到图像生成模型进行优化,得到优化后文本到图像生成模型,其中,优化后文本到图像生成模型用于根据主题所在语境的描述信息生成目标图像。
[0020]根据本公开的第三方面,提供了一种电子设备。该电子设备包括:存储器和处理器,所述存储器上存储有计算机程序,所述处理器执行所述程序时实现如以上所述的方法。
[0021]根据本公开的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如根据本公开的第一方面和/或第二发面的方法。
[0022]本公开通过包含源文本提示、主题标识和目标文本提示的参考图像组对预训练的文本到图像生成模型进行优化,从而使得优化后的模型能够根据主题所在语境的描述信息生成图像,能够在参考图像中未出现的各种场景、姿势、视图和照明条件下合成参考图像组
对应主题的画面,实现主题重新语境化。
[0023]应当理解,
技术实现思路
部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。
附图说明
[0024]结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。附图用于更好地理解本方案,不构成对本公开的限定在附图中,相同或相似的附图标记表示相同或相似的元素,其中:
[0025]图1示出了根据本公开的实施例的文本到图像的生成模型优化方法的流程图;
[0026]图2示出了根据本公开的实施例的文本到图像的生成模型优化装置的框图;
[0027]图3示出了能够实施本公开的实施例的示例性电子设备的框图。
具体实施方式
[0028]为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本到图像的生成模型优化方法,其特征在于,包括:获取与主题对应的参考图像组,其中,所述参考图像组中的每个参考图像携带有包含主题标识的源文本提示和目标文本提示,所述目标文本提示是对所述源文本提示中对参考图像中主题所在语境的扩展描述;将所述参考图像组输入至预训练的文本到图像生成模型中,对所述预训练的文本到图像生成模型进行优化,得到优化后文本到图像生成模型,其中,所述优化后文本到图像生成模型用于根据主题所在语境的描述信息生成目标图像。2.根据权利要求1所述的方法,其特征在于,所述将所述参考图像组输入至预训练的文本到图像生成模型中,对所述预训练的文本到图像生成模型进行优化,得到优化后文本到图像生成模型,包括:将所述参考图像组输入至所述预训练的文本到图像生成模型中;通过反向传播和梯度下降法来优化所述预训练的文本到图像生成模型的参数,直至损失函数收敛。3.根据权利要求2所述的方法,其特征在于,所述损失函数按照如下公式确定:其中,λ为超参数且为正实数,c
i
表示源文本提示的嵌入,c
j
表示目标文本提示的嵌入,l为嵌入数量,W
k
和W
v
为参数矩阵,k
*
为交叉注意层中的键向量,v
*
为交叉注意层中的值向量。4.根据权利要求1所述的方法,其特征在于,所述预训练的文本到图像生成模型是通过以下步骤训练得到的:初始化包括生成器和判别器的生成对抗网络;基于训练数据集对所述生成器和所述判别器进行交替训练,直到对抗损失函数收敛,其中,所述训练数据集中包括真实图像以及与真实图像对应的描述信息,所述描述信息用于描述预期生成的图像;将所述生成器作为所述预训练的文本到图像生成模型。5.根据权利要求4所述的方法,其特征在于,所述基于训练数据集对所述生成器和所述判别器进行交替训练,直到对抗损失函数收敛,包括:固定生成器,训练判别器,包括:在生成器中利用随机噪声和描述信息生成虚假图像;将虚假图像和真实图像输入至判别器,计算判别器损失函数;利用判别器损失函数进行反向传播求取梯度,采用梯度...

【专利技术属性】
技术研发人员:熊艺华张睿
申请(专利权)人:光控特斯联重庆信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1