文本到图像的生成模型优化方法、装置、设备及存储介质制造方法及图纸

技术编号：38549604 阅读：12 留言：0更新日期：2023-08-22 20:57

本公开的实施例提供了文本到图像的生成模型优化方法、装置、设备及存储介质。应用于深度学习技术领域，所述方法包括获取与主题对应的参考图像组，其中，参考图像组中的每个参考图像携带有包含主题标识的源文本提示和目标文本提示，目标文本提示是对源文本提示中对参考图像中主题所在语境的扩展描述；将参考图像组输入至预训练的文本到图像生成模型中，对预训练的文本到图像生成模型进行优化，得到优化后文本到图像生成模型，其中，优化后文本到图像生成模型用于根据主题所在语境的描述信息生成目标图像。以此方式，可以解决图像生成模型无法实现主题重新语境化的技术问题。型无法实现主题重新语境化的技术问题。型无法实现主题重新语境化的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
文本到图像的生成模型优化方法、装置、设备及存储介质

[0001]本公开涉及深度学习
，尤其涉及一种文本到图像的生成模型优化方法、装置、设备及存储介质。

技术介绍

[0002]文本到图像合成任务旨在生成清晰、照片逼真的图像，与相应的文本引导具有高度语义相关性。由于文本描述通常是模糊的，这项任务非常具有挑战性。目前的模型虽然可以根据文本描述生成照片，但由于语义本身的多义性和不确定性，在不同情况下生成的图像可能具有较大差异，无法实现主题重新语境化。
[0003]针对图像生成模型无法实现主题重新语境化的技术问题，目前尚未提出有效的解决方案。

技术实现思路

[0004]本公开提供了一种文本到图像的生成模型优化方法、装置、设备及存储介质。
[0005]根据本公开的第一方面，提供了一种文本到图像的生成模型优化方法。该方法包括：获取与主题对应的参考图像组，其中，参考图像组中的每个参考图像携带有包含主题标识的源文本提示和目标文本提示，目标文本提示是对源文本提示中对参考图像中主题所在语境的扩展描述；将参考图像组输入至预训练的文本到图像生成模型中，对预训练的文本到图像生成模型进行优化，得到优化后文本到图像生成模型，其中，优化后文本到图像生成模型用于根据主题所在语境的描述信息生成目标图像。
[0006]如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，将参考图像组输入至预训练的文本到图像生成模型中，对预训练的文本到图像生成模型进行优化，得到优化后文本到图像生成模型，包括：将参考图像组输...

【技术保护点】

【技术特征摘要】
1.一种文本到图像的生成模型优化方法，其特征在于，包括：获取与主题对应的参考图像组，其中，所述参考图像组中的每个参考图像携带有包含主题标识的源文本提示和目标文本提示，所述目标文本提示是对所述源文本提示中对参考图像中主题所在语境的扩展描述；将所述参考图像组输入至预训练的文本到图像生成模型中，对所述预训练的文本到图像生成模型进行优化，得到优化后文本到图像生成模型，其中，所述优化后文本到图像生成模型用于根据主题所在语境的描述信息生成目标图像。2.根据权利要求1所述的方法，其特征在于，所述将所述参考图像组输入至预训练的文本到图像生成模型中，对所述预训练的文本到图像生成模型进行优化，得到优化后文本到图像生成模型，包括：将所述参考图像组输入至所述预训练的文本到图像生成模型中；通过反向传播和梯度下降法来优化所述预训练的文本到图像生成模型的参数，直至损失函数收敛。3.根据权利要求2所述的方法，其特征在于，所述损失函数按照如下公式确定：其中，λ为超参数且为正实数，c
i
表示源文本提示的嵌入，c
j
表示目标文本提示的嵌入,l为嵌入数量，W
k
和W
v
为参数矩阵，k
*
为交叉注意层中的键向量，v
*
为交叉注意层中的值向量。4.根据权利要求1所述的方法，其特征在于，所述预训练的文本到图像生成模型是通过以下步骤训练得到的：初始化包括生成器和判别器的生成对抗网络；基于训练数据集对所述生成器和所述判别器进行交替训练，直到对抗损失函数收敛，其中，所述训练数据集中包括真实图像以及与真实图像对应的描述信息，所述描述信息用于描述预期生成的图像；将所述生成器作为所述预训练的文本到图像生成模型。5.根据权利要求4所述的方法，其特征在于，所述基于训练数据集对所述生成器和所述判别器进行交替训练，直到对抗损失函数收敛，包括：固定生成器，训练判别器，包括：在生成器中利用随机噪声和描述信息生成虚假图像；将虚假图像和真实图像输入至判别器，计算判别器损失函数；利用判别器损失函数进行反向传播求取梯度，采用梯度...

【专利技术属性】
技术研发人员：熊艺华，张睿，
申请(专利权)人：光控特斯联重庆信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人