基于文本生成图像的方法、装置、电子设备及存储介质制造方法及图纸

技术编号：42822705 阅读：1 留言：0更新日期：2024-09-24 21:00

本申请涉及人工智能技术领域，尤其涉及基于文本生成图像的方法、装置、电子设备及存储介质。本申请通过将待生成图像的目标描述性文本输入大型语言模型得到目标语义嵌入特征，以及将目标描述性文本输入文本编辑器模型得到目标文本嵌入特征；进而，将目标语义嵌入特征和目标文本嵌入特征输入目标交叉适配器模型得到目标增强文本特征；进一步地，将目标增强文本特征和噪声图像输入目标文本生成图像模型，生成目标描述性文本对应的目标图像。这样，本申请通过利用大型语言模型来增强文本生成图像模型的语义表达能力，可以更好地捕捉文本与图像之间的语义对应关系，从而生成更加准确和丰富的图像。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能，尤其涉及基于文本生成图像的方法、装置、电子设备及存储介质。

技术介绍

1、如今人工智能技术的发展越来越快了，文生图(text-to-image ai)已成为了艺术与科技交汇的前沿领域。这种技术能够将文字描述转化为具体的图像，为艺术家、设计师和普通用户提供了全新的创作工具和表达方式。

2、目前，扩散模型在文本到图像生成模型方面取得了重大进展，如去噪扩散概率模型(denoising diffusion probabilistic models，ddpm)、多模态预训练模型dall-e、文生图大模型imagen等。然而，在生成复杂而密集的提示描述(如属性绑定、方向描述和多个对象)的图像时，它们经常会遇到挑战，导致生成的图像效果不佳。

3、需要说明的是，在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

1、有鉴于此，本申请实施例至少提供基于文本生成图像的方法、装置、电子设备及存储介质，可以生成更加准确和丰富的图像。

2、本申请主要包括以下几个方面：

3、第一方面，本申请实施例提供一种基于文本生成图像的方法，所述方法包括：

4、获取待生成图像的目标描述性文本；

5、将所述目标描述性文本输入大型语言模型得到目标语义嵌入特征，以及将所述目标描述性文本输入文本编辑器模型得到目标文本嵌入特征；

6、将所述目标语义

7、将所述目标增强文本特征和噪声图像输入目标文本生成图像模型，生成所述目标描述性文本对应的目标图像。

8、第二方面，本申请实施例还提供一种基于文本生成图像的装置，所述装置包括：

9、获取模块，用于获取待生成图像的目标描述性文本；

10、第一确定模块，用于将所述目标描述性文本输入大型语言模型得到目标语义嵌入特征，以及将所述目标描述性文本输入文本编辑器模型得到目标文本嵌入特征；

11、第二确定模块，用于将所述目标语义嵌入特征和所述目标文本嵌入特征输入目标交叉适配器模型进行融合处理，得到目标增强文本特征；

12、生成模块，用于将所述目标增强文本特征和噪声图像输入目标文本生成图像模型，生成所述目标描述性文本对应的目标图像。

13、第三方面，本申请实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过所述总线进行通信，所述机器可读指令被所述处理器运行时执行上述第一方面中所述的基于文本生成图像的方法的步骤。

14、第四方面，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述第一方面中所述的基于文本生成图像的方法的步骤。

15、本申请实施例提供的基于文本生成图像的方法、装置、电子设备及存储介质，通过将根据大型语言模型得到目标语义嵌入特征和根据文本编辑器模型得到目标文本嵌入特征一同输入目标交叉适配器模型，得到目标增强文本特征，进而，将目标增强文本特征和噪声图像输入目标文本生成图像模型，可以生成目标描述性文本对应的目标图像，与相关技术中的扩散模型比如ddpm、dall-e、imagen等模型，在生成复杂而密集的提示描述的图像时，它们经常会遇到挑战，导致生成的图像效果不佳相比，本申请通过利用大型语言模型来增强文本生成图像模型的语义表达能力，可以更好地捕捉文本与图像之间的语义对应关系，从而生成更加准确和丰富的图像。

16、为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

本文档来自技高网...

【技术保护点】

1.一种基于文本生成图像的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述目标语义嵌入特征和所述目标文本嵌入特征一同输入目标交叉适配器模型，得到目标增强文本特征，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述目标增强文本特征的第一特征维度和所述目标文本嵌入特征的第二特征维度相同。

4.根据权利要求2所述的方法，其特征在于，所述语义融合特征的第三特征维度和所述目标文本嵌入特征的第二特征维度相同。

5.根据权利要求1所述的方法，其特征在于，所述目标文本生成图像模型包括变分自编码器模型和目标去噪模型，所述变分自编码器模型包括图像编码器和图像解码器；所述将所述目标增强文本特征和噪声图像输入目标文本生成图像模型，生成所述目标描述性文本对应的目标图像，包括：

6.根据权利要求1所述的方法，其特征在于，根据以下步骤训练得到所述目标文本生成图像模型：

7.根据权利要求6所述的方法，其特征在于，根据以下步骤获取所述长文本图像样本数据集：

8.根据权利要求6所述的方法

9.根据权利要求6所述的方法，其特征在于，所述基于各个所述长文本图像样本对对应的样本增强文本特征、所述样本图像以及样本噪声信息，对初始文本生成图像模型进行训练，得到所述目标文本生成图像模型，包括：

10.根据权利要求9所述的方法，其特征在于，所述基于各个所述长文本图像样本对对应的所述样本预测噪声特征和所述样本噪声信息之间的损失值，对初始文本生成图像模型进行训练，得到所述目标文本生成图像模型，包括：

11.一种基于文本生成图像的装置，其特征在于，所述装置包括：

12.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过所述总线进行通信，所述机器可读指令被所述处理器运行时执行如权利要求1至10任一所述的基于文本生成图像的方法的步骤。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至10任一所述的基于文本生成图像的方法的步骤。

...

【技术特征摘要】

1.一种基于文本生成图像的方法，其特征在于，所述方法包括：

3.根据权利要求1或2所述的方法，其特征在于，所述目标增强文本特征的第一特征维度和所述目标文本嵌入特征的第二特征维度相同。

4.根据权利要求2所述的方法，其特征在于，所述语义融合特征的第三特征维度和所述目标文本嵌入特征的第二特征维度相同。

6.根据权利要求1所述的方法，其特征在于，根据以下步骤训练得到所述目标文本生成图像模型：

7.根据权利要求6所述的方法，其特征在于，根据以下步骤获取所述长文本图像样本数据集：

8.根据权利要求6所述的方法，其特征在于，根据...

【专利技术属性】
技术研发人员：马宇航，赵增，刘柏，范长杰，胡志鹏，
申请(专利权)人：网易杭州网络有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人