基于扩散模型的无训练布局到图像生成方法技术

技术编号：43761531 阅读：16 留言：0更新日期：2024-12-24 16:04

本发明专利技术提供了基于扩散模型的无训练布局到图像生成方法。本发明专利技术设计了针对交叉注意力引导的免训练布局到图像合成方法，从而实现布局生成图像的快速高效实现，由此，对于给定的一张布局图像与文本提示词，可以直接生成图像。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机视觉中的图像生成，具体而言，涉及基于扩散模型的无训练布局到图像生成方法。

技术介绍

1、文本到图像的扩散模型，如dall-e 2 、imagen和stable diffusion，表现出了在文本输入条件下合成高质量图像的能力。这些模型由图像文本对组成的大规模数据集上进行训练。这一进步引起了研究界和公众的极大关注，导致了众多图像编辑工具的兴起并将其扩展到各种下游任务，根据用户指令呈现多元化的个性化生成结果，简化了创意设计的过程，提高了专业艺术家和非专业人士的生产力。

2、然而，尽管取得了这些成功，但是在仅依赖文本提示进行空间构图方面仍存在挑战。例如，在场景设计过程中，用户所期望生成的内容必须遵循指定的布局，而这仅依赖文本实现是不够的。最先进的图像生成器也难以正确通过文本传达准确空间构成，诸如“abicycle on top of a boat”之类的与位置相关的描述性短语，生成器在生成图像时，往往不能准确的描述位置关系，并且容易造成图像模糊、图像错乱等错误。

3、为了解决这个问题，人们研究了布局到图像合成（lis），将布局条件纳入生成过程，训练全新的布局到图像模型。然而，这需要大量的配对布局图像训练数据，获取这些数据成本高昂且具有挑战性，并且不能保证新模型架构的泛化性。此外，训练和微调模型都需要大量的计算。

4、最近的一项研究表明，扩散模型的自注意力图和交叉注意力图具有丰富的结构信息，可以通过输入布局操控交叉注意力图来实现布局到图像的免训练实现。然而，虽然实现了布局到图像的免

5、可见，如何在没有预先数据的情况下，给定一张布局图片和一段文本提示词，准确生成指定空间位置文本目标的图片，是目前需要进一步解决的技术问题。

技术实现思路

1、为解决上述技术问题，本专利技术提供了一种基于扩散模型的无训练布局到图像生成方法，所述方法包括如下步骤：步骤一：获取要进行图像生成的布局图像和文本提示词，使用clip模型编码器将文本提示词编码成文本向量。

2、步骤二：将文本向量、布局图像和随机生成的高斯噪声输入预训练的稳定扩散模型中，提取布局图像中标注框所在区域，在稳定扩散模型的交叉注意力图中采用一个软掩膜，得到基类掩模图，获得交叉注意力函数和交叉注意力图的全部计算结果。

3、步骤三：提取交叉注意力函数与核心词语位置相对应的掩膜，应用边缘提取，使用sobel算子最大化边缘区域内的交叉注意力图的方差以实现最大化边缘区域。

4、步骤四：提取交叉注意力图，将文本提示词所生成的各交叉注意力图与加权因子进行加权平均计算，获得目标实际交叉注意力图（丰富语义信息）。

5、步骤五：计算目标实际交叉注意力图与实际注意力图之间的均方误差，在每个降噪步骤中修改噪声样本，以使用梯度下降最小化损失，选择布局图像与文本语义最拟合的结果作为最终生成结果。

6、可选地，在步骤一之前，还包括：下载得到的开源的文本到图像的基于稳定扩散模型的生成器和预训练的clip模型编码器。

7、可选地，步骤一中，给定的布局图像由个边界框组成，给定的文本提示词包含个与边界框相对应的文本短语；其中，第个标注框的位置和大小由所影响，用于描述在边界框中所需对象；将文本提示词使用预训练的clip模型编码器进行编码，得到文本向量；其中，是嵌入维数。

8、可选地，步骤二中包括：将文本向量、布局图像和随机生成的高斯噪声输入预训练的稳定扩散模型中，经过unet网络去噪后，第步交叉注意力图用公式表示为：；其中，查询是从给定大小的特征图中计算出，键由文本向量通过线性映射得出；有个注意力图，根据感兴趣的文本令牌提取对应的和；表示文本令牌与特征映射中每个空间位置的关联强度。

9、进一步，步骤二中，随机生成的高斯噪声是尺寸为的纯噪声图像，和分别代表图像的高度和宽度；将每个边界框变换为其对应的二进制掩码，在稳定扩散模型的交叉注意力图中采用一个软掩膜；得到基类掩膜图，从而得到损失函数；其中，，。

10、可选地，步骤三中，最大化边缘区域内的交叉注意力图的方差，计算方法为：，其中，表示最大化边缘区域内的交叉注意力图的方差；表示sobel算子，表示方差函数。

11、可选地，步骤四中，交叉注意力图加权计算方法为：；其中，表示文本开始标记[sot]令牌所对应的文本提示词所生成的交叉注意力图，表示文本结束标记[eot]令牌所对应的文本提示词所生成的交叉注意力图，表示为加权因子。

12、可选地，步骤五中，计算生成的目标交叉注意力图与实际交叉注意力图之间的均方误差：；其中，表示目标交叉注意力图与实际交叉注意力图之间的均方误差；是交叉注意力图的总数；采用稳定扩散进行降噪步骤中，通过上一时刻的图像特征减去当前时刻的噪声向量，得到当前时刻的图像特征，用公式表示为：；其中，表示当前时刻的图像特征，表示上一时刻的图像特征；是控制引导强度的因子，代表噪声时刻表；为总体约束，，为超参数；用于平衡不同对象之间交叉注意力图的关联性，是控制引导强度的因子。

13、本专利技术的有益效果在于：本专利技术利用文本到图像生成模型得到布局到图像生成，设计了空间感知注意力模块，在交叉注意力使用软掩膜生成基类掩模图，以实现目标对象空间约束，将其精准的放置在指定区域。同时应用边缘提取，最大化边缘区域的交叉注意力图的方差，用于平衡不同对象的交叉注意力图的关联性。最后设计令牌权重模块，细化图像内容，填充去噪过程中忽略的语义信息，确保文字特征与生成图像的一致性。

本文档来自技高网...

【技术保护点】

1.一种基于扩散模型的无训练布局到图像生成方法，其特征在于，所述方法包括如下步骤：步骤一：获取要进行图像生成的布局图像和文本提示词，使用Clip模型编码器将文本提示词编码成文本向量；步骤二：将文本向量、布局图像和随机生成的高斯噪声输入预训练的稳定扩散模型中，提取布局图像中标注框所在区域，在稳定扩散模型的交叉注意力图中采用一个软掩膜，得到基类掩模图，获得交叉注意力函数和交叉注意力图的全部计算结果；步骤三：提取交叉注意力函数与核心词语位置相对应的掩膜，应用边缘提取，使用Sobel算子最大化边缘区域内的交叉注意力图的方差以实现最大化边缘区域；步骤四：提取交叉注意力图，将文本提示词所生成的各交叉注意力图与加权因子进行加权平均计算，获得目标实际交叉注意力图；步骤五：计算目标实际交叉注意力图与实际注意力图之间的均方误差，在每个降噪步骤中修改噪声样本，以使用梯度下降最小化损失，选择布局图像与文本语义最拟合的结果作为最终生成结果。

2.根据权利要求1所述的一种基于扩散模型的无训练布局到图像生成方法，其特征在于：在步骤一之前，还包括：下载得到的开源的文本到图像的基于稳定扩散模型的生成器和预训练的Clip模型编码器。

3.根据权利要求2所述的一种基于扩散模型的无训练布局到图像生成方法，其特征在于：步骤一中，给定的布局图像由个边界框组成，给定的文本提示词包含个与边界框相对应的文本短语；其中，第个标注框的位置和大小由所影响，用于描述在边界框中所需对象；将文本提示词使用预训练的Clip模型编码器进行编码，得到文本向量；其中，是嵌入维数。

4.根据权利要求3所述的一种基于扩散模型的无训练布局到图像生成方法，其特征在于：步骤二中包括：将文本向量、布局图像和随机生成的高斯噪声输入预训练的稳定扩散模型中，经过Unet网络去噪后，第步交叉注意力图用公式表示为：；其中，查询是从给定大小的特征图中计算出，键由文本向量通过线性映射得出；有个注意力图，根据感兴趣的文本令牌提取对应的和；表示文本令牌与特征映射中每个空间位置的关联强度。

5.根据权利要求4所述的一种基于扩散模型的无训练布局到图像生成方法，其特征在于：步骤二中，随机生成的高斯噪声是尺寸为的纯噪声图像，和分别代表图像的高度和宽度；将每个边界框变换为其对应的二进制掩码，在稳定扩散模型的交叉注意力图中采用一个软掩膜；得到基类掩膜图，从而得到损失函数；其中，，。

6.根据权利要求5所述的一种基于扩散模型的无训练布局到图像生成方法，其特征在于：步骤三中，最大化边缘区域内的交叉注意力图的方差，计算方法为：，其中，表示最大化边缘区域内的交叉注意力图的方差；表示Sobel算子，表示方差函数。

7.根据权利要求6所述的一种基于扩散模型的无训练布局到图像生成方法，其特征在于：步骤四中，交叉注意力图加权计算方法为：；其中，表示文本开始标记[SOT]令牌所对应的文本提示词所生成的交叉注意力图，表示文本结束标记[EOT]令牌所对应的文本提示词所生成的交叉注意力图，表示为加权因子。

8.根据权利要求7所述的一种基于扩散模型的无训练布局到图像生成方法，其特征在于：步骤五中，计算生成的目标交叉注意力图与实际交叉注意力图之间的均方误差：；其中，表示目标交叉注意力图与实际交叉注意力图之间的均方误差；是交叉注意力图的总数；采用稳定扩散进行降噪步骤中，通过上一时刻的图像特征减去当前时刻的噪声向量，得到当前时刻的图像特征，用公式表示为：；其中，表示当前时刻的图像特征，表示上一时刻的图像特征；是控制引导强度的因子，代表噪声时刻表；为总体约束，，为超参数；用于平衡不同对象之间交叉注意力图的关联性，是控制引导强度的因子。

...

【技术特征摘要】

1.一种基于扩散模型的无训练布局到图像生成方法，其特征在于，所述方法包括如下步骤：步骤一：获取要进行图像生成的布局图像和文本提示词，使用clip模型编码器将文本提示词编码成文本向量；步骤二：将文本向量、布局图像和随机生成的高斯噪声输入预训练的稳定扩散模型中，提取布局图像中标注框所在区域，在稳定扩散模型的交叉注意力图中采用一个软掩膜，得到基类掩模图，获得交叉注意力函数和交叉注意力图的全部计算结果；步骤三：提取交叉注意力函数与核心词语位置相对应的掩膜，应用边缘提取，使用sobel算子最大化边缘区域内的交叉注意力图的方差以实现最大化边缘区域；步骤四：提取交叉注意力图，将文本提示词所生成的各交叉注意力图与加权因子进行加权平均计算，获得目标实际交叉注意力图；步骤五：计算目标实际交叉注意力图与实际注意力图之间的均方误差，在每个降噪步骤中修改噪声样本，以使用梯度下降最小化损失，选择布局图像与文本语义最拟合的结果作为最终生成结果。

2.根据权利要求1所述的一种基于扩散模型的无训练布局到图像生成方法，其特征在于：在步骤一之前，还包括：下载得到的开源的文本到图像的基于稳定扩散模型的生成器和预训练的clip模型编码器。

3.根据权利要求2所述的一种基于扩散模型的无训练布局到图像生成方法，其特征在于：步骤一中，给定的布局图像由个边界框组成，给定的文本提示词包含个与边界框相对应的文本短语；其中，第个标注框的位置和大小由所影响，用于描述在边界框中所需对象；将文本提示词使用预训练的clip模型编码器进行编码，得到文本向量；其中，是嵌入维数。

4.根据权利要求3所述的一种基于扩散模型的无训练布局到图像生成方法，其特征在于：步骤二中包括：将文本向量、布局图像和随机生成的高斯噪声输入预训练的稳定扩散模型中，经过unet网络去噪后，第步交叉注...

【专利技术属性】
技术研发人员：林志洁，郑心浩，郑宗昊，周礼洁，王浩麟，潘玥，平升阳，泮宇鑫，邢锦琦，孙以恒，刘畅，刘轩麟，华浩天，赵科竣，应卫东，
申请(专利权)人：浙江科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人