一种多中心量化变分自编码扩散模型文生图方法及系统技术方案

技术编号：41898145 阅读：7 留言：0更新日期：2024-07-05 14:06

本发明专利技术公开了一种多中心量化变分自编码扩散模型文生图方法及系统。首先载入向量量化变分自编码器的预训练模型，对模型参数进行微调，并进一步使用自组织映射的方式训练更新码本；然后载入Clip文字图片预训练的扩散模型，对扩散模型进行微调，并进一步使用全局异步迭代更新的方式加快扩散模型的训练速度；接着在文生图过程中，设计多中心量化变分自编码方法，找到与文字向量匹配图片的局部特征向量，经过多中心量化变分自编码器量化后求得多个邻近表征向量，将近邻向量的索引放入扩散模型训练，再进行加权组合成一个多中心表征向量，最后将多中心表征向量输入解码器生成所需的高分辨率图像。本发明专利技术的多中心量化变分自编码扩散模型文生图方法可以提高文生图的质量和速度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于图像生成，涉及一种给出文字生成图片的方法，可应用于公益广告的生成，符合公益广告低成本，高质量的要求。

技术介绍

1、在生成模型领域扩散模型日益成为主流的方法，相比传统的生成模型如vae、gan和流式模型；扩散模型可以生成更高质量的图片，并且训练模型的难度远低于训练生成对抗网络难度，但一般的扩散模型面临着训练速度慢、训练出的图像生成文字的模型缺乏多样性的特点。

2、虽然扩散模型在图像、音频等数据的应用中取得了巨大的成功，但他们不能合适的迁移到跨模态的任务中，在很多重要的领域，数据有特殊的结构文字生成图片模型核心难点在于，如何找出一种扩散模型可以生成在分离数据情况下的扩散模型。

3、在本专利技术作出之前，文字生成图片的方法大多的生成方法是使用自回归模型建模或者使用简单的跨模态扩散模型的方法实现，但之前的生成方法速度较慢且不能充分考虑图片全局信息从而导致误差累积，生成图像的质量不高等问题。

技术实现思路

1、专利技术目的：本专利技术的目的是提供一种多中心量化变分自编码扩散模型文生图方法及系统，能够快速生成高质量图片。

2、技术方案：为实现上述专利技术目的，本专利技术采用如下技术方案：

3、一种多中心量化变分自编码扩散模型文生图方法，包括以下步骤：

4、步骤1)对多中心量化变分自编码扩散模型的变分自编码器和扩散模型的神经网络参数部分进行训练，所述多中心量化变分自编码扩散模型包括变分自编码器和扩散模型，所述扩散模型用于

5、载入矢量量化变分自编码器的预训练模型并进行模型参数的微调；

6、通过载入预先制作好的文字匹配图片数据集，与输入文字所匹配图片数据集中的图片进入编码器之后计算模型的损失函数来更新码本和模型的参数；

7、载入clip文字图片预训练扩散模型并对模型进行微调；

8、通过随机游走矩阵实现多中心量化变分自编码扩散模型的前向加噪过程；

9、逆向去噪过程训练，通过假设一个先验概率去估计后验的转移分布并计算两者的kl散度来更新网络参数；

10、步骤2)使用训练完成的多中心量化变分自编码扩散模型实现文生图，包括；

11、计算与输入文字向量相匹配的图片的局部向量zi的距离，并取与zi距离最相邻的l条向量记为

12、通过使用多中心量化变分自编码扩散模型的扩散模型部分，对经过多中心变分自编码器量化后的图片索引进行扩散，结合多中心的方法，进行权重加和得到新的表征记为向量用来作为多中心的表征向量，其中是对所选取最近的l′个向量进行扩散得到的向量，l′∈[1，l]，α1，α2，…，αl是全局权重向量，⊙表示哈达玛积，通过所述多中心的表征向量来进行图像生成，得到最终生成图像。

13、作为优选，矢量量化变分自编码器的训练中，初始化码本空间b是k×d维大小确定的空间，其中k代表码本元素的数量，d代表的是向量的维度，输入一张图片经过编码器首先将得到的图片数据对其编码为d维的向量，计算损失函数如下：

14、

15、其中的表示当前训练到第t次，将之前训练共t次loss做一个累积，x代表图片向量，e(x)代表图片向量输入到编码器中，sg是梯度停止的意思，用于解决训练过程中梯度消失的问题，d(z)代表经过解码器输出的向量，z代表经过码本空间后输出的表征向量；用于更新多中心变分自编码器的编码器和解码器的神经网络参数，用于来更新码本，用于加快码本空间的收敛速度。

16、作为优选，使用自组织映射的方法实现码本的生成，采用som的方法更新码本，其中损失具体表示为：

17、

18、其中表示码本中在t时刻第i个节点的邻域计数，表示码本第i个节点周围有多少个相关的输入图片样本特征；每次更新时，会同时考虑上一次的邻域计数和当前t时刻的向量的数量γ是衰减因子；第i个节点在第t时刻的加权平均值；是一个计算的中间变量；s是指t时刻取得与第i节点最相邻的s个节点，hi，s(t)是指在t时刻与第i节点相近的s邻域的邻域函数，用于确定影响力范围，采用高斯函数来表示向量之间的邻域关系；反复迭代自组织的邻域函数得到最终的码本。

19、作为优选，所述全局权重向量为自适应全局权重向量，α1，…，αj，…，αl均为d维列向量形式，序号j是通过计算码本向量与zi距离排序的索引值，α1，…，αj，…，αl的取值根据序号j计算，按序减小。

20、作为优选，所述随机游走矩阵qt的设计是为了记住路径，使得多中心量化变分自编码扩散模型去噪时变得更加方便；

21、

22、在qt中有k·βt的概率被均匀扩散，αt＝(1-k·βt-γt)/k的概率保持原有情况不变，有γt的概率被掩码。

23、作为优选，使用马尔科夫链定义多中心量化变分自编码扩散模型的加噪过程具体为：

24、q(zt|zt-1)＝vt(zt)qtv(zt-1)

25、

26、其中其中向量v是k维独热编码列向量，向量中每次仅有一个元素为1，其余皆为0，zt，zt-1是指经过t，t-1步状态转移扩散后得到的图片的特征向量的索引，z0是指输入文字未经过状态转移扩散所得到的原始图片的特征向量的索引。

27、作为优选，所述逆向去噪过程采用全局异步迭代更新的方法，具体为：

28、根据自适应全局异步迭代更新方法，首先使用逐步更新的方法输入zt输出zt-1每次一步的方式还原图像，使用全局异步更新的方法输入zt输出zt-δt，zt代表t时刻扩散所得的图像表征向量；逐步更新时每次仅前进一步前进到δt步共迭代δt次与跨步更新迭代一次的结果计算l2损失；具体为：

29、

30、其中，是一对自适应权重项，用来平衡两项之间的权重，zδt代表跨步δt步隐空间的表达，代表跨δt步的隐空间和通过训练好的扩散模型神经网络θ的情况下所生成的图片，x是逐步更新中每次输入的图片；是假设在t时刻估计所得的参数和已知的zt作为条件所得的情况下zt-δt的分布情况，是假设的先验概率分布，代表在训练好的扩散模型神经网络θ的情况下，通过给定文字向量y和确定的zt的信息所估计得到的向量的索引这里并不是最终经过扩散所得z0，而是作为一个中间变量在任意t时刻得到的一个近似变量，t是人为设定的常数。

31、一种多中心量化变分自编码扩散模型文生图系统，包括：

32、训练模块，用于对多中心量化变分自编码扩散模型的变分自编码器和扩散模型的神经网络参数部分进行训练，所述多中心量化变分自编码扩散模型包括变分自编码器和扩散模型，所述扩散模型用于对量化后的图片特征编码的索引进行扩散；包括：

33、编码器训练单元，用于载入矢量量化变分自编码器的预训练模型并进行模型参数的微调；以及，通过载入预先制作好的文字匹配图片数据集，与输入文字所匹配图片数据集中的图片进入编码器之后计本文档来自技高网...

【技术保护点】

1.一种多中心量化变分自编码扩散模型文生图方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种多中心量化变分自编码扩散模型文生图方法，其特征在于，矢量量化变分自编码器的训练中，初始化码本空间记为B是K×d维大小确定的空间，其中K代表码本元素的数量，d代表的是向量的维度，输入一张图片经过编码器首先将得到的图片数据对其编码为d维的向量，计算损失函数如下：

3.根据权利要求2所述的一种多中心量化变分自编码扩散模型文生图方法，其特征在于，使用自组织映射的方法实现码本的生成，其中损失具体表示为：

4.根据权利要求1所述的一种多中心量化变分自编码扩散模型文生图方法，其特征在于，所述全局权重向量为自适应全局权重向量，α1,…,αj,…,αl均为d维列向量形式，序号j是通过计算码本向量与zi距离排序的索引值，α1,…,αj,…,αl的取值根据序号j计算，按序减小。

5.根据权利要求1所述的一种多中心量化变分自编码扩散模型文生图方法，其特征在于，所述随机游走矩阵Qt是k×k的矩阵设计是为了记住路径，使得多中心量化变分自编码扩散模型去噪时变得更加方便；

6.根据权利要求5所述的一种多中心量化变分自编码扩散模型文生图方法，其特征在于，使用马尔科夫链定义多中心量化变分自编码扩散模型的加噪过程具体为:

7.根据权利要求1所述的一种多中心量化变分自编码扩散模型文生图方法，其特征在于，所述逆向去噪过程采用全局异步迭代更新的方法，具体为：

8.一种多中心量化变分自编码扩散模型文生图系统，其特征在于，包括：

9.一种计算机系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述计算机程序被加载至处理器时实现根据权利要求1-7任一项所述的多中心量化变分自编码扩散模型文生图方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现根据权利要求1-7任一项所述的多中心量化变分自编码扩散模型文生图方法的步骤。

...

【技术特征摘要】

1.一种多中心量化变分自编码扩散模型文生图方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种多中心量化变分自编码扩散模型文生图方法，其特征在于，矢量量化变分自编码器的训练中，初始化码本空间记为b是k×d维大小确定的空间，其中k代表码本元素的数量，d代表的是向量的维度，输入一张图片经过编码器首先将得到的图片数据对其编码为d维的向量，计算损失函数如下：

3.根据权利要求2所述的一种多中心量化变分自编码扩散模型文生图方法，其特征在于，使用自组织映射的方法实现码本的生成，其中损失具体表示为：

5.根据权利要求1所述的一种多中心量化变分自编码扩散模型文生图方法，其特征在于，所述随机游...

【专利技术属性】
技术研发人员：徐晓华，徐天祺，何萍，郑斯丹，胡雨豪，
申请(专利权)人：扬州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人