基于调制融合和生成对抗网络的文本生成图像方法技术

技术编号：36128486 阅读：34 留言：0更新日期：2022-12-28 14:36

本发明专利技术公开了一种基于调制融合和对比学习生成对抗网络的文本生成图像方法，包括以下步骤：建立调制融合模块，设计成了残差结构，包含主路的两个文本特征变换层、两个卷积层和支路的一个卷积层；建立生成器，由一个映射网络、八个调制融合模块，六个上采样模块和一个卷积层组成。建立判断器网络结构判别器由一个特征提取器和三个分支组成的，三个分支包括：语义重构分支、无条件损失分支和条件损失分支。建立对比学习网络进行对比损失；优化损失函数，损失函数包括生成对抗损失、语义重构损失。本发明专利技术可以生成更加符合文本语义的图像，对于图像的真实度和语义一致性都有提升，对于图像的生成质量有了进一步提升。生成质量有了进一步提升。生成质量有了进一步提升。

全部详细技术资料下载

【技术实现步骤摘要】
基于调制融合和生成对抗网络的文本生成图像方法

[0001]本专利技术涉及对抗网络的文本合成图像
，特别涉及一种基于调制融合和对比学习生成对抗网络的文本生成图像方法。

技术介绍

[0002]文字生成图像技术随着信息技术的不断发展和社会的进步，进入了大众的生活之中。近年来，深度学习的发展推动了研究者将注意力转向了多模态学习的探索和应用。所谓多模态学习是指将不同存在形式的信息，包括文本、图像、视频等进行多模态表示、转化、融合和学习，目前学术研究上较为成熟的是视觉和文本之间的交互，例如将一句描述作为输入，输出包含描述信息的图像，即文本生成图像。人工对文字配画耗时耗力，并且对配画生成的数量也有限，因此，通过机器自动根据文字描述生成对应的图像是非常有必要的。该项研究将会给数据智能领域带来很大的推动力，其落地也会给生产和生活带来极大的便利。
[0003]文字生成图像的应用在日常生活中使用的场景数不胜数：业主进行房屋装修时，装修公司提供装修设计图能提高业主的满意程度；公安机关根据目击证人的描述画出嫌疑人的肖像辅助破案；轻小说的插画决定轻小说的初始销量。因此，如何在人工智能不断取得新成果的背景下，利用新兴的技术来展现出文字描述的画面，是一个促进生产、提高生活质量的重要研究方向。
[0004]文本生成图像的主要研究集中于三个方面：图像生成、文本语义理解以及图像文本的语义一致性。
[0005]图像生成依靠生成对抗网络(Generative Adversarial Networks，GANs)的诞生使之成为可能

【技术保护点】

【技术特征摘要】
1.一种基于调制融合和对比学习生成对抗网络的文本生成图像方法，其特征在于，包括以下步骤：一、建立调制融合模块；创建文本特征变换层(Text Feature Transform Layer，TFT
‑
Layer)，文本特征变换层包含两个并行的全连接神经网络生成调制参数，并且为了增强条件向量的表达能力，全连接层之间通过函数进行非线性激活；TFT
‑
Layer的输入是文本嵌入向量和上一隐层特征图，分别通过两个全连接层学习调制参数和，用于控制特征图的缩放操作，用于控制特征图的平移操作；调制融合模块设计成了残差结构，包含主路的两个文本特征变换层、两个卷积层和支路的一个卷积层，支路的卷积层是一个1
×
1的卷积操作，在主路中，特征图先后进行两次特征变换层调制后，每次都经过一个3
×
3的卷积层，另外，并避免ReLU函数造成的稀疏问题，所有激活函数使用LeakyReLU函数；在残差结构最后的逐位相加之前，使用一个可学习的自适应系数α与主路的特征图相乘，该参数初始化为0，目的是方便输出在最开始的时候只学习局部特征，然后逐渐学会给经过文本调制后的特征赋予更多的权重；每个调制融合模块的输入是上一隐层的特征图和文本嵌入向量；二、建立生成器网络结构；生成器由一个映射网络、八个调制融合模块，六个上采样模块和一个卷积层组成；映射网络的作用是将噪声向量升维成为可以上采样的特征图，输入是噪声z～N(0,1)，维度为(batchsize,100)，通过一个全连接层后输出(batchsize,4*4*100)，然后转换成(batchsize,
‑
1,4,4)的特征图；三、建立判断器网络结构语义重构的判别器由一个特征提取器和三个分支组成的，输出是batch
×
256
×4×
4的特征图，三个分支包括：语义重构分支、无条件损失分支和条件损失分支；四、建立对比学习网络进行对比损失；对比学习网络框架由生成器和判别器组成；对比学习的目标是训练出一个编码器提取输入数据的特征，使匹配数据的评价分数大于不匹配数据的评价分数，计算对比损失，作用于生成器；五、优化损失函数；损失函数包括生成对抗损失、语义重构损失，公式表示为：L
G
＝L
Gadv
+λ1L
recon
+λ
z
L
info
L
D
＝L
Dadv
优化损失函数步骤如下：1:设：Batchsize为N，D为判别器，G为生成器，t和t
’
为相同语义的文本，t^为不匹配文本，g为文本编码器，f图像编码器,X为真实图像；2:For{1,
…
,700}do，训练周期700轮；3:S＝g(t)，得到文本嵌入向量；4:S
’
＝g(t
’
)，得到相同语义的文本嵌入向量；5:得到不匹配的文本嵌入向量；
6:z～N(0,1)，从随机高斯分布采样噪声；6:X'＝G(S,z)，生成图像，匹配文本；7:X”＝G(S
’
,z)，生成图像，匹配文本；8:生成图像，不匹配文本；9:D_real＝D(X,t)，真实图像，匹配文本；10:D_fake＝D(X^',S),D(X^”,S)，生成图像，匹配文本；11:L_D＝hinge(X,1)+hinge(X^',
‑
1)+hinge(X^”,
‑
1)，判别器损失；12:D
←
D
‑
η*L_D/D，优化判别器；13:L_G＝hinge(X^',1)+hinge(X^”,1)+L_info+L_recon，生成器损失；14:G
←
G
‑
η*L_G/G，优化生成器；15:结束。2.根据权利要求1所述的一种基于调制融合和对比学习生成对抗网络的文本生成图像方法，其特征在于：步骤一中用于控制特征图的缩放操作，用于控制特征图的平移操作，计算公式如式1、2和3；γ
i
，β
i
＝Repeat(γ
i
，β
i
)
ꢀꢀꢀꢀꢀꢀꢀ
(2)(2)是所述的两个全连接神经网络，t表示文本嵌入向量，维度为Batchsize
×
...

【专利技术属性】
技术研发人员：高文超，周思杰，张杰，陈诗雨，任圣博，
申请(专利权)人：中国矿业大学北京，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人