基于调制融合和生成对抗网络的文本生成图像方法技术

技术编号:36128486 阅读:25 留言:0更新日期:2022-12-28 14:36
本发明专利技术公开了一种基于调制融合和对比学习生成对抗网络的文本生成图像方法,包括以下步骤:建立调制融合模块,设计成了残差结构,包含主路的两个文本特征变换层、两个卷积层和支路的一个卷积层;建立生成器,由一个映射网络、八个调制融合模块,六个上采样模块和一个卷积层组成。建立判断器网络结构判别器由一个特征提取器和三个分支组成的,三个分支包括:语义重构分支、无条件损失分支和条件损失分支。建立对比学习网络进行对比损失;优化损失函数,损失函数包括生成对抗损失、语义重构损失。本发明专利技术可以生成更加符合文本语义的图像,对于图像的真实度和语义一致性都有提升,对于图像的生成质量有了进一步提升。生成质量有了进一步提升。生成质量有了进一步提升。

【技术实现步骤摘要】
基于调制融合和生成对抗网络的文本生成图像方法


[0001]本专利技术涉及对抗网络的文本合成图像
,特别涉及一种基于调制融合和对比学习生成对抗网络的文本生成图像方法。

技术介绍

[0002]文字生成图像技术随着信息技术的不断发展和社会的进步,进入了大众的生活之中。近年来,深度学习的发展推动了研究者将注意力转向了多模态学习的探索和应用。所谓多模态学习是指将不同存在形式的信息,包括文本、图像、视频等进行多模态表示、转化、融合和学习,目前学术研究上较为成熟的是视觉和文本之间的交互,例如将一句描述作为输入,输出包含描述信息的图像,即文本生成图像。人工对文字配画耗时耗力,并且对配画生成的数量也有限,因此,通过机器自动根据文字描述生成对应的图像是非常有必要的。该项研究将会给数据智能领域带来很大的推动力,其落地也会给生产和生活带来极大的便利。
[0003]文字生成图像的应用在日常生活中使用的场景数不胜数:业主进行房屋装修时,装修公司提供装修设计图能提高业主的满意程度;公安机关根据目击证人的描述画出嫌疑人的肖像辅助破案;轻小说的插画决定轻小说的初始销量。因此,如何在人工智能不断取得新成果的背景下,利用新兴的技术来展现出文字描述的画面,是一个促进生产、提高生活质量的重要研究方向。
[0004]文本生成图像的主要研究集中于三个方面:图像生成、文本语义理解以及图像文本的语义一致性。
[0005]图像生成依靠生成对抗网络(Generative Adversarial Networks,GANs)的诞生使之成为可能,GANs是目前图像生成领域使用最广泛的技术,是生成模型发展历史上的一个里程碑。GANs优点和缺点都很明显,优点是相对于传统生成模型可以生成更高分辨率的图像,且纹理清晰,目前可以生成的最大分辨率已经达到1024x1024,其缺点是训练相对困难,容易陷入模式崩溃,并且非常难以解决。
[0006]文本语义理解就是让机器理解人类的语言,并做出正确的响应。为此应运而生的研究方向就是自然语言处理,自然语言处理的核心是语义理解,需要根据人类理解事物的规律创造出更加丰富的,灵活的,自适应能力强的特征表示。如今文本的特征表示虽然已经有了很大的进展,然而这些方法大多只能应用到分类方面,并没有办法做到完全理解文本的语义。
[0007]文本生成图像任务中,最难解决的就是语义一致性,并且最难衡量的也是语义一致性。图像和文本表达的含义是否相同取决于人类的感官,那么如何让机器能够模仿人类的感官呢?通常的做法就是建立一个深度学习模型,该模型具有两个分支,分别学习视觉感受和语句感受,映射到同一个向量空间,然后计算匹配程度,匹配程度越高,证明图像文本的语义一致性越高。在文本生成图像的系统中,如何在保证具有较高清晰度和分辨率的前提下,确保文本和图像的语义一致性是一个重要问题。
[0008]现有技术一
[0009]生成对抗网络
[1](Generative Adversarial Networks,GAN)是GoodFellow于2014年提出的基于对抗思想进行数据生成的模型,GAN最大的特点就是引入了博弈论中零和博弈的思想,对抗的双方为生成模型G和判别模型D,两个模型交替训练相互竞争。
[0010]现有技术一的缺点
[0011]GAN具有难以忽视的问题就是由于生成能力过于自由,生成不可控且训练稳定性和收敛性难以保证,容易造成模型崩塌。
[0012]现有技术二
[0013]GAN

INT

CLS
[2],先用自然语言处理技术提取出文本信息,然后再用文本特征作为后面生成图像的约束。在GAN中生成器Generator根据文本特征生成图片,继而被鉴别器Discriminator鉴定其生成效果。
[0014]现有技术二的缺点
[0015]每张图像的文本描述较少,生成的嵌入向量过于稀疏导致图像的多样性较差,图像仍然具有扭曲和不清晰的缺点。
[0016]参考文献
[0017][1]GOODFELLOW I J,POUGET

ABADIE J,MIRZA M,et al.Generative adversarial nets[C]//Conference on Neural Information Processing Systems.MIT Press,2014:2672

2680;
[0018][2]Synthesis,Reed S,Akata Z,Yan X,Logeswaran L,Schiele B,and Lee H,Generative Adversarial Text to Image.,2016,May 18;
[0019][3]Scott Reed,Zeynep Akata,Santosh Mohan,Learning What and Where to Draw.In NIPs,2016;
[0020][4]Zhang H,Xu T,Li H,et al.StackGAN:Text to Pho

to

realistic Image Synthesis with Stacked Generative Adversarial Networks[J].2017;
[0021][5]Zhang H,Xu T,Li H,et al.StackGAN++:Realistic Image Synthesis with Stacked Generative Adversarial Networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2019,41(8):1947

1962;
[0022][6]Karnewar A,Wang O.MSG

GAN:Multi

Scale Gradients for Generative Adversarial Networks[J].2019。

技术实现思路

[0023]本专利技术针对现有技术只关注图像的清晰度、分辨率和多样性,亦或是根据对话和场景图生成图像,而对文本和图像的语义一致性没有相关技术的缺陷,提供了一种基于调制融合和生成对抗网络的文本生成图像方法。关注文本和图像的语义一致性,确保生成的图像在拥有较高清晰度和多样性的同时,保证图像内容与文本内容匹配。
[0024]为了实现以上专利技术目的,本专利技术采取的技术方案如下:
[0025]一种基于调制融合和对比学习生成对抗网络的文本生成图像方法,包括以下步骤:
[0026]一、建立调制融合模块;
[0027]创建文本特征变换层(Text Feature Transform Layer,TFT

Layer),文本特征变
...

【技术保护点】

【技术特征摘要】
1.一种基于调制融合和对比学习生成对抗网络的文本生成图像方法,其特征在于,包括以下步骤:一、建立调制融合模块;创建文本特征变换层(Text Feature Transform Layer,TFT

Layer),文本特征变换层包含两个并行的全连接神经网络生成调制参数,并且为了增强条件向量的表达能力,全连接层之间通过函数进行非线性激活;TFT

Layer的输入是文本嵌入向量和上一隐层特征图,分别通过两个全连接层学习调制参数和,用于控制特征图的缩放操作,用于控制特征图的平移操作;调制融合模块设计成了残差结构,包含主路的两个文本特征变换层、两个卷积层和支路的一个卷积层,支路的卷积层是一个1
×
1的卷积操作,在主路中,特征图先后进行两次特征变换层调制后,每次都经过一个3
×
3的卷积层,另外,并避免ReLU函数造成的稀疏问题,所有激活函数使用LeakyReLU函数;在残差结构最后的逐位相加之前,使用一个可学习的自适应系数α与主路的特征图相乘,该参数初始化为0,目的是方便输出在最开始的时候只学习局部特征,然后逐渐学会给经过文本调制后的特征赋予更多的权重;每个调制融合模块的输入是上一隐层的特征图和文本嵌入向量;二、建立生成器网络结构;生成器由一个映射网络、八个调制融合模块,六个上采样模块和一个卷积层组成;映射网络的作用是将噪声向量升维成为可以上采样的特征图,输入是噪声z~N(0,1),维度为(batchsize,100),通过一个全连接层后输出(batchsize,4*4*100),然后转换成(batchsize,

1,4,4)的特征图;三、建立判断器网络结构语义重构的判别器由一个特征提取器和三个分支组成的,输出是batch
×
256
×4×
4的特征图,三个分支包括:语义重构分支、无条件损失分支和条件损失分支;四、建立对比学习网络进行对比损失;对比学习网络框架由生成器和判别器组成;对比学习的目标是训练出一个编码器提取输入数据的特征,使匹配数据的评价分数大于不匹配数据的评价分数,计算对比损失,作用于生成器;五、优化损失函数;损失函数包括生成对抗损失、语义重构损失,公式表示为:L
G
=L
Gadv
+λ1L
recon

z
L
info
L
D
=L
Dadv
优化损失函数步骤如下:1:设:Batchsize为N,D为判别器,G为生成器,t和t

为相同语义的文本,t^为不匹配文本,g为文本编码器,f图像编码器,X为真实图像;2:For{1,

,700}do,训练周期700轮;3:S=g(t),得到文本嵌入向量;4:S

=g(t

),得到相同语义的文本嵌入向量;5:得到不匹配的文本嵌入向量;
6:z~N(0,1),从随机高斯分布采样噪声;6:X'=G(S,z),生成图像,匹配文本;7:X”=G(S

,z),生成图像,匹配文本;8:生成图像,不匹配文本;9:D_real=D(X,t),真实图像,匹配文本;10:D_fake=D(X^',S),D(X^”,S),生成图像,匹配文本;11:L_D=hinge(X,1)+hinge(X^',

1)+hinge(X^”,

1),判别器损失;12:D

D

η*L_D/D,优化判别器;13:L_G=hinge(X^',1)+hinge(X^”,1)+L_info+L_recon,生成器损失;14:G

G

η*L_G/G,优化生成器;15:结束。2.根据权利要求1所述的一种基于调制融合和对比学习生成对抗网络的文本生成图像方法,其特征在于:步骤一中用于控制特征图的缩放操作,用于控制特征图的平移操作,计算公式如式1、2和3;γ
i
,β
i
=Repeat(γ
i
,β
i
)
ꢀꢀꢀꢀꢀꢀꢀ
(2)(2)是所述的两个全连接神经网络,t表示文本嵌入向量,维度为Batchsize
×
...

【专利技术属性】
技术研发人员:高文超周思杰张杰陈诗雨任圣博
申请(专利权)人:中国矿业大学北京
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1