一种基于改进版文本解析器的文本至图像生成算法制造技术

技术编号:34842826 阅读:18 留言:0更新日期:2022-09-08 07:40
本发明专利技术属于计算机视觉技术领域,具体涉及一种基于改进版文本解析器的文本至图像生成算法。本发明专利技术是一种端到端从文本到图像的生成器,它可以解析文本,提取出主、谓、宾三元组,从而生成符合文本描述的布局图,最终依据布局生成图像。本发明专利技术标注词性,识别文本并提取出文本中(主、谓、宾)三元组,然后通过人工分类网络及学习出来的关系自动分类网络进行6种几何映射,从而依据最终三元组生成符合文本描述的布局图。基于语义表达的多样性,我们的映射关系是一对多而非一对一的,如此得到的布局图也具有多样性。最后我们从布局图得到复杂场景,并融合了风格迁移,可生成具有特殊风格的图像。可生成具有特殊风格的图像。可生成具有特殊风格的图像。

【技术实现步骤摘要】
一种基于改进版文本解析器的文本至图像生成算法


[0001]本专利技术属于计算机视觉
,具体涉及一种基于改进版文本解析器的文本至图像生成算法。

技术介绍

[0002]图像生成相关背景:目前,人工智能领域的发展备受人们的关注。在计算机视觉领域,深度学习已经在图像识别、图像分类、图像分割以及图像的语义描述等方向大放异彩,并展现出优秀性能。然而时至今日,图像生成问题仍是一项艰巨的挑战,尤其是由文本到图像这种跨模态生成的任务。按照生成对象的不同,该任务具体可以分成单目标物体图像生成与多目标复杂场景图像生成两种,前者任务将着重生成高质量具有丰富细节的单独物体,而后者任务则针对多个物体的生成,且不同物体之间具有多样关系,属于更复杂更具挑战性的任务。因此,本专利主要针对于多目标的复杂场景图像生成,设计了有效的文本解析器,以提升图像生成性能。
[0003]文本至图像相关背景:文本至场景图像生成,需要模型从文本中提取有用信息,进而辅助场景图像的生成,然而现有多数方法主要存在以下几个问题:(1)文本描述内存在介词、系动词等冗余信息,为文本信息的提取增加了难度;(2)模型缺乏对于文本内物体交互关系的理解,导致可能出现场景布局不合理的情况;(3)高质量的文本特征提取网络体系较为庞大,训练流程较为复杂;(4)现有工作多聚焦于图像质量的提升,缺乏针对生成图像的场景布局多样化的探索。综上所述,如何从复杂文本中提取简要的语义信息已成为文本至图像生成方向所面临的重要挑战。
[0004]基线方法相关背景:2018年,Johnson等人提出了场景图至图像生成算法,通过能够反映物体间语义关系的结构化场景图,实现了复杂场景的生成,该方法同时补充说明了,能够使用Stanford句法分析器,较为简洁地实现文本语义信息的提取,然而,该句法分析器在实际应用中,无法针对复杂文本实现较好分析,导致语义结构存在误差。2019年Wei Sun,Tianfu Wu提出了LostGANs,实现了由可重构布局和样式对图像进行处理优化;2016年Justin Johnson,Alexandre Alahi,Li Fei

Fei提出了Real

Time Style Transfer,实现了快速且高分辨率的风格转换。基于此,本专利技术设计了面向复杂关系词汇的文本解析器,将文本自动转化为场景图,搭建了文本至图像生成过程的信息转化桥梁。
[0005]网络设计相关背景:该专利技术所涉及的文本解析器中,基于LSTM(长短时记忆网络)与MLP(多层感知机)实现了语义类关系至几何关系的映射。具体而言,上述两种网络均属于神经网络。神经网络最开始是受生物神经系统的启发,为了模拟生物神经系统而出现的,由大量的节点(或称神经元)之间相互联接构成。神经网络根据输入的变化,对权值进行调整,改善系统的行为,自动学习到一个能够解决问题的模型。
[0006]LSTM(长短记忆网络)是RNN(循环神经网络)的一种特殊形式,有效地解决多层神经网络训练的梯度消失和梯度爆炸问题,能够处理长时时间依赖序列。LSTM网络由LSTM单元组成,LSTM单元由输入门,输出门和遗忘门组成。
[0007]MLP(多层感知机)由PLA(感知机)推广而来。它最主要的特点是有多个神经元层,因此也叫DNN(深度神经网络)。其具有输入层,一些中间层和输出层。

技术实现思路

[0008]本专利技术提出了一种基于改进版文本解析器的文本至图像生成算法,其中改进版文本解析器,是在Stanford文本解析器的基础上,基于人工分类数据、长短期记忆网络(LSTM)以及多层感知机(MLP)进行的改进。此外,本专利技术将风格迁移模型嵌入到了图像生成过程中,实现了生成结果的风格多样性。
[0009]本专利技术利用改进的文本解析器,实现了语义理解的多样性,将复杂关系映射到几何布局关系上,并实现将文本信息提取成若干个(主、谓、宾)三元组。通过三元组,生成模型可以更关注物体间的关系,并基于此生成布局与图像,最后,通过风格迁移模型的嵌入,进而风格化图像。利用改进的文本解析器与风格迁移模块,本专利技术的文本至图像生成算法可以实现场景布局的合理性和图像内容及风格的多样性。
[0010]本专利技术的技术方案如下:
[0011]一种基于改进版文本解析器的文本至图像生成算法,具体实现步骤如下:
[0012]步骤S1:提取COCO数据集中的文本信息并进行统计与分类,完成信息统计工作;
[0013]步骤S2:基于精细分类构建关系映射数据集,并将其划分训练集、验证集与测试集;
[0014]步骤S3:构建关系自动分类网络,并基于步骤S2中的分类数据集进行预训练,实现复杂语义关系到几何空间关系的映射;
[0015]步骤S4:构建文本自动处理模块,实现对输入文本的关键信息提取;
[0016]步骤S5:基于步骤S3中的关系自动分类网络与步骤S4中的文本自动处理模块,构建改进版的文本的解析器,输入文本描述,输出解析后的结构化三元组,进而得到场景图;
[0017]步骤S6:基于场景图至图像生成算法sg2im构建布局预测网络,并将场景图输入到布局预测网络中,得到场景布局;
[0018]步骤S7:结合Real

Time Style Transfer风格转移与LostGANs图像生成模型构建风格化图像生成网络,并将布局输入风格化图像生成网络中,得到具有不同艺术风格的图像;
[0019]步骤S8:基于步骤S5中的改进版文本解析器,步骤S6中的布局预测网络,步骤S7中的风格化图像生成网络,按照S5、S6、S7的顺序实现整体的文本至图像生成算法,并将算法嵌入网页后台,实现网络设计,以方便用户使用。
[0020]本专利技术的有益效果:
[0021]本专利技术与已有方法的区别在于:相较于现有的针对复杂场景的文本至图像生成算法,本专利技术提出的改进版文本解析器,利用场景图三元组的自动构建,很好地搭建了文本图像之间的桥梁,使图像生成的过程中更好地关注于布局关系。此外,从多样性的角度出发,一方面,本专利技术中涉及的分类网络设计,实现了三元组关系到布局的多样映射,从而带来了场景布局的语义多样性,另一方面,本专利技术中涉及的图像生成模块设计,从风格上了实现了生成场景图像的风格多样性。
附图说明
[0022]图1是本专利技术应用于我们设计的从文本到图像生成算法的总流程;
[0023]图2是本专利技术中关系自动分类网络结构;
[0024]图3是本专利技术中关系自动分类网络中LSTM模块提取文本特征具体过程;
[0025]图4是本专利技术中关系自动分类网络中LSTM模块提取三元组特征具体过程;
[0026]图5是本专利技术中LSTM单元的具体细节,其中x
t
指的便是经过embeddinglayer得到的嵌入向量;
[0027]图6是本专利技术实现一个文本生成多张符合语义描述的图像的具体流程;
[0028]图7是本专利技术应用于从文本到图像生成本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于改进版文本解析器的文本至图像生成算法,其特征在于,该方法包括以下步骤:步骤S1:提取COCO数据集中的文本信息并进行统计与分类,完成信息统计工作;步骤S2:基于精细分类构建关系映射数据集,并将其划分训练集、验证集与测试集;步骤S3:构建关系自动分类网络,并基于步骤S2中的分类数据集进行预训练,实现复杂语义关系到几何空间关系的映射;所述步骤S3具体为:步骤S31:构建embedding layer模块,即使用预训练好的word2vec模型,得到文本、三元组、关系词中分别对应的词嵌入向量,具体而言:该模块中,文本t、每个三元组c
i
以及关系词r
i
都输入到加载了预训练权重的word2vec模型中,分别得到文本嵌入向量三元组嵌入向量与词向量的特征步骤S32:构建LSTM网络,对文本及三元组的嵌入向量进行进一步处理,提取语义特征向量;即在每个LSTM单元利用遗忘门控制决定丢弃上一层中的文本特征信息,利用输入门存放有效的文本特征信息,利用输出门对每层的输出文本信息进行过滤;将文本嵌入向量输入LSTM网络,通过LSTM单元,输出文本特征f
t
;将源自文本的三元组嵌入向量输入LSTM网络,通过LSTM单元,输出三元组特征步骤S33:基于步骤S31中的embedding layer模块、步骤S32中的LSTM模块,再融合MLP模块共同构建关系自动分类网络;具体而言,将关系词向量文本特征f
t
,三元组特征拼接在一起得到特征f,即定义其中,[;]表示拼接;将f输入多层感知机(MLP)得到6维向量,向量中每一个元素代表着一类COCO数据集中可以处理的几何位置关系;步骤S34:使用步骤S2中构建的关系映射数据集对步骤S33中构建的关系自动分类网络进行预训练,并使用Adam优化器来最小化损失;步骤S4:构建文本自动处理模块,实现对输入文本的关键信息提取;步骤S5:基于步骤S3中的关系自动分类网络与步骤S4中的文本自动处理模块,构建改进版的文本的解析器,输入文本描述,输出解析后的结构化三元组,进而得到场景图;步骤S6:基于场景图至图像生成算法sg2im构建布局预测网络,并将场景图输入到布局预测网络中,得到场景布局;步骤S7:结合Real

Time Style Transfer风格转移与LostGANs图像生成模型构建风格化图像生成网络,并将布局输入风格化图像生成网络中,得到具有不同艺术风格的图像;步骤S8:基于步骤S5中的改进版文本解析器,步骤S6中的布局预测网络,步骤S7中的风格化图像生成网络,按照S5、S6、S7的顺序实现整体的文本至图像生成算法,并将算法嵌入网页后台,实现网络设计,以方便用户使用。2.根据权利要求1所述的一种基于改进版文本解析器的文本至图像算法,其特征在于,所述步骤S1具体为:步骤S11:将COCO数据集中的文本信息进行解析;首先,对一句话中的所有词语进行词性标注;其次,搜索并记录句子的名词和他们的修饰语;随后,确定动词的主语(包括名词主
语,介词宾语);而后,找到各个名词之间的关系;最后,根据找到的名词及关系,生成形如(主,谓,宾)的结构化三元组;步骤S12:将所有关系词提取整合成一个集合,作为待学习的关系集合;步骤S13:对关系词进行粗分类处理;即,将频次大于等于30的关系词汇进行粗分类,分为Geometric(几何关系),Possessive(从属关系),Semantic(语义关系),Misc(其他)四类,对数据集信息完成初步统计。3.根据权利要求1或2所述的一种基于改进版文本解析器的文本至图像算法,其特征在于,所述步骤S2具体为:步骤S21:结合步骤S11中对文本的解析,对文本中的关系词进行细分类处理,将关系集合内的所有关系都映射到6种几何关系(Left of、Right of、Above、Below、Surrounding、Inside)中;步骤S22:将6种几何关系类别转为6维向量,其中将步骤S21中的人工分类的几何关系类数值设置1,其余类别数值设置0,并以该向量作为原关系词的分类标签,完成数据处理;步骤S23:基于步骤S11中的输入文本、解析出的三元组、关系词以及步骤S22得到的类别标签,构建关系映射数据集,并按照80%,10%,10%的比例将其进一步划分为训练集、测试集与验证集。4.根据权利要求1或2所述的一种基于改进版文本解析器的文本至图像算法,其特征在于,所述步骤S4具体为:步骤S41:改进对于文本中含有and前后连词的并列关系提取不好的问题;首先,将含有and等连词连接的文本先识别划分,然后再进行词性标注,对(主,谓,宾)三元组结构化信息进行提取;步骤S42:改进对于数量词修饰的物体只能提取一个的问题;首先,利用spacy判断修饰词是否属于数量词,若是,根据识别的数量词数目,添加上对应数目的物体和...

【专利技术属性】
技术研发人员:盛昳媛许圣赖越叶子旺刘秀平
申请(专利权)人:大连理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1