一种基于改进版文本解析器的文本至图像生成算法制造技术

技术编号：34842826 阅读：18 留言：0更新日期：2022-09-08 07:40

本发明专利技术属于计算机视觉技术领域，具体涉及一种基于改进版文本解析器的文本至图像生成算法。本发明专利技术是一种端到端从文本到图像的生成器，它可以解析文本，提取出主、谓、宾三元组，从而生成符合文本描述的布局图，最终依据布局生成图像。本发明专利技术标注词性，识别文本并提取出文本中(主、谓、宾)三元组，然后通过人工分类网络及学习出来的关系自动分类网络进行6种几何映射，从而依据最终三元组生成符合文本描述的布局图。基于语义表达的多样性，我们的映射关系是一对多而非一对一的，如此得到的布局图也具有多样性。最后我们从布局图得到复杂场景，并融合了风格迁移，可生成具有特殊风格的图像。可生成具有特殊风格的图像。可生成具有特殊风格的图像。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于改进版文本解析器的文本至图像生成算法

[0001]本专利技术属于计算机视觉
，具体涉及一种基于改进版文本解析器的文本至图像生成算法。

技术介绍

[0002]图像生成相关背景：目前，人工智能领域的发展备受人们的关注。在计算机视觉领域，深度学习已经在图像识别、图像分类、图像分割以及图像的语义描述等方向大放异彩，并展现出优秀性能。然而时至今日，图像生成问题仍是一项艰巨的挑战，尤其是由文本到图像这种跨模态生成的任务。按照生成对象的不同，该任务具体可以分成单目标物体图像生成与多目标复杂场景图像生成两种，前者任务将着重生成高质量具有丰富细节的单独物体，而后者任务则针对多个物体的生成，且不同物体之间具有多样关系，属于更复杂更具挑战性的任务。因此，本专利主要针对于多目标的复杂场景图像生成，设计了有效的文本解析器，以提升图像生成性能。
[0003]文本至图像相关背景：文本至场景图像生成，需要模型从文本中提取有用信息，进而辅助场景图像的生成，然而现有多数方法主要存在以下几个问题：(1)文本描述内存在介词、系动词等冗余信息，为文本信息的提取增加了难度；(2)模型缺乏对于文本内物体交互关系的理解，导致可能出现场景布局不合理的情况；(3)高质量的文本特征提取网络体系较为庞大，训练流程较为复杂；(4)现有工作多聚焦于图像质量的提升，缺乏针对生成图像的场景布局多样化的探索。综上所述，如何从复杂文本中提取简要的语义信息已成为文本至图像生成方向所面临的重要挑战。
[0004]基线方法相关背景：2018年，Johnson等...

【技术保护点】

【技术特征摘要】
1.一种基于改进版文本解析器的文本至图像生成算法，其特征在于，该方法包括以下步骤：步骤S1：提取COCO数据集中的文本信息并进行统计与分类，完成信息统计工作；步骤S2：基于精细分类构建关系映射数据集，并将其划分训练集、验证集与测试集；步骤S3：构建关系自动分类网络，并基于步骤S2中的分类数据集进行预训练，实现复杂语义关系到几何空间关系的映射；所述步骤S3具体为：步骤S31：构建embedding layer模块，即使用预训练好的word2vec模型，得到文本、三元组、关系词中分别对应的词嵌入向量，具体而言：该模块中，文本t、每个三元组c
i
以及关系词r
i
都输入到加载了预训练权重的word2vec模型中，分别得到文本嵌入向量三元组嵌入向量与词向量的特征步骤S32：构建LSTM网络，对文本及三元组的嵌入向量进行进一步处理，提取语义特征向量；即在每个LSTM单元利用遗忘门控制决定丢弃上一层中的文本特征信息，利用输入门存放有效的文本特征信息，利用输出门对每层的输出文本信息进行过滤；将文本嵌入向量输入LSTM网络，通过LSTM单元，输出文本特征f
t
；将源自文本的三元组嵌入向量输入LSTM网络，通过LSTM单元，输出三元组特征步骤S33：基于步骤S31中的embedding layer模块、步骤S32中的LSTM模块，再融合MLP模块共同构建关系自动分类网络；具体而言，将关系词向量文本特征f
t
，三元组特征拼接在一起得到特征f，即定义其中，[；]表示拼接；将f输入多层感知机(MLP)得到6维向量，向量中每一个元素代表着一类COCO数据集中可以处理的几何位置关系；步骤S34：使用步骤S2中构建的关系映射数据集对步骤S33中构建的关系自动分类网络进行预训练，并使用Adam优化器来最小化损失；步骤S4：构建文本自动处理模块，实现对输入文本的关键信息提取；步骤S5：基于步骤S3中的关系自动分类网络与步骤S4中的文本自动处理模块，构建改进版的文本的解析器，输入文本描述，输出解析后的结构化三元组，进而得到场景图；步骤S6：基于场景图至图像生成算法sg2im构建布局预测网络，并将场景图输入到布局预测网络中，得到场景布局；步骤S7：结合Real
‑
Time Style Transfer风格转移与LostGANs图像生成模型构建风格化图像生成网络，并将布局输入风格化图像生成网络中，得到具有不同艺术风格的图像；步骤S8：基于步骤S5中的改进版文本解析器，步骤S6中的布局预测网络，步骤S7中的风格化图像生成网络，按照S5、S6、S7的顺序实现整体的文本至图像生成算法，并将算法嵌入网页后台，实现网络设计，以方便用户使用。2.根据权利要求1所述的一种基于改进版文本解析器的文本至图像算法，其特征在于，所述步骤S1具体为：步骤S11：将COCO数据集中的文本信息进行解析；首先，对一句话中的所有词语进行词性标注；其次，搜索并记录句子的名词和他们的修饰语；随后，确定动词的主语(包括名词主
语，介词宾语)；而后，找到各个名词之间的关系；最后，根据找到的名词及关系，生成形如(主，谓，宾)的结构化三元组；步骤S12：将所有关系词提取整合成一个集合，作为待学习的关系集合；步骤S13：对关系词进行粗分类处理；即，将频次大于等于30的关系词汇进行粗分类，分为Geometric(几何关系)，Possessive(从属关系)，Semantic(语义关系)，Misc(其他)四类，对数据集信息完成初步统计。3.根据权利要求1或2所述的一种基于改进版文本解析器的文本至图像算法，其特征在于，所述步骤S2具体为：步骤S21：结合步骤S11中对文本的解析，对文本中的关系词进行细分类处理，将关系集合内的所有关系都映射到6种几何关系(Left of、Right of、Above、Below、Surrounding、Inside)中；步骤S22：将6种几何关系类别转为6维向量，其中将步骤S21中的人工分类的几何关系类数值设置1，其余类别数值设置0，并以该向量作为原关系词的分类标签，完成数据处理；步骤S23：基于步骤S11中的输入文本、解析出的三元组、关系词以及步骤S22得到的类别标签，构建关系映射数据集，并按照80％，10％，10％的比例将其进一步划分为训练集、测试集与验证集。4.根据权利要求1或2所述的一种基于改进版文本解析器的文本至图像算法，其特征在于，所述步骤S4具体为：步骤S41：改进对于文本中含有and前后连词的并列关系提取不好的问题；首先，将含有and等连词连接的文本先识别划分，然后再进行词性标注，对(主，谓，宾)三元组结构化信息进行提取；步骤S42：改进对于数量词修饰的物体只能提取一个的问题；首先，利用spacy判断修饰词是否属于数量词，若是，根据识别的数量词数目，添加上对应数目的物体和...

【专利技术属性】
技术研发人员：盛昳媛，许圣，赖越，叶子旺，刘秀平，
申请(专利权)人：大连理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人