一种基于生成对抗网络通过文本指导的人物图像生成方法技术

技术编号：21631717 阅读：177 留言：0更新日期：2019-07-17 11:59

本发明专利技术公开了一种基于生成对抗网络通过文本指导的人物图像生成方法，属于计算机视觉领域。具体包括如下步骤：获取用于训练的人物图像数据集，并定义算法目标；获取人物图像数据集中所有图像的姿态信息，通过聚类算法从所有姿态信息中获取基本姿态；利用基于生成对抗网络的姿态预测器进行从文字到预测姿态的学习；使用S2～S3中学习得到的姿态预测器从文本中预测得到相应人物姿态；利用基于生成对抗网络的人物图片生成器进行符合文本描述的人物图片生成的学习，同时利用多模态误差建立图片子区域与文本之间的映射关系。本发明专利技术的基于生成对抗网络通过文本指导的人物图像生成方法，在图片生成、图片编辑、行人重识别等场景中，具有良好的应用价值。

A Method of Character Image Generation Based on Generating Countermeasure Network Guided by Text

全部详细技术资料下载

【技术实现步骤摘要】
一种基于生成对抗网络通过文本指导的人物图像生成方法
本专利技术属于计算机视觉领域，特别地涉及一种基于生成对抗网络通过文本指导的人物图像生成方法。
技术介绍
文本指导的人物图像生成被定义为如下问题：根据目标文本的描述，同时改变参考图片中人物的姿态和属性(例如衣服颜色)达到与文本描述一致。近几年来，在计算机视觉任务如特定图片生成、图像检索、人物重识别等领域中生成方法起可以生成指定内容的图片，对数据集扩充、增加算法鲁棒性的重要作用。该任务主要有两个关键点：第一是如何从文本中预测人物的目标姿态，目标姿态应与文本描述相符，并作为人物姿态转变的指导。第二是如何同时改变参考图片中人物的姿态和属性，生成的图片中人物的姿态发生改变并且符合文字描述的属性。针对第一点，本专利技术认为人物姿态包含了姿态方向和姿态动作两个因素，姿态方向决定了动作面向的角度，姿态动作是人物肢体的变化。针对第二点，本专利技术在网络中嵌入了注意力上采样模块，在生成人物图片时有效整合多个模态(文字、姿态、图片)的数据，可以保证人物同时完成姿态变换和属性修改。先前的有些方法考虑了对人物姿态改变的问题，还有些方法针对文字-图像生成，而较少方法考虑根据文字的描述改变人物姿态和属性。由于统计建模的有效性，目前基于学习的方法逐渐被应用到图片生成的任务中。现有的基于学习的方法主要采用生成对抗网络框架，输入一幅人物图像和目标文本，输出符合文本描述的人物图像。
技术实现思路
为解决上述问题，本专利技术的目的在于提供一种基于生成对抗网络通过文本指导的人物图像生成方法。在通过文本预测人物姿态的过程中，由于文本本身不包含明确的空间...

【技术保护点】
1.一种基于生成对抗网络通过文本指导的人物图像生成方法，其特征在于，包括以下步骤：S1、获取用于训练的人物图像数据集，并定义算法目标；S2、获取人物图像数据集中所有图像的姿态信息，通过聚类算法从所有姿态信息中获取基本姿态；S3、利用基于生成对抗网络的姿态生成器进行从目标文字到预测姿态的学习；S4、使用S2～S3中学习得到的姿态生成器从文本中预测得到相应人物姿态；S5、利用基于生成对抗网络的人物图片生成器进行符合文本描述的人物图片生成的学习，同时利用多模态误差建立图片子区域与文本之间的映射关系。S6、利用S5学习得到的人物图片生成器，输入参考图片和目标图片的描述文本，生成符合文本描述的人物图片。

【技术特征摘要】
1.一种基于生成对抗网络通过文本指导的人物图像生成方法，其特征在于，包括以下步骤：S1、获取用于训练的人物图像数据集，并定义算法目标；S2、获取人物图像数据集中所有图像的姿态信息，通过聚类算法从所有姿态信息中获取基本姿态；S3、利用基于生成对抗网络的姿态生成器进行从目标文字到预测姿态的学习；S4、使用S2～S3中学习得到的姿态生成器从文本中预测得到相应人物姿态；S5、利用基于生成对抗网络的人物图片生成器进行符合文本描述的人物图片生成的学习，同时利用多模态误差建立图片子区域与文本之间的映射关系。S6、利用S5学习得到的人物图片生成器，输入参考图片和目标图片的描述文本，生成符合文本描述的人物图片。2.如权利要求1所述的基于生成对抗网络通过文本指导的人物图像生成方法，其特征在于，步骤S1中，所述的人物图像数据集包含若干人物图片，每个人物图片都标注了针对该图片中人物的文本描述，定义的算法目标为：对于训练集中的每一个人物，存在参考图片x，目标图片x′，目标图片中人物的姿态p，以及目标图片的描述文本t；输入参考图片x和目标图片的描述文本t，要求从描述文本t预测目标的姿态和动作，生成与目标图片x′相似的图片3.如权利要求2所述的基于生成对抗网络通过文本指导的人物图像生成方法，其特征在于，步骤S2中，获取人物图像数据集中所有图像的姿态信息，通过聚类算法从所有姿态信息中获取基本姿态，具体包括以下子步骤：S21、通过姿态检测算法获取数据集中所有图片的人物姿态；S22、通过K-means聚类算法对人物姿态进行聚类，并计算第i个聚类的平均姿态并将其作为基本姿态，共获取得到K个基本姿态4.如权利要求3所述的基于生成对抗网络通过文本指导的人物图像生成方法，其特征在于，步骤S3中，利用基于生成对抗网络的姿态生成器进行从目标文字到预测姿态的学习，具体包括以下子步骤：S31、使用一个LSTM网络，提取出目标描述文本t的特征表达向量通过全连接神经网络Fori预测文本所描述姿态的方向o，即其中o∈{1，...，K}，从K个基本姿态中选择与预测得到的方向o一致的基本姿态S32、使用一个生成器G1学习基于文本信息来调整基本姿态生成一个预测姿态即学习过程中，对方向o利用softmax函数计算与真实方向之间的误差，计算与姿态真实值p之间的均方误差，同时计算的对抗误差，将三种误差一并作为监督信息。5.如权利要求4所述的基于生成对抗网络通过文本指导的人物图像生成方法，其特征在于，步骤S4...

【专利技术属性】
技术研发人员：周星然，黄思羽，李斌，李英明，张仲非，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人