当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于生成对抗网络通过文本指导的人物图像生成方法技术

技术编号:21631717 阅读:177 留言:0更新日期:2019-07-17 11:59
本发明专利技术公开了一种基于生成对抗网络通过文本指导的人物图像生成方法,属于计算机视觉领域。具体包括如下步骤:获取用于训练的人物图像数据集,并定义算法目标;获取人物图像数据集中所有图像的姿态信息,通过聚类算法从所有姿态信息中获取基本姿态;利用基于生成对抗网络的姿态预测器进行从文字到预测姿态的学习;使用S2~S3中学习得到的姿态预测器从文本中预测得到相应人物姿态;利用基于生成对抗网络的人物图片生成器进行符合文本描述的人物图片生成的学习,同时利用多模态误差建立图片子区域与文本之间的映射关系。本发明专利技术的基于生成对抗网络通过文本指导的人物图像生成方法,在图片生成、图片编辑、行人重识别等场景中,具有良好的应用价值。

A Method of Character Image Generation Based on Generating Countermeasure Network Guided by Text

【技术实现步骤摘要】
一种基于生成对抗网络通过文本指导的人物图像生成方法
本专利技术属于计算机视觉领域,特别地涉及一种基于生成对抗网络通过文本指导的人物图像生成方法。
技术介绍
文本指导的人物图像生成被定义为如下问题:根据目标文本的描述,同时改变参考图片中人物的姿态和属性(例如衣服颜色)达到与文本描述一致。近几年来,在计算机视觉任务如特定图片生成、图像检索、人物重识别等领域中生成方法起可以生成指定内容的图片,对数据集扩充、增加算法鲁棒性的重要作用。该任务主要有两个关键点:第一是如何从文本中预测人物的目标姿态,目标姿态应与文本描述相符,并作为人物姿态转变的指导。第二是如何同时改变参考图片中人物的姿态和属性,生成的图片中人物的姿态发生改变并且符合文字描述的属性。针对第一点,本专利技术认为人物姿态包含了姿态方向和姿态动作两个因素,姿态方向决定了动作面向的角度,姿态动作是人物肢体的变化。针对第二点,本专利技术在网络中嵌入了注意力上采样模块,在生成人物图片时有效整合多个模态(文字、姿态、图片)的数据,可以保证人物同时完成姿态变换和属性修改。先前的有些方法考虑了对人物姿态改变的问题,还有些方法针对文字-图像生成,而较少方法考虑根据文字的描述改变人物姿态和属性。由于统计建模的有效性,目前基于学习的方法逐渐被应用到图片生成的任务中。现有的基于学习的方法主要采用生成对抗网络框架,输入一幅人物图像和目标文本,输出符合文本描述的人物图像。
技术实现思路
为解决上述问题,本专利技术的目的在于提供一种基于生成对抗网络通过文本指导的人物图像生成方法。在通过文本预测人物姿态的过程中,由于文本本身不包含明确的空间对应信息,我们先通过聚类方法获得了具有不同朝向的基本姿态,通过文本对特定的基本姿态进行局部和细节上的调整,得到符合文本描述的人物姿态。同时也需要考虑从文本中有效提取关键信息,文本中关于方向和动作的信息与人物姿态相关,而描述属性的信息与生成图片中人物视觉属性表现有关。另外,在生成人物图片的过程中,网络考虑了来自多个模态的数据(文字、姿态、图像),针对多个模态特征的融合和表达,我们引入了注意力上采样模块。利用注意力机制关注文本中相关的信息,同时也完成人物姿态的变化。综合上述三个方面,我们设计了一个基于生成对抗网络的学习框架,使模型建立图片子区域与文本之间的联系,从而进行不同姿态、属性人物图片的特征表达。通过文本控制图片的生成对用户提供了便利性和友好性。为实现上述目的,本专利技术的技术方案为:基于生成对抗网络通过文本指导的人物图像生成方法,它包括以下步骤:S1、获取用于训练的人物图像数据集,并定义算法目标;S2、获取人物图像数据集中所有图像的姿态信息,通过聚类算法从所有姿态信息中获取基本姿态;S3、利用基于生成对抗网络的姿态生成器进行从目标文字到预测姿态的学习;S4、使用S2~S3中学习得到的姿态生成器从文本中预测得到相应人物姿态;S5、利用基于生成对抗网络的人物图片生成器进行符合文本描述的人物图片生成的学习,同时利用多模态误差建立图片子区域与文本之间的映射关系。S6、利用S5学习得到的人物图片生成器,输入参考图片和目标图片的描述文本,生成符合文本描述的人物图片。基于上述方案,各步骤可以通过如下方式实现:步骤S1中,所述的人物图像数据集包含若干人物图片,每个人物图片都标注了针对该图片中人物的文本描述,定义的算法目标为:对于训练集中的每一个人物,存在参考图片x,目标图片x′,目标图片中人物的姿态p,以及目标图片的描述文本t;输入参考图片x和目标图片的描述文本t,要求从描述文本t预测目标的姿态和动作,生成与目标图片x′相似的图片进一步的,步骤S2中,获取人物图像数据集中所有图像的姿态信息,通过聚类算法从所有姿态信息中获取基本姿态,具体包括以下子步骤:S21、通过姿态检测算法获取数据集中所有图片的人物姿态;S22、通过K-means聚类算法对人物姿态进行聚类,并计算第i个聚类的平均姿态并将其作为基本姿态,共获取得到K个基本姿态进一步的,步骤S3中,利用基于生成对抗网络的姿态生成器进行从目标文字到预测姿态的学习,具体包括以下子步骤:S31、使用一个LSTM网络,提取出目标描述文本t的特征表达向量通过全连接神经网络Fori预测文本所描述姿态的方向o,即其中o∈{1,...,K},从K个基本姿态中选择与预测得到的方向o一致的基本姿态S32、使用一个生成器G1学习基于文本信息来调整基本姿态生成一个预测姿态即学习过程中,对方向o利用softmax函数计算与真实方向之间的误差,计算与姿态真实值p之间的均方误差,同时计算的对抗误差,将三种误差一并作为监督信息。进一步的,步骤S4中,使用S2~S3中学习得到的姿态生成器从文本中预测得到相应人物姿态具体包括以下子步骤:基于由S2~S3建立的人物姿态生成器,输入目标图片的描述文本t,从文本中预测人物姿态方向,并根据文本调整基本姿态,生成一个符合文本描述的人物预测姿态进一步的,步骤S5中,利用基于生成对抗网络的人物图片生成器进行符合文本描述的人物图片生成的学习,同时利用多模态误差建立图片子区域与文本之间的映射关系具体包括以下子步骤:S51、利用卷积神经网络对人物参考图片x进行特征提取,选取在不同尺寸上的深度特征(v1,v2,…,vm),vi为第i个尺寸上的图像深度特征,其中i=1,2,...,m,m为下采样的总数;S52、利用卷积神经网络对步骤S4中得到的人物预测姿态进行特征提取,选取在不同尺寸上的深度特征(s1,s2,...,sm),si为第i个尺寸上的姿态深度特征,其中i=1,2,...,m,m为下采样的总数;S53、使用一个双向LSTM提取文本特征矩阵e,e由所有的隐藏状态向量hj拼接组成,即e=(h1,h2,...,hN),其中j=1,2,...,N,N为文本中单词数量;S54、计算第i个尺寸上的视觉文字注意力ci=viSoftmax(viTe),通过多尺度视觉文字距离来衡量图片x的子区域与文本t之间的距离,建立图片子区域与文本之间的关系:其中cij为视觉文字注意力ci的第j列,ej为文本特征矩阵e的第j列即hj,r(·,·)是两个向量间的余弦相似性;S55、计算每个训练对的多尺度视觉文字距离矩阵Λ,I为每个训练批次中训练对的总数,xi和ti分别为第i个训练对中的参考图片和目标图片的描述文本;Λ的第i行第j列的元素为图片与文本匹配的后验概率为P(ti|xi)=Softmax(Λ)(i,i),文本与图片匹配的后验概率为P(xi|ti)=Softmax(ΛT)(i,i);多模态相似性误差计算为:S56、在生成人物图片时进行注意力上采样操作:先计算第i个尺寸上的文字视觉注意力zi=eSoftmax(eTvi),第i个尺寸上的上采样为其中为第i个尺寸上的最邻近的上采样操作,ui-1是前一个尺寸上的上采样结果,当i=1时将多次注意力上采样操作进行级联,生成人物图片通过对抗误差进行学习;学习过程中,计算多模态相似性误差生成人物图片的对抗误差、以及目标图片x′与的L1误差,将三种误差一并作为监督信息。本专利技术的基于生成对抗网络通过文本指导的人物图像生成方法,相比于现有的人物图像生成方法,具有以下有益效果:首先,本专利技术考虑了通过文本描述控制人物图片的本文档来自技高网...

【技术保护点】
1.一种基于生成对抗网络通过文本指导的人物图像生成方法,其特征在于,包括以下步骤:S1、获取用于训练的人物图像数据集,并定义算法目标;S2、获取人物图像数据集中所有图像的姿态信息,通过聚类算法从所有姿态信息中获取基本姿态;S3、利用基于生成对抗网络的姿态生成器进行从目标文字到预测姿态的学习;S4、使用S2~S3中学习得到的姿态生成器从文本中预测得到相应人物姿态;S5、利用基于生成对抗网络的人物图片生成器进行符合文本描述的人物图片生成的学习,同时利用多模态误差建立图片子区域与文本之间的映射关系。S6、利用S5学习得到的人物图片生成器,输入参考图片和目标图片的描述文本,生成符合文本描述的人物图片。

【技术特征摘要】
1.一种基于生成对抗网络通过文本指导的人物图像生成方法,其特征在于,包括以下步骤:S1、获取用于训练的人物图像数据集,并定义算法目标;S2、获取人物图像数据集中所有图像的姿态信息,通过聚类算法从所有姿态信息中获取基本姿态;S3、利用基于生成对抗网络的姿态生成器进行从目标文字到预测姿态的学习;S4、使用S2~S3中学习得到的姿态生成器从文本中预测得到相应人物姿态;S5、利用基于生成对抗网络的人物图片生成器进行符合文本描述的人物图片生成的学习,同时利用多模态误差建立图片子区域与文本之间的映射关系。S6、利用S5学习得到的人物图片生成器,输入参考图片和目标图片的描述文本,生成符合文本描述的人物图片。2.如权利要求1所述的基于生成对抗网络通过文本指导的人物图像生成方法,其特征在于,步骤S1中,所述的人物图像数据集包含若干人物图片,每个人物图片都标注了针对该图片中人物的文本描述,定义的算法目标为:对于训练集中的每一个人物,存在参考图片x,目标图片x′,目标图片中人物的姿态p,以及目标图片的描述文本t;输入参考图片x和目标图片的描述文本t,要求从描述文本t预测目标的姿态和动作,生成与目标图片x′相似的图片3.如权利要求2所述的基于生成对抗网络通过文本指导的人物图像生成方法,其特征在于,步骤S2中,获取人物图像数据集中所有图像的姿态信息,通过聚类算法从所有姿态信息中获取基本姿态,具体包括以下子步骤:S21、通过姿态检测算法获取数据集中所有图片的人物姿态;S22、通过K-means聚类算法对人物姿态进行聚类,并计算第i个聚类的平均姿态并将其作为基本姿态,共获取得到K个基本姿态4.如权利要求3所述的基于生成对抗网络通过文本指导的人物图像生成方法,其特征在于,步骤S3中,利用基于生成对抗网络的姿态生成器进行从目标文字到预测姿态的学习,具体包括以下子步骤:S31、使用一个LSTM网络,提取出目标描述文本t的特征表达向量通过全连接神经网络Fori预测文本所描述姿态的方向o,即其中o∈{1,...,K},从K个基本姿态中选择与预测得到的方向o一致的基本姿态S32、使用一个生成器G1学习基于文本信息来调整基本姿态生成一个预测姿态即学习过程中,对方向o利用softmax函数计算与真实方向之间的误差,计算与姿态真实值p之间的均方误差,同时计算的对抗误差,将三种误差一并作为监督信息。5.如权利要求4所述的基于生成对抗网络通过文本指导的人物图像生成方法,其特征在于,步骤S4...

【专利技术属性】
技术研发人员:周星然黄思羽李斌李英明张仲非
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1