一种基于变分自编码器和对抗生成网络的图像增广模型训练方法及图像分类方法技术

技术编号:33208785 阅读:15 留言:0更新日期:2022-04-24 01:00
本发明专利技术公开了一种基于变分自编码器和对抗生成网络的图像增广模型训练方法及图像分类方法,该方法将可见类训练图像的视觉特征和语义特征分别输入视觉模态和语义模态变分自编码器中对应生成第一伪视觉特征和伪语义特征,并将其输入生成器网络中生成第二伪视觉特征,再利用判别器网络判别真实特征和生成的特征,利用可见类训练图像数据集对变分自编码器对抗生成网络模型进行训练。对于零样本图像分类,在可见类上训练完成的模型生成未见类训练图像的伪视觉特征并结合类别标签训练分类器对未见类图像进行分类;能够有效融合图像的视觉信息和语义信息,生成更接近于真实数据分布且高质量的可见类和未见类图像,提高零样本图像分类准确率。像分类准确率。像分类准确率。

【技术实现步骤摘要】
一种基于变分自编码器和对抗生成网络的图像增广模型训练方法及图像分类方法


[0001]本专利技术属于图像识别
,特别是涉及一种基于变分自编码器和对抗生成网络的图 像增广模型训练方法及图像分类方法。

技术介绍

[0002]传统的图像分类任务不仅需要大量的有标签图像数据,且当模型训练集与测试集的类别 不一致时性能较差。例如,对于一张未见过的或不属于训练集中任何一类的图片时,需要重 新收集样本并进行标注,得到足够的训练样本对模型进行重新训练,才能使模型具有识别该 图片的能力。在这过程中,不仅代价高、速度慢;且在现实中大量标注好的图像的采集和标 记具有高复杂度和不确定性。因此,为解决未见类样本缺失的问题,零样本学习(Zero

shotlearning,ZSL)被提出。
[0003]零样本学习是迁移学习的一种特殊场景,是用来解决识别训练样本中未见类的样本问题。 通俗地讲,零样本学习就是让模型能够模拟人的推理方式,并识别从未见过的事物。在特征 空间中带标签的样本为可见类,在特征空间中不带标签的样本为未见类。传统零样本学习旨 在从给定的可见类图片中找到图像视觉特征与语义特征之间的映射关系,然后将其泛化到未 见类图片中,对未见类图片进行识别,从而实现零样本图像识别任务。例如,使用花菜的图 像数据训练零样本识别模型,同时将“西兰花为绿色的花菜”这一语义关系输入零样本模型中, 则该模型可以对西兰花的图片进行识别分类。
[0004]实现零样本学习,首先要建立两个最基本的空间:特征空间和类别的语义空间。特征空 间中的元素为所有图片的视觉特征,类别的语义空间是对图片标签属性的描述,一般表示为 语义的属性空间或语义的词向量空间;零样本学习要做的就是学习特征空间和语义空间的映 射关系。通常,特征空间中的视觉特征都是通过深度卷积神经网络提取得到,其维度较高, 而语义空间中的维度较低,所以特征空间和语义空间的映射关系分为从特征空间(高维空间) 到语义空间(低维空间)的映射和从语义空间(低维空间)到特征空间(高维空间)的映射。 从高维空间到低维空间的映射最终实现,对任一张图片,通过神经网络学习映射关系把这个 未知特征从特征空间映射到语义空间,然后在语义空间中寻找一个和它最接近的近邻,一次 实现图片的识别分类;从低维空间到高维空间的映射最终实现,在未见类图像的情况下,描 述其语义信息,通过词向量模型得出其语义特征,其维度较低,然后通过学习到的映射关系 生成该未见类的图像特征,将该特征输入到分类器中,得出该特征所属的类别。然而,由于 可见类和未见类之间的数据分布不同,直接进行视觉空间和语义空间的映射,会导致未见类 的识别偏向于可见类,为缓解这些问题,面向零样本学习的生成模型被提出,具体为将未见 类样本的视觉特征和语义特征输入生成模型合成训练样本去直接训练一个分类器,将零样本 分类转换为经典的可监督学习。
[0005]面向零样本学习的生成模型主要为基于生成对抗网络(Generative Adversarial Networks, GAN)和基于变分自编码器(Variational Autoencoder,VAE)的生成模型,生成
对抗网络生 成的样本更加清晰且逼真,但生成对抗网络存在训练网络不稳定导致部分生成的样本严重偏 离真实分布,模型易崩塌等问题;与生成对抗网络不同,变分自编码器的训练过程相对稳定, 直接比较重构图片与原始图片的差异,但变分自编码器直接计算重构图片和原始图片的均方 误差作为损失函数,使得生成的图片质量较低。

技术实现思路

[0006]1、要解决的问题
[0007]为了解决上述现有技术中的不足,本专利技术针对零样本图像分类问题,结合变分自编码器 和生成对抗网络的优势、将图像的视觉信息和语义信息充分融合生成更有效地样本,提出一 种有效合成未见类图像视觉特征的基于变分自编码器和对抗生成网络的图像增广模型训练方 法,该方法将训练过程稳定的变分自编码器与生成样本清晰的生成对抗网络结合,同时输入 图像样本的视觉特征与语义特征,有效匹配图像的视觉信息与语义信息,提升生成数据的质 量,有效地解决零样本学习中未见类图像缺失的问题,利用生成的伪样本训练分类器,将零 样本学习转化为经典的监督学习,从而提升零样本图像分类准确率。
[0008]2、技术方案
[0009]为解决上述问题,本专利技术采用如下的技术方案:
[0010]本专利技术第一方面提供一种基于变分自编码器和对抗生成网络的图像增广模型训练方法, 其特征在于,所述方法包括如下步骤:
[0011]S110:获取可见类训练图像,提取所述可见类训练图像的视觉特征和语义特征;
[0012]S120:预先配置图像增广模型,所述图像增广模型包括视觉模态变分自编码器、语义模 态变分自编码器以及根据生成对抗网络配置的生成器;
[0013]S130:将所述视觉特征和语义特征分别输入视觉模态变分自编码器和语义模态变分自编 码器中生成第一伪视觉特征和伪语义特征;
[0014]S140:将第一伪视觉特征和伪语义特征输入预配置的生成器中,融合生成第二伪视觉特 征;
[0015]S150:根据图像增广模型的损失函数进行反向传播优化参数,直至总体损失函数收敛, 保存模型参数,得到训练好的图像增广模型。
[0016]作为一个示例,所述损失函数包括对抗损失函数,对抗损失函数获取步骤包括:
[0017]配置视觉特征判别器和语义特征判别器;
[0018]将所述视觉特征和所述第二伪视觉特征输入视觉特征判别器中获得第一判别信息;
[0019]将所述语义特征和所述伪语义特征输入语义特征判别器中获得第二判别信息;
[0020]根据第一判别信息和第二判别信息分别确定对抗损失函数,采用Adam梯度下降算法更 新视觉特征判别器和语义特征判别器的参数;
[0021]所述损失函数还包括变分自编码器的总损失函数L
VAE
、视觉模态变分自编码器的重构损 失和KL散度损失、语义模态变分自编码器的重构损失和KL散度损失。
[0022]作为一个示例,在所述步骤S110中:
[0023]利用视觉特征提取模型提取所述可见类训练图像的视觉特征,所述视觉特征提取
模型是 利用卷积神经网络和Transformer编码器作为特征提取网络;
[0024]将可见类训练图像输入卷积神经网络中得到特征图;
[0025]将所述特征图分割成多维特征向量块,并通过线性映射将每个特征向量块映射到一维向 量中,得到多个特征向量;
[0026]对所述特征向量进行位置编码并嵌入到所述Transformer编码器中,在编码器中重复堆叠 编码器块L次,输出第二维特征向量,再将第二维特征向量重组为预定大小的视觉特征。
[0027]作为一个示例,在所述步骤S110中:
[0028]利用语义特征提取模型提取所述可见类训练图像的语义特征,将在文本语料库中经无监 督训练得到的连续词袋模型作为语本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于变分自编码器和对抗生成网络的图像增广模型训练方法,其特征在于,所述方法包括如下步骤:S110:获取可见类训练图像,提取所述可见类训练图像的视觉特征和语义特征;S120:预先配置图像增广模型,所述图像增广模型包括视觉模态变分自编码器、语义模态变分自编码器以及根据生成对抗网络配置的生成器;S130:将所述视觉特征和语义特征分别输入视觉模态变分自编码器和语义模态变分自编码器中生成第一伪视觉特征和伪语义特征;S140:将第一伪视觉特征和伪语义特征输入预配置的生成器中,融合生成第二伪视觉特征;S150:根据图像增广模型的损失函数进行反向传播优化参数,直至总体损失函数收敛,保存模型参数,得到训练好的图像增广模型。2.根据权利要求1所述的基于变分自编码器和对抗生成网络的图像增广模型训练方法,其特征在于,所述损失函数包括对抗损失函数,对抗损失函数获取步骤包括:配置视觉特征判别器和语义特征判别器;将所述视觉特征和所述第二伪视觉特征输入视觉特征判别器中获得第一判别信息;将所述语义特征和所述伪语义特征输入语义特征判别器中获得第二判别信息;根据第一判别信息和第二判别信息分别确定对抗损失函数,采用Adam梯度下降算法更新视觉特征判别器和语义特征判别器的参数;所述损失函数还包括变分自编码器的总损失函数L
VAE
、视觉模态变分自编码器的重构损失和KL散度损失、语义模态变分自编码器的重构损失和KL散度损失。3.根据权利要求1所述的基于变分自编码器和对抗生成网络的图像增广模型训练方法,其特征在于,在所述步骤S110中:利用视觉特征提取模型提取所述可见类训练图像的视觉特征,所述视觉特征提取模型是利用卷积神经网络和Transformer编码器作为特征提取网络;将可见类训练图像输入卷积神经网络中得到特征图;将所述特征图分割成多维特征向量块,并通过线性映射将每个特征向量块映射到一维向量中,得到多个特征向量;对所述特征向量进行位置编码并嵌入到所述Transformer编码器中,在编码器中重复堆叠编码器块L次,输出第二维特征向量,再将第二维特征向量重组为预定大小的视觉特征。4.根据权利要求3所述的基于变分自编码器和对抗生成网络的图像增广模型训练方法,其特征在于,在所述步骤S110中:利用语义特征提取模型提取所述可见类训练图像的语义特征,将在文本语料库中经无监督训练得到的连续词袋模型作为语义特征提取模型,所述语义特征提取模型用来提取可见类图像语义特征向量,再通过维度变换网络将语义特征向量转换为预定大小的语义特征。5.根据权利要求1所述的基于变分自编码器和对抗生成网络的图像增广模型训练方法,其特征在于,所述步骤S120中视觉模态变分自编码器包括编码器网络E1和解码器网络
D1,所述编码器网络E1为全卷积网络,包含n层卷积,滤波器通道数目逐层增加,用于学习深层次的特征;所述全卷积网络中最后一个卷积层的输出为均值向量和方差向量两个n维矢量;所述编码器网络E1将视觉特征映射到一个由概率分布N(μ,Σ)表示的区间向量上,进行采样得到隐变量Z1,其中μ为均值向量,Σ为方差向量;则隐变量Z1的概率分布为:q1(Z1|x)=N(Z1|μ1,Σ1),p(Z1)=N(Z1|0,I)其中,q1(Z1|x)表示隐变量Z1服从的概率分布,p(Z1)表示隐变量Z1的先验分布,此处为单位高斯分布,μ1和Σ1表示隐变量Z1的均值和方差,N表示正态分布。6.根据权利要求1所述的一种基于变分自编码器和对抗生成网络的图像增广模型训练方法,其特征在于,所述语义模态变分自编码器包括编码器网络E2和解码器网络D2,编码器网络E2和解码器网络D2均使用两层全连接层进...

【专利技术属性】
技术研发人员:饶元苏仕芳江朝晖金秀张武梁惠李绍稳
申请(专利权)人:安徽农业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1