一种基于变分自编码器和对抗生成网络的图像增广模型训练方法及图像分类方法技术

技术编号：33208785 阅读：15 留言：0更新日期：2022-04-24 01:00

本发明专利技术公开了一种基于变分自编码器和对抗生成网络的图像增广模型训练方法及图像分类方法，该方法将可见类训练图像的视觉特征和语义特征分别输入视觉模态和语义模态变分自编码器中对应生成第一伪视觉特征和伪语义特征，并将其输入生成器网络中生成第二伪视觉特征，再利用判别器网络判别真实特征和生成的特征，利用可见类训练图像数据集对变分自编码器对抗生成网络模型进行训练。对于零样本图像分类，在可见类上训练完成的模型生成未见类训练图像的伪视觉特征并结合类别标签训练分类器对未见类图像进行分类；能够有效融合图像的视觉信息和语义信息，生成更接近于真实数据分布且高质量的可见类和未见类图像，提高零样本图像分类准确率。像分类准确率。像分类准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于变分自编码器和对抗生成网络的图像增广模型训练方法及图像分类方法

[0001]本专利技术属于图像识别
，特别是涉及一种基于变分自编码器和对抗生成网络的图像增广模型训练方法及图像分类方法。

技术介绍

[0002]传统的图像分类任务不仅需要大量的有标签图像数据，且当模型训练集与测试集的类别不一致时性能较差。例如，对于一张未见过的或不属于训练集中任何一类的图片时，需要重新收集样本并进行标注，得到足够的训练样本对模型进行重新训练，才能使模型具有识别该图片的能力。在这过程中，不仅代价高、速度慢；且在现实中大量标注好的图像的采集和标记具有高复杂度和不确定性。因此，为解决未见类样本缺失的问题，零样本学习(Zero
‑
shotlearning，ZSL)被提出。
[0003]零样本学习是迁移学习的一种特殊场景，是用来解决识别训练样本中未见类的样本问题。通俗地讲，零样本学习就是让模型能够模拟人的推理方式，并识别从未见过的事物。在特征空间中带标签的样本为可见类，在特征空间中不带标签的样本为未见类。传统零样本学习旨在从给定的可见类图片中找到图像视觉特征与语义特征之间的映射关系，然后将其泛化到未见类图片中，对未见类图片进行识别，从而实现零样本图像识别任务。例如，使用花菜的图像数据训练零样本识别模型，同时将“西兰花为绿色的花菜”这一语义关系输入零样本模型中，则该模型可以对西兰花的图片进行识别分类。
[0004]实现零样本学习，首先要建立两个最基本的空间：特征空间和类别的语义空间...

【技术保护点】

【技术特征摘要】
1.一种基于变分自编码器和对抗生成网络的图像增广模型训练方法，其特征在于，所述方法包括如下步骤：S110：获取可见类训练图像，提取所述可见类训练图像的视觉特征和语义特征；S120：预先配置图像增广模型，所述图像增广模型包括视觉模态变分自编码器、语义模态变分自编码器以及根据生成对抗网络配置的生成器；S130：将所述视觉特征和语义特征分别输入视觉模态变分自编码器和语义模态变分自编码器中生成第一伪视觉特征和伪语义特征；S140：将第一伪视觉特征和伪语义特征输入预配置的生成器中，融合生成第二伪视觉特征；S150：根据图像增广模型的损失函数进行反向传播优化参数，直至总体损失函数收敛，保存模型参数，得到训练好的图像增广模型。2.根据权利要求1所述的基于变分自编码器和对抗生成网络的图像增广模型训练方法，其特征在于，所述损失函数包括对抗损失函数，对抗损失函数获取步骤包括：配置视觉特征判别器和语义特征判别器；将所述视觉特征和所述第二伪视觉特征输入视觉特征判别器中获得第一判别信息；将所述语义特征和所述伪语义特征输入语义特征判别器中获得第二判别信息；根据第一判别信息和第二判别信息分别确定对抗损失函数，采用Adam梯度下降算法更新视觉特征判别器和语义特征判别器的参数；所述损失函数还包括变分自编码器的总损失函数L
VAE
、视觉模态变分自编码器的重构损失和KL散度损失、语义模态变分自编码器的重构损失和KL散度损失。3.根据权利要求1所述的基于变分自编码器和对抗生成网络的图像增广模型训练方法，其特征在于，在所述步骤S110中：利用视觉特征提取模型提取所述可见类训练图像的视觉特征，所述视觉特征提取模型是利用卷积神经网络和Transformer编码器作为特征提取网络；将可见类训练图像输入卷积神经网络中得到特征图；将所述特征图分割成多维特征向量块，并通过线性映射将每个特征向量块映射到一维向量中，得到多个特征向量；对所述特征向量进行位置编码并嵌入到所述Transformer编码器中，在编码器中重复堆叠编码器块L次，输出第二维特征向量，再将第二维特征向量重组为预定大小的视觉特征。4.根据权利要求3所述的基于变分自编码器和对抗生成网络的图像增广模型训练方法，其特征在于，在所述步骤S110中：利用语义特征提取模型提取所述可见类训练图像的语义特征，将在文本语料库中经无监督训练得到的连续词袋模型作为语义特征提取模型，所述语义特征提取模型用来提取可见类图像语义特征向量，再通过维度变换网络将语义特征向量转换为预定大小的语义特征。5.根据权利要求1所述的基于变分自编码器和对抗生成网络的图像增广模型训练方法，其特征在于，所述步骤S120中视觉模态变分自编码器包括编码器网络E1和解码器网络
D1，所述编码器网络E1为全卷积网络，包含n层卷积，滤波器通道数目逐层增加，用于学习深层次的特征；所述全卷积网络中最后一个卷积层的输出为均值向量和方差向量两个n维矢量；所述编码器网络E1将视觉特征映射到一个由概率分布N(μ,Σ)表示的区间向量上，进行采样得到隐变量Z1，其中μ为均值向量，Σ为方差向量；则隐变量Z1的概率分布为：q1(Z1|x)＝N(Z1|μ1,Σ1),p(Z1)＝N(Z1|0,I)其中，q1(Z1|x)表示隐变量Z1服从的概率分布，p(Z1)表示隐变量Z1的先验分布，此处为单位高斯分布，μ1和Σ1表示隐变量Z1的均值和方差，N表示正态分布。6.根据权利要求1所述的一种基于变分自编码器和对抗生成网络的图像增广模型训练方法，其特征在于，所述语义模态变分自编码器包括编码器网络E2和解码器网络D2，编码器网络E2和解码器网络D2均使用两层全连接层进...

【专利技术属性】
技术研发人员：饶元，苏仕芳，江朝晖，金秀，张武，梁惠，李绍稳，
申请(专利权)人：安徽农业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人