一种基于视觉迁移对齐的图像分类方法及装置制造方法及图纸

技术编号:39061040 阅读:16 留言:0更新日期:2023-10-12 19:53
本发明专利技术公开了一种基于视觉迁移对齐的图像分类方法及装置,涉及图像分类技术领域。本发明专利技术在训练阶段使用MAE的方式对基类数据进行无监督训练,旨在提取基类数据下高辨识度的局部视觉特征,编码网络的选取采用标准的ViT模型,在编码模块输出的特征上进行掩码,使编码模块的输入长度始终保持一致。然后将训练好的编码网络用于测试阶段对新类数据提取局部视觉特征,在新类数据下利用高辨识度的基类局部视觉特征对新类数据中辨识度不足的特征进行替换,并在度量之前在空间位置上对视觉特征进行对齐,以此提升新类数据特征的辨识度和度量的准确性,进而提升小样本图像分类的性能。进而提升小样本图像分类的性能。进而提升小样本图像分类的性能。

【技术实现步骤摘要】
一种基于视觉迁移对齐的图像分类方法及装置


[0001]本专利技术涉及图像分类
,尤其涉及一种基于视觉迁移对齐的图像分类方法及装置。

技术介绍

[0002]近年来,随着深度学习的发展,在很多大样本图像分类任务上,机器的识别性能已经超越人类。然而,当样本量比较少时,机器的识别水平仍与人类存在较大差距。因此,少量训练样本的图像分类,尤其是每类仅有一个或几个标记样本的小样本图像分类(Few

shot Image Classification),近两年得到了研究人员的广泛关注。小样本分类(Few

shot Classification)属于小样本学习(Few

shot Learning)范畴,往往包含类别空间不相交的两类数据,即基类数据和新类数据。小样本分类旨在利用基类数据学习的知识和新类数据的少量标记样本(支持样本)来学习分类规则,准确预测新类任务中未标记样本(查询样本)的类别,其框架如图1所示。
[0003]小样本图像分类是当前计算机视觉、人工智能领域中亟待解决的研究问题。现有的、较为成功的大样本图像分类方法严重依赖样本的数量,而现实世界中事物的样本量是服从长尾分布的,即大量事物的样本量都是严重不足的,例如在军事、医疗、工业,天文等领域,样本采集需要消耗大量的人力、物力、时间和经济成本,很难采集大规模的图像样本。因此,开展小样本图像分类的研究对图像分类技术的广泛应用具有重要价值。
[0004]对大样本图像分类,现有的深度学习技术可以通过增加模型弹性和样本量来学习高辨识度的图像特征。然而,对标记样本极少的小样本分类任务来说,现有的深度学习技术并不适用,很大程度上限制了小样本图像分类技术的实用化。因而,如何基于基类数据和标记样本极少的新类数据,来学习高辨识度的特征表示,是一个值得探索的问题。
[0005]目前的基于度量学习的小样本图像分类方法中,通常采用基于场景的训练方式,这种方式无法采样到所有的可能的分类场景,对基类数据的拟合能力不足。同时,由于新类下的样本是模型从未见过的,因此使用基类数据下训练的模型,提取的新类视觉特征表示能力不足。此外,目前的基于度量学习的小样本图像分类方法,在对样本进行度量时没有考虑图像样本的空间位置关系,使得度量的结果不够准确。

技术实现思路

[0006]为了解决目前的方法在基类数据下的拟合能力不足和度量结果不够准确的问题,本专利技术提出一种基于视觉迁移对齐的图像分类方法及装置,在模型训练阶段采用无监督的掩码训练方式训练较好的特征提取器,提取基类数据中具有高辨识度的局部视觉特征,并且在新类数据下利用高辨识度的基类局部视觉特征对新类数据中辨识度不足的局部视觉特征进行替换,并在度量之前在空间位置上对视觉特征进行对齐,以此在新类数据下获得较好的分类性能。
[0007]为了实现上述目的,本专利技术提供如下技术方案:
[0008]一方面,本专利技术提供一种基于视觉迁移对齐的图像分类方法,包括如下步骤:
[0009]S1、数据准备,图像数据包括训练集和测试集,其中,训练集作为基类数据用来训练模型,测试集作为新类数据用来测评模型的小样本图像分类性能,将新类数据组织为C

way K

shot的分类任务;
[0010]S2,使用基类数据,按照MAE的方式训练编码网络和解码网络,并输出最优的编码网络和解码网络;编码网络采用标准的ViT对掩码的图像块进行提取特征;解码网络采用标准的ViT在编码模块输出的特征上进行掩码,重建还原图像;
[0011]S3,利用最优的编码网络提取新类数据支持样本和查询样本特征,使用基类数据的局部视觉特征替换新类数据支持样本的每一个局部视觉特征,将支持样本的局部视觉特征与查询样本的局部视觉特征在空间位置上进行对齐,计算对齐后的查询样本特征与原始的查询样本特征之间的余弦距离,并根据余弦距离的远近对该查询样本进行分类。
[0012]另一方面,本专利技术还提供了一种基于视觉迁移对齐的图像分类装置,包括以下模块以实现上述任一项所述的基于视觉迁移对齐的图像分类方法:
[0013]编码模块,采用标准的ViT,对掩码的图像块进行提取特征;
[0014]解码模块,采用标准的ViT,在编码模块输出的特征上进行掩码,重建还原图像;
[0015]基类特征替换模块,使用基类数据的局部视觉特征替换新类数据支持样本的每一个局部视觉特征;
[0016]位置对齐模块,用于将支持样本的局部视觉特征与查询样本的局部视觉特征在空间位置上进行对齐;
[0017]余弦距离度量模块,用于计算对齐后的查询样本特征与原始的查询样本特征之间的余弦距离,并根据余弦距离的远近对该查询样本进行分类。
[0018]与现有技术相比,本专利技术的有益效果为:
[0019]本专利技术提出的基于视觉迁移对齐的图像分类方法及装置,在训练阶段使用MAE的方式对基类数据进行无监督训练,旨在提取基类数据下高辨识度的局部视觉特征,编码网络的选取采用标准的ViT模型,训练好的编码网络用于测试阶段对新类数据提取局部视觉特征。与现有的MAE不同的是,本专利技术是在编码模块输出的特征上进行掩码,而不是在原始的图像块上进行掩码,目的是为了使编码模块的输入长度始终保持一致。然后在新类数据下利用高辨识度的基类局部视觉特征对新类数据中辨识度不足的局部视觉特征进行替换,并在度量之前在空间位置上对视觉特征进行对齐,以此提升新类数据特征的辨识度和度量的准确性,进而提升小样本图像分类的性能。
附图说明
[0020]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
[0021]图1为小样本分类(Few

shot Classification)框架图。
[0022]图2为本专利技术实施例提供的基于视觉迁移对齐的图像分类方法流程图。
[0023]图3为本专利技术实施例提供的基于视觉迁移对齐的图像分类方法训练阶段流程图。
[0024]图4为本专利技术实施例提供的基于视觉迁移对齐的图像分类方法测试阶段流程图。
[0025]图5为本专利技术实施例提供的基于视觉迁移对齐的图像分类装置功能模块示意图。
[0026]图6为本专利技术实施例提供的基于视觉迁移对齐的图像分类方法测试阶段调用的功能模块示意图。
具体实施方式
[0027]为了更好地理解本技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整的描述。显然,所描述的实例仅仅是本专利技术实施例一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员基于本申请所获得的所有其他实施例,都属于本专利技术保护的范围。
[0028]本专利技术提出的基于视觉迁移对齐的图像分类方法,如图2所示,包括以本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于视觉迁移对齐的图像分类方法,其特征在于,包括如下步骤:S1、数据准备,图像数据包括训练集和测试集,其中,训练集作为基类数据用来训练模型,测试集作为新类数据用来测评模型的小样本图像分类性能,将新类数据组织为C

way K

shot的分类任务;S2,使用基类数据,按照MAE的方式训练编码网络和解码网络,并输出最优的编码网络和解码网络;编码网络采用标准的ViT对掩码的图像块进行提取特征;解码网络采用标准的ViT在编码模块输出的特征上进行掩码,重建还原图像;S3,利用最优的编码网络提取新类数据支持样本和查询样本特征,使用基类数据的局部视觉特征替换新类数据支持样本的每一个局部视觉特征,将支持样本的局部视觉特征与查询样本的局部视觉特征在空间位置上进行对齐,计算对齐后的查询样本特征与原始的查询样本特征之间的余弦距离,并根据余弦距离的远近对该查询样本进行分类。2.根据权利要求1所述的基于视觉迁移对齐的图像分类方法,其特征在于,步骤S1将数据分为训练集和测试集两部分,其中,L
train
和L
test
分别为训练集和测试集的类别,且这两部分的类别空间互斥,即N
train
为训练集的样本总数,N
test
为测试集的样本总数;是训练集上的图像样本,H为原始图片的高,W为原始图片的宽,是训练集上样本的类别,i为训练集上样本的索引;是测试集上的图像样本,H为原始图片的高,W为原始图片的宽,是测试集上样本的类别,为测试集上样本的索引。3.根据权利要求2所述的基于视觉迁移对齐的图像分类方法,其特征在于,步骤S1中,对于测试集D
test
,从中随机选出C个类别,每个类别中随机选出M+K个样本,其中K个样本作为支持样本S
e
,M个样本作为查询样本Q
e
,支持样本S
e
和查询样本Q
e
构成一个任务T
e
,其中e=1,2,

,E是新类任务的索引,E为新类数据上采样的总的任务个数;对于新类任务T
e
={S
e
,Q
e
},其中},其中表示第c类的第k个支持样本,表示第j个查询样本,c∈[1,2,

,C],k∈[1,2,

,K],j∈[1,2,

,C
×
M];H表示图像样本的长,W表示图像样本的宽;表示第c类的第k个支持样本的one

hot标签,one

hot标签是一个1
×
C的向量,如果样本属于第c类,则第c个位置的数值为1,其余位置为0。4.根据权利要求3所述的基于视觉迁移对齐的图像分类方法,其特征在于,步骤S2包括以下子步骤:步骤S21,使用基类数据训练编码网络和解码网络对于基类数据下的一个图像样本其中为3
×
H
×
W的原始图像,将图像样本在空间上分成个大小为3
×
p
×
p的图像块,p为图像块的大小;将每个图像块的维度压缩成3p2,共得到的图像块,令3p2=d,则然后将输入编码模块Encoder
θ
,θ为可学习的参...

【专利技术属性】
技术研发人员:武继杰冀璐琛芦培育杨世丞郭晓伟张文斌曾俊瑀李晓旭
申请(专利权)人:兰州理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1