一种基于视觉迁移对齐的图像分类方法及装置制造方法及图纸

技术编号：39061040 阅读：16 留言：0更新日期：2023-10-12 19:53

本发明专利技术公开了一种基于视觉迁移对齐的图像分类方法及装置，涉及图像分类技术领域。本发明专利技术在训练阶段使用MAE的方式对基类数据进行无监督训练，旨在提取基类数据下高辨识度的局部视觉特征，编码网络的选取采用标准的ViT模型，在编码模块输出的特征上进行掩码，使编码模块的输入长度始终保持一致。然后将训练好的编码网络用于测试阶段对新类数据提取局部视觉特征，在新类数据下利用高辨识度的基类局部视觉特征对新类数据中辨识度不足的特征进行替换，并在度量之前在空间位置上对视觉特征进行对齐，以此提升新类数据特征的辨识度和度量的准确性，进而提升小样本图像分类的性能。进而提升小样本图像分类的性能。进而提升小样本图像分类的性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于视觉迁移对齐的图像分类方法及装置

[0001]本专利技术涉及图像分类
，尤其涉及一种基于视觉迁移对齐的图像分类方法及装置。

技术介绍

[0002]近年来，随着深度学习的发展，在很多大样本图像分类任务上，机器的识别性能已经超越人类。然而，当样本量比较少时，机器的识别水平仍与人类存在较大差距。因此，少量训练样本的图像分类，尤其是每类仅有一个或几个标记样本的小样本图像分类(Few
‑
shot Image Classification)，近两年得到了研究人员的广泛关注。小样本分类(Few
‑
shot Classification)属于小样本学习(Few
‑
shot Learning)范畴，往往包含类别空间不相交的两类数据，即基类数据和新类数据。小样本分类旨在利用基类数据学习的知识和新类数据的少量标记样本(支持样本)来学习分类规则，准确预测新类任务中未标记样本(查询样本)的类别，其框架如图1所示。
[0003]小样本图像分类是当前计算机视觉、人工智能领域中亟待解决的研究问题。现有的、较为成功的大样本图像分类方法严重依赖样本的数量，而现实世界中事物的样本量是服从长尾分布的，即大量事物的样本量都是严重不足的，例如在军事、医疗、工业，天文等领域，样本采集需要消耗大量的人力、物力、时间和经济成本，很难采集大规模的图像样本。因此，开展小样本图像分类的研究对图像分类技术的广泛应用具有重要价值。
[0004]对大样本图像分类，现有的深度学习技术可以通过增加模...

【技术保护点】

【技术特征摘要】
1.一种基于视觉迁移对齐的图像分类方法，其特征在于，包括如下步骤：S1、数据准备，图像数据包括训练集和测试集，其中，训练集作为基类数据用来训练模型，测试集作为新类数据用来测评模型的小样本图像分类性能，将新类数据组织为C
‑
way K
‑
shot的分类任务；S2，使用基类数据，按照MAE的方式训练编码网络和解码网络，并输出最优的编码网络和解码网络；编码网络采用标准的ViT对掩码的图像块进行提取特征；解码网络采用标准的ViT在编码模块输出的特征上进行掩码，重建还原图像；S3，利用最优的编码网络提取新类数据支持样本和查询样本特征，使用基类数据的局部视觉特征替换新类数据支持样本的每一个局部视觉特征，将支持样本的局部视觉特征与查询样本的局部视觉特征在空间位置上进行对齐，计算对齐后的查询样本特征与原始的查询样本特征之间的余弦距离，并根据余弦距离的远近对该查询样本进行分类。2.根据权利要求1所述的基于视觉迁移对齐的图像分类方法，其特征在于，步骤S1将数据分为训练集和测试集两部分，其中，L
train
和L
test
分别为训练集和测试集的类别，且这两部分的类别空间互斥，即N
train
为训练集的样本总数，N
test
为测试集的样本总数；是训练集上的图像样本，H为原始图片的高，W为原始图片的宽，是训练集上样本的类别，i为训练集上样本的索引；是测试集上的图像样本，H为原始图片的高，W为原始图片的宽，是测试集上样本的类别，为测试集上样本的索引。3.根据权利要求2所述的基于视觉迁移对齐的图像分类方法，其特征在于，步骤S1中，对于测试集D
test
，从中随机选出C个类别，每个类别中随机选出M+K个样本，其中K个样本作为支持样本S
e
，M个样本作为查询样本Q
e
，支持样本S
e
和查询样本Q
e
构成一个任务T
e
，其中e＝1,2,
…
,E是新类任务的索引，E为新类数据上采样的总的任务个数；对于新类任务T
e
＝{S
e
,Q
e
}，其中}，其中表示第c类的第k个支持样本，表示第j个查询样本，c∈[1,2,
…
,C]，k∈[1,2,
…
,K]，j∈[1,2,
…
,C
×
M]；H表示图像样本的长，W表示图像样本的宽；表示第c类的第k个支持样本的one
‑
hot标签，one
‑
hot标签是一个1
×
C的向量，如果样本属于第c类，则第c个位置的数值为1，其余位置为0。4.根据权利要求3所述的基于视觉迁移对齐的图像分类方法，其特征在于，步骤S2包括以下子步骤：步骤S21，使用基类数据训练编码网络和解码网络对于基类数据下的一个图像样本其中为3
×
H
×
W的原始图像，将图像样本在空间上分成个大小为3
×
p
×
p的图像块，p为图像块的大小；将每个图像块的维度压缩成3p2，共得到的图像块，令3p2＝d，则然后将输入编码模块Encoder
θ
，θ为可学习的参...

【专利技术属性】
技术研发人员：武继杰，冀璐琛，芦培育，杨世丞，郭晓伟，张文斌，曾俊瑀，李晓旭，
申请(专利权)人：兰州理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人