基于特征细化自监督学习的广义零样本图像分类方法技术

技术编号：39518873 阅读：25 留言：0更新日期：2023-11-25 18:57

本发明专利技术为基于特征细化自监督学习的广义零样本图像分类方法，该方法引入自监督学习任务，为

全部详细技术资料下载

【技术实现步骤摘要】
基于特征细化自监督学习的广义零样本图像分类方法

[0001]本专利技术属于计算机视觉领域，涉及一种广义零样本图像分类方法，具体涉及一种基于特征细化自监督学习的广义零样本图像分类方法
。

技术介绍

[0002]零样本图像分类
(Zero
‑
shot Learning,ZSL)
指训练集和测试集在数据的类别上没有交集的情况下进行图像分类，旨在于依据可见类别的数据，辅以相关常识信息或者先验知识，实现对未见类别的数据进行预测和识别的一项技术
。
辅助信息主要是指语义信息，包括人工定义的属性向量，基于机器学习方法自动提取的文本信息，或者是它们之间的组合，语义信息可以在可见类和未见类之间架起一座桥梁
。
[0003]在传统的
ZSL
技术中，测试集只包含来自未见类的样本，在现实世界中，这种设置是不合理的和难以实现的
。
在实际应用中，可见类的数据样本比未见类的数据样本更加常见，我们需要测试集中既包含未见类样本也包含可见类样本，甚至同时识别包含两个类的样本比只识别未见类样本更加重要
。
因此，为了进一步适应现实世界，研究者们提出了广义零样本学习
(GeneralizedZero
‑
Shot Learning
，
GZSL)
，它可以同时识别来自可见类和未见类的样本
。
[0004]大多数现有的
GZSL
方法集中在基于嵌入模型和基

【技术保护点】

【技术特征摘要】
1.
一种基于特征细化自监督学习的广义零样本图像分类方法，该方法包括如下步骤：
(1)
获取广义零样本分类模型的图像数据集和语义属性数据集，利用
ResNet101
网络训练语义属性数据集获得语义特征
A
；
(2)
构建一个以图像数据集和语义属性数据集为输入的条件视觉分类器，为未见类的图像生成伪标签，将得到的伪标签作为未见类的标签，以图像数据集中的未见类图像和通过条件视觉分类器获得的伪标签构成新的图像数据集，将图像数据集中的可见类的图像数据集
、
未见类图像和伪标签构成新的图像数据集作为广义零样本分类模型的训练样本，用于后续的分类训练；
(3)
构建广义零样本分类模型；所述广义零样本分类模型包括视觉特征细化模块
、
语义特征细化模块
、
添加了两个分类
token
的
Swin Transformer
网络和构建的两个自监督学习任务，两个新添加的分类
token
分别对应两个自监督学习任务：旋转角度分类任务和对比学习任务，其中旋转角度分类任务需要将训练样本随机旋转四个不同的角度，最后预测旋转类别；对比学习任务是将训练样本分别输入
ResNet101
和
Swin Transformer
网络中得到经过不同特征提取器提取的视觉特征，通过对比损失函数进行约束；构建视觉特征细化模块：所述视觉特征细化模块是基于双线性池化的思想改进的，是特征融合的一种改进方法，本发明采用的是同源双线性池化的方法，视觉特征细化模块的输入是训练样本经
Swin Transformer
网络后得到的视觉特征
x
，视觉特征细化模块可以使视觉特征更适用于细粒度数据集，包括哈达玛操作
、reshape
操作
、
全连接层和归一化层，具体操作是复制视觉特征
x
用于后续的特征融合，
x
初始维度是
q
，两个视觉特征
x
经
reshape
操作后维度分别变换为1×
q
和
q
×1，命名为
x1
和
x2
，
x1
分解为参数矩阵
U1
和特征向量
x2
分解为参数矩阵
U2
和特征向量参数矩阵
U1
和特征向量的乘积是
x1
，特征向量和参数矩阵
U2
的乘积是
x2
，然后
U1
和
U2
经哈达玛操作输入到全局向量层中，和同样经哈达玛操作输入到全局向量层中，并在全局向量层中聚合成全局向量
z
，再经一个全连接层和归一化操作，输出为细化后的视觉特征构建语义特征细化模块：所述语义特征细化模块称为图像自适应
(Image Adaptive Semantics,IAS)
模块，
IAS
模块可以将用于类间区分的原始语义特征与用于类内变化的图像特定注意向量相结合，然后将图像自适应语义特征映射到相对应的视觉空间中，从而提升了
GZSL
图像分类的准确度
。IAS
模块包括第1全连接层
FC、
第1分类函数
softmax、
哈达玛操作
、
和操作
、
第2全连接层
、
第3全连接层
FC、
第1归一化层
、
第2归一化层
、
第2分类函数
softmax
，
IAS
模块的输入为视觉特征细化模块输出的视觉特征和利用
ResNet101
网络训练语义属性数据集获得的语义特征
A
，视觉特征经第1全连接层
FC、
第1分类函数
softmax
处理后的结果与语义特征执行哈达玛操作
、
和操作，获得改进后语义特征改进后的语义特征经过第2全连接层
FC、
第3全连接层
FC
及第2归一化层处理后与视觉特征
x
经第2归一化层处理后的结果执行哈达玛操作及第2分类函数
softmax
处理，将语义特征映射到视觉空间中；以训练样本输入
Swin Transformer
网络，依次经视觉特征细化模块和
IAS
模块中，输出
广义零样本图像分类任务的分类类别，训练广义零样本分类模型，广义零样本分类模型的总损失函数
L
TOT
为自监督学习的损失函数
(
旋转角度分类任务的损失函数和对比学习任务的损失函数
)
和广义零样本分类任务的损失之和，公式表示为：
L
TOT
＝
L
CE
+L
MSE
+L
NCE
(1)
其中，
L
TOT
为广义零样本分类模型的总损失函数，
L
CE
为旋转角度分类任务的损失函数，
L
MSE
为广义零样本分类任务的损失函数，
L
NCE
为对比学习任务的损失函数；广义零样本分类任务的损失函数为：其中，
M
代表训练样本个数，
y
i
和分别代表真实标签和广义零样本图像分类任务的预测标签；旋转角度分类任务的损失函数为：其中，表示旋转角度分类任务的预测标签，
a∈{0,1,2,3}
代表4个旋转角度；对比学习任务的损失函数为：其中，
M
代表训练样本个数，
x
j
,
分别代表训练样本经过
ResNet101
网络和
SwinTransformer
网络后的视觉特征，
W
代表
SwinTransformer
网络的权重矩阵，代表
x
j
,
之间的相似性
。
至此，获得训练好的广义零样本分类模型；
(4)
利用训练好的广义零样本分类模型对广义零样本图像进行识别，完成广义零样本的分类任务
。2.
根据权利要求1所述的广义零样本图像分类方法，其特征在于，所述伪标签的获得过程是：将图像数据集中的可见类的图像数据集和语义属性数据集用于训练，得到以语义属性为条件的可见类条件视觉分类器，再将未见类的图像数据集和语义属性数据集用于训练，获得以语义属性为条件的未见类的条件视觉分类器；通过可见类的条件视觉分类器获得可见类的权重矩阵
W
s
，以可见类的权重矩阵
W
s
作为未见类的条件视觉分类器的分类权重，得到未见类图像
x
u
的伪标签
3.
根据权利要求1所述的广义零样本图像分类方法，其特征在于，所述步骤
(1)
获取广义零样本分类模型的图像数据集和语义属性数据集，具体是：
(1.1)
利用已有的图像分类和细粒度图像分类的数据集作为图像数据集，包括：
Animalwi...

【专利技术属性】
技术研发人员：郭迎春，张玉，崇浩泽，朱叶，于洋，师硕，吕华，阎刚，刘依，
申请(专利权)人：天津农学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人