System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于transformer的细粒度图像分类方法技术_技高网

基于transformer的细粒度图像分类方法技术

技术编号:41576968 阅读:3 留言:0更新日期:2024-06-06 23:54
本发明专利技术涉及基于transformer的细粒度图像分类方法。该方法包括以下步骤:S1:使用预处理模块处理原始图像数据集;S2:通过transformer主干网络将图像切分为互不重叠的小图块,并提取每个小图块的特征向量token,同时引入位置编码和class‑token;S3:使用信息丢弃模块对每个token进行打分,过滤掉得分较低的token;S4:通过特征选择模块从每层编码器的输出中筛选出强判别区域,将这些区域进行拼接得到聚合特征,再与class‑token融合;S5:使用分类预测模块对融合特征进行分类预测,构建交叉熵损失函数进行训练,通过不断更新参数和迭代训练,优化模型性能,直至模型收敛。

【技术实现步骤摘要】

本专利技术属于图像分类领域,涉及基于transformer的细粒度图像分类方法


技术介绍

1、细粒度图像分类是计算机视觉中的一项重要任务,它涉及到对图像中同一类别下的不同子类进行细微差异的区分。例如,在动植物分类中,需要区分不同品种、不同个体之间的细微特征差异。由于同类对象之间的差异相对较小,因此细粒度图像分类的难度较大,需要学习更丰富的视觉特征,包括全局特征和细节信息。

2、传统的细粒度图像分类方法主要依赖于人工设计视觉特征,如颜色、形状、纹理等低级特征。这些方法需要依赖专家经验来设计特征,难以捕获所有有效信息,且仅适用于小规模数据。另一种传统方法是利用关键点或局部区域检测,再利用模板匹配识别子区域来实现分类。然而,这些方法难以归纳细微差异,分类效果受限于特征选择和数据集规模,在复杂细粒度任务中的表现不足。

3、随着深度学习技术的发展,基于深度学习的神经网络模型成为当前主流的细粒度图像分类方法。这些模型使用卷积神经网络作为主干,通过层层的卷积和池化操作自动学习图像的高级表征特征,从而替代了传统方法中依赖人工设计特征的缺点。为了更好地捕获细微差别,常见的模型添加注意力机制或残差结构模块,以强调学习区分区域。数据增强和预训练也被广泛应用于提高模型的泛化能力。在模型架构上,先进骨干网络如resnet、vgg网络等被用于提取特征,然后接入全连接或池化层进行分类。

4、细粒度图像分类在多种实际场景下具有重要的应用潜力,如农作物识别、生物识别、药品识别、零售产品识别等。在这些应用场景中,细粒度图像分类能够发挥重要作用,提高识别准确率和效率。

5、尽管基于深度学习的细粒度图像分类方法在动植物等实际应用领域取得了优异的表现,但在部分细微任务上的分类效果仍有待改进。未来的工作重点将是如何有效地提高模型的泛化能力,以及如何更好地获取图像中的强判区域。同时,随着深度学习技术的不断发展,人们将不断完善网络结构和训练策略,以提升细粒度图像分类的效果。


技术实现思路

1、有鉴于此,本专利技术的目的在于提供基于transformer的细粒度图像分类方法,解决
技术介绍
中存在的技术问题。

2、为达到上述目的,本专利技术提供如下技术方案:

3、基于transformer的细粒度图像分类方法,该方法包括以下步骤:

4、s1:将原始图像数据集,输入预处理模块对输入图像进行预处理;

5、s2:将通过预处理后的图像输入到transformer主干网络中,所述transformer主干网络将图像分割成固定大小且互不重叠的小块,再将每个小块映射为固定维度的特征向量token,并添加位置编码以及一个特殊的特征向量class-token,随后将得到的向量序列依次输入到多个堆叠的transformer编码器中;

6、s3:在多个堆叠的transformer编码器中的特定层次采用信息丢弃模块对每个token进行打分,根据每个token的得分,生成mask掩码过滤掉得分较低的token,将过滤后的图像序列输入到下一层transformer编码器;

7、s4:将每层编码器的输出,使用特征选择模块选择出强判区域,并将选择出的强判区域按位置进行拼接得到聚合特征,将class-token与聚合特征进行融合,得到融合特征;

8、s5:使用分类预测模块对融合特征进行分类预测,并计算预测结果与原始分类标签之间的差异,构建交叉熵损失函数以衡量预测准确度,不断更新参数迭代训练直至模型收敛,得到细粒度图像分类模型;

9、s6:将待检测图像输入训练好的细粒度图像分类模型,得到图像预测结果。

10、进一步的,所述s1中,采用预处理模块对输入图像进行预处理,具体包括:

11、把输入的图像数据按照比例划分为训练集和验证集,其中验证集数据不参与训练;

12、将图像调整为固定大小后,再对其进行水平翻转和随机剪裁;

13、对图像进行归一化处理,即将每个像素点值归一化到0-1区间内。

14、进一步的,所述s2中,多个堆叠的transformer编码器中的每层transformer编码器包含:多头注意力模块和前馈神经网络,通过多头自注意力机制和前馈神经网络对输入序列进行逐层处理,并利用残差连接和归一化来构建深层的序列表示,并在最后一层提取出包含全局信息的class-token用作后续的分类预测。

15、进一步的,所述s3中,在多个堆叠的transformer编码器中的特定层次采用信息丢弃模块对每个token进行打分,根据每个token的得分,生成mask掩码过滤掉得分较低的token,具体包括以下步骤:

16、s41:将输入特征通过一个全连接层,选择每个token的前c'个通道作为每个token的局部信息,公式表示如下:

17、

18、其中,mlp表示一个全连接层,n表示token数,c’表示选择作为局部信息通道个数;

19、s42:把后c-c'个通道通过一个平均池化层,得到一个包含全局信息的特征向量:

20、

21、其中,average表示一个平均池化层,c-c’表示选择用来生成全局信息的通道数;

22、s43:将局部特征与全局特征进行拼接,将拼接后的特征向量通过softmax得到每个token保留或丢弃的概率矩阵θ,其中θi,0和θi,1分别表示丢弃第i个token的概率和保留第i个token的概率;

23、s44:利用预测部分生成的概率矩阵θ来采样生成二进制决策掩码d∈{0,1}n,该掩码用来指示每个token是保留还是丢弃,“1”表示保留该token,“0”表示该token被丢弃,其中n表示token的数量,用公式表示为:

24、d=gumbel_softmax(θ)*,1∈{0,1}n,                     (3)

25、s45:仅使用二进制掩码将要丢弃的令牌归零是不可行的,因为在自注意矩阵的计算中

26、

27、被归零的令牌仍将通过softmax操作影响其他令牌,因此使用二进制决策掩码d生成一个注意力掩码g,利用该掩码来优化后续注意力矩阵的计算,具体过程用公式表示如下:

28、

29、其中,q,k为权重矩阵,随机初始化以后,在训练数据的梯度下降过程中优化,dj表示二进制决策掩码第j个token是否保留;gij生成的注意力掩码。

30、进一步的,所述s4中,将每层编码器的输出,使用特征选择模块选择出强判区域,具体包括以下步骤:

31、s51:将特征向量通过一个全连接层来实现对每个token的分类预测,通过softmax得到每个token的类预测概率;

32、s52:选择每个token预测概率的最大值作为该部分的得分,按照该得分对所有token的特征向量进行降序排序,选择本文档来自技高网...

【技术保护点】

1.基于transformer的细粒度图像分类方法,其特征在于:该方法包括以下步骤:

2.根据权利要求1所述的基于transformer的细粒度图像分类方法,其特征在于:所述S1中,采用预处理模块对输入图像进行预处理,具体包括:

3.根据权利要求1所述的基于transformer的细粒度图像分类方法,其特征在于:所述S2中,多个堆叠的Transformer编码器中的每层Transformer编码器包含:多头注意力模块和前馈神经网络,通过多头自注意力机制和前馈神经网络对输入序列进行逐层处理,并利用残差连接和归一化来构建深层的序列表示,并在最后一层提取出包含全局信息的class-token用作后续的分类预测。

4.根据权利要求3所述的基于transformer的细粒度图像分类方法,其特征在于:所述S3中,在多个堆叠的Transformer编码器中的特定层次采用信息丢弃模块对每个token进行打分,根据每个token的得分,生成mask掩码过滤掉得分较低的token,具体包括以下步骤:

5.根据权利要求4所述的基于transformer的细粒度图像分类方法,其特征在于:所述S4中,将每层编码器的输出,使用特征选择模块选择出强判区域,具体包括以下步骤:

6.根据权利要求5所述的基于transformer的细粒度图像分类方法,其特征在于:所述S5中,分类预测模块,利用一个全连接层和softmax实现分类预测,输出预测类别。

...

【技术特征摘要】

1.基于transformer的细粒度图像分类方法,其特征在于:该方法包括以下步骤:

2.根据权利要求1所述的基于transformer的细粒度图像分类方法,其特征在于:所述s1中,采用预处理模块对输入图像进行预处理,具体包括:

3.根据权利要求1所述的基于transformer的细粒度图像分类方法,其特征在于:所述s2中,多个堆叠的transformer编码器中的每层transformer编码器包含:多头注意力模块和前馈神经网络,通过多头自注意力机制和前馈神经网络对输入序列进行逐层处理,并利用残差连接和归一化来构建深层的序列表示,并在最后一层提取出包含全局信息的class-token用作后续的分类预测。

<...

【专利技术属性】
技术研发人员:李鹏华涂玉珊侯杰项盛任伟万宏
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1