一种细粒度图像分类方法及其系统技术方案

技术编号:34729620 阅读:12 留言:0更新日期:2022-08-31 18:18
本申请公开了一种细粒度图像分类方法及其系统,其中细粒度图像分类方法具体包括以下步骤:使用预训练参数初始化分层视觉转换器网络;响进行数据的采样;根据采样的数据进行底层特征对比学习,获取第一预测损失;根据采样的数据进行深层特征平衡处理,获取第二预测损失;根据第一预测损失和第二预测损失进行整体损失的获取;通过反向传播更新网络参数;重复执行上述步骤,直至分层视觉转换器网络的参数收敛,保存更新后的网络参数;使用保存的网络参数进行分层视觉转换器网络的初始化;根据初始化后的分层视觉转换器网络进行图像类别的预测。本申请在优化细粒度图像分类任务时,同时优化了细粒度特征与长尾分布的问题。时优化了细粒度特征与长尾分布的问题。时优化了细粒度特征与长尾分布的问题。

【技术实现步骤摘要】
一种细粒度图像分类方法及其系统


[0001]本申请涉及数据处理领域,具体地,涉及一种细粒度图像分类方法及其系统。

技术介绍

[0002]细粒度图像分类任务是指对同一类别下的多个相似子类的图像进行分类,如工业产品缺陷分类、相似物种分类等等,不同类别十分相近,通常只能通过细微的特征进行区分。同时,由于细粒度图像分类任务的对象通常来自同一领域,不同类别通常会存在一定程度的偏斜,如物种的稀有程度、产品缺陷的产生概率以及服装的流行度等等。在细粒度图像分类任务数据采集的过程中,这种偏斜会导致不同数据采集成本产生巨大差异。而采集成本的不同会造成实际采集的数据集中大量样本仅来自少数几个类别,而大部分类别样本数量较少。通常将包含大量样本的类别称为头部类别,其余类别称为尾部类别,将该问题称为长尾分布问题。数据集分布的严重倾斜导致分类对头部类别存在明显的偏向,分类边界移向尾部类别,使尾部数据容易被判别为头部类别。综上,细粒度图像分类任务的困难主要来自于两个方面:1)细粒度特征导致的不同类别区分困难;2)长尾分布导致的尾部类别受损。早期的方法通常基于卷积神经网络技术进行设计,并在上述两个问题上取得了一定的成果。随着Transformer(视觉转换器网络)技术在计算机视觉领域的兴起,Transformer技术开始被应用于提升细粒度图像分类任务。
[0003]长尾分布问题是广泛存在于众多领域的常见问题。然而,相比于常规的图像分类任务,细粒度图像分类任务有着“类内方差大、类间方差小”的特点。细粒度特征会使长尾分布导致的头部类别侵害尾部类别问题进一步转换为头部子类侵害尾部相似子类,这种侵害导致用于区分头部尾部相似类别的可区分细粒度特征被破坏,极大地增加了分类地难度。目前的方法通常将长尾分布与细粒度特征优化作为两个独立的方向进行研究。对于细粒度图像分类任务,只考虑其细粒度特征分类困难的问题,而长尾分布优化方法也只考虑数据分布带来的影响。而真实环境中的细粒度图像分类问题,长尾分布与细粒度特征同时存在。因此,已有方法在解决真实场景中的细粒度图像分类任务时效果欠佳。同时,已有的大量研究主要基于卷积神经网络进行设计,而卷积神经网络的性能在近几年逐渐趋于极限,相关的细粒度图像分类方法的性能也难以得到进一步提升。目前,Transformer在细粒度图像分类任务中的已有应用方法有效地提升了分类准确率,证明了其解决细粒度图像分类任务的优势。然而,已有的基于Transformer的方法只考虑了细粒度特征的优化,但并未针对长尾分布进行优化,二者的相互耦合的问题依旧缺乏有效的优化方法。
[0004]因此,如何提供一种能够解决细粒度特征与长尾分布导致的分类困难问题的方法,是本领域技术人员急需解决的问题。

技术实现思路

[0005]本专利技术的目的在于提出一种基于Transformer优化的细粒度图像分类方法。该方法将Transformer用于解决细粒度图像分类任务,通过优化Transformer方法,同时解决了
细粒度特征与长尾分布导致的分类困难问题。本专利技术针对已有的Transformer方法进行优化,在改善长尾分布问题对尾部类别特征侵害的同时,保护整体特征的学习能力,并加强了Transformer对于细粒度特征的分辨能力。本专利技术旨在改善细粒度特征与长尾分布问题在分类学习的过程中对尾部类别的侵害,同时减少优化方法对头部类别的损害。并且,本专利技术在这一过程中进一步保护细粒度特征的学习,增大了不同类别在特征空间的距离。最终,通过优化Transformer方法,提升整体的分类准确率,提高分类网络的鲁棒性。
[0006]为了解决上述问题,本申请提供了一种细粒度图像分类方法,具体包括以下步骤:S1,使用预训练参数初始化分层视觉转换器网络;S2,响应于完成分层视觉转换器网络的初始化,进行数据的采样;S3,根据采样的数据进行底层特征对比学习,获取第一预测损失;S4,根据采样的数据进行深层特征平衡处理,获取第二预测损失;S5,根据深层平衡处理和底层对比学习获取整体损失;S6,响应于获取整体损失,通过反向传播更新网络参数;重复执行步骤S1

S6,直至分层视觉转换器网络的参数收敛,执行步骤S7;S7,保存更新后的网络参数;S8,使用保存的网络参数进行分层视觉转换器网络的初始化;S9,根据初始化后的分层视觉转换器网络进行图像类别的预测。
[0007]如上的,其中,预训练参数为分层视觉转换器预先训练的参数。
[0008]如上的,其中,进行数据的采样包括,使用正采样器、反采样器与混淆数据采样器在训练数据集中进行数据采样,最终生成由上述三个采样器组成的三元组数据。
[0009]如上的,其中,反采样器的采样过程包括:获取每个类别的权重;根据每个类别的权重计算每个类别的采样概率;类别的权重w
i
表示为:N
i
表示数据集集合中第i个类别的样本数量;类别的采样概率p
i
具体表示为:其中w
i
表示第i个类别的权重,w
j
表示第j个类别的权重,n表示类别的数量。
[0010]如上的,其中,得到采样概率p
i
之后,反采样器依据p
i
从训练数据集中抽取一个类别,然后在该类别的数据中随机采样一个样本,完成反采样器的数据采样。
[0011]如上的,其中,根据采样的数据进行底层特征对比学习,获取第一预测损失,包括以下子步骤:对正采样与混淆数据采样的数据进行特征提取,获取中间特征;将得到的中间特征进行混合,得到底层混合特征;将底层混合特征依次通过视觉转换器网络的后续网络层,获取最终混合特征;将最终混合特征送入分类器进行预测,得到预测概率分布;根据预测概率分布获取第一预测损失。
[0012]如上的,其中,通过正采样与混淆数据采样获取一组成对数据(x,y),(x',y'),其中x,x'为图像样本数据,y,y'为对应的真实类别标签,将x,x'依次通过视觉转换器网络的浅层网络得到中间特征h,h'。
[0013]如上的,其中,根据采样的数据进行深层特征平衡处理,获取第二预测损失,包括以下步骤:对正采样与反采样的数据进行特征提取,获取获取深层特征;对深层特征进行预测获取预测结果,将预测结果进行动态混合,获取混合预测结果以及混合预测概率分布;响应于获取混合预测概率分布,将反采样获得的预测标签进行标签平滑,获取平滑标签;根据平滑标签获取混合预测结果的预测损失。
[0014]如上的,其中,深层特征包括头部深层特征和尾部深层特征,使用分类器
对头部深层特征进行预测,使用分类器对尾部深层特征进行预测,对两个分类器预测的结果进行混合预测,混合预测结果f具体表示为:
[0015]f=αWz+(1

αW”z”)
[0016]其中α用于控制正采样支路与反采样支路的比重。
[0017]一种细粒度图像分类系统,具体包括,第一初始化单元、数据混合采样单元、底层特征对比学习单元、深层特征平衡单元本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种细粒度图像分类方法,其特征在于,具体包括以下步骤:S1,使用预训练参数初始化分层视觉转换器网络;S2,响应于完成分层视觉转换器网络的初始化,进行数据的采样;S3,根据采样的数据进行底层特征对比学习,获取第一预测损失;S4,根据采样的数据进行深层特征平衡处理,获取第二预测损失;S5,根据深层平衡处理得到的第一预测损失和底层对比学习获取的第二预测损失进行整体损失的获取;S6,响应于获取整体损失,通过反向传播更新网络参数;重复执行步骤S1

S6,直至分层视觉转换器网络的参数收敛,执行步骤S7;S7,保存更新后的网络参数;S8,使用保存的网络参数进行分层视觉转换器网络的初始化;S9,根据初始化后的分层视觉转换器网络进行图像类别的预测。2.如权利要求1所述的细粒度图像分类方法,其特征在于,预训练参数为分层视觉转换器预先训练的参数。3.如权利要求1所述的细粒度图像分类方法,其特征在于,进行数据的采样包括,使用正采样器、反采样器与混淆数据采样器在训练数据集中进行数据采样,最终生成由上述三个采样器组成的三元组数据。4.如权利要求3所述的细粒度图像分类方法,其特征在于,反采样器的采样过程包括:获取每个类别的权重;根据每个类别的权重计算每个类别的采样概率;类别的权重w
i
表示为:N
i
表示数据集集合中第i个类别的样本数量;类别的采样概率p
i
具体表示为:其中w
i
表示第i个类别的权重,w
j
表示第j个类别的权重,n表示类别的数量。5.如权利要求4所述的细粒度图像分类方法,其特征在于,得到采样概率p
i
之后,反采样器依据p
i
从训练数据集中抽取一个类别,然后在该类别的数据中随机采样一个样本,完成反采样器的数据采样。6.如权利要求5所述的细粒度图像分类方法,其特征在于,根据采样的数据进行底层特征对比学习,获取第一预测损失,包括以下子步骤:对正采样与混淆数据采样的数据进行特征提取,获取中间特征;将得到的中间特征进行混合,得到底层混合特征;将底层混合特征依次通过视觉转换器网络的后...

【专利技术属性】
技术研发人员:张天魁蔡昌利翁哲威刘元玮朱禹涛
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1