System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于鲁棒性少参数微调的小样本类增量学习方法技术_技高网

基于鲁棒性少参数微调的小样本类增量学习方法技术

技术编号:44984276 阅读:1 留言:0更新日期:2025-04-15 17:03
在图像识别领域,深度学习模型的小样本类增量式学习是一个具有挑战性的技术难题,其在预训练模型基础上进行参数迭代更新,从而使得模型能够仅利用有限数量的有标注样本不断学习新类别的知识,同时保留原有类别知识。极其有限的样本下进行参数更新会导致模型出现偏差,同时大量参数更新会使得模型遗忘已有知识,为了应对上述问题,在最近邻类别均值分类法的基础上,本发明专利技术提出了一种基于鲁棒性少参数微调的小样本类增量学习方法,本发明专利技术所提出方法能够实现关键参数的高效微调,通过控制参数调整的数量和幅度产生灵活决策区域,从而避免上述问题。

【技术实现步骤摘要】

本专利技术属于图像识别,图像处理(g06v,g06f),具体涉及一种基于鲁棒性少参数微调的小样本类增量学习方法


技术介绍

1、在过去的十几年间,随着硬件设备的发展、网络结构设计的不断优化[1]以及更多数据集的提出,传统的深度学习算法在许多任务中都展现出了令人印象深刻的效果[2,3],例如图片分类[4]、目标检测[5]、语义分割[6]等,这些原本依赖于大量人工先验的任务如今可以借助深度学习一体化的训练方式高效地完成,从而在人们的日常生活的各个场景中发挥重要的作用;近些年,随着传统深度学习算法的日渐成熟,许多研究者尝试更为复杂的生成式、多模态或3d场景任务,例如跨模态生成(文生图[7]、文生视频[8]、3d生成[9]等),并同样取得了一定进展。无论是传统的具有成熟解决方案的任务抑或是新提出的尚在研究中的任务,它们的不断进步不仅归功于优秀的网络设计,更重要的是依赖于大量有标注的训练数据的支持。然而,在很多场景中,深度学习算法所依赖的场景具有知识不断扩增的需求,例如在开放集人脸识别任务[10]中,模型通常被要求能够识别不断增加的被测试者,因此此类深度学习算法通常需要具有更新的机制以不断适应新的数据分布;此外,在此类场景中,用于算法更新的样本数量通常是非常稀少的,这一方面是由于数据采集天然具有困难性(例如在人脸识别算法更新时,通常只能使用当前拍摄的少量照片),另一方面是由于实时数据标注所附带的高昂成本,稀少的标注样本迫使人们不得不减少训练深度学习算法用于更新自身时所需的样本数量。综合知识不断扩增和样本量稀少二者的特性,研究者们提出了小样本类增量学习的任务[11],探索仅利用少量标注样本使得算法不断更新识别新的物体类别,并在深度学习算法的发展中受到了一定程度的关注。小样本中,单类别样本数较少,例如少于指定数量阈值。

2、小样本类增量学习技术的核心挑战是克服灾难性遗忘[12]和过度拟合[13]的问题,在当前的小样本类增量学习设置中,数据集可以分为基础类别数据和增量类别数据[14],其中每个基础类别都包含足够的训练样本用于模型的初始化,相比之下,每个增量类别只包括有限的训练样本以模拟增量任务,同时,当模型更新学习增量类别时,前置任务中涉及的原始训练数据将不再可用,因此,如果使用一般的深度学习算法对增量数据进行直接学习往往会导致对旧类知识的灾难性遗忘,随着更新次数的增多这种遗忘的现象会不断加强,最终导致对于基础类别或早期增量类别的完全遗忘,这对于需要尽可能保留原有类别知识的算法而言是难以忍受的。此外,由于只有少数训练样本可用于增量类别,如果利用少量样本对模型进行参数更新,一般的更新方式也通常会导致模型对于增量类别缺乏足够的泛化性,从而无法通过算法的更新学习新类别知识。在灾难性遗忘和过度拟合的影响下,无论是原有类别知识的留存还是增量类别知识的延拓都具有较大的挑战性。

3、最近邻分类方法[15]被一些工作证明是应对小样本类增量问题的较优算法,然而如图1所示,其内聚程度和聚类中心位置存在优化空间,在此基础上,本专利技术提出利用一维带自适应参数的批正则化映射实现特征的近似高斯分布,并提出了“基于相似性的特征随机重构”方法,为新类生成大量伪特征,对原本聚类中心进行鲁棒性微调,从而缓解了聚类中心的有偏问题和过度拟合问题。同时,本专利技术引入基于低秩分解的少参数微调结构,通过将该结构作为骨干网络的分支实现模型参数的鲁棒性更新,增强其内聚能力。由于在这个过程中,仅有极少关键参数被更新,因此该参数微调方式能够使得模型原本参数被完整保留,具有抵抗遗忘的能力。


技术实现思路

1、本专利技术的目的是基于统计学和深度学习的理论和方法,研究资源消耗低、普适性高的小样本增量式模型更新技术,其能够利用极其有限的资源更新模型参数,使其在学习新知识的同时不忘记旧有知识,从而完成知识的更新。

2、本专利技术设计了一种基于鲁棒性少参数微调的小样本类增量学习方法,用于处理图像样本以进行图像识别。该项技术从高斯分布特征构建、增量类别特征重构、骨干网络参数更新等多方面做出了创新,从而解决了其他相关技术的痛点问题,多项实验表明,本专利技术提出的技术具有明显的性能优势和效率优势。

3、本专利技术包括以下步骤:

4、步骤s1:高斯分布特征映射;

5、步骤s11:将骨干网络输出的特征进行一维批正则化。

6、步骤s12:将s11得到的特征进行自适应放缩。

7、步骤s2:基础类别特征信息提取和小样本增量类别特征重构;

8、步骤s21:利用步骤s1抽取基础类别特征,计算并记录得到的基础类别特征中每一特征通道的样本均值和样本方差。

9、步骤s22:利用步骤s1抽取增量类别特征,计算增量类别特征与s21中基础类别特征样本均值的相似度,选取多个高相似度的基础类别重放特征,对小样本增量类别特征进行重构。

10、步骤s23:利用s31得到的重构特征,更新聚类中心,将新的聚类中心用于分类。

11、步骤s3:骨干网络分支结构参数微调;

12、步骤s31:基于低秩分解的少参数微调结构初始化。

13、步骤s32:使用增量类别中少量样本,将s31初始化后的模型结构作为骨干网络的分支结构进行参数微调。

14、本专利技术在充分分析其他小样本类增量学习技术的不足的基础上,通过聚类中心更新和骨干网络更新两种核心技术,提出了更具有广泛应用前景的参数微调技术,实验结果证明了本专利技术达到了十分先进的水平。

15、本专利技术的有益效果在于:

16、1.本专利技术基于鲁棒性少参数微调的核心思想,其通过控制参数更新的位置、数量和程度,使得模型参数可以在有限的范围内实现高效的更新。

17、2.本专利技术研究深度学习的小样本类增量学习问题,其对于大模型以及各类ai应用有着重要的研究意义和巨大的应用价值。

本文档来自技高网...

【技术保护点】

1.一种基于鲁棒性少参数微调的小样本类增量学习方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,步骤S11中,利用一维批正则化的方法,将骨干网络输出的任意分布的特征映射为具有统计学意义的高斯分布,φ为骨干网络参数,I为输入到骨干网络中的样本,y为抽取得到的特征,μj和分别为一维批正则化第j维度的样本均值和方差,yij和分别为第i个样本第j维度映射前后的样本特征;

3.根据权利要求1所述的方法,其特征在于,步骤S12中,利用可学习参数γ和β将得到的特征进行自适应放缩,使得每个特征维度映射为近似独立且不同分布的高斯分布,xij为映射后的特征,

4.根据权利要求1所述的方法,其特征在于,步骤S21中,计算并记录得到的基类特征中每一特征通道的样本均值和样本方差,其中xi,j,k表示第i类别第j通道第k样本的特征值,为样本均值,为对应的样本方差,m为样本数量,μi,j和分别为第i类别第j通道的特征总体的均值和方差

5.根据权利要求1所述的方法,其特征在于,步骤S22中,计算增量类别特征与S21中基类特征样本均值的相似度δi,然后将δi由高到低排序,选取前K′个作为高相似度类别,从中随机选取K个进行基础类别特征重放,K′>K,并对增量类别特征进行重构,首先基础类别特征均值μi与当前增量类别特征x′的相似度δi,·表示内积,||·||2则表示二阶范数

6.根据权利要求1所述的方法,其特征在于,步骤S23中,计算增量类别特征重构后的特征均值,作为微调后的聚类中心参数,其中ci′表示第i′个增量类别的聚类中心,表示第i′个增量类别的第j个重构特征,N表示第i′个增量类别的重构样本数量,并使用测试样本的特征y与ci′的距离判断其所属类别l

7.根据权利要求1所述的方法,其特征在于,步骤S31中,使用可分解的低秩矩阵来近似表示模型参数更新时的参数变化量,并分别利用Xavier初始化和零初始化进行参数初始化过程,ΔW为待更新参数,B和A为低秩分解后的两个矩阵

8.根据权利要求1所述的方法,其特征在于,步骤S32中,将S31初始化后的模型结构作为骨干网络的分支结构进行参数微调,其中W为原本参数保持不变,W′未更新后参数,

9.一种信息处理设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现根据权利要求1-8之一所述的方法。

...

【技术特征摘要】

1.一种基于鲁棒性少参数微调的小样本类增量学习方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,步骤s11中,利用一维批正则化的方法,将骨干网络输出的任意分布的特征映射为具有统计学意义的高斯分布,φ为骨干网络参数,i为输入到骨干网络中的样本,y为抽取得到的特征,μj和分别为一维批正则化第j维度的样本均值和方差,yij和分别为第i个样本第j维度映射前后的样本特征;

3.根据权利要求1所述的方法,其特征在于,步骤s12中,利用可学习参数γ和β将得到的特征进行自适应放缩,使得每个特征维度映射为近似独立且不同分布的高斯分布,xij为映射后的特征,

4.根据权利要求1所述的方法,其特征在于,步骤s21中,计算并记录得到的基类特征中每一特征通道的样本均值和样本方差,其中xi,j,k表示第i类别第j通道第k样本的特征值,为样本均值,为对应的样本方差,m为样本数量,μi,j和分别为第i类别第j通道的特征总体的均值和方差

5.根据权利要求1所述的方法,其特征在于,步骤s22中,计算增量类别特征与s21中基类特征样本均值的相似度δi,然后将δi由高到低排序,选取前k′个作为高相似度类别,...

【专利技术属性】
技术研发人员:童超金陆洋梁宇辰
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1