一种基于能量的多专家集成的长尾分布图像分类方法技术

技术编号：41532038 阅读：31 留言：0更新日期：2024-06-03 23:08

本发明专利技术涉及一种基于能量的多专家集成的长尾分布图像分类方法，属于模式识别技术领域。本发明专利技术包括步骤：将长尾分布的训练集按照每个类包含样本量的多少，分为相对平衡的三部分，分别为头部、中部和尾部；通过粗粒度鉴别模块采用基于能量的模型区分头部、中部和尾部子集，获得粗粒度预测；在获得粗粒度预测后，通过多专家学习模块针对每个子集训练独立的专家模型；再由训练好的专家模型进行分类。本发明专利技术利用基于能量的粗粒度鉴别模块提前区分头部、中部和尾部，减轻了不同子集间的干扰问题。另外，该方法针对每个子集分别训练专家模型，然后使用决策交互策略增强专家间的协作，克服了粗粒度预测的局限性，在长尾分布数据集上取得了优异的分类性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种基于能量的多专家集成的长尾分布图像分类方法，属于模式识别。

技术介绍

1、近年来，深度学习在各种计算机视觉任务中取得了显著成功。然而，当将其应用于真实世界的图像分类任务时却面临新的挑战，因为这类图像通常呈现长尾分布，即只有少量类别具有充足的样本，而大多数类别样本数量有限。这种头尾类样本不平衡现象导致训练过程中两类数据间产生互相干扰。主要体现在：1)基于长尾数据训练出的模型，通常会优先拟合样本量充足的头部类，而对样本稀少的尾部类学习效果较差；2)尾部类作为噪声，对头部类的学习也产生负面影响，使头部类样本的判别边界不够清晰。这两方面的相互干扰成为长尾分布图像分类任务中需要解决的关键问题。

2、目前，主要的长尾图像分类方法有以下几种。

3、1、基于重采样的长尾图像分类方法

4、重采样是近几十年来解决类不平衡问题最广泛使用的方法之一，它通过调整每个类的样本数量比例来达到平衡数据集的目的。常见的重采样方法可以分为两大类：欠采样头部类和过采样尾部类。2017年，renet等人提出了一种基于集成的自适应过采样算法，通过合成新样本来减少不平衡数据所引入的模型偏差。2012年，tahir等人提出了一种新的逆随机欠采样方法，可以对多数类进行严重的欠采样以平衡不同类别样本量。另外，2011年chawla等人提出的smote技术通过在特征空间内混合少数类样本来生成新的合成样本，以提高少数类的样本量。尽管这些采样方法在一定程度上提高了模型对尾部类的识别能力，但也牺牲了对头部类样本的拟合效果，导致头部类精度下降。

5、2、基于重加权的长尾图像分类方法

6、重加权方法通过为不同类别训练样本设置不同的损失权重来平衡类别不均衡问题。最直接的做法是根据类别频率设置权重，如2020年ren等人使用类别频率调节训练损失，以减轻数据不平衡带来的偏差。2019年，cui等人提出类别平衡损失，引入有效数概念来近似不同类别的预期样本量，而不仅仅使用类别频率。其中，有效数为训练样本数的指数函数。基于此，类别平衡损失加入了与有效类别数量成反比的类别平衡重新加权项。另一种思路是根据类别难易程度设定权重，如2017年lin等人提出的焦点损失，它观察到类别不平衡通常会增加尾部类的预测难度，使尾部类预测概率偏低。因此，焦点损失采用预测概率反向权重，为较难的尾部类分配更高权重，较易的头部类权重更低。尽管这类方法在一定程度提升了尾部类识别效果，但也降低了对头部类的拟合能力。

7、3、基于集成学习的长尾图像分类方法

8、基于集成学习的长尾图像分类方法，是通过训练和组合多个网络模块或多个专家，来解决长尾分布下的类不均衡问题。2019年，zhou等人提出使用两个分支网络：一个分支采用均匀抽样模拟原始分布，另一个分支采用反向抽样获取更多尾部样本。在训练过程中，动态组合两个分支的预测，逐步将学习重点从头部类转移到尾部类。2020年，wang等人使用softmax损失独立训练每个专家，并加入基于kl散度的损失提高专家间多样性。然后应用专家分配模块提升计算效率。2022年，zhao等人将类别划分为多个相对平衡的子集，利用它们训练多个教师模型，接着将教师模型的知识提炼到一个统一的学生模型。相较于其他方法，基于集成的方法通常在头尾类上表现更优。但是，这些集成方法在模型聚合时需要在完整数据集上联合训练所有专家，由此仍可能导致头尾类间的相互干扰。

技术实现思路

1、本专利技术提供了一种基于能量的多专家集成的长尾分布图像分类方法，使用决策交互策略来增强专家间的协作，以克服粗粒度预测的局限性；通过利用基于能量的鉴别器和多专家学习，该方法在长尾数据集上取得了优异的分类性能。

2、本专利技术的技术方案是：一种基于能量的多专家集成的长尾分布图像分类方法，所述方法的具体步骤如下：

3、step1、将长尾分布的训练集按照每个类包含样本量的多少，分为相对平衡的三部分，分别为头部、中部和尾部；

4、step2、通过粗粒度鉴别模块采用基于能量的模型区分头部、中部和尾部子集，获得粗粒度预测；

5、step3、在获得粗粒度预测后，通过多专家学习模块针对每个子集训练独立的专家模型；再由训练好的专家模型进行分类。

6、进一步地，所述step2中，所述粗粒度鉴别模块包括两个基于能量的鉴别器和一个决策融合模块；基于能量的鉴别器的主干网络模型为resnet-50，第一基于能量的鉴别器用于负责区分头部子集和其他类别；第二基于能量的鉴别器用于负责区分尾部子集和其他类别；决策融合模块用于整合两个基于能量的鉴别器的结果，输出粗粒度的分类预测，为后续的多专家模块提供基础。

7、进一步地，所述基于能量的鉴别器包括如下功能：

8、构造一个能量函数它能将输入空间中的每个输入x映射为一个标量，称为能量，能量值集合通过玻尔兹曼分布转换成概率密度p(x)；

9、

10、其中，t是温度参数，分母是对分布进行标准化的配分函数，通过设计能量函数e(x,y)，将低能量分配给“现实”或“高概率”的数据样本，将高能量分配给“不现实”或“低概率”的数据样本；这种方法能识别分布内数据和分布外数据；

11、p(x)和p1(y|x)表示不同的概率分布，p(x)表示在输入空间中点x的概率密度，即x的分布，而p1(y|x)表示在给定输入x的条件下，输出y的概率分布；e(x)和e(x,y)也具有不同的含义，e(x)是一个能量函数，也叫做亥姆霍兹自由能，它将输入空间中的每个点x映射到一个被称为能量的实数值，它的计算方式是e(x)＝-t·log∫y′e-e(x,y′)/t，在这个公式中，∫y′e-e(x,y′)/t对点x的所有可能的输出值y′的能量进行求和，而e(x,y)表示点x的输出值为y时的能量，y′是一个变量，表示可能的输出值，用于强调在计算分布时需要考虑所有可能的输出值，e(x,y′)表示点x的输出值为y′时的能量；

12、考虑神经网络分类器的输出它将样本x映射为c类的logits，这些logits通过softmax函数推导出类别的概率分布为:

13、

14、虽然公式(1)和公式(2)都涉及到类别下的概率分布，但它们并不是相同的公式，计算方式和基础模型不同；公式(1)是基于能量模型的，通过定义能量函数来建模条件概率分布，而公式(2)是基于神经网络分类器的，通过softmax函数将分类器的logits转化为条件概率分布，f(x)表示神经网络分类器的输出，它映射输入x到一个长度为c的向量，也就是c个logit值，fc(x)表示这个向量中的第c个元素；

15、fy(x)表示第y类标签的logit；定义给定输入(x,y)的能量函数为e(x,y)＝-fy(x)；亥姆霍兹自由能e(x)定义为对数配分函数的负值，因此神经网络分类器f的能量函数表示为:

16、

17、能量函数能返回每个输入样本的能量，高概率样本文档来自技高网...

【技术保护点】

1.一种基于能量的多专家集成的长尾分布图像分类方法，其特征在于：所述方法的具体步骤如下：

2.根据权利要求1所述的基于能量的多专家集成的长尾分布图像分类方法，其特征在于：所述Step2中，所述粗粒度鉴别模块包括两个基于能量的鉴别器和一个决策融合模块；基于能量的鉴别器的主干网络模型为Resnet-50，第一基于能量的鉴别器用于负责区分头部子集和其他类别；第二基于能量的鉴别器用于负责区分尾部子集和其他类别；决策融合模块用于整合两个基于能量的鉴别器的结果，输出粗粒度的分类预测，为后续的多专家模块提供基础。

3.根据权利要求2所述的基于能量的多专家集成的长尾分布图像分类方法，其特征在于：所述基于能量的鉴别器包括如下功能：

4.根据权利要求2所述的基于能量的多专家集成的长尾分布图像分类方法，其特征在于：采用了两步方法来有效地利用不同数据子组的专门模型并最大限度地减少干扰，先使用两个独立的鉴别器将完整数据集D划分为头部数据DH，中部数据DM和尾部数据DT，然后将每个子集定向到其各自的专家模型；

5.根据权利要求4所述的基于能量的多专家集成的长尾

6.根据权利要求1所述的基于能量的多专家集成的长尾分布图像分类方法，其特征在于：所述专家模型的主干网络模型采用Resnet-50，根据专家模型是否与粗粒度鉴别模块一起更新，多专家学习模块分为耦合和解耦两种模式；

...

【技术特征摘要】

1.一种基于能量的多专家集成的长尾分布图像分类方法，其特征在于：所述方法的具体步骤如下：

2.根据权利要求1所述的基于能量的多专家集成的长尾分布图像分类方法，其特征在于：所述step2中，所述粗粒度鉴别模块包括两个基于能量的鉴别器和一个决策融合模块；基于能量的鉴别器的主干网络模型为resnet-50，第一基于能量的鉴别器用于负责区分头部子集和其他类别；第二基于能量的鉴别器用于负责区分尾部子集和其他类别；决策融合模块用于整合两个基于能量的鉴别器的结果，输出粗粒度的分类预测，为后续的多专家模块提供基础。

3.根据权利要求2所述的基于能量的多专家集成的长尾分布图像分类方法，其特征在于：所述基于能量的鉴别器包括如下功...

【专利技术属性】
技术研发人员：杨梦杰，郭淑珍，刘宝弟，杨晓强，杨春霞，赵艳松，王寅粲，代承国，
申请(专利权)人：盛云科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人