一种基于加权深度森林的小样本数据分类方法技术

技术编号：34523197 阅读：24 留言：0更新日期：2022-08-13 21:13

本发明专利技术公开了一种基于加权深度森林的小样本数据分类方法，解决现有分类方法在小样本数据下难以进行表征学习、无法正确分类的问题。该分类方法包括：数据预处理，对待分类数据进行清洗、填充和归一化；模型构建，为解决深度森林模型存在的问题，构建基于加权深度森林的小样本数据分类模型；模型训练，利用小样本数据集对模型进行训练，获得最优基于加权深度森林的小样本数据分类模型；模型预测，将真实待分类数据输入训练得到的模型，得到分类结果。对比其他较流行的机器学习分类方法，验证本发明专利技术的有效性。本发明专利技术公开的方法中构建的模型，适用于不同类型的小样本数据分类任务，与深度神经网络相比，训练速度更快，分类效果更好。分类效果更好。分类效果更好。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于加权深度森林的小样本数据分类方法

[0001]本专利技术涉及机器学习任务分类
，具体涉及一种基于加权深度森林的小样本数据分类方法。

技术介绍

[0002]虽然深度神经网络通过网络的表征学习能取得比传统机器学习算法更好的效果，但在小样本数据的分类任务中，存在着过拟合、网络性能依赖调参技巧的问题。深度森林结合了传统的机器学习和深度学习的理念，采用逐层堆叠的结构，通过逐层进行表征学习，捕捉输入数据的特征，从而取得比随机森林算法更好的结果。与深度神经网络相比，深度森林的超参数较少，不需要太多的参数调整技巧。并且，深度森林可以进行并行化计算，相比于深度神经网络，能够非常快速地进行训练，但原始深度森林模型存在着一些问题。首先，深度森林在多粒度扫描阶段通过扫描窗口提取特征子集，此过程中无法充分利用两端特征，导致信息的丢失。其次，不同森林和不同尺寸扫描窗口的预测能力不同，给予同等重视是不合理的。最后，随着级联森林层的扩展，传递的信息逐层减少。目前亟待针对这一系列问题，进一步设计相应合理的深度森林模型，完成小样本数据分类，提高模型的分类能力。

技术实现思路

[0003]本专利技术的目的是为了解决现有技术中的上述缺陷，提供一种基于加权深度森林的小样本数据分类方法。该方法适用于不同类型的小样本数据分类任务，具有比深度神经网络更快的训练速度，能有效的实现分类。
[0004]本专利技术的目的可以通过采取如下技术方案达到：
[0005]一种基于加权深度森林的小样本数据分类方法，所述小样本数据分类方法...

【技术保护点】

【技术特征摘要】
1.一种基于加权深度森林的小样本数据分类方法，其特征在于，所述小样本数据分类方法包括以下步骤：S1、数据预处理，对待分类数据进行清洗、填充和归一化，将待分类数据随机打乱，按比例划分，构成训练集和测试集；S2、构建基于加权深度森林的小样本数据分类模型，该模型包括两个级联的均等多粒度扫描模块和加权级联森林模块，其中，均等多粒度扫描模块用于均等的提取数据的特征子集，加权级联森林模块用于对特征子集进行不同程度的表征学习；S3、模型训练，将训练集输入均等多粒度扫描模块，得到代表特征子集的特征向量，将特征向量输入加权级联森林模块，得到多个级联森林层，每个级联森林层的输出为类概率向量，每扩展完一个级联森林层后，通过当前级联森林层的类概率向量计算分类准确率，当分类准确率连续q次没有提升时停止训练，从而得到最优基于加权深度森林的小样本数据分类模型；S4、模型预测，将真实待分类数据输入训练得到的最优基于加权深度森林的小样本数据分类模型，得到最后一个级联森林层的类概率向量，根据类概率向量得到代表分类概率的预测向量，选取预测向量中最大值的位置所在下标作为真实待分类数据的分类结果。2.根据权利要求1所述的一种基于加权深度森林的小样本数据分类方法，其特征在于，所述待分类数据为小样本数据集，包括血液细胞数据集和3个公开基准数据集，所述血液细胞数据集包括红细胞、白细胞和血小板的细胞数量与形态，所述公开基准数据集分别为Breast数据集、Diabetes数据集和Heart数据集，所述步骤S1中按照8∶2的比例划分为训练集和测试集。3.根据权利要求1所述的一种基于加权深度森林的小样本数据分类方法，其特征在于，所述均等多粒度扫描模块包括sw个不同尺寸的扫描窗口，每个扫描窗口级联a个完全随机森林和a个随机森林；所述加权级联森林模块包括L个级联森林层，每个级联森林层包括b个完全随机森林和b个随机森林，每个完全随机森林包含t棵完全随机树，每个随机森林包含t棵决策树，sw、a、b、t、L取值为正整数。4.根据权利要求3所述的一种基于加权深度森林的小样本数据分类方法，其特征在于，所述步骤S3过程如下：首先，输入训练集，经均等多粒度扫描模块中sw个不同尺寸的扫描窗口得到sw组特征子集，将sw组特征子集分别置入a个完全随机森林和a个随机森林，得到sw组类概率向量，将sw组类概率向量乘上不同尺寸的扫描窗口对应的权重系数，进行拼接得到特征向量P，特征向量P输入加权级联森林模块，用于扩展第一级联森林层，将特征向量P置入b个完全随机森林和b个随机森林得到第一类概率向量P1；接着，扩展第二级联森林层，将特征向量P与第一类概率向量P1拼接，置入b个完全随机森林和b个随机森林得到第二类概率向量P2；然后，下一个级联森林层的输入为特征向量P、第二类概率向量P2以及增强向量E三者的拼接，其中，增强向量E由所有级联森林层的类概率向量加权平均计算得到，继续扩展下一个级联森林层，直至达到L个级联森林层；最后，取第L个级联森林层的类概率向量P
L
作为最优基于加权深度森林的小样本数据分类模型的输出。5.根据权利要求4所述的一种基于加权深度森林的小样本数据分类方法，其特征在于，L个级联森林层的第一类概率向量P1、第二类概率向量P2、
…
、
…
第L类概率向量P
L
均采用k折
交叉验证得来，过程如下：首先，将第x个级联森林层的输入划分为k份，1≤x≤L，每次选择其中一份作为评估集，剩余k
‑
1份作为构造集，重复执行k次，得到k组数据，每组数据都包括构造集和评估集；然后，分别利用k组数据中的构造集训练k组完全随机森林和随机森林；最后，将k组数据中的评估集分别置入k组完全随机森林和随机森林得到第x个级联森林层的类概率向量。6.根据权利要求1所述的一种基于加权深度森林的小样本...

【专利技术属性】
技术研发人员：邓玉辉，陈萍，
申请(专利权)人：暨南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人