当前位置: 首页 > 专利查询>暨南大学专利>正文

一种基于加权深度森林的小样本数据分类方法技术

技术编号:34523197 阅读:24 留言:0更新日期:2022-08-13 21:13
本发明专利技术公开了一种基于加权深度森林的小样本数据分类方法,解决现有分类方法在小样本数据下难以进行表征学习、无法正确分类的问题。该分类方法包括:数据预处理,对待分类数据进行清洗、填充和归一化;模型构建,为解决深度森林模型存在的问题,构建基于加权深度森林的小样本数据分类模型;模型训练,利用小样本数据集对模型进行训练,获得最优基于加权深度森林的小样本数据分类模型;模型预测,将真实待分类数据输入训练得到的模型,得到分类结果。对比其他较流行的机器学习分类方法,验证本发明专利技术的有效性。本发明专利技术公开的方法中构建的模型,适用于不同类型的小样本数据分类任务,与深度神经网络相比,训练速度更快,分类效果更好。分类效果更好。分类效果更好。

【技术实现步骤摘要】
一种基于加权深度森林的小样本数据分类方法


[0001]本专利技术涉及机器学习任务分类
,具体涉及一种基于加权深度森林的小样本数据分类方法。

技术介绍

[0002]虽然深度神经网络通过网络的表征学习能取得比传统机器学习算法更好的效果,但在小样本数据的分类任务中,存在着过拟合、网络性能依赖调参技巧的问题。深度森林结合了传统的机器学习和深度学习的理念,采用逐层堆叠的结构,通过逐层进行表征学习,捕捉输入数据的特征,从而取得比随机森林算法更好的结果。与深度神经网络相比,深度森林的超参数较少,不需要太多的参数调整技巧。并且,深度森林可以进行并行化计算,相比于深度神经网络,能够非常快速地进行训练,但原始深度森林模型存在着一些问题。首先,深度森林在多粒度扫描阶段通过扫描窗口提取特征子集,此过程中无法充分利用两端特征,导致信息的丢失。其次,不同森林和不同尺寸扫描窗口的预测能力不同,给予同等重视是不合理的。最后,随着级联森林层的扩展,传递的信息逐层减少。目前亟待针对这一系列问题,进一步设计相应合理的深度森林模型,完成小样本数据分类,提高模型的分类能力。

技术实现思路

[0003]本专利技术的目的是为了解决现有技术中的上述缺陷,提供一种基于加权深度森林的小样本数据分类方法。该方法适用于不同类型的小样本数据分类任务,具有比深度神经网络更快的训练速度,能有效的实现分类。
[0004]本专利技术的目的可以通过采取如下技术方案达到:
[0005]一种基于加权深度森林的小样本数据分类方法,所述小样本数据分类方法包括以下步骤:
[0006]S1、数据预处理,对待分类数据进行清洗、填充和归一化,将待分类数据随机打乱,按比例划分,构成训练集和测试集;
[0007]S2、构建基于加权深度森林的小样本数据分类模型,该模型包括两个级联的均等多粒度扫描模块和加权级联森林模块,其中,均等多粒度扫描模块用于均等的提取数据的特征子集,加权级联森林模块用于对特征子集进行不同程度的表征学习;
[0008]S3、模型训练,将训练集输入均等多粒度扫描模块,得到代表特征子集的特征向量,将特征向量输入加权级联森林模块,得到多个级联森林层,每个级联森林层的输出为类概率向量,每扩展完一个级联森林层后,通过当前级联森林层的类概率向量计算分类准确率,当分类准确率连续q次没有提升时停止训练,从而得到最优基于加权深度森林的小样本数据分类模型;
[0009]S4、模型预测,将真实待分类数据输入训练得到的最优基于加权深度森林的小样本数据分类模型,得到最后一个级联森林层的类概率向量,根据类概率向量得到代表分类概率的预测向量,选取预测向量中最大值的位置所在下标作为真实待分类数据的分类结
果。
[0010]进一步地,所述待分类数据为小样本数据集,包括血液细胞数据集和3个公开基准数据集,所述血液细胞数据集包括红细胞、白细胞和血小板的细胞数量与形态,所述公开基准数据集分别为Breast数据集、Diabetes数据集和Heart数据集,为提高模型训练速度,对待分类数据进行清洗,此操作去除了待分类数据中的冗余特征和无关特征,减少了模型输入的维度,同时使用sklearn特征化API实现了模型输入的标准化,所述步骤S1中按照8:2的比例划分为训练集和测试集。
[0011]进一步地,所述均等多粒度扫描模块包括sw个不同尺寸的扫描窗口,每个扫描窗口级联a个完全随机森林和a个随机森林,通过不同尺寸的扫描窗口进行多粒度特征子集的提取,增加了数据的多样性;所述加权级联森林模块包括L个级联森林层,每个级联森林层包括b个完全随机森林和b个随机森林,每个完全随机森林包含t棵完全随机树,每个随机森林包含t棵决策树,sw、a、b、t、L取值为正整数,为了方便调参,L个级联森林层的森林个数相同。
[0012]进一步地,所述步骤S3过程如下:首先,输入训练集,经均等多粒度扫描模块中sw个不同尺寸的扫描窗口得到sw组特征子集,将sw组特征子集分别置入a个完全随机森林和a个随机森林,得到sw组类概率向量,由于不同尺寸的扫描窗口具有不同的预测能力,将sw组类概率向量乘上不同尺寸的扫描窗口对应的权重系数,进行拼接得到特征向量P,特征向量P作为一个整体输入加权级联森林模块,能够降低计算量,实现第一级联森林层的扩展,将特征向量P置入b个完全随机森林和b个随机森林得到第一类概率向量P1;接着,扩展第二级联森林层,将特征向量P与第一类概率向量P1拼接,置入b个完全随机森林和b个随机森林得到第二类概率向量P2;然后,下一个级联森林层的输入为特征向量P、第二类概率向量P2以及增强向量E三者的拼接,其中,增强向量E由所有级联森林层的类概率向量加权平均计算得到,增强向量E的维度等于待分类数据类别数目,能够代表前几个级联森林层的预测能力,继续扩展下一个级联森林层,直至达到L个级联森林层;最后,取第L个级联森林层的类概率向量P
L
作为最优基于加权深度森林的小样本数据分类模型的输出。
[0013]进一步地,其特征在于,L个级联森林层的第一类概率向量P1、第二类概率向量P2、...、...第L类概率向量P
L
均采用k折交叉验证得来,过程如下:
[0014]首先,将第x个级联森林层的输入划分为k份,1≤x≤L,每次选择其中一份作为评估集,剩余k

1份作为构造集,重复执行k次,得到k组数据,每组数据都包括构造集和评估集;然后,分别利用k组数据中的构造集训练k组完全随机森林和随机森林;最后,将k组数据中的评估集分别置入k组完全随机森林和随机森林得到第x个级联森林层的类概率向量。k折交叉验证使用评估集的结果作为级联森林层的输出,能够减少训练时发生的过拟合现象,提高模型分类的效果。
[0015]进一步地,所述均等多粒度扫描模块采用均等多粒度扫描策略,过程如下:
[0016]训练集的维度为n,当前扫描窗口大小为m,待分类数据类别数目为c,设定步长为1,为了实现训练集的均等扫描,首先,将训练集中每个向量进行首尾拼接,得到维度为2n的向量,然后,对该向量进行n次扫描,得到n
×
m的特征子集,最后,为了使用向量的形式表示这些特征子集,对其进行特征提取,将特征子集经过a个随机森林和a个完全随机森林,得到2a个类概率向量,大小均为n
×
c,将2a个类概率向量乘以a个随机森林和a个完全随机森林
对应的权重系数,然后进行拼接,转换为1个1
×
(2*n*a*c)的类概率向量,其中“*”表示乘号。均等多粒度扫描策略使每个向量的特征被扫描到的次数一样,减少了重要特征和边缘特征的丢失,提高了特征利用率。
[0017]进一步地,所述均等多粒度扫描模块和加权级联森林模块中的完全随机森林和随机森林有着不同的权重,将完全随机森林和随机森林统一简称为森林,均等多粒度扫描模块中森林的权重α
d_i
和加权级联森林模块中森林的权重a

x_j
的计算公式分别如下本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于加权深度森林的小样本数据分类方法,其特征在于,所述小样本数据分类方法包括以下步骤:S1、数据预处理,对待分类数据进行清洗、填充和归一化,将待分类数据随机打乱,按比例划分,构成训练集和测试集;S2、构建基于加权深度森林的小样本数据分类模型,该模型包括两个级联的均等多粒度扫描模块和加权级联森林模块,其中,均等多粒度扫描模块用于均等的提取数据的特征子集,加权级联森林模块用于对特征子集进行不同程度的表征学习;S3、模型训练,将训练集输入均等多粒度扫描模块,得到代表特征子集的特征向量,将特征向量输入加权级联森林模块,得到多个级联森林层,每个级联森林层的输出为类概率向量,每扩展完一个级联森林层后,通过当前级联森林层的类概率向量计算分类准确率,当分类准确率连续q次没有提升时停止训练,从而得到最优基于加权深度森林的小样本数据分类模型;S4、模型预测,将真实待分类数据输入训练得到的最优基于加权深度森林的小样本数据分类模型,得到最后一个级联森林层的类概率向量,根据类概率向量得到代表分类概率的预测向量,选取预测向量中最大值的位置所在下标作为真实待分类数据的分类结果。2.根据权利要求1所述的一种基于加权深度森林的小样本数据分类方法,其特征在于,所述待分类数据为小样本数据集,包括血液细胞数据集和3个公开基准数据集,所述血液细胞数据集包括红细胞、白细胞和血小板的细胞数量与形态,所述公开基准数据集分别为Breast数据集、Diabetes数据集和Heart数据集,所述步骤S1中按照8∶2的比例划分为训练集和测试集。3.根据权利要求1所述的一种基于加权深度森林的小样本数据分类方法,其特征在于,所述均等多粒度扫描模块包括sw个不同尺寸的扫描窗口,每个扫描窗口级联a个完全随机森林和a个随机森林;所述加权级联森林模块包括L个级联森林层,每个级联森林层包括b个完全随机森林和b个随机森林,每个完全随机森林包含t棵完全随机树,每个随机森林包含t棵决策树,sw、a、b、t、L取值为正整数。4.根据权利要求3所述的一种基于加权深度森林的小样本数据分类方法,其特征在于,所述步骤S3过程如下:首先,输入训练集,经均等多粒度扫描模块中sw个不同尺寸的扫描窗口得到sw组特征子集,将sw组特征子集分别置入a个完全随机森林和a个随机森林,得到sw组类概率向量,将sw组类概率向量乘上不同尺寸的扫描窗口对应的权重系数,进行拼接得到特征向量P,特征向量P输入加权级联森林模块,用于扩展第一级联森林层,将特征向量P置入b个完全随机森林和b个随机森林得到第一类概率向量P1;接着,扩展第二级联森林层,将特征向量P与第一类概率向量P1拼接,置入b个完全随机森林和b个随机森林得到第二类概率向量P2;然后,下一个级联森林层的输入为特征向量P、第二类概率向量P2以及增强向量E三者的拼接,其中,增强向量E由所有级联森林层的类概率向量加权平均计算得到,继续扩展下一个级联森林层,直至达到L个级联森林层;最后,取第L个级联森林层的类概率向量P
L
作为最优基于加权深度森林的小样本数据分类模型的输出。5.根据权利要求4所述的一种基于加权深度森林的小样本数据分类方法,其特征在于,L个级联森林层的第一类概率向量P1、第二类概率向量P2、



第L类概率向量P
L
均采用k折
交叉验证得来,过程如下:首先,将第x个级联森林层的输入划分为k份,1≤x≤L,每次选择其中一份作为评估集,剩余k

1份作为构造集,重复执行k次,得到k组数据,每组数据都包括构造集和评估集;然后,分别利用k组数据中的构造集训练k组完全随机森林和随机森林;最后,将k组数据中的评估集分别置入k组完全随机森林和随机森林得到第x个级联森林层的类概率向量。6.根据权利要求1所述的一种基于加权深度森林的小样本...

【专利技术属性】
技术研发人员:邓玉辉陈萍
申请(专利权)人:暨南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1