一种基于特征选择的分类改进算法制造技术

技术编号:31578953 阅读:16 留言:0更新日期:2021-12-25 11:21
本发明专利技术涉及一种分类改进算法,尤其涉及一种基于特征选择的分类改进算法。本发明专利技术提出了一种基于特征选择的分类改进算法。一种基于特征选择的分类改进算法,即SRBA算法,由SVM

【技术实现步骤摘要】
一种基于特征选择的分类改进算法


[0001]本专利技术涉及一种分类改进算法,尤其涉及一种基于特征选择的分类改进算法。

技术介绍

[0002]随着社会的高速发展,信息流通,各行各业都进入了大数据时代。在实际应用场景中采集到的数据量大、特征值多,这种多特征值数据往往包含大量不相关和冗余的特征信息,过多的特征维度增加了数据分类的难度,降低了分类准确率,此时在分类模型中对多特征值数据进行特征降维及选择具有重大意义;在对事物依据某些特征进行分类时,基于单分类器的方法性能并不是很令人满意,而克服这一限制的可能的方法是在分类问题中采用集成方法。因此为了探究各行各业数据表现,根据事物重要特征进行分类、总结事物规律,本专利技术将特征选择方法
‑‑
支持向量机递归特征消除法与分类集成算法进行结合,集合成SRBA分类模型,形成一种更为有效、准确、稳定的分类模型和方法。
[0003]已有的与本专利技术原理最相近似的实现方案是:PCA降维方法,在进行特征选择时,只能针对于具有线性相关关系的特征,但现实场景中数据所包含的特征间关系复杂,大多具有非线性相关性,因此并不适用于大部分场景;在进行分类时,Bagging算法泛化能力较强,但该算法容易产生过拟合结果,需集成其他分类算法,降低过拟合可能性。
[0004]因此亟需研发一种能够保证模型的泛化能力,减少分类时间,增强其灵活性、自适应性和稳定性的基于特征选择的分类改进算法。

技术实现思路

[0005]为了克服分类时间长,使用场景少,灵活性较差、自适应性较差和稳定性较差的缺点,要解决的技术问题:提供一种能够保证模型的泛化能力,减少分类时间,增强其灵活性、自适应性和稳定性的基于特征选择的分类改进算法。
[0006]技术方案如下:一种基于特征选择的分类改进算法,由SVM

REF特征选择方法和Bagging

AdaBoost分类模型的算法集成为所述的SRBA模型,所述SRBA模块包括有两个功能模块:首先进行数据预处理,使用SVM

RFE对数据特征进行权重重要性排序,筛选出指定数量的特征作为模型输入;然后搭建Bagging

AdaBoost分类模型,将集成学习技术应用于事物类型划分中。
[0007]优选地,所述的一种基于特征选择的分类改进算法,具体分为以下步骤:
[0008](1)数据预处理;
[0009](2)SVM

REF特征选择;
[0010](3)集成分类识别。
[0011]优选地,步骤(1)所述的数据预处理具体为以下步骤:
[0012]1.1填补缺失值;
[0013]1.2归一化。
[0014]优选地,步骤(2)所述的特征选择具体为以下步骤:
[0015]2.1通过SVM模型训练特征,得到特征对应的权重,计算特征权重排序列表,每次迭代剔除1个特征权重排名最低的特征;
[0016]2.2用剩余的特征再次训练模型获取新的特征权重,迭代执行这一过程,直到所有特征被剔除,得到所有特征属性的递减顺序排序表,最后根据业务需求选出需要的特征数目,为之后的训练数据集、测试数据集确定好特征参考。
[0017]优选地,步骤(3)所述的集成分类识别具体为以下步骤:
[0018]3.1对个数为N的训练数据集执行k轮Bagging算法中的bootstrap方法,在每一轮随机采样中,有放回提取n个训练样本形成k组独立的训练子集;
[0019]3.2使用AdaBoost算法作为新的基分类器来并行训练学习子集,均采用同质基分类器——CART决策树对不同的训练子集分别执行AdaBoost算法流程,发展k组独立的强学习器,得到不同的分类结果;
[0020]3.3对学习器的分类结果进行简单投票得到最终结果,作为SRBA算法模型的输出。
[0021]有益效果是:
[0022](1)SVM

RFE特征选择方法是一种基于特征与类标签之间互信息的多变量方法,具有适合于不同噪声的数据、不太容易过拟合的特点,能够适用于大部分现实场景,具有较强普及性和通用性。
[0023](2)Bagging

AdaBoost分类集成方法具有更高的泛化能力和更高的稳定性。该算法采用bootstrap方法进行随机有放回抽样,既降低了训练的复杂性,又保证了基学习器AdaBoost算法训练集的多样性,可以获得不同数据类型的准确分类模型,具有更高的稳定性;充分考虑了每个样本数据的分类误差和权重系数,可以有效地减少泛化误差。
[0024](3)SRBA分类模型的使用不仅减少了分类时间,提高了计算效率,降低了成本,还具有通用性,保证了模型的泛化能力,具有较强的灵活性、自适应性和稳定性。
附图说明
[0025]图1为本专利技术的详细流程图。
具体实施方式
[0026]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0027]实施例1
[0028]一种基于特征选择的分类改进算法,如图1所示,由SVM

REF特征选择方法和Bagging

AdaBoost分类模型的算法集成为所述的SRBA模型,所述SRBA模块包括有两个功能模块:首先进行数据预处理,使用SVM

RFE对数据特征进行权重重要性排序,筛选出指定数量的特征作为模型输入;然后搭建Bagging

AdaBoost分类模型,将集成学习技术应用于事物类型划分中。
[0029]进一步的,所述的一种基于特征选择的分类改进算法,具体分为以下步骤:
[0030](1)数据预处理;
[0031](2)SVM

REF特征选择;
[0032](3)集成分类识别。
[0033]进一步的,步骤(1)所述的数据预处理具体为以下步骤:
[0034]1.1填补缺失值:
[0035]采用均值平滑法将数据缺失部分的数据补充完整,如公式所示:
[0036][0037]式中,x
a
为a时刻的缺失数据,x
a
‑1为a

1时刻的正常数据,x
a+1
为a+1时刻的正常数据。
[0038]1.2归一化:
[0039]为了加快SRBA模型的收敛速度、提升模型的预测精度,需要对数据进行归一化处理。本文使用max

min归一化方法,其计算方法如公式(2)所示:
[0040][0041]式中,x
norm
表示归一化之后的数据,x表示未归一化的数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于特征选择的分类改进算法,其特征在于,由SVM

REF特征选择方法和Bagging

AdaBoost分类模型的算法集成为所述的SRBA模型,所述SRBA模块包括有两个功能模块:首先进行数据预处理,使用SVM

RFE对数据特征进行权重重要性排序,筛选出指定数量的特征作为模型输入;然后搭建Bagging

AdaBoost分类模型,将集成学习技术应用于事物类型划分中。2.根据权利要求1所述的一种基于特征选择的分类改进算法,其特征在于,所述的一种基于特征选择的分类改进算法,具体分为以下步骤:(1)数据预处理;(2)SVM

REF特征选择;(3)集成分类识别。3.根据权利要求2所述的一种基于特征选择的分类改进算法,其特征在于,步骤(1)所述的数据预处理具体为以下步骤:1.1填补缺失值;1.2归一化。4.根据权利要求3所述的一种基于特征选择的分类改进算法,其特...

【专利技术属性】
技术研发人员:刘兴惠李至立孙铭方玉洁
申请(专利权)人:山东纬横数据科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1