特征选择方法、装置、电子设备及计算机可读存储介质制造方法及图纸

技术编号:34561159 阅读:19 留言:0更新日期:2022-08-17 12:49
本申请提供了一种特征选择方法、装置、电子设备及存储介质,该方法包括从原始数据获取待选择特征以及与每个待选择特征相对应的真实标签;通过树模型学习每个待选择特征和与其对应的真实标签,以获得每个待选择特征的真实特征重要性;根据基准列将所有待选择特征分组为多个待选择特征组;将每个待选择特征组中所包括的所有待选择特征与其真实标签的对应关系打乱;通过树模型训练每个待选择特征和与其对应的打乱标签,以获得每个待选择特征的虚假特征重要性;以及基于每个待选择特征的真实特征重要性与虚假特征重要性选择被筛选特征。通过根据基准列将待选择特征分组而后在组内对待选择特征的真实标签随机打乱,能够更加快速有效地筛选过拟合特征。有效地筛选过拟合特征。有效地筛选过拟合特征。

【技术实现步骤摘要】
特征选择方法、装置、电子设备及计算机可读存储介质


[0001]本申请涉及数据挖掘
,尤其涉及特征选择方法、装置、电子设备及 计算机可读存储介质。

技术介绍

[0002]机器学习里面特征工程往往是提升效果的关键,而特征选择是特征工程里的 一个重要问题。特征选择的目的是寻找最优特征子集。在实际业务中,用于模型 中的特征维度往往很高,几万维,甚至高达上亿维,维度过高会增大模型计算复 杂度,但是在这么多维数据中,并不是每个特征对模型的预测都是有效果的,所 以要去除一些不必要特征。特征选择能剔除不相关,冗余或有害的特征,从而达 到减少特征个数,降低模型的计算复杂度,甚至提升预测精度。
[0003]常见的特征选择有3类分别是Filter(过滤器)方法,Wrapper(包裹器)方 法和Embedding(嵌入式)方法。
[0004]其中,Filter(过滤器)方法其主要思想是:对每一维的特征“打分”,即 给每一维的特征赋予权重,这样的权重就代表着该维特征的重要性,然后依据权 重排序,如卡方检验,信息增益和相关系数等方法。此类方法速度一般很快,但 是容易选出一些有用的特征。
[0005]Wrapper(包裹器)方法其主要思想是:将子集的选择看作是一个搜索寻优 问题,生成不同的组合,对组合进行评价,再与其他的组合进行比较。这样就将 子集的选择看作是一个优化问题,这里有很多的优化算法可以解决,尤其是一些 启发式的优化算法,如GA(遗传算法)、PSO(粒子群算法)、DE(差分演化 算法)和ABC(分工蜂群算法)等。然而,此类方法一般复杂度很高。
[0006]Embedding(嵌入式)方法其主要思想是在确定模型的过程中,挑选出那些 对模型的训练有重要意义的特征,如岭回归。
[0007]最近兴起有一种特征选择方法(目标排序,target permutation)。在模型中, 存在一些方差比较大的特征,导致模型很容易学到这些特征的噪声。target permutation方法利用树模型得到的信息增益排序,能够能选择出方差很大,同时真 实重要性也低的特征。然而,由于分类特征与标签相关性比较大,且训练集与测 试集的分类特征分布不一致,甚至特征值完全不相交,因此会导致与分类特征相 关的特征在训练集里有效而在测试集中无效甚至有害的情况发生,从而导致过拟 合并严重影响了模型的学习方向,而target permutation方法无法筛选出这样的 与分类特征相关的过拟合特征。

技术实现思路

[0008]鉴于以上情况而做出本申请,并且本申请的目的是提供一种特征选择方法、 装置、电子设备及计算机可读存储介质,本申请通过根据基准列将待选择特征分 组而后在组内对待选择特征的真实标签随机打乱,能够解决target permutation 方法的上述问题,从而能够更加快速有效地筛选出对模型危害更大的与分类特征 相关的过拟合特征,从而降
低模型的复杂度,减少计算资源消耗,同时还能够提 升模型的精度。
[0009]本申请的目的采用以下技术方案实现:
[0010]第一方面,本申请提供了特征选择方法,包括:从原始数据获取待选择特征 以及与每个待选择特征相对应的真实标签;通过树模型学习每个待选择特征和与 其对应的真实标签,以获得每个待选择特征在与之对应的真实标签下的真实特征 重要性;根据基准列将所有待选择特征进行分组,以形成多个待选择特征组;将 每个待选择特征组中所包括的所有待选择特征与其真实标签的对应关系打乱,以 使得每个待选择特征对应于打乱标签;通过所述树模型训练每个待选择特征和 与其对应的打乱标签,以获得每个待选择特征在与之对应的打乱标签下的虚假特 征重要性;以及基于每个待选择特征的所述真实特征重要性和所述虚假特征重要 性,选择被筛选特征。
[0011]根据该实施例,能够获得如下技术效果:通过根据基准列将待选择特征分组 而后在组内对待选择特征的真实标签随机打乱,从而在保证分类特征对标签仍旧 敏感的前提下,更加快速有效地筛选出与分类特征相关的过拟合特征,从而降低 模型的复杂度,减少计算资源消耗,同时还能够提升模型的精度。
[0012]作为一个实施例,所述通过树模型学习每个待选择特征和与其对应的真实标 签,以获得每个待选择特征在与之对应的真实标签下的真实特征重要性可以包括: 通过所述树模型学习每个待选择特征和与其对应的真实标签,以获得每个待选择 特征的特征信息增益和特征被划分次数,作为每个待选择特征的所述真实特征重 要性。
[0013]根据该实施例,能够获得如下技术效果:能够根据特征信息增益和特征被划 分次数获得特征重要性。
[0014]作为一个实施例,所述基于每个待选择特征的所述真实特征重要性和所述虚 假特征重要性,选择被筛选特征可以包括:利用打分函数比较每个待选择特征的 所述真实特征重要性和所述虚假特征重要性,获得每个待选择特征的打分值;以 及将所述打分值满足预设条件的待选择特征选择为所述被筛选特征。
[0015]根据该实施例,能够获得如下技术效果:能够筛选出特征方差偏大而导致噪 声的特征,从而能够筛选出实际重要性(真实的重要性)低的特征,提升树模型 效果。
[0016]作为一个实施例,将所述打分值满足所述预设条件的待选择特征选择为所述 被筛选特征可以包括:当基于所述打分值确认待选择特征的所述真实标签重要性 高且所述真实标签重要性与所述虚假标签重要性差别小时,所述待选择特征被选 择为所述被筛选特征。当所述待选择特征的所述真实标签重要性与所述虚假标签 重要性的打分值的差值的绝对值与所述真实标签重要性的打分值的商值小于预 设数值时,将所述待选择特征选择为所述被筛选特征。
[0017]根据该实施例,能够获得如下技术效果:在保证分类特征对标签仍旧敏感的 前提下,更加快速有效地筛选出与分类特征相关的过拟合特征。
[0018]作为一个实施例,所述方法可以还包括:剔除被选择为所述被筛选特征的所 述待选择特征。
[0019]根据该实施例,能够获得如下技术效果:在待选择特征被选择为被筛选特征 的情况下,将该待选择特征从原始数据(数据包)剔除,从而减少了模型的复杂 度,减少了过拟合情况的产生。
[0020]第二方面,提供了一种特征选择装置,包括:特征获取模块,该特征获取模 块用于从原始数据获取待选择特征以及与每个待选择特征相对应的真实标签;真 实特征重要性获取模块,该真实特征重要性获取模块用于通过树模型学习每个待 选择特征和与其对应的真实标签,以获得每个待选择特征在与之对应的真实标签 下的真实特征重要性;分组模块,该分组模块用于根据基准列将所有待选择特征 进行分组,以形成多个待选择特征组;标签打乱模块,该标签打乱模块用于将每 个待选择特征组中所包括的所有待选择特征与其真实标签的对应关系打乱,以使 得每个待选择特征对应于打乱标签;虚假特征重要性获取模块,该虚假特征重要 性获取模块用于通过所述树模型训练每个待选择特征和与其对应的打乱标签,以 获得每个待选择特征在与本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种特征选择方法,其特征在于,所述方法包括:从原始数据获取待选择特征以及与每个待选择特征相对应的真实标签;通过树模型学习每个待选择特征和与其对应的真实标签,以获得每个待选择特征在与之对应的真实标签下的真实特征重要性;根据基准列将所有待选择特征进行分组,以形成多个待选择特征组;将每个待选择特征组中所包括的所有待选择特征与其真实标签的对应关系打乱,以使得每个待选择特征对应于打乱标签;通过所述树模型训练每个待选择特征和与其对应的打乱标签,以获得每个待选择特征在与之对应的打乱标签下的虚假特征重要性;以及基于每个待选择特征的所述真实特征重要性和所述虚假特征重要性,选择被筛选特征。2.根据权利要求1所述的方法,其特征在于,其中,所述通过树模型学习每个待选择特征和与其对应的真实标签,以获得每个待选择特征在与之对应的真实标签下的真实特征重要性包括:通过所述树模型学习每个待选择特征和与其对应的真实标签,以获得每个待选择特征的特征信息增益和特征被划分次数,作为每个待选择特征的所述真实特征重要性。3.根据权利要求1或2所述的方法,其特征在于,其中,所述基于每个待选择特征的所述真实特征重要性和所述虚假特征重要性,选择被筛选特征包括:利用打分函数比较每个待选择特征的所述真实特征重要性和所述虚假特征重要性,获得每个待选择特征的打分值;以及将所述打分值满足预设条件的待选择特征选择为所述被筛选特征。4.根据权利要求3所述的方法,其特征在于,其中,将所述打分值满足所述预设条件的待选择特征选择为所述被筛选特征包括:当基于所述打分值确认待选择特征的所述真实标签重要性高且所述真实标签重要性与所述虚假标签重要性差别小时,所述待选择特征被选择为所述被筛选特征。5.根据权利要求4所述的方法,其特征在于,其中,所述当基于所述打分值确认待选择特征的所述真实标签重要性高且所述真实标签重要性与所述虚假标签重要性差别小时,所述待选择特征被选择为所述被筛选特征包括:当待选择特征的所述真实标签重要性与所述虚假标签重要性的打分值的差值的绝对值与所述真实标签重要性的打分值的商值小于预设数值时,将所述待选择特征选择为所述被筛选特征。6.根据权利要求1至5的任意一项所述的方法,其特征在于,所述方...

【专利技术属性】
技术研发人员:陈海波罗志鹏何智星
申请(专利权)人:深延科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1