特征选择方法、装置、电子设备及计算机可读存储介质制造方法及图纸

技术编号：34561159 阅读：19 留言：0更新日期：2022-08-17 12:49

本申请提供了一种特征选择方法、装置、电子设备及存储介质，该方法包括从原始数据获取待选择特征以及与每个待选择特征相对应的真实标签；通过树模型学习每个待选择特征和与其对应的真实标签，以获得每个待选择特征的真实特征重要性；根据基准列将所有待选择特征分组为多个待选择特征组；将每个待选择特征组中所包括的所有待选择特征与其真实标签的对应关系打乱；通过树模型训练每个待选择特征和与其对应的打乱标签，以获得每个待选择特征的虚假特征重要性；以及基于每个待选择特征的真实特征重要性与虚假特征重要性选择被筛选特征。通过根据基准列将待选择特征分组而后在组内对待选择特征的真实标签随机打乱，能够更加快速有效地筛选过拟合特征。有效地筛选过拟合特征。有效地筛选过拟合特征。

全部详细技术资料下载

【技术实现步骤摘要】
特征选择方法、装置、电子设备及计算机可读存储介质

[0001]本申请涉及数据挖掘
，尤其涉及特征选择方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]机器学习里面特征工程往往是提升效果的关键，而特征选择是特征工程里的一个重要问题。特征选择的目的是寻找最优特征子集。在实际业务中，用于模型中的特征维度往往很高，几万维，甚至高达上亿维，维度过高会增大模型计算复杂度，但是在这么多维数据中，并不是每个特征对模型的预测都是有效果的，所以要去除一些不必要特征。特征选择能剔除不相关，冗余或有害的特征，从而达到减少特征个数，降低模型的计算复杂度，甚至提升预测精度。
[0003]常见的特征选择有3类分别是Filter(过滤器)方法，Wrapper(包裹器)方法和Embedding(嵌入式)方法。
[0004]其中，Filter(过滤器)方法其主要思想是：对每一维的特征“打分”，即给每一维的特征赋予权重，这样的权重就代表着该维特征的重要性，然后依据权重排序，如卡方检验，信息增益和相关系数等方法。此类方法速度一般很快，但是容易选出一些有用的特征。
[0005]Wrapper(包裹器)方法其主要思想是：将子集的选择看作是一个搜索寻优问题，生成不同的组合，对组合进行评价，再与其他的组合进行比较。这样就将子集的选择看作是一个优化问题，这里有很多的优化算法可以解决，尤其是一些启发式的优化算法，如GA(遗传算法)、PSO(粒子群算法)、DE(差分演化算法)和ABC(分工蜂群算法...

【技术保护点】

【技术特征摘要】
1.一种特征选择方法，其特征在于，所述方法包括：从原始数据获取待选择特征以及与每个待选择特征相对应的真实标签；通过树模型学习每个待选择特征和与其对应的真实标签，以获得每个待选择特征在与之对应的真实标签下的真实特征重要性；根据基准列将所有待选择特征进行分组，以形成多个待选择特征组；将每个待选择特征组中所包括的所有待选择特征与其真实标签的对应关系打乱，以使得每个待选择特征对应于打乱标签；通过所述树模型训练每个待选择特征和与其对应的打乱标签，以获得每个待选择特征在与之对应的打乱标签下的虚假特征重要性；以及基于每个待选择特征的所述真实特征重要性和所述虚假特征重要性，选择被筛选特征。2.根据权利要求1所述的方法，其特征在于，其中，所述通过树模型学习每个待选择特征和与其对应的真实标签，以获得每个待选择特征在与之对应的真实标签下的真实特征重要性包括：通过所述树模型学习每个待选择特征和与其对应的真实标签，以获得每个待选择特征的特征信息增益和特征被划分次数，作为每个待选择特征的所述真实特征重要性。3.根据权利要求1或2所述的方法，其特征在于，其中，所述基于每个待选择特征的所述真实特征重要性和所述虚假特征重要性，选择被筛选特征包括：利用打分函数比较每个待选择特征的所述真实特征重要性和所述虚假特征重要性，获得每个待选择特征的打分值；以及将所述打分值满足预设条件的待选择特征选择为所述被筛选特征。4.根据权利要求3所述的方法，其特征在于，其中，将所述打分值满足所述预设条件的待选择特征选择为所述被筛选特征包括：当基于所述打分值确认待选择特征的所述真实标签重要性高且所述真实标签重要性与所述虚假标签重要性差别小时，所述待选择特征被选择为所述被筛选特征。5.根据权利要求4所述的方法，其特征在于，其中，所述当基于所述打分值确认待选择特征的所述真实标签重要性高且所述真实标签重要性与所述虚假标签重要性差别小时，所述待选择特征被选择为所述被筛选特征包括：当待选择特征的所述真实标签重要性与所述虚假标签重要性的打分值的差值的绝对值与所述真实标签重要性的打分值的商值小于预设数值时，将所述待选择特征选择为所述被筛选特征。6.根据权利要求1至5的任意一项所述的方法，其特征在于，所述方...

【专利技术属性】
技术研发人员：陈海波，罗志鹏，何智星，
申请(专利权)人：深延科技北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人