一种特征选择方法技术

技术编号:39713318 阅读:5 留言:0更新日期:2023-12-17 23:22
本公开提供一种特征选择方法

【技术实现步骤摘要】
一种特征选择方法、装置、电子设备、芯片及介质


[0001]本公开涉及人工智能领域,尤其涉及一种特征选择方法

装置

电子设备

芯片及介质


技术介绍

[0002]随着人工智能和大数据技术的发展,对于算法如何从数据中提取关键特征受到了极大的关注
。A

Tune
是一款基于
AI
开发的系统性能优化引擎,
A

Tune
中主要使用了两种较有代表性的特征选择方法,分别是方差下降特征选择法
(Variance Reduction Feature Selector)
和加权集成特征选择法
(Weighted Ensemble Feature Selection)。
方差下降特征选择法通过判断某一特征对目标值方差的影响来判断特征的重要程度,能够直观地从数据集的角度分析关键的特征;加权集成特征选择法对多种回归树算法得到的特征重要性通过集成学习方法
(
例如
Stacking
方法
)
进行加权得到每个特征的重要程度,能够较为稳定地提取关键的特征

[0003]但是,方差下降特征选择法要求特征取值有较多的重复值,对数据集的要求较为严格,具有一定的局限性

而加权集成特征选择法随着特征数量的增加

特征之间关系的复杂化,该方法学习特征的难度提升/>、
可靠性会随之降低


技术实现思路

[0004]本公开提供一种特征选择方法

装置

电子设备

芯片及介质,以解决相关技术中特征选择的问题,结合第一波动值和第二波动值解决组合特征难以筛选的问题,同时引入回归算法,解决了对数据集的局限性,并通过对任务数据集进行分组,减少候选特征数量

降低回归算法学习难度,进而增加特征选择的可靠性

[0005]本公开的第一方面实施例提出了一种特征选择方法,该方法包括:确定第一任务数据集中的第一训练集和第一测试集;根据回归算法

第一训练集以及第一测试集,确定第一任务数据集的第一波动值;基于第一特征以及回归算法,对第一任务数据集进行分组,确定第二波动值;根据第一波动值和第二波动值,确定关键特征

[0006]在本公开的一些实施例中,确定第一任务数据集中的第一训练集和第一测试集包括:获取第一任务数据集,第一任务数据集包括特征数据和目标值数据;将特征数据和目标值数据中的离散型特征转换为连续型特征;根据预设算法和预设比例,将转换后的第一任务数据集划分为第一训练集和第一测试集

[0007]在本公开的一些实施例中,根据回归算法

第一训练集以及第一测试集,确定第一任务数据集的第一波动值包括:通过第一训练集训练回归算法,获取训练后的第一回归算法;通过第一回归算法,确定第一测试集对应的第一误差值;根据预设系数以及第一误差值,确定第一波动值

[0008]在本公开的一些实施例中,基于第一特征以及回归算法,对第一任务数据集进行分组,确定第二波动值包括:基于第一特征对第一任务数据集进行分组,获取分组后的第二
任务数据集;对第二任务数据集进行特征降维处理,确定第二训练集和第二测试集;通过第二训练集训练回归算法,获取训练后的第二回归算法;通过第二回归算法,确定第二测试集对应的第二误差值;通过预设系数以及第二误差值,确定第二波动值

[0009]在本公开的一些实施例中,第二任务数据集包括第一特征和至少一个第二特征,根据第一波动值和第二波动值,确定关键特征包括:比较第一波动值和第二波动值的大小,若第二波动值大于或等于第一波动值,确定第一特征和至少一个第二特征为关键特征

[0010]在本公开的一些实施例中,第二任务数据集包括第一特征,根据第一波动值和第二波动值,确定关键特征包括:确定第一特征为关键特征

[0011]在本公开的一些实施例中,回归算法包括第一回归算法和至少一个第二回归算法,该方法还包括:通过预设权重系数,分别将第一回归算法和至少一个回归算法对应的第一波动值和
/
或第二波动值进行加权融合;根据融合后的第一波动值和第二波动值,确定关键特征

[0012]本公开的第二方面实施例提出了一种特征选择装置,该装置包括:第一确定单元,用于确定第一任务数据集中的第一训练集和第一测试集;第二确定单元,用于根据回归算法

第一训练集以及第一测试集,确定第一任务数据集的第一波动值;分组单元,用于基于第一特征以及回归算法,对第一任务数据集进行分组,确定第二波动值;筛选单元,用于根据第一波动值和第二波动值,确定关键特征

[0013]本公开的第三方面实施例提出了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开第一方面实施例中描述的方法

[0014]本公开的第四方面实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开第一方面实施例中描述的方法

[0015]本公开的第五方面实施例提出了一种芯片,该芯片包括一个或多个接口电路和一个或多个处理器;接口电路用于从电子设备的存储器接收信号,并向处理器发送信号,信号包括存储器中存储的计算机指令,当处理器执行计算机指令时,使得电子设备执行本公开第一方面实施例中描述的方法

[0016]综上,根据本公开提出的特征选择方法,确定第一任务数据集中的第一训练集和第一测试集;根据回归算法

第一训练集以及第一测试集,确定第一任务数据集的第一波动值;基于第一特征以及回归算法,对第一任务数据集进行分组,确定第二波动值;根据第一波动值和第二波动值,确定关键特征,结合第一波动值和第二波动值解决组合特征难以筛选的问题,同时引入回归算法,解决了对数据集的局限性,并通过对任务数据集进行分组,减少候选特征数量

降低回归算法学习难度,进而增加特征选择的可靠性

[0017]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开

附图说明
[0018]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定

[0019]图1为本公开实施例提供的一种特征选择方法的流程图;
[0020]图2为本公开实施例提供的一种特征选择方法的流程图;
本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种特征选择方法,其特征在于,所述方法包括:确定第一任务数据集中的第一训练集和第一测试集;根据回归算法

所述第一训练集以及所述第一测试集,确定所述第一任务数据集的第一波动值;基于第一特征以及所述回归算法,对所述第一任务数据集进行分组,确定第二波动值;根据所述第一波动值和所述第二波动值,确定关键特征
。2.
根据权利要求1所述的方法,其特征在于,所述确定第一任务数据集中的第一训练集和第一测试集包括:获取所述第一任务数据集,所述第一任务数据集包括特征数据和目标值数据;将所述特征数据和所述目标值数据中的离散型特征转换为连续型特征;根据预设算法和预设比例,将转换后的第一任务数据集划分为第一训练集和第一测试集
。3.
根据权利要求1所述的方法,其特征在于,所述根据回归算法

所述第一训练集以及所述第一测试集,确定所述第一任务数据集的第一波动值包括:通过所述第一训练集训练所述回归算法,获取训练后的第一回归算法;通过所述第一回归算法,确定所述第一测试集对应的第一误差值;根据预设系数以及所述第一误差值,确定所述第一波动值
。4.
根据权利要求1所述的方法,其特征在于,所述基于第一特征以及所述回归算法,对所述第一任务数据集进行分组,确定第二波动值包括:基于第一特征对所述第一任务数据集进行分组,获取分组后的第二任务数据集;对所述第二任务数据集进行特征降维处理,确定第二训练集和第二测试集;通过所述第二训练集训练所述回归算法,获取训练后的第二回归算法;通过所述第二回归算法,确定所述第二测试集对应的第二误差值;通过预设系数以及所述第二误差值,确定所述第二波动值
。5.
根据权利要求1所述的方法,其特征在于,所述第二任务数据集包括第一特征和至少一个第二特征,所述根据所述第一波动值和所述第二波动值,确定关键特征包括:比较所述第一波动值和所述第二波动值的大小,若所述第二波动值大于或等于所述第一波动...

【专利技术属性】
技术研发人员:严浩冉蔡敦波
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1