一种自动特征选择的方法及装置制造方法及图纸

技术编号:38818802 阅读:17 留言:0更新日期:2023-09-15 19:57
本发明专利技术涉及特征选择技术领域,公开了一种自动特征选择的方法,包括:S1、获取一个已经完成特征构造的,包含N维特征的数据集D,并设置初始化特征的个数x、基于特征重要性的候选特征个数x1、基于随机的候选特征个数x2、相关性系数阈值δ、执行次数k、并行任务执行次数L;S2、生成多个任务,每个任务采用设定的执行步骤并行地执行,得到各自的最优评估结果和最优特征子集d;S3、对比每个任务的最优评估结果,返回评估结果最好的任务对应的最优特征子集。本发明专利技术提供的自动特征选择的方法及装置,通过特征演化迭代的方法,在保证最终特征子集效果的基础上,提高了特征选择的效率。提高了特征选择的效率。提高了特征选择的效率。

【技术实现步骤摘要】
一种自动特征选择的方法及装置


[0001]本专利技术涉及特征选择
,特别涉及一种自动特征选择的方法及装置。

技术介绍

[0002]特征构造是指从原始数据构建特征的过程,当基于领域知识和统计信息构造出大量特征之后,由于计算资源和时间的限制,不能使用全部特征进行建模,需要从中选择合适的特征子集,找到其中有用且有意义的特征子集。通过穷举的方法需要耗费大量的时间和计算资源,通过人工过滤的方法又极其依赖算法工程师的水平。

技术实现思路

[0003]本专利技术提供了一种自动特征选择的方法及装置,解决了自动特征选择效率低下,且严重依赖人工的技术问题。
[0004]本专利技术提供了一种自动特征选择的方法,包括:
[0005]S1、获取一个已经完成特征构造的,包含N维特征的数据集D,并设置初始化特征的个数x、基于特征重要性的候选特征个数x1、基于随机的候选特征个数x2、相关性系数阈值δ、执行次数k、并行任务执行次数L;
[0006]S2、生成多个任务,每个任务采用设定的执行步骤并行地执行,得到各自的最优评估结果和最优特征子集d;
[0007]S3、对比每个任务的最优评估结果,返回评估结果最好的任务对应的最优特征子集。
[0008]进一步地,所述步骤S2包括:
[0009]S21、随机初始化特征,从特征空间中随机选择x个特征作为初始化特征,令当前特征空间等于初始化特征空间;
[0010]S22、计算评估结果,利用当前特征空间进行建模,选择设定的评估指标,计算验证集上的评估结果,令最优评估结果val=当前评估结果,令最优特征子集d=当前特征空间;
[0011]S23、分两路按照设定的方式生成候选特征;
[0012]S24、对步骤S23选择的候选特征进行特征筛选;
[0013]S25、更新当前特征空间,当前特征空间=当前特征空间=当前特征空间+候选特征;
[0014]S26、利用当前特征空间进行建模,计算验证集上的评估结果;
[0015]S27、若步骤S26的建模评估结果优于最优评估结果val,则更新最优评估结果val和最优特征子集d;若步骤S26的建模评估结果劣于最优评估结果val,从当前特征空间中剔除候选特征空间;
[0016]S28、返回步骤S23,并迭代执行k次,得到最优评估结果和最优特征子集d。
[0017]进一步地,所述步骤S23包括:
[0018]S231、选择基于特征重要性的候选特征x1个,提前对整个数据集,利用所有特征进
行建模训练然后获得所有特征的特征重要性排序,根据特征重要性排序,选择x1个特征;其中,若遇到当前特征空间的特征,则跳过并顺延;
[0019]S232、选择随机候选特征x2个,从所有特征中随机选择候选特征x2个;其中,所有特征排除当前特征空间的特征,以及步骤S231中选择的特征;
[0020]S233、将步骤S231和步骤S232中的候选特征合并作为最终的候选特征。
[0021]进一步地,所述步骤S24中,特征筛选采用相关性过滤法,分别计算每一个候选特征与当前特征空间中的每一个特征的相关性系数,若出现皮尔逊相关性系数大于阈值δ的情况,则删除这个候选特征。
[0022]本专利技术还提供了一种自动特征选择的装置,包括:
[0023]获取模块1,用于获取一个已经完成特征构造的,包含N维特征的数据集D,并设置初始化特征的个数x、基于特征重要性的候选特征个数x1、基于随机的候选特征个数x2、相关性系数阈值δ、执行次数k、并行任务执行次数L;
[0024]执行模块2,用于生成多个任务,每个任务采用设定的执行步骤并行地执行,得到各自的最优评估结果和最优特征子集d;
[0025]对比模块3,用于对比每个任务的最优评估结果,返回评估结果最好的任务对应的最优特征子集。
[0026]进一步地,所述执行模块2包括:
[0027]初始化单元,用于随机初始化特征,从特征空间中随机选择x个特征作为初始化特征,令当前特征空间等于初始化特征空间;
[0028]第一计算单元,用于计算评估结果,利用当前特征空间进行建模,选择设定的评估指标,计算验证集上的评估结果,令最优评估结果val=当前评估结果,令最优特征子集d=当前特征空间;
[0029]生成单元,用于分两路按照设定的方式生成候选特征;
[0030]筛选单元,用于对生成单元选择的候选特征进行特征筛选;
[0031]更新单元,用于更新当前特征空间,当前特征空间=当前特征空间=当前特征空间+候选特征;
[0032]第二计算单元,用于利用当前特征空间进行建模,计算验证集上的评估结果;
[0033]判断单元,用于在第二计算单元的建模评估结果优于最优评估结果val时,更新最优评估结果val和最优特征子集d;在第二计算单元的建模评估结果劣于最优评估结果val时,从当前特征空间中剔除候选特征空间;
[0034]返回单元,用于返回生成单元,并迭代执行k次,得到最优评估结果和最优特征子集d。
[0035]进一步地,所述生成单元包括:
[0036]第一选择子单元,用于选择基于特征重要性的候选特征x1个,提前对整个数据集,利用所有特征进行建模训练然后获得所有特征的特征重要性排序,根据特征重要性排序,选择x1个特征;其中,若遇到当前特征空间的特征,则跳过并顺延;
[0037]第二选择子单元,用于选择随机候选特征x2个,从所有特征中随机选择候选特征x2个;其中,所有特征排除当前特征空间的特征,以及第一选择子单元中选择的特征;
[0038]合并子单元,用于将第一选择子单元和第二选择子单元中的候选特征合并作为最
终的候选特征。
[0039]进一步地,所述筛选单元中,特征筛选采用相关性过滤法,分别计算每一个候选特征与当前特征空间中的每一个特征的相关性系数,若出现皮尔逊相关性系数大于阈值δ的情况,则删除这个候选特征。
[0040]本专利技术的有益效果为:
[0041]本专利技术设计了自动特征选择的框架,同时设计了特征演化算法,将其应用在自动特征选择的框架中,通过特征演化迭代的方法,在保证最终特征子集效果的基础上,提高了特征选择的效率。
附图说明
[0042]图1为本专利技术自动特征选择的方法中单个任务流程示意图。
[0043]图2为本专利技术自动特征选择的装置结构示意图。
[0044]本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0045]应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0046]本专利技术提供的一种自动特征选择的方法,包括:
[0047]S1、获取一个已经完成特征构造的,包含N维特征的数据集D,并设置初始化特征的个数x、基于特征重要性的候选特征个数x1、基于随机的候选特征个数x2、相关性系数阈值δ、执行次数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自动特征选择的方法,其特征在于,包括:S1、获取一个已经完成特征构造的,包含N维特征的数据集D,并设置初始化特征的个数x、基于特征重要性的候选特征个数x1、基于随机的候选特征个数x2、相关性系数阈值δ、执行次数k、并行任务执行次数L;S2、生成多个任务,每个任务采用设定的执行步骤并行地执行,得到各自的最优评估结果和最优特征子集d;S3、对比每个任务的最优评估结果,返回评估结果最好的任务对应的最优特征子集。2.根据权利要求1所述的自动特征选择的方法,其特征在于,所述步骤S2包括:S21、随机初始化特征,从特征空间中随机选择x个特征作为初始化特征,令当前特征空间等于初始化特征空间;S22、计算评估结果,利用当前特征空间进行建模,选择设定的评估指标,计算验证集上的评估结果,令最优评估结果val=当前评估结果,令最优特征子集d=当前特征空间;S23、分两路按照设定的方式生成候选特征;S24、对步骤S23选择的候选特征进行特征筛选;S25、更新当前特征空间,当前特征空间=当前特征空间=当前特征空间+候选特征;S26、利用当前特征空间进行建模,计算验证集上的评估结果;S27、若步骤S26的建模评估结果优于最优评估结果val,则更新最优评估结果val和最优特征子集d;若步骤S26的建模评估结果劣于最优评估结果val,从当前特征空间中剔除候选特征空间;S28、返回步骤S23,并迭代执行k次,得到最优评估结果和最优特征子集d。3.根据权利要求2所述的自动特征选择的方法,其特征在于,所述步骤S23包括:S231、选择基于特征重要性的候选特征x1个,提前对整个数据集,利用所有特征进行建模训练然后获得所有特征的特征重要性排序,根据特征重要性排序,选择x1个特征;其中,若遇到当前特征空间的特征,则跳过并顺延;S232、选择随机候选特征x2个,从所有特征中随机选择候选特征x2个;其中,所有特征排除当前特征空间的特征,以及步骤S231中选择的特征;S233、将步骤S231和步骤S232中的候选特征合并作为最终的候选特征。4.根据权利要求3所述的自动特征选择的方法,其特征在于,所述步骤S24中,特征筛选采用相关性过滤法,分别计算每一个候选特征与当前特征空间中的每一个特征的相关性系数,若出现皮尔逊相关性系数大于阈值δ的情况,则删除这个候选特征。5.一种自动特征选择的装置,其特征在于,包括:获取模块,用于获取一个已...

【专利技术属性】
技术研发人员:郑小禄王超贾志愚胡方雷
申请(专利权)人:山东慧智博视数字科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1