当前位置: 首页 > 专利查询>南京大学专利>正文

一种基于零阶优化的数据特征选择方法技术

技术编号:29759340 阅读:26 留言:0更新日期:2021-08-20 21:12
本发明专利技术公开一种基于零阶优化的数据特征选择方法,包括:数据采样,得到采样值;基于采样值进行训练,来得到采样值的评价,最后基于评价与采样值来更新优化算法采样空间;将数据特征选择作为一个采样空间的取值,训练出对应的模型性能指标作为评价来优化采样空间;采样空间是一个向量,以数据的特征数作为采样空间的维度,对采样空间的每维进行二值离散化,以此作为优化算法的配置;之后,进行预设轮次的循环。本发明专利技术保留包裹式方法在性能上优势的同时,在选择特征中引入了零阶优化算法,有效的减少了模型训练的次数,使其效率与准确度均有良好的表现有更高的效率。另外,本发明专利技术对多种模型都可适用,应用场景广泛,具有更强的鲁棒性。

【技术实现步骤摘要】
一种基于零阶优化的数据特征选择方法
本专利技术涉及一种基于零阶优化的数据特征选择方法,涉及机器学习中数据预处理

技术介绍
数据特征选择指从数据原始特征中选择并保留一些最有效特征的过程,是一种很重要的数据预处理过程,它通常在正式进行训练模型之前进行。特征选择使得数据维度减少,从而一定程度上缓解了维数灾难问题,这个角度考虑,特征选择与降维有相似的动机;另外,特征选择通过剔除不相关特征,只留下关键的特征,使得学习更加高效,以达到降低学习任务难度的目的。常见的数据特征选择方法主要有三类:嵌入式、过滤式和包裹式。嵌入式方法将特征选择算法本身作为组成部分嵌入到训练模型中里,其中最常用的一种是,在模型训练中加入正则化项,训练后得到稀疏解,并以此达到特征选择的目的,但是此类方法对所使用的模型有很大的限制,需要训练模型时能够得到特征系数或者得到特征重要度,导致嵌入式方法的应用场景有限,容易过拟合,无法面对较复杂的使用场景。过滤式方法按照特征的发散性或者相关性对其进行评分,直接完成特征选择。Relief(RelevantFeatures)是一种著名的过滤式方法,其运行效率高,能够较快的得到特征选择结果。不足的是,过滤式方法的评价标准独立于特定的学习算法,使得分类准确率通常低于包裹式方法。包裹式方法以模型训练结果作为特征选择的评价指标。在现有的三类特征选择方法中,嵌入式方法对训练模型有一定的限制,使得应用场景小,容易过拟合;过滤式方法脱离实际使用的模型,在实际的表现中往往不够理想;包裹式方法在性能上有良好表现,但此方法耗时巨大,且结果往往不稳定,不易控制。
技术实现思路
专利技术目的:针对现有技术中存在的问题与不足,本专利技术提供一种新的基于零阶优化的数据特征选择方法。此方案属于一种包裹式方法,不同与其他包裹式方法,保留包裹式方法在性能上优势的同时,在选择特征中引入了零阶优化算法,有效的减少了模型训练的次数,使其效率与准确度均有良好的表现有更高的效率。另外,本专利技术对多种模型都可适用,应用场景广泛,具有更强的鲁棒性。技术方案:一种基于零阶优化的数据特征选择方法,数据特征选择完成的任务是对一个数据矩阵如n*m(n为数据量,m为特征数)的数据集进行特征维度上的缩减,去除不相关的特征,降低了学习任务的难度。同时一定程度上缓解维数灾难等问题。数据特征选择的最终所得的结果为n*k的经过特征选择的数据矩阵(k<m,k经过特征选择后的特征数)。本专利技术基于评价不断优化采样空间的算法过程。对优化算法进行采样空间的配置后,就可以进行数据采样。可以多次执行以下流程:数据采样,得到采样值;基于采样值进行训练,来得到采样值的评价,最后基于评价与采样值来更新优化算法采样空间。以上为基于零阶优化的数据特征选择方法的使用逻辑。将具体的数据特征选择方案作为一个采样空间的取值,训练出对应的模型性能指标作为评价来优化采样空间。具体来说,采样空间是一个向量,以数据的特征数作为采样空间的维度,对采样空间的每维进行二值离散化(代表每一元素其对应位置的特征是否被选择),以此作为优化算法的配置。之后,进行预设轮次的循环。其中,一轮采样训练优化的循环过程如:首先,基于配置好的优化算法进行数据采样,得到采样值;之后,基于采样值还原数据进行训练;最后,基于训练所得评价与采样值对优化算法进行采样空间的优化。循环结束后,就得到了过程中表现最优的数据特征选择方案。主要实施流程如下:对数据进行特征选择,以实现数据分类任务,以RACOS算法作为优化算法设置,有以下流程(其中学习模型可以为实际使用场景下的模型)。步骤1,首先进行采样空间的构建,基于给定的训练数据来生成对应特征数维度的采样空间。如训练数据特征为:x1={x11,x12,…,x1m,label1}x2={x21,x22,…,x2m,label2}…xn={xn1,xn2,…,xnm,labeln}生成的对应采样空间的向量形式如:s={s1,s2,…,sm}其中,每一个元素代表特征对应维度位置的采样值。步骤2,对训练数据进行划分训练集与验证集,训练数据取前a%作为训练集,后b%作为验证集(a+b<1调整此参数可以适当减少训练数据,加快特征选择过程);步骤3,基于RACOS优化算法进行采样空间的采样得到的取值,并基于取值s得到特征选择后的数据集,基于步骤2划分后,使用训练集对分类模型进行训练,之后用验证集进行验证得到一个分类准确率;步骤4,基于这个采样值和准确率进行一轮优化算法的优化;步骤5,重复步骤2-4直到流程结束(达到预设重复轮数),最终得到一组经过特征选择的数据集,并以此作为最终的分类模型的数据集。综上完成了本方案提出的基于零阶优化的数据特征选择方法过程。有益效果:与现有技术相比,本专利技术提供的基于零阶优化的数据特征选择方法,相较过滤式方法有更好的准确度,相较普通的包裹式方法在产生新的特征子集中引入了优化,使得效率与准确度均有良好表现,另外相较于嵌入式方法有更强的鲁棒性。另外,方法中使用的优化算法可进行同类型算法的互相替换,采样训练优化的过程亦可进行调度算法的改进,来进行加速,使得本技术方案拓展性强、过程可控、具有广阔的使用前景。附图说明图1为本专利技术所述的零阶优化算法过程示意图;图2为本专利技术所述的基于零阶优化的特征选择示意图;图3为本专利技术所述的基于零阶优化的特征选择方案流程图。具体实施方式下面结合具体实施例,进一步阐明本专利技术,应理解这些实施例仅用于说明本专利技术而不用于限制本专利技术的范围,在阅读了本专利技术之后,本领域技术人员对本专利技术的各种等价形式的修改均落于本申请所附权利要求所限定的范围。如图1所示,基于零阶优化的数据特征选择方法,基于评价不断优化采样空间的算法过程。对优化算法进行采样空间的配置后,就可以进行数据采样。可以多次执行以下流程:数据采样,得到采样值;基于采样值进行训练,来得到采样值的评价,最后基于评价与采样值来更新优化算法采样空间。以上为基于零阶优化的数据特征选择方法的使用逻辑,另外,对于解决不可导的、非凸问题下的其他形式的优化算法,也可进行替换。如图2所示,将具体的数据特征选择方案作为一个采样空间的取值,训练出对应的模型性能指标作为评价来优化采样空间。具体来说,采样空间是一个向量,以数据的特征数作为采样空间的维度,对采样空间的每维进行二值离散化(代表每一元素其对应位置的特征是否被选择),以此作为优化算法的配置。之后,进行预设轮次的循环。其中,一轮采样训练优化的循环过程如:首先,基于配置好的优化算法进行数据采样,得到采样值;之后,基于采样值还原数据进行训练;最后,基于训练所得评价与采样值对优化算法进行采样空间的优化。循环结束后,就得到了过程中表现最优的数据特征选择方案。以分类任务场景下来进行具体特征选择过程的实施方式的讲述。另外,使用的优化算法为Racos优化算法。为了方便存储能保存多个本文档来自技高网
...

【技术保护点】
1.一种基于零阶优化的数据特征选择方法,用于数据的预处理,数据特征选择完成的任务是对一个数据矩阵为n*m的数据集进行特征维度上的缩减,去除不相关的特征,数据特征选择的最终所得的结果为n*k的经过特征选择的数据矩阵,k<m,k经过特征选择后的特征数;其特征在于,包括:数据采样,得到采样值;基于采样值进行训练,来得到采样值的评价,最后基于评价与采样值来更新优化算法采样空间;/n将数据特征选择作为一个采样空间的取值,训练出对应的模型性能指标作为评价来优化采样空间;采样空间是一个向量,以数据的特征数作为采样空间的维度,对采样空间的每维进行二值离散化,以此作为优化算法的配置;之后,进行预设轮次的循环。/n

【技术特征摘要】
1.一种基于零阶优化的数据特征选择方法,用于数据的预处理,数据特征选择完成的任务是对一个数据矩阵为n*m的数据集进行特征维度上的缩减,去除不相关的特征,数据特征选择的最终所得的结果为n*k的经过特征选择的数据矩阵,k<m,k经过特征选择后的特征数;其特征在于,包括:数据采样,得到采样值;基于采样值进行训练,来得到采样值的评价,最后基于评价与采样值来更新优化算法采样空间;
将数据特征选择作为一个采样空间的取值,训练出对应的模型性能指标作为评价来优化采样空间;采样空间是一个向量,以数据的特征数作为采样空间的维度,对采样空间的每维进行二值离散化,以此作为优化算法的配置;之后,进行预设轮次的循环。


2.根据权利要求1所述的基于零阶优化的数据特征选择方法,其特征在于,一轮采样训练优化的循环过程为:首先,基于配置好的优化算法进行数据采样,得到采样值;之后,基于采样值还原数据进行训练;最后,基于训练所得评价与采样值对优化算法进行采样空间的优化;循环结束后,就得到了过程中表现最优的数据特征选择方案。


3.根据权利要求1所述的基于零阶优化的数据特征选择方法,其特征在于,在数据分类任务中,对数据进行特征选择,以实现数据分类任务,包括以下流程:
步骤1,首先进...

【专利技术属性】
技术研发人员:俞扬詹德川周志华庞江圣
申请(专利权)人:南京大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1