一种高维数据的特征选择方法及装置制造方法及图纸

技术编号:13768252 阅读:350 留言:0更新日期:2016-09-29 02:47
本发明专利技术公开了一种高维数据的特征选择方法及装置,该方法包括获取待处理的原始数据集,所述原始数据集包括特征集、若干样本以及类别集,所述类别集包括每个样本的类别;计算获取所述特征集中每一个特征与类别集之间的最大信息系数MIC,以及每一个特征与已选特征子集的冗余值;根据所述最大信息系数MIC和所述冗余值,获取每一个特征的有效值,并根据所述有效值从特征集中选择出特征子集。本发明专利技术将MIC引入特征选择中,并基于MIC对特征进行有效评价,以根据评价产生的有效值选择特征,与现有技术相比,能有效地提高对高维数据特征选择的精确度。

【技术实现步骤摘要】

本专利技术涉及数据挖掘
,具体涉及一种高维数据的特征选择方法及装置
技术介绍
飞速发展的信息社会每天都在产生海量的数据,如何快速地从这些数据中发掘有用的信息成为急需解决的问题。研究者们从机器学习模型的角度来解决这一问题,并取得了显著进展。但是,高复杂度的模型和高维度的特征空间越来越难以适应大数据应用的迫切要求,而且特征空间中往往存在着大量无用信息。只有采用合适的特征选择方法,才能从海量数据中获得有效的特征,进而提高机器学习模型处理数据的效率与准确率;同时特征选择还能够防止模型过拟合以及进行去噪。因此,作为机器学习和数据挖掘的一个重要的预处理步骤,特征选择一直都是机器学习领域的研究热点。特征选择的度量标准和搜索算法的选取至关重要。常用的度量标准有基于距离、信息论和一致性的度量标准。基于距离的度量标准、Pearson系数等度量标准只能衡量变量之间的线性关系,而信息增益、互信息等度量标准,可以对非线性关系进行度量。在生成特征子集时,往往需要使用相应的搜索算法,在众多的搜索策略中近似马尔科夫毯条件在计算复杂度和选择的特征的分类准确率上都有很不错的表现。但是其也有明显的缺点,无法考虑特征和特征子集之间的冗余性。
技术实现思路
针对现有技术中的缺陷,本专利技术提供了一种高维数据的特征选择方法及装置,针对当前技术中的度量只能对变量间的线性和非线性关系度量,将MIC引入到特征选择中,MIC能够广泛地度量变量间的线性和非线性关系,甚至能够度量不能使用单个函数表示的非函数关系。尽管MIC在变量度量上十分有效,但是只能度量单个变量间的相关性和冗余性,因此本文提出一种新的度量mMIC(有效值),并应用到马尔科夫毯条件,以解决现有技术因为难以适用高维数据集中的特征和特征子集之间的冗余性而导致特征选择精确度低的问题。本专利技术提出了一种高维数据的特征选择方法,包括:获取待处理的原始数据集,所述原始数据集包括特征集、若干样本以及类别集,所述类别集包括每个样本的类别;计算获取所述特征集中每一个特征与类别集之间的最大信息系数MIC,以及每一个特征与已选特征子集的冗余值;根据所述最大信息系数MIC和所述冗余值,获取每一个特征的有效值,并根据所述有效值从特征集中选择出特征子集。优选地,所述计算获取所述特征集中每一个特征与类别集之间的最大信息系数MIC的步骤具体包括:通过公式(一),计算获取所述特征集中每一个特征与类别集之间的最大信息系数MIC;其中,B(n)为划定的网格数,ω(1)≤B(n)≤O(n1-ε),0<ε<1,n为特征的个数,x为对n个特征划分的段数,y为对n个样本划分的段数,M(D)x,y表示特征和样本在x*y网格划分下最大的互信息归一化后的值。优选地,所述根据所述最大信息系数MIC和所述冗余值,获取每一个特征的有效值的步骤具体包括:通过公式(二),根据所述最大信息系数MIC和所述冗余值,获取每一个特征的有效值;其中,Smain为当前已选的特征子集,Sresidue为剩余特征子集,i和j分别表示特征fi和fj,c为类别集,为冗余值。优选地,在所述根据所述最大信息系数MIC和所述冗余值,获取每一个特征的有效值的步骤之前,该方法还包括:定义两个特征之间的近似马尔科夫毯条件:MIC(fi,c)>MIC(fj,c)且MIC(fj,c)<MIC(fi,fj)相应地,所述根据所述最大信息系数MIC和所述冗余值,获取每一个特征的有效值,并根据所述有效值从特征集中选择出特征子集的步骤具体包括:根据所述最大信息系数MIC从特征集中依次选取特征,并将选取的特征从特征集中删除;根据选取的特征的最大信息系数MIC和冗余值获取所述特征的有效值,并判断所述有效值是否大于或者等于预设阈值,若是,则将该特征添加至最优子集。优选地,所述根据所述最大信息系数MIC和所述冗余值,获取每一个特征的有效值,并根据所述有效值从特征集中选择出特征子集的步骤还包括:根据所述近似马尔科夫毯条件从特征集中筛选出与所述选取的特征有近似马尔科夫毯条件的所有特征,并根据公式二获取每一个筛选出的特征的有效值;根据有效值判断筛选出的特征的有效值是否大于或者等于预设阈值,若否,则将筛选出的特征从特征集中删除,并从特征集中选取下一个特征。本专利技术还提出了一种高维数据的特征选择装置,其特征在于,包括:获取模块,用于获取待处理的原始数据集,所述原始数据集包括特征集、若干样本以及类别集,所述类别集包括每个样本的类别;处理模块,用于计算获取所述特征集中每一个特征与类别集之间的最大信息系数MIC,以及每一个特征与已选特征子集的冗余值;选择模块,用于根据所述最大信息系数MIC和所述冗余值,获取每一个特征的有效值,并根据所述有效值从特征集中选择出特征子集。优选地,所述处理模块,具体用于通过公式(一),计算获取所述特征集中每一个特征与类别集之间的最大信息系数MIC;其中,B(n)为划定的网格数,ω(1)≤B(n)≤O(n1-ε),0<ε<1,n为特征的个数,x为对n个特征划分的段数,y为对n个样本划分的段数,M(D)x,y表示特征和样本在x*y网格划分下最大的互信息归一化后的值。优选地,所述选择模块,具体用于通过公式(二),根据所述最大信息系数MIC和所述冗余值,获取每一个特征的有效值;其中,Smain为当前已选的特征子集,Sresidue为剩余特征子集,i和j分别表示特征fi和fj,c为类别集,为冗余值。优选地,该装置还包括:预定义模块;所述预定义模块,用于在所述根据所述最大信息系数MIC和所述冗余值,获取每一个特征的有效值的步骤之前,定义两个特征之间的近似马尔科夫毯条件:MIC(fi,c)>MIC(fj,c)且MIC(fj,c)<MIC(fi,fj)相应地,所述选择模块,还用于根据所述最大信息系数MIC从特征集中依次选取特征,并将选取的特征从特征集中删除;根据选取的特征的最大信息系数MIC和冗余值获取所述特征的有效值,并判断所述有效值是否大于或者等于预设阈值,若是,则将该特征添加至最优子集。优选地,所述选择模块,还用于根据所述近似马尔科夫毯条件从特征集中筛选出与所述选取的特征有近似马尔科夫毯条件的所有特征,并根据公式二获取每一个筛选出的特征的有效值;根据有效值判断筛选出的特征的有效值是否大于或者等于预设阈值,若否,则将筛选出的特征从特征集中删除,并从特征集中选取下一个特征由上述技术方案可知,本专利技术提出的高维数据的特征选择方法,通过最大信息系数引入到特征选择中,同时基于最大信息对高维数据进行特征选择,以克服了现有技术只能考虑两个特征之间相关性与冗余性的缺点,提高了选择的特征的分类准确率。附图说明通过参考附图会更加清楚的理解本专利技术的特征和优点,附图是示意性的而不应理解为对本专利技术进行任何限制,在附图中:图1示出了本专利技术一实施例提出的一种高维数据的特征选择方法的流程示意图;图2示出了本专利技术另一实施例提出的一种高维数据的特征选择方法的流程示意图;图3示出了本专利技术一实施例提出的一种高维数据的特征选择装置的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术的一部分实施例,而不是全部的本文档来自技高网...

【技术保护点】
一种高维数据的特征选择方法,其特征在于,包括:获取待处理的原始数据集,所述原始数据集包括特征集、若干样本以及类别集,所述类别集包括每个样本的类别;计算获取所述特征集中每一个特征与类别集之间的最大信息系数MIC,以及每一个特征与已选特征子集的冗余值;根据所述最大信息系数MIC和所述冗余值,获取每一个特征的有效值,并根据所述有效值从特征集中选择出特征子集。

【技术特征摘要】
1.一种高维数据的特征选择方法,其特征在于,包括:获取待处理的原始数据集,所述原始数据集包括特征集、若干样本以及类别集,所述类别集包括每个样本的类别;计算获取所述特征集中每一个特征与类别集之间的最大信息系数MIC,以及每一个特征与已选特征子集的冗余值;根据所述最大信息系数MIC和所述冗余值,获取每一个特征的有效值,并根据所述有效值从特征集中选择出特征子集。2.根据权利要求1所述的方法,其特征在于,所述计算获取所述特征集中每一个特征与类别集之间的最大信息系数MIC的步骤具体包括:通过公式(一),计算获取所述特征集中每一个特征与类别集之间的最大信息系数MIC;其中,B(n)为划定的网格数,ω(1)≤B(n)≤O(n1-ε),0<ε<1,n为特征的个数,x为对n个特征划分的段数,y为对n个样本划分的段数,M(D)x,y表示特征和样本在x*y网格划分下最大的互信息归一化后的值。3.根据权利要求1所述的方法,其特征在于,所述根据所述最大信息系数MIC和所述冗余值,获取每一个特征的有效值的步骤具体包括:通过公式(二),根据所述最大信息系数MIC和所述冗余值,获取每一个特征的有效值;其中,Smain为当前已选的特征子集,Sresidue为剩余特征子集,i和j分别表示特征fi和fj,c为类别集,为冗余值。4.根据权利要求3所述的方法,其特征在于,在所述根据所述最大信息系数MIC和所述冗余值,获取每一个特征的有效值的步骤之前,该方法还包括:定义两个特征之间的近似马尔科夫毯条件:MIC(fi,c)>MIC(fj,c)且MIC(fj,c)<MIC(fi,fj)相应地,所述根据所述最大信息系数MIC和所述冗余值,获取每一个特征的有效值,并根据所述有效值从特征集中选择出特征子集的步骤具体包括:根据所述最大信息系数MIC从特征集中依次选取特征,并将选取的特征从特征集中删除;根据选取的特征的最大信息系数MIC和冗余值获取所述特征的有效值,并判断所述有效值是否大于或者等于预设阈值,若是,则将该特征添加至最优子集。5.根据权利要求4所述的方法,其特征在于,所述根据所述最大信息系数MIC和所述冗余值,获取每一个特征的有效值,并根据所述有效值从特征集中选择出特征子集的步骤还包括:根据所述近似马尔科夫毯条件从特征集中筛选出与所述选取的特征有近似马尔科夫毯条件的所有特征,并根据公式二获取每一个筛选出的特征的有效值;...

【专利技术属性】
技术研发人员:孙广路宋智超陈腾何勇军
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:黑龙江;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1