一种用于配电网数据优化的特征选择方法,属电力数据分析处理领域。根据相关数据源,量化配电网故障某类影响因素后使其成为故障特征变量;数据矩阵根据每个故障表达的平均值进行预处理和离散化;输出特征数量n由用户从外部提供,然后输入类别数据矩阵;对目标值A,按每个故障的相关性通过互信息最大化计算;然后对剩余的输出特征进行循环反复更新;将目标值B模型函数设定为特征相关性指标和冗余度指标之比,并使其最大化;依次循环分拣出得分最高的特征向量,直到筛选出的特征集范围延伸至事先确定的界限值,则输出最优特征子集,否则重复以上步骤。该技术方案能够有效地降低特征选择方法的复杂度,从而提高配电网故障数据分类准确性。
【技术实现步骤摘要】
一种用于配电网数据优化的特征选择方法
本专利技术涉及配电网故障数据优化的特征选择方法,尤其涉及一种采用最大相关最小冗余的多标示特征选择处理大数据的方法,属于电力数据分析处理领域。
技术介绍
近年来,数据挖掘技术不断发展,己经广泛应用于各行各业当中。数据挖掘技术能够智能处理大规模数据,发现历史数据隐含的内在的规律并进行未知事件预测。因此数据挖掘技术可用于挖掘故障与其影响因素之间的复杂关系,进而构建模型对配电网故障进行预测。目前,数据挖掘技术在配电网自动化改造领域也得到了的推广,在许多实际应用中,存储于配电网数据库中的数据集往往拥有成千甚至上万个特征,但并不是所有的特征都对发现隐藏于数据背后的重要信息有帮助。在分类问题中,决定样本类别的信息都是包含在样本的特征向量里,这些样本信息的完整性、特征与类别及类别之间的相关冗余程度,直接决定了学习算法的分类能力。大量的无关和冗余特征不但降低了学习算法的分类能力,也会增加不必要的工作量。特征选择就是为了筛选出那些对于分类来说相关性最强的特征,剔除冗余和无效的特征。特征选择作为数据处理的首要一步,对于大数据,可减小数据规模,降低目标模型学习的难度,对于高维数据,能对数据降维以克服维度困扰现象,防止模型过拟合。尤其是对高维数据的学习中,对数据进行分析和学习的难度和成本相对数据维度呈现指数级增长,必须学习复杂模型,以提高模型的表达能力,同时还需要指数级增长的数据量来支撑复杂模型的学习。数据量过小,则会导致模型过拟合,模型的泛化性能差。特征选择是降低数据维数,提高学习算法推广能力的一个最有效的手段,也是模式识别中不可或缺的数据预处理的一部分。通过剔除与类别无关的特征,可以克服多数学习算法所存在的对无关冗余特征敏感的问题,使算法集中于那些有用的特征上,提高对有用信息进行深层次数据挖掘的能力。如何从大规模配电网数据中进行降维,以期得到有效的简化数据,正变得越来越紧迫。特征选择作为一种关键的数据分析方法和预处理手段,在对数据进行知识挖掘之前,通过从原始数据特征集合中选择其中的一个最优特征子集,不但可以消除数据噪声的干扰、剔除冗余和无关的特征,同时也可以大大降低后续数据处理的复杂度,减小运行时间,并提高数据分析的准确性和有效性。但要在原始特征集的庞大子集空间中找到最优特征集作为对数据的表示,难度极大。特征提取是指通过合并或变换原始类型来生成一小组新特征的过程,而在特征选择中,采用选择最显着的特征来减少空间维度。特征选择方法可以分为四类:过滤器,包装器,嵌入式和混合式方法。过滤器方法对特征空间执行统计分析以选择特征的区分性子集。特征选择方法应该能够识别和移除尽可能多的不相关和冗余特征。大多数特征选择方法可以有效地去除不相关的特征,但是不能处理冗余特征。鉴于过多的模型输入变量将导致预测模型的平均正确预测率下降,对可能存在的冗余特征变量和非强相关变量,所以,确立一种可以最大相关最小冗余的多标示特征选择处理大数据的方法,是实际工作中急待解决的技术问题。
技术实现思路
本专利技术所要解决的技术问题是提供一种用于配电网数据优化的特征选择方法。其采用了改进的最大相关最小冗余特征选择算法,通过对原始特征集进行相关性分析,去除不相关特征,保留强相关特征,通过分类器对选取的特征进行分类错误率度量,该方法所用的特征子集模型函数能够选出特征之间的冗余性低、特征与预测变量相关度高的最优特征子集,且其引入的加权相关系数计算方法可度量各类型变量之间的相关度,能够有效地降低特征选择方法的复杂度,从而提高配电网故障数据分类准确性。本专利技术的技术方案是:提供一种用于配电网数据优化的特征选择方法,其特征是:根据相关数据源,量化配电网故障某类影响因素后使其成为故障特征变量;数据矩阵根据每个故障表达的平均值进行预处理和离散化;输出特征数量n由用户从外部提供,然后输入类别数据矩阵;对目标值A,按每个故障的相关性通过互信息最大化计算;然后对剩余的输出特征进行循环反复更新;将目标值B模型函数设定为特征相关性指标和冗余度指标之比,并使其最大化;依次循环分拣出得分最高的特征向量,直到筛选出的特征集范围延伸至事先确定的界限值,则输出最优特征子集,否则重复以上步骤。所述的特征选择方法,通过对原始特征集进行相关性分析,去除不相关特征,保留强相关特征,通过分类器对选取的特征进行分类错误率度量,能够选出特征之间的冗余性低、特征与预测变量相关度高的最优特征子集,且其引入的加权相关系数计算方法可度量各类型变量之间的相关度。进一步的,所述的类别数据矩阵为C={1,2,3,4,5···,C},对目标值A,按每个故障的相关性通过互信息最大化计算,并从中提取出相关性得分最高的故障编号,并将其添加到最终的解集中;其故障的相关性算法为:式中,D是特征与类别之间的互信息值,c是数据集的类别,|S|是特征集的个数。进一步的,在每个故障的相关性通过互信息最大化计算后,对剩余的输出特征进行循环迭代,此时输出特征与剩余特征之间的冗余值按平均最小冗余值计算;所述的特征选择方法,要求每个特征属性之间的相关性最小,即最小冗余原则,它通过特征间的互信息最小化来表示为:其中,R就是特征间的互信息值大小;如果输出特征子集包含多个特征,则将其平均值视为冗余度得分,其算法为:其中P为输出特征集,xl为输出特征向量,xi为第i个特征向量。进一步的,所述的目标值B模型函数设定为特征相关性指标和冗余度指标之比,并使其最大化;在计算了每个特征的两个目标值后,再确定非支配特征;如果满足以下条件,参考特征就称为非支配特证;(1)如果参考特征的目标值A大于或等于所有其它未来的目标值A,参考特征的目标值B大于或等于所有其他特征的目标值B;(2)如果参考特征目标值A大于所有其他特征的目标值A和参考特征目标值B小于所有的其它特征目标值B,反之亦然。更进一步的,所述的特征选择方法,从非支配特征中,将具有最大目标值B的特征包含到输出特征集中。采用逐步递增的方法寻找剩余的输出特征。依次循环分拣出得分最高的特征向量,直到筛选出的特征集范围延伸至事先确定的界限值,则输出最优特征子集,否则重复以上步骤。所述的特征选择方法,通过对原始特征集进行相关性分析,去除不相关特征,保留强相关特征,通过分类器对选取的特征进行分类错误率度量,能够选出特征之间的冗余性低、特征与预测变量相关度高的最优特征子集;有效地降低特征选择方法的复杂度,从而提高配电网故障数据分类的准确性。与现有技术比较,本专利技术的优点是:1.本专利技术的技术方案,通过对原始特征集进行相关性分析,去除不相关特征,保留强相关特征,通过分类器对选取的特征进行分类错误率度量,其特征子集模型函数能够选出特征之间的冗余性低、特征与预测变量相关度高的最优特征子集;2.本专利技术技术方案中特征的选择与优化,能够从许多特征中找出最有效的特征,并本文档来自技高网...
【技术保护点】
1.一种用于配电网数据优化的特征选择方法,其特征是:/n根据相关数据源,量化配电网故障某类影响因素后使其成为故障特征变量;/n数据矩阵根据每个故障表达的平均值进行预处理和离散化;/n输出特征数量n由用户从外部提供,然后输入类别数据矩阵;/n对目标值A,按每个故障的相关性通过互信息最大化计算;然后对剩余的输出特征进行循环反复更新;/n将目标值B模型函数设定为特征相关性指标和冗余度指标之比,并使其最大化;/n依次循环分拣出得分最高的特征向量,直到筛选出的特征集范围延伸至事先确定的界限值,则输出最优特征子集,否则重复以上步骤。/n
【技术特征摘要】
1.一种用于配电网数据优化的特征选择方法,其特征是:
根据相关数据源,量化配电网故障某类影响因素后使其成为故障特征变量;
数据矩阵根据每个故障表达的平均值进行预处理和离散化;
输出特征数量n由用户从外部提供,然后输入类别数据矩阵;
对目标值A,按每个故障的相关性通过互信息最大化计算;然后对剩余的输出特征进行循环反复更新;
将目标值B模型函数设定为特征相关性指标和冗余度指标之比,并使其最大化;
依次循环分拣出得分最高的特征向量,直到筛选出的特征集范围延伸至事先确定的界限值,则输出最优特征子集,否则重复以上步骤。
2.按照权利要求1所述的用于配电网数据优化的特征选择方法,其特征是所述的特征选择方法,通过对原始特征集进行相关性分析,去除不相关特征,保留强相关特征,通过分类器对选取的特征进行分类错误率度量,能够选出特征之间的冗余性低、特征与预测变量相关度高的最优特征子集,且其引入的加权相关系数计算方法可度量各类型变量之间的相关度。
3.按照权利要求1所述的用于配电网数据优化的特征选择方法,其特征是所述的类别数据矩阵为C={1,2,3,4,5···,C},对目标值A,按每个故障的相关性通过互信息最大化计算,并从中提取出相关性得分最高的故障编号,并将其添加到最终的解集中;
其故障的相关性算法为:
式中,D是特征与类别之间的互信息值,c是数据集的类别,|S|是特征集的个数。
4.按照权利要求1所述的用于配电网数据优化的特征选择方法,其特征是在每个故障的相关性通过互信息最大化计算后,对剩余的输出特征进行循环迭代,此时输出特征与剩余特征之间的冗余值按平均最小冗余值计算;
所述...
【专利技术属性】
技术研发人员:李帆,周蓝波,余捷,侯仲华,贝翔飚,顾珏,宗卫国,徐姗姗,夏子朋,
申请(专利权)人:国网上海市电力公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。