一种变电站故障数据诊断中的随机森林分类方法技术

技术编号:27367919 阅读:58 留言:0更新日期:2021-02-19 13:52
一种变电站故障数据诊断中的随机森林分类方法,从变电站故障诊断系统中提取数据,对数据进行预处理,得到原始样本集,包括以下步骤:(1)建立随机森林模型;(2)对原始随机森林模型进行重要性分析;(3)对原始样本集进行处理,保留结果与所选出的特征,生成新的样本集,同时对测试集进行相同处理;(4)使用新样本集,重复步骤(1)得到最终随机森林模型;(5)利用测试集对随机森林模型进行测试,评估模型性能;(6)用随机森林分类器对新的数据进行判别与分类,分类结果按树分类器的投票多少而定,并将分类结果储存到数据库中。本发明专利技术减少了大量的实时数据处理量,加快系统分类速度,保证决策系统实时性;分类性能好;避免过拟合。避免过拟合。避免过拟合。

【技术实现步骤摘要】
一种变电站故障数据诊断中的随机森林分类方法


[0001]本专利技术涉及一种变电站故障数据诊断中的随机森林分类方法。

技术介绍

[0002]现有技术中,当电网发生故障时,监控设备会及时产生报警信息并上传,例如开关跳闸、自动保护装置动作、欠电压、过电流、设备过负荷等这些信息。特别是当一些结构、规模巨大的电力系统出现故障时,一时间系统会产生大量的报警信息,而这些信息中包括大量的由保护或断路器误动、拒动,信道传输干扰错误,保护动作时间偏差等因素造成的不确定性的知识和数据。目前国内外提出了许多变电站故障数据诊断的技术和方法主要有专家系统、人工神经网络、优化算法技术、petri网络、模糊集理论、粗糙集理论等。以上智能技术在应用于故障诊断时各有不同优点,但同时也暴露出许多的问题。例如专家系统的维护难度高,容错性差;人工神经网络缺乏对自身行为的解释能力,同时需要大量训练样本等。目前已有的变电站故障数据诊断分类方法存在问题,无法同时保证准确率与效率,而在现实变电站故障诊断系统的使用中,对诊断速度与准确率的要求都较高。

技术实现思路

[0003]为了克服现有技术的不足,本专利技术提供一种变电站故障数据诊断项目中的随机森林分类方法,在决策树的基础上采用集成学习的思想,通过随机选择样本和随机选择特征进行训练生成随机森林,并通过随机森林对数据分类。
[0004]本专利技术解决其技术问题所采用的技术方案是:
[0005]一种变电站故障诊断项目中的随机森林分类方法,从变电站故障诊断系统中提取数据,对数据进行预处理,得到原始样本集,所述方法包括以下步骤:
[0006](1)建立随机森林模型,过程如下:
[0007](1.1)设T为原始样本集,其中总共有n个样例,则每轮从原始样本集T 中通过Bootstraping(有放回抽样)的方式抽取n个样例,得到一个大小为n的训练集T
i
,在原始样本集的抽取过程中,可能有被重复抽取的样例,也可能有一次都没有被抽到的样例,共进行k轮的抽取,则每轮抽取的训练集分别为T1,T2,

,T
k
,未被包含的数据被称为袋外数据;
[0008](1.2)建立决策树;
[0009](1.3)重复步骤(1.1)和(1.2),直到所有CART树都经过训练,组合所有决策树,构建成原始随机森林模型;
[0010](2)对原始随机森林模型进行重要性分析,指定L=|sqrt(M)|选取排名前L 个特征;
[0011](3)对原始样本集T进行处理,保留结果与所选出的特征,生成新的样本集Y,同时对测试集进行相同处理;
[0012](4)使用新样本集Y,重复步骤(1),得到最终随机森林模型H;
[0013](5)利用测试集对随机森林模型H进行测试,评估模型性能;
[0014](6)用随机森林分类器对新的数据进行判别与分类,分类结果按树分类器的投票多少而定,并将分类结果储存到数据库中。
[0015]进一步,所述(1.2)的过程为:
[0016](1.2.1)设每个样本有M个特征,指定一个数m=|log2M|,满足条件m<<M,在每个内部节点,从M个特征中随机选取出m个特征组成新的特征集D
i
,从特征集D
i
中选择一个最优属性对节点进行分裂;
[0017](1.2.2)每个节点都按照(1.2.1)来分裂,直到不能够再分裂为止,利用CART 方法使每棵树最大限度地生长,不进行剪枝。
[0018]再进一步,所述变电站故障诊断系统为SCADA或EMS系统。
[0019]本专利技术的工作原理是:本专利技术提出了一种变电站故障诊断中的随机森林分类方法。从电网公司中获取数据,在建立决策树过程中,用基尼指数最小化准则,进行特征选择,生成二叉树;使用原始样本集建立原始随机森林模型,对其进行特征重要性分析,筛选出关键特征并处理原始样本集。使用新样本集建立最终随机森林模型,从而大量减少数据处理量;最终随机森林分类模型通过投票规则得出分类结果。
[0020]本专利技术的有益效果主要表现在:1、减少了大量的实时数据处理量,加快系统分类速度,保证决策系统实时性。2、分类性能好。3、避免过拟合。
附图说明
[0021]图1是变电站故障诊断项目中的随机森林分类方法的流程图。
[0022]图2是变电站故障数据的二层随机森林分类系统。
具体实施方式
[0023]下面结合附图对本专利技术作进一步描述。
[0024]参照图1和图2,一种变电站故障诊断项目中的随机森林分类方法,包括以下步骤:
[0025]第一步:从SCADA、EMS等系统中提取原始数据。
[0026]第二步:对原始数据进行数据预处理得到原始样本集T,预处理包括:
[0027]2.1)将非数值类型的数据转换为数值类型
[0028]2.2)若样本中含缺失值,删除该样本
[0029]2.3)若存在两个或多个样本,属性值与类别均完全相同,只存留一个,删除其余重复样本
[0030]2.4)若存在两个或多个样本,属性值完全相同但类别不同,删除这些无效样本
[0031]第三步:T为原始样本集,其中总共有n个样例,则每轮从原始样本集T中通过有放回抽样的方式抽取n个样例,得到一个大小为n的训练集T
i
。在原始样本集的抽取过程中,可能有被重复抽取的样例,也可能有一次都没有被抽到的样例。共进行k轮的抽取,则每轮抽取的训练集分别为T1,T2,

,T
k
,未被包含的数据被称为袋外数据,袋外数据作为此随机模型的测试集。
[0032]第四步:依照训练集T1,T2,

,T
k
建立k个决策树
[0033]每个样本有M个特征,指定一个数m=|log2M|,满足条件m<<M,在每个内部节点,从M个特征中随机选取出m个特征组成新的特征集D
i
。从特征集D
i
中选择一个最优属性对节点
进行分裂。
[0034]每个节点都按照以上步骤来分裂,直到不能够再分裂为止。利用CART算法使每棵树最大限度地生长,不进行剪枝。
[0035]第五步:将k个决策树组合起来,每一颗决策树权重相同,构建成原始随机森林模型。
[0036]第六步:对原始随机森林模型进行重要性分析,指定L=|sqrt(M)|选取排名前 L个特征。
[0037]第七步:对原始样本集T进行处理,保留结果与选出特征,生成新的样本集 Y,将未被包含的数据(袋外数据)作为测试数据。
[0038]第八步:使用新样本集Y,重复以上建立随机森林模型的步骤(即第三步至第五步),得到最终随机森林模型H。
[0039]第九步:利用测试集对随机森林模型H进行测试,分类结果按树分类器的投票多少而定,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种变电站故障数据诊断中的随机森林分类方法,其特征在于,从变电站故障诊断系统中提取数据,对数据进行预处理,得到原始样本集,所述方法包括以下步骤:(1)建立随机森林模型,过程如下:(1.1)设T为原始样本集,其中总共有n个样例,则每轮从原始样本集T中通过Bootstrapin的方式抽取n个样例,得到一个大小为n的训练集T
i
,在原始样本集的抽取过程中,可能有被重复抽取的样例,也可能有一次都没有被抽到的样例。共进行k轮的抽取,则每轮抽取的训练集分别为T1,T2,

,T
k
,未被包含的数据被称为袋外数据;(1.2)建立决策树;(1.3)重复步骤(1.1)和(1.2),直到所有CART树都经过训练,组合所有决策树,构建成原始随机森林模型;(2)对原始随机森林模型进行重要性分析,指定L=|sqrt(M)|选取排名前L个特征;(3)对原始样本集T进行处理,保留结果与所选出的特征,生成新的样本集Y,同时对测试集...

【专利技术属性】
技术研发人员:蒋一波冯缘
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1