System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及电力系统运行安全,特别涉及一种融合重采样与stacking集成学习的窃电检测方法。
技术介绍
1、随着电力需求的不断增长,窃电检测已成为保障供电公司效益的重要措施。供电公司检测窃电的主要方法是通过查看是否有人为破坏电能表结构、更改计量装置来对异常用电进行检测。一般采用电能表集中管理,防窃电铅封,防伪封锁,电表防磁,电表开箱报警,加强负荷监控装置等手段来防窃电。该方法效率低,耗费人力物力,检查范围有限,因此抓获的窃电案数目非常少。供电公司对窃电检测重视程度的增加导致传统通过诸如线路窃听或电表篡改之类的物理攻击的检测方法难以有效检测出窃电的行为。同时智能电表和用电信息采集系统的普及,使得越来越多的研究者可以更有效地采集用户用电数据,这是利用机器学习进行窃电检测的基础。
2、窃电检测的实质在机器学习中可以归结为分类问题,分类则是一种有监督的学习方法,需要带有类标签(用电异常和用电正常)的训练数据集先训练出模型,然后通过训练出来的模型识别现有用户是否异常。
3、在用户窃电行为检测中,窃电样本的数量往往远小于正常样本的数量,该情况将产生严重的数据不平衡问题;传统机器学习算法处理不平衡数据的分类问题时,以总体分类准确率最大为目标会使得分类模型偏向于多数类而忽略少数类,造成少数类的分类准确率较低。而且,采用平均法和投票法作为结合策略的集成学习方法无法融合不同基学习器的优势,因此,需要设计一种融合重采样与stacking集成学习的窃电检测方法来解决上述问题。
技术实现思路
1、本专利技术所要解决的技术问题是提供一种融合重采样与stacking集成学习的窃电检测方法,该方法针对用电数据不平衡的问题,采用重采样的方式使得不平衡数据的分类结果更加真实;另外,采用stacking算法作为集成学习的结合策略,充分融合不同基学习器的优势,让分类结果得到有效地提升,减少了供电公司的经济损失和在窃电稽查方面的资源耗费。
2、为实现上述技术效果,本专利技术所采用的技术方案是:
3、一种融合重采样与stacking集成学习的窃电检测方法,包括:
4、s1,量测每一居民用户的实际用电信息,捕捉用电特征,获取低压居民用户用电数据集;
5、其中捕捉用电特征包括:从一般用电量特征中提取出最大值、最小值、平均值和标准差四个特征用于辅助模型进行窃电用户的判别;
6、s2,将低压居民用户用电数据集划分为正常用户用电数据集和窃电用户用电数据集,针对正常用户用电数据和窃电用户用电数据采取不同的采样方法进行重采样处理;
7、s3,通过plss基学习器遴选方法选择基学习器;
8、s4,通过元学习器性能比较,选择表现最优的元学习器融合不同基学习器的优势,构建stacking集成学习模型;
9、s5,针对低压居民用户,将s2中处理后的数据作为模型的输入,通过s4中构建的stacking集成学习模型完成窃电用户检测识别。
10、进一步地,步骤s1中获取的低压居民用户用电数据集内均为用户用电数据,窃电用户用电数据集通过选取低压居民用户用电数据集内的部分数据,利用窃电模式来随机生成。
11、优选地,所述步骤s1中,量测每一居民用户的实际用电信息,捕捉用电特征包括:
12、设定数据采样时间间隔为pmin,采集总时长不少于t天,采集户数不少于q户,采集对象为低压居民用户用电数据;
13、优选采样时间尺度为30min,即一天48个点,需至少采集500天,不少于5000户的数据。
14、优选地,所述步骤s2中,针对正常用户用电数据和窃电用户用电数据采取不同的采样方法进行重采样处理:
15、s301,面对正常用户用电样本,采用随机欠采样的采样方法缩减正常用户的数据量;
16、s302,面对窃电用户用电样本,采用smotetomek混合采样方法,先采用smote算法对少数类样本进行过采样,增加样本后再对处在胶着状态的点用tomek link算法进行删除;增加窃电用户用电样本量的同时,通过tomek link清洗类间重叠的样本,实现正确分类。
17、优选地,所述步骤s3中,通过plss基学习器遴选方法选择合适的基学习器的方法如下:
18、s401,从三种单一学习器knn、lr、svm和四种集成学习器rf、adaboost、gbdt、catboost总共七种基学习器中进行遴选;
19、s402,将重采样过后的数据集分别作为上述基学习器的输入,获取每个基学习器对应于上述数据集的训练结果,进行初步筛选;训练结果指标包括acc值、f1_score值、roc曲线和训练时间t;
20、s403,采用基学习器的auc、acc、f1-score、和auc-pr指标的乘积来量化基学习器的分类能力,从而综合评估基学习器的分类性能:
21、
22、其中,μ(m)、δ(m)和γ(m)分别表示基学习器m的auc、acc、f1_score和auc-pr,c(m)是四者的乘积,c(m)的值越大,代表基学习器的分类性能越好;四者的乘积用于直观反映基学习器的分类能力;
23、s404,使用成对cohen's kappa度量法来量化基学习器i与j之间的多样性程度k:
24、
25、其中,po和pe代表根据基学习器i和j预测正确或错误的样本数量进行计算的中间结果;具体算式为:
26、
27、其中,x1、x2、x3、x4分别代表i和j两个分类器结果,x1表示i分类正确,j分类正确;x2表示i分类正确,j分类错误;x3表示i分类错误,j分类正确;x4表示i分类错误,j分类错误;
28、k值与成对基学习器之间的差异性呈正比关系。通过定量比较,选择多样性程度高的基学习器有利于提升stacking算法的性能;
29、s405,以分类能力c、运行时长t和差异度d为参数计算基学习器组合对于提升stacking算法性能的贡献度:
30、
31、其中,m1和m2为不同的基学习器;表示基学习器组合对stacking算法性能的贡献度;plss值越大,则说基学习器组合对提升stacking算法性能的作用越大,通过上述计算遴选出表现最佳的基学习器组合。
32、优选地,所述的步骤s4中通过元学习器性能比较,选择表现最优的元学习器融合不同基学习器,构建stacking集成学习模型的具体步骤如下:
33、s501,将knn、lr、dt、svm、rf、adaboost、gbdt、xgboost、lightgbm和catboost十种学习器分别作为元学习器进行训练,验证训练得到的模型在数据集上的平均acc值、f1_score值和auc值,对比评选表现最优的元学习器;
34、s502,根据s4和s5,构建stacking集成学习模型。
3本文档来自技高网...
【技术保护点】
1.一种融合重采样与Stacking集成学习的窃电检测方法,其特征在于,包括:
2.根据权利要求1所述的一种融合重采样与Stacking集成学习的窃电检测方法,其特征在于,所述步骤S1中,量测每一居民用户的实际用电信息,捕捉用电特征包括:
3.根据权利要求2所述的一种融合重采样与Stacking集成学习的窃电检测方法,其特征在于,所述步骤S2中,针对正常用户用电数据和窃电用户用电数据采取不同的采样方法进行重采样处理:
4.根据权利要求3所述的一种融合重采样与Stacking集成学习的窃电检测方法,其特征在于,所述步骤S3中,通过PLSS基学习器遴选方法选择合适的基学习器的方法如下:
5.根据权利要求4所述的一种融合重采样与Stacking集成学习的窃电检测方法,其特征在于,所述的步骤S4中通过元学习器性能比较,选择表现最优的元学习器融合不同基学习器,构建Stacking集成学习模型的具体步骤如下:
6.根据权利要求1所述的一种融合重采样与Stacking集成学习的窃电检测方法,其特征在于,所述步骤S2中,将低压居民用户用
7.根据权利要求4所述的一种融合重采样与Stacking集成学习的窃电检测方法,其特征在于,所述步骤S3中,遴选最佳基学习器的评价指标计算方法为:
...【技术特征摘要】
1.一种融合重采样与stacking集成学习的窃电检测方法,其特征在于,包括:
2.根据权利要求1所述的一种融合重采样与stacking集成学习的窃电检测方法,其特征在于,所述步骤s1中,量测每一居民用户的实际用电信息,捕捉用电特征包括:
3.根据权利要求2所述的一种融合重采样与stacking集成学习的窃电检测方法,其特征在于,所述步骤s2中,针对正常用户用电数据和窃电用户用电数据采取不同的采样方法进行重采样处理:
4.根据权利要求3所述的一种融合重采样与stacking集成学习的窃电检测方法,其特征在于,所述步骤s3中,通过plss基学习器遴选方法选择合适的基学习器的方法如下:
5.根据权利要求4所述的一种融合重采样与stacking集成学习...
【专利技术属性】
技术研发人员:陈盾初,杨苗,方杰,何大庆,陈宇诺,何睦,李润龙,李兰芳,
申请(专利权)人:三峡大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。