当前位置: 首页 > 专利查询>清华大学专利>正文

异常电力用户挖掘中类分布不平衡问题的解决方法技术

技术编号:14828524 阅读:94 留言:0更新日期:2017-03-16 15:00
一种异常电力用户挖掘中类分布不平衡问题的解决方法,包括SMOTE算法、ROSE算法,其有益效果是:从训练集入手,通过重采样改变训练数据的分布,即构造一个样本数相对平衡的合成数据集,并在新数据集上进行建模,从而提高分类器的性能,解决类分布不平衡问题。

【技术实现步骤摘要】

本专利技术涉及电力系统配用电数据挖掘领域,特别是一种异常电力用户挖掘过程中,类分布不平衡问题的解决方法。
技术介绍
对于电力公司,检测异常用电模式的主要目的在于降低非技术性损失(non-technicallosses,NTL)。所谓NTL是指由配电网侧电力用户的窃电、欺诈等一系列欺骗性用电行为所导致的电能损失。NTL损失集中在中低压网络遍布整个电力分布系统,而目前的处理方法多是基于现场检查,这不仅需要大量的人力资源而且增加了运营成本。现有的分类算法都是基于类分布大致平衡这一假设,即假定用于训练的数据集中各类所含样本数大致相当。然而在电力用户构成的数据集中,异常用户所占的比例非常小,因此,异常用户挖掘属于不平衡数据集的二元分类问题。传统的分类器倾向于对多数类(正常用户)有较高的识别率,而对于少数类(异常用户)的识别率却很低。因此,对异常电力用户挖掘的问题需要采用特殊的处理技术。
技术实现思路
本专利技术的目的是为了解决上述问题,设计了一种异常电力用户挖掘中类分布不平衡问题的解决方法。具体设计方案为:一种异常电力用户挖掘中类分布不平衡问题的解决方法,包括SMOTE算法、ROSE算法,所述SMOTE算法为合成少数类过采样算法,所述ROSE算法为随机过采集样本算法,所述SMOTE算法通过在位置相近的少数样本点之间插入新样本来实现对样本数量的平衡,其样本采集公式为:pi=x+rand(0,1)×(yi-x),i=1,2,…,N,其中pi为获得少数类样本,x为原少数类样本,y为随机采集样本,N为过采集样本倍率,所述ROSE算法为随机过采集样本算法,所述ROSE算法中,首先从n的训练集Tn训练集中抽取一个元组(xi,yi),然后在其近邻生成一个新元组该近邻区域的形状由概率分布确定,范围由协方差矩阵Hj确定。所述SMOTE算法中,所述随机采集样本y通过搜索原少数类样本x的k个同类最近邻样本,并在原少数类样本x的k个最近邻样本中随机选择N个样本获得,记为y1,y2,···,yN,在x与yi(i=1,2,···,N)之间进行随机线性插值。所述SMOTE算法中,所述rand(0,1)是区间(0,1)内的随机数。所述ROSE算法中,元组(xi,yi),i=1,2,···,n。其中元组的类标号yi∈{y0,y1本文档来自技高网...

【技术保护点】
一种异常电力用户挖掘中类分布不平衡问题的解决方法,包括SMOTE算法、ROSE算法,其特征在于,所述SMOTE算法为合成少数类过采样算法,所述ROSE算法为随机过采集样本算法,所述SMOTE算法通过在位置相近的少数样本点之间插入新样本来实现对样本数量的平衡,其样本采集公式为:pi=x+rand(0,1)×(yi‑x),i=1,2,…,N,其中pi为获得少数类样本,x为原少数类样本,y为随机采集样本,N为过采集样本倍率,所述ROSE算法为随机过采集样本算法,所述ROSE算法中,首先从n的训练集Tn训练集中抽取一个元组(xi,yi),然后在其近邻生成一个新元组(x*,y*)。该近邻区域的形状由概率分布确定,范围由协方差矩阵Hj确定。

【技术特征摘要】
1.一种异常电力用户挖掘中类分布不平衡问题的解决方法,包括SMOTE算法、ROSE算法,其特征在于,所述SMOTE算法为合成少数类过采样算法,所述ROSE算法为随机过采集样本算法,所述SMOTE算法通过在位置相近的少数样本点之间插入新样本来实现对样本数量的平衡,其样本采集公式为:pi=x+rand(0,1)×(yi-x),i=1,2,…,N,其中pi为获得少数类样本,x为原少数类样本,y为随机采集样本,N为过采集样本倍率,所述ROSE算法为随机过采集样本算法,所述ROSE算法中,首先从n的训练集Tn训练集中抽取一个元组(xi,yi),然后在其近邻生成一个新元组(x*,y*)。该近邻区域的形状由概率分布确定,范围由协方差矩阵Hj确定...

【专利技术属性】
技术研发人员:庄池杰张斌胡军段炼罗怿曾嵘赵云肖勇孙宇军王岩
申请(专利权)人:清华大学南方电网科学研究院有限责任公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1