【技术实现步骤摘要】
本专利技术涉及电力系统配用电数据挖掘领域,特别是一种异常电力用户挖掘过程中,类分布不平衡问题的解决方法。
技术介绍
对于电力公司,检测异常用电模式的主要目的在于降低非技术性损失(non-technicallosses,NTL)。所谓NTL是指由配电网侧电力用户的窃电、欺诈等一系列欺骗性用电行为所导致的电能损失。NTL损失集中在中低压网络遍布整个电力分布系统,而目前的处理方法多是基于现场检查,这不仅需要大量的人力资源而且增加了运营成本。现有的分类算法都是基于类分布大致平衡这一假设,即假定用于训练的数据集中各类所含样本数大致相当。然而在电力用户构成的数据集中,异常用户所占的比例非常小,因此,异常用户挖掘属于不平衡数据集的二元分类问题。传统的分类器倾向于对多数类(正常用户)有较高的识别率,而对于少数类(异常用户)的识别率却很低。因此,对异常电力用户挖掘的问题需要采用特殊的处理技术。
技术实现思路
本专利技术的目的是为了解决上述问题,设计了一种异常电力用户挖掘中类分布不平衡问题的解决方法。具体设计方案为:一种异常电力用户挖掘中类分布不平衡问题的解决方法,包括SMOTE算法、ROSE算法,所述SMOTE算法为合成少数类过采样算法,所述ROSE算法为随机过采集样本算法,所述SMOTE算法通过在位置相近的少数样本点之间插入新样本来实现对样本数量的平衡,其样本采集公式为:pi=x+rand(0,1)×(yi-x),i=1,2,…,N,其中pi为获得少数类样本,x为原少数类样本,y为随机采集样本,N为过采集样本倍率,所述ROSE算法为随机过采集样本算法,所述ROSE算法中,首 ...
【技术保护点】
一种异常电力用户挖掘中类分布不平衡问题的解决方法,包括SMOTE算法、ROSE算法,其特征在于,所述SMOTE算法为合成少数类过采样算法,所述ROSE算法为随机过采集样本算法,所述SMOTE算法通过在位置相近的少数样本点之间插入新样本来实现对样本数量的平衡,其样本采集公式为:pi=x+rand(0,1)×(yi‑x),i=1,2,…,N,其中pi为获得少数类样本,x为原少数类样本,y为随机采集样本,N为过采集样本倍率,所述ROSE算法为随机过采集样本算法,所述ROSE算法中,首先从n的训练集Tn训练集中抽取一个元组(xi,yi),然后在其近邻生成一个新元组(x*,y*)。该近邻区域的形状由概率分布确定,范围由协方差矩阵Hj确定。
【技术特征摘要】
1.一种异常电力用户挖掘中类分布不平衡问题的解决方法,包括SMOTE算法、ROSE算法,其特征在于,所述SMOTE算法为合成少数类过采样算法,所述ROSE算法为随机过采集样本算法,所述SMOTE算法通过在位置相近的少数样本点之间插入新样本来实现对样本数量的平衡,其样本采集公式为:pi=x+rand(0,1)×(yi-x),i=1,2,…,N,其中pi为获得少数类样本,x为原少数类样本,y为随机采集样本,N为过采集样本倍率,所述ROSE算法为随机过采集样本算法,所述ROSE算法中,首先从n的训练集Tn训练集中抽取一个元组(xi,yi),然后在其近邻生成一个新元组(x*,y*)。该近邻区域的形状由概率分布确定,范围由协方差矩阵Hj确定...
【专利技术属性】
技术研发人员:庄池杰,张斌,胡军,段炼,罗怿,曾嵘,赵云,肖勇,孙宇军,王岩,
申请(专利权)人:清华大学,南方电网科学研究院有限责任公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。