基于典型行业特征库和反窃电样本库的反窃电分析方法技术

技术编号:22077825 阅读:20 留言:0更新日期:2019-09-12 14:52
本发明专利技术公开了一种基于典型行业特征库和反窃电样本库的反窃电分析方法。本发明专利技术采取的技术方案为:构建典型行业用电特征库和反窃电样本库;采用典型行业用电特征库和反窃电样本库作为数据基础,基于组合不同算法的优势,经过算法模型的综合判断后构建出反窃电预警模型,通过该模型对专变用户用电数据进行挖掘分析,进一步进行辅助研判,最后输出窃电用户嫌疑清单和窃电用户嫌疑分析报告。本发明专利技术引入典型行业用电特征库和反窃电样本库,提出一种典型行业用电特征和反窃电样本库相结合的反窃电预警模型,通过该模型对专变用户用电数据进行挖掘分析,将结果进行分析处理,从而辨别出是否存在窃电行为。

Anti-stealing Analysis Method Based on Typical Industry Feature Base and Anti-stealing Sample Base

【技术实现步骤摘要】
基于典型行业特征库和反窃电样本库的反窃电分析方法
本专利技术属于反窃电分析领域,具体地说是一种基于典型行业特征库和反窃电样本库的反窃电分析方法。
技术介绍
随着用电信息采集系统“全覆盖、全采集”目标的实现,大量的用电数据能够被及时有效地采集。这些用电数据种类多且复杂,其中蕴藏着巨大的研究价值,对于用户窃电行为的分析很有帮助。随着大数据时代的到来,数据挖掘技术也开始广泛应用于用电数据处理。目前应用在窃电检测方面的主要的数据挖掘技术包括BP神经网络、树形结构、离群点算法等。应用BP神经网络、树形结构、离群点算法建立的用户窃电行为分析模型,虽然具备一定的窃电分析能力,但这些模型往往建立在已知窃电用户上,运用已知窃电用户的数据作为训练数据,生成训练集。由于在实际分析过程中可能样本具有不平衡性、独特性等问题,导致模型出现过拟合现象,运用效果不理想。随着智能电表的全面普及,目前已基本实现了用户负荷数据、用电量数据的远程集抄,用电信息采集技术已广泛应用于各省公司。以电表和采集终端为主的用电信息采集系统,已实现了用户负荷数据、电量数据、事件记录、停电记录等信息的采集及上送。营销业务应用系统可实现对用电用户的退补记录、业扩报装记录等进行统计和分析;GIS地理信息系统已实现全网电能表、杆塔、基站等设备的空间位置定位,这些都为建立典型行业用电特征的反窃电分析方法提供了主要的数据支持。
技术实现思路
本专利技术所要解决的技术问题是克服上述现有技术存在的缺陷,提供一种基于典型行业特征库和反窃电样本库的反窃电分析方法,其引入典型行业用电特征库和反窃电样本库,提出一种典型行业用电特征和反窃电样本库相结合的反窃电预警模型,通过该模型对专变用户用电数据进行挖掘分析,将结果进行分析处理,从而辨别出是否存在窃电行为。为此,本专利技术采用如下的技术方案:基于典型行业特征库和反窃电样本库的反窃电分析方法,其包括:构建典型行业用电特征库和反窃电样本库;采用典型行业用电特征库和反窃电样本库作为数据基础,基于组合不同算法的优势,经过算法模型的综合判断后构建出反窃电预警模型,通过该模型对专变用户用电数据进行挖掘分析,进一步进行辅助研判,最后输出窃电用户嫌疑清单和窃电用户嫌疑分析报告。典型行业用电特征库的建立是探索典型行业的窃电特征的差异性、规律性、相关性以及趋势性的重要方法,同时也为反窃电预警模型提供了重要的指标基础,如用户与本行业用电的相似度、用户与窃电用户之间的相似度等数据特征。反窃电样本库是通过特征工程分析方法生成反窃电样本库。进一步的,所述的典型行业用电特征库采用以典型行业用户的日平均功率、周平均功率、日用电量、月用电量和负载率为输入参数,通过多种聚类算法分析,区别出异常的用电特征,形成典型行业的用电特征曲线;所述的用电特征为由单个聚类因子构成的特征或者由多个聚类因子组成的特征。进一步的,所述典型行业用电特征库的构建步骤包括:1)确定典型行业典型行业的构建和选择有如下方法:对历年违窃电历史数据进行统计分析,按照案例数量进行排序,选择违窃电分布多的行业;选择当地反窃电重点行业作为典型行业;2)选择聚类因子选择功率曲线、日平均功率、周平均功率、三相不平衡率、负载率、功率因数、日用电量作为聚类的因子,其中对不同的聚类因子采取相同的标准化处理,即:式中,Pi是指某个点的功率,max(P)、min(P)分别是指最大、最小功率;3)选择聚类算法基于已标准化的聚类因子,比较不同的聚类算法在不同行业的实用性后,通过聚类算法确定不同行业的日、周、季节不同维度的用电特征,从而构成不同行业的用电特征曲线;4)生成典型行业用电特征库典型行业用电特征库有两部分组成:一部分是数据曲线做为聚类因子,通过聚类算法生成的不同行业的用电曲线,并且包含其特征所属类别建立的用电特征库,此类行业用电特征库包括:典型行业+地区日峰谷用电特征类别;典型行业+地区工作日休息日周用电特征类别;典型行业+地区季节性年用电特征类别;另一部分是由多个用电特征值组合生成的聚类因子所建立的特征库,该特征库包括:平均功率、日功率波动率、三相不平衡率、负载率、功率因数波动率、用电量变化率和聚类后的类别。进一步的,所述反窃电样本库的构建包括初始特征构建、特征提取与选择、生成反窃电样本库三个部分;初始特征构建从大量的原始数据选择相关的属性;特征提取与选择都是为了从原始特征中找出最有效的特征并进行整合,它们之间的区别是特征提取强调通过特征转换的方式得到一组具有明显物理或统计意义的特征;特征选择是从特征集合中挑选一组具有明显物理或统计意义的特征子集;通过算法分析最终生成反窃电样本库。进一步的,选择构建如下初始特征:初始静态特征:接线方式、供电方式、行业类别、用电性质、运行容量;营销业务特征:增减容、暂停、历年逾期欠费、计量故障、违窃记录;用电基础特征:用电数据需要带时间戳的用电相关值,包括:有功功率、带时间无功功率、分相电压、分相电流、功率因数;用电加工特征:峰谷差、日用电波形、季度特性内月用电量特征、负载率、电流平衡率、电压平衡率、功率因数波动率;异常事件:开盖事件、开箱时间、恒定电磁干扰事件、相序异常、停上电事件。外部环境特征:气象信息。进一步的,特征选择在对特征清理基础上进行,特征选择首先利用Pearson相关系数、判别指标之间的相关性,剔除存在高度共线性的指标,然后采用随机森林算法、PCA降维处理方法,分别得到不同特征指标的重要性排名以及包含主要特征信息的最小特征空间。进一步的,反窃电样本库特征量包括:电量趋势下降指标、功率与电流相关性指标、计量反极性指标、功率因数相关性指标、电流不平衡相关性指标、线损波动性指标、事件类指标、信用类指标和负载类指标。进一步的,反窃电预警模型的建立过程如下:特征指标的选取:通过输入不同的特征向量,首先采用序列向后选择算法对特征向量的筛选、规约,选取对模型影响、贡献度大的指标构成的集合作为训练集;分类算法的选择:选择的算法包括XGBoost、BP神经网络、电量波动离群点和多元逻辑回归,其中不同的分类模型的训练方法都采用KFold交叉验证,不同的算法在训练、测试的过程中剔除分类错误的训练数据集合,使得最终选取的模型精度不低于0.9;反窃电预警模型的建立:通过对不同算法的综合决策分析,确定不同算法的权重的分配,构造一组组合最优的分类模型作为反窃电预警模型。进一步的,反窃电预警模型对多种算法的优势进行组合,其中组合的模型包括:XGBoost、BP神经网络、多元逻辑回归算法以及电量波动离群点算法,输出结果表现形式为:窃电嫌疑(P)=λ1fbp+λ2fxgb+λ3flogic+λ4fsubb其中,λi,i∈(1,2,3,4)为算法权重,fbp、fxgb、flogic、fsubb分别为Bp神经网络、XGBoost、多元逻辑回归算法以及电量波动离群点算法;根据不用行业的稽查结果反馈,采用AdaBoost算法中权重更新的方式对参数λi进行更新;通过集中多种算法的优势构建反窃电预警模型,对于每个算法的可靠性判定是基于测试集合的ROC曲线。进一步的,所述辅助研判的流程如下:输入反窃电预警模型计算结果,获取用户特征量,经过反窃电预警模型分析后,得出疑似用户清单,进一步获取此用户的模型计算特征量和疑似本文档来自技高网...

【技术保护点】
1.基于典型行业特征库和反窃电样本库的反窃电分析方法,其特征在于,包括:构建典型行业用电特征库和反窃电样本库;采用典型行业用电特征库和反窃电样本库作为数据基础,基于组合不同算法的优势,经过算法模型的综合判断后构建出反窃电预警模型,通过该模型对专变用户用电数据进行挖掘分析,进一步进行辅助研判,最后输出窃电用户嫌疑清单和窃电用户嫌疑分析报告。

【技术特征摘要】
1.基于典型行业特征库和反窃电样本库的反窃电分析方法,其特征在于,包括:构建典型行业用电特征库和反窃电样本库;采用典型行业用电特征库和反窃电样本库作为数据基础,基于组合不同算法的优势,经过算法模型的综合判断后构建出反窃电预警模型,通过该模型对专变用户用电数据进行挖掘分析,进一步进行辅助研判,最后输出窃电用户嫌疑清单和窃电用户嫌疑分析报告。2.根据权利要求1所述的基于典型行业特征库和反窃电样本库的反窃电分析方法,其特征在于,所述的典型行业用电特征库采用以典型行业用户的日平均功率、周平均功率、日用电量、月用电量和负载率为输入参数,通过多种聚类算法分析,区别出异常的用电特征,形成典型行业的用电特征曲线;所述的用电特征为由单个聚类因子构成的特征或者由多个聚类因子组成的特征。3.根据权利要求2所述的基于典型行业特征库和反窃电样本库的反窃电分析方法,其特征在于,所述典型行业用电特征库的构建步骤包括:1)确定典型行业典型行业的构建和选择有如下方法:对历年违窃电历史数据进行统计分析,按照案例数量进行排序,选择违窃电分布多的行业;选择当地反窃电重点行业作为典型行业;2)选择聚类因子选择功率曲线、日平均功率、周平均功率、三相不平衡率、负载率、功率因数、日用电量作为聚类的因子,其中对不同的聚类因子采取相同的标准化处理,即:式中,Pi是指某个点的功率,max(P)、min(P)分别是指最大、最小功率;3)选择聚类算法基于已标准化的聚类因子,比较不同的聚类算法在不同行业的实用性后,通过聚类算法确定不同行业的日、周、季节不同维度的用电特征,从而构成不同行业的用电特征曲线;4)生成典型行业用电特征库典型行业用电特征库有两部分组成:一部分是数据曲线做为聚类因子,通过聚类算法生成的不同行业的用电曲线,并且包含其特征所属类别建立的用电特征库,此类行业用电特征库包括:典型行业+地区日峰谷用电特征类别;典型行业+地区工作日休息日周用电特征类别;典型行业+地区季节性年用电特征类别;另一部分是由多个用电特征值组合生成的聚类因子所建立的特征库,该特征库包括:平均功率、日功率波动率、三相不平衡率、负载率、功率因数波动率、用电量变化率和聚类后的类别。4.根据权利要求1-3任一项所述的基于典型行业特征库和反窃电样本库的反窃电分析方法,其特征在于,所述反窃电样本库的构建包括初始特征构建、特征提取与选择、生成反窃电样本库三个部分;初始特征构建从大量的原始数据选择相关的属性;特征提取与选择都是为了从原始特征中找出最有效的特征并进行整合,它们之间的区别是特征提取强调通过特征转换的方式得到一组具有明显物理或统计意义的特征;特征选择是从特征集合中挑选一组具有明显物理或统计意义的特征子集;通过算法分析最终生成反窃电样本库。5.根据权利要求4所述的基于典型行业特征库和反窃电样本库的反窃电分析方法,其特征在于,选择构建如下初始特征:初始静态特征:接线方式、供电方式、行业类别、用电性质、运行容量;营销业务特征:增减容、暂停、历年逾期欠费、计量故障、违窃记录;用电基础特征:用电数据需要带时间戳的用电相关值,包括:有功功率、带时间无功功率、分相电压、分相电流、功率因数;用电加工特征:峰谷差、日用电波形、季度特...

【专利技术属性】
技术研发人员:黄荣国姚力陆春光侯素颖张旭胡书红唐迪赵立美
申请(专利权)人:国网浙江省电力有限公司电力科学研究院国家电网有限公司国网浙江省电力有限公司浙江华云信息科技有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1