一种行业用电数据关联关系挖掘方法及装置制造方法及图纸

技术编号:15438271 阅读:56 留言:0更新日期:2017-05-26 04:13
本发明专利技术涉及一种行业用电数据关联关系挖掘方法及装置,其中,方法包括:获取每个用电行业的月用电量数据,对所述月用电量数据进行归一化处理;采用基于熵的数据离散化方法将归一化处理后的每个行业的所有月用电量数据进行离散化处理;对离散化处理后的所有行业的用电数据采用Apriori算法挖掘行业间的关联关系。本技术方案抽取用电信息采集系统中的行业用电量数据代替平均负荷,避免了负荷的瞬时特性可能对行业整体负荷分析造成的干扰,采用基于熵的离散化方法将行业用电量数据进行离散处理,通过Apriori算法进行数据开采分析,得出挖掘关联规则的频繁项集,实现对不同行业的用电量数据进行关联挖掘。

Method and device for mining data association relation of industry power consumption

Including the present invention relates to a method and device for mining industry, electricity data relationship among them, methods: to obtain each electricity industry monthly electricity consumption data, the monthly electricity consumption data were normalized by all normalized each month; industry after the treatment of discretizing consumption data discretization method entropy based on the data of all industries; discrete treatment of the electricity data using the Apriori algorithm for mining association relation between industries. The technical scheme for extraction of electric information acquisition system in industry consumption data instead of the average load, avoids the instantaneous load characteristics analysis of possible interference caused by the overall load, the discretization method based on entropy for discrete processing industry consumption data, data mining analysis through Apriori algorithm, the frequent itemsets the mining of association rules, the different sectors of the electricity data mining association.

【技术实现步骤摘要】
一种行业用电数据关联关系挖掘方法及装置
本专利技术涉及数据挖掘
,特别涉及一种行业用电数据关联关系挖掘方法及装置。
技术介绍
智能电网作为解决未来能源输送问题的理想方案,成为电网发展的必然趋势。智能电网作为能源配置的绿色平台,是应对挑战、促进我国低碳发展的战略支点。伴随着智能电网的发展,关于负荷特性的有关研究也成为热点。基于智能电网的负荷分析目前还停留在区域性的或整体负荷分析,且因电网负荷是由众多用户负荷构成,不同用户的负荷受自身行业属性和生产特点影响,负荷规律也是千差万别,行业间的关联关系也对用户的用电行为产生一定影响。国内对于负荷特性研究较多的是网、省级电网的负荷特性,对于行业负荷特性的分析较少涉及,这些研究主要是调研普查性质,对未来行业负荷、行业电量走势的预判未考虑行业间的关联关系,分析预测存在一定误差。
技术实现思路
为解决现有技术的问题,本专利技术提出一种行业用电数据关联关系挖掘方法及装置,对未来行业负荷、行业电量走势的预判考虑行业间的关联关系,为分析行业用电量趋势提供了依据。为实现上述目的,本专利技术提供了一种行业用电数据关联关系挖掘方法,包括:获取每个用电行业的月用电量数据,对所述月用电量数据进行归一化处理;采用基于熵的数据离散化方法将归一化处理后的每个行业的所有月用电量数据进行离散化处理;对离散化处理后的所有行业的用电数据采用Apriori算法挖掘行业间的关联关系。优选地,所述采用基于熵的数据离散化方法将归一化处理后的每个行业的所有月用电量数据进行离散化处理的步骤包括:根据归一化处理后的每个行业的所有月用电量数据,确定每个行业的数值区间A以及数据元组集D,使得数值区间A包含归一化处理后的每个行业的所有月用电量数据;其中,数据元组集D中每个数据元组包括:行业的信息和对应行业的归一化处理后的月用电量数据;确定第一分裂点,根据所述第一分裂点将所述数值区间A划分成两个数值区间,并将数据元组集D划分成两个数据元组子集;其中,所述数值区间内期望信息需求最小的数据点作为分裂点;如果划分后的所述数值区间内的归一化处理后的月用电量数据的期望信息需求均大于等于阈值或划分后的所述数值区间内的归一化处理后的月用电量数据个数小于等于阈值时,确定符合条件的数值区间的分裂点,直至划分后的所述数值区间内的归一化处理后的月用电量数据的信息需求小于阈值或划分后的所述数值区间内的归一化处理后的月用电量数据个数大于阈值。优选地,所述期望信息需求的表达式为:其中,|D|是数据元组集D中的元组的个数,|D1|为分裂点划分数据元组集D后获得的子集D1的元组数,|D2|为分裂点划分数据元组集D后获得的子集D2的元组数;子集D1中的归一化处理后的月用电量数据分别属于行业类的个数为m,pi是子集D1中元组属于行业类i的概率,子集D2中的归一化处理后的月用电量数据分别属于行业类的个数为n,qi是D2中元组属于行业类i的概率。优选地,对所述月用电量数据进行归一化处理的表达式为:其中,x′为归一化后的取值,xi是本行业的第i个月份的电量,min(x)是本行业所有数据的最小值,max(x)是某行业所有数据的最大值。优选地,所述获取每个用电行业的月用电量数据的步骤包括:从用电信息采集系统中获取用电行业所有用户的日电量,空缺数值采用相似日均值进行填补;按照用户、行业将所有日电量数据合并为用电行业的月用电量数据。为实现上述目的,本专利技术还提出一种行业用电数据关联关系挖掘装置,包括:归一化处理单元,用于获取每个用电行业的月用电量数据,对所述月用电量数据进行归一化处理;离散化处理单元,用于采用基于熵的数据离散化方法将归一化处理后的每个行业的所有月用电量数据进行离散化处理;挖掘单元,用于对离散化处理后的所有行业的用电数据采用Apriori算法挖掘行业间的关联关系。优选地,所述离散化处理单元包括:初始化模块,用于根据归一化处理后的每个行业的所有月用电量数据,确定每个行业的数值区间A以及数据元组集D,使得数值区间A包含归一化处理后的每个行业的所有月用电量数据;其中,数据元组集D中每个数据元组包括:行业的信息和对应行业的归一化处理后的月用电量数据;分裂点确定模块,用于确定第一分裂点,根据所述第一分裂点将所述数值区间A划分成两个数值区间,并将数据元组集D划分成两个数据元组子集;其中,所述数值区间内期望信息需求最小的数据点作为分裂点;迭代划分模块,用于如果划分后的所述数值区间内的归一化处理后的月用电量数据的期望信息需求均大于等于阈值或划分后的所述数值区间内的归一化处理后的月用电量数据个数小于等于阈值时,确定符合条件的数值区间的分裂点,直至划分后的所述数值区间内的归一化处理后的月用电量数据的信息需求小于阈值或划分后的所述数值区间内的归一化处理后的月用电量数据个数大于阈值。优选地,所述分裂点确定模块获得期望信息需求的表达式为:其中,|D|是数据元组集D中的元组的个数,|D1|为分裂点划分数据元组集D后获得的子集D1的元组数,|D2|为分裂点划分数据元组集D后获得的子集D2的元组数;子集D1中的归一化处理后的月用电量数据分别属于行业类的个数为m,pi是子集D1中元组属于行业类i的概率,子集D2中的归一化处理后的月用电量数据分别属于行业类的个数为n,qi是D2中元组属于行业类i的概率。优选地,所述归一化处理单元对所述月用电量数据进行归一化处理的表达式为:其中,x′为归一化后的取值,xi是本行业的第i个月份的电量,min(x)是本行业所有数据的最小值,max(x)是某行业所有数据的最大值。优选地,所述归一化处理单元还包括:日用电量获取模块,用于从用电信息采集系统中获取用电行业所有用户的日用电量,空缺数值采用相似日用电量均值进行填补;月用电量获取模块,用于按照用户、行业将所有日电量数据合并为用电行业的月用电量数据。上述技术方案具有如下有益效果:本技术方案抽取用电信息采集系统中的行业用电量数据代替平均负荷,避免了负荷的瞬时特性可能对行业整体负荷分析造成的干扰,采用基于熵的离散化方法将行业用电量数据进行离散处理,通过Apriori算法进行数据开采分析,得出挖掘关联规则的频繁项集,实现对不同行业的用电量数据进行关联挖掘。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提出的一种行业用电数据关联关系挖掘方法流程图;图2为本专利技术实施例提出的一种行业用电数据关联关系挖掘装置功能框图;图3为本实施例离散化结果示意图;图4为本实施例的关联行业用电趋势图之一;图5为本实施例的关联行业用电趋势图之二;图6为本实施例的关联行业用电趋势图之三;图7为本实施例的关联行业用电趋势图之四。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本技术方案的工作原理本文档来自技高网...
一种行业用电数据关联关系挖掘方法及装置

【技术保护点】
一种行业用电数据关联关系挖掘方法,其特征在于,包括:获取每个用电行业的月用电量数据,对所述月用电量数据进行归一化处理;采用基于熵的数据离散化方法将归一化处理后的每个行业的所有月用电量数据进行离散化处理;对离散化处理后的所有行业的用电数据采用Apriori算法挖掘行业间的关联关系。

【技术特征摘要】
1.一种行业用电数据关联关系挖掘方法,其特征在于,包括:获取每个用电行业的月用电量数据,对所述月用电量数据进行归一化处理;采用基于熵的数据离散化方法将归一化处理后的每个行业的所有月用电量数据进行离散化处理;对离散化处理后的所有行业的用电数据采用Apriori算法挖掘行业间的关联关系。2.如权利要求1所述的方法,其特征在于,所述采用基于熵的数据离散化方法将归一化处理后的每个行业的所有月用电量数据进行离散化处理的步骤包括:根据归一化处理后的每个行业的所有月用电量数据,确定每个行业的数值区间A以及数据元组集D,使得数值区间A包含归一化处理后的每个行业的所有月用电量数据;其中,数据元组集D中每个数据元组包括:行业的信息和对应行业的归一化处理后的月用电量数据;确定第一分裂点,根据所述第一分裂点将所述数值区间A划分成两个数值区间,并将数据元组集D划分成两个数据元组子集;其中,所述数值区间内期望信息需求最小的数据点作为分裂点;如果划分后的所述数值区间内的归一化处理后的月用电量数据的期望信息需求均大于等于阈值或划分后的所述数值区间内的归一化处理后的月用电量数据个数小于等于阈值时,确定符合条件的数值区间的分裂点,直至划分后的所述数值区间内的归一化处理后的月用电量数据的信息需求小于阈值或划分后的所述数值区间内的归一化处理后的月用电量数据个数大于阈值。3.如权利要求2所述的方法,其特征在于,所述期望信息需求的表达式为:其中,|D|是数据元组集D中的元组的个数,|D1|为分裂点划分数据元组集D后获得的子集D1的元组数,|D2|为分裂点划分数据元组集D后获得的子集D2的元组数;子集D1中的归一化处理后的月用电量数据分别属于行业类的个数为m,pi是子集D1中元组属于行业类i的概率,子集D2中的归一化处理后的月用电量数据分别属于行业类的个数为n,qi是D2中元组属于行业类i的概率。4.如权利要求1所述的方法,其特征在于,对所述月用电量数据进行归一化处理的表达式为:其中,x′为归一化后的取值,xi是本行业的第i个月份的电量,min(x)是本行业所有数据的最小值,max(x)是某行业所有数据的最大值。5.如权利要求1所述的方法,其特征在于,所述获取每个用电行业的月用电量数据的步骤包括:从用电信息采集系统中获取用电行业所有用户的日电量,空缺数值采用相似日均值进行填补;按照用户、行业将所有日电量数据合并为用电行业的月用电量数据。6.一种行业用电数据关联关系挖掘装置,...

【专利技术属性】
技术研发人员:周辛南谢枫傅军孙志杰孙贝贝王海燕方茂益许鑫朱天博
申请(专利权)人:国家电网公司国网冀北电力有限公司电力科学研究院华北电力科学研究院有限责任公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1