一种并行的电力大数据挖掘方法、存储介质及设备技术

技术编号:36160607 阅读:16 留言:0更新日期:2022-12-31 20:08
一种并行的电力大数据挖掘方法、存储介质及设备,涉及电力领域。本发明专利技术是为了解决目前的电力数据挖掘方法还存在需要多次扫描数据库导致数据挖掘运行效率低以及项集丢失导致挖掘结果准确率下降、丢失部分关联规则的问题。本发明专利技术包括:对电力大数据集进行预处理,从而将电力大数据集转换为频繁1

【技术实现步骤摘要】
一种并行的电力大数据挖掘方法、存储介质及设备


[0001]本专利技术涉及电力领域,特别涉及一种并行的电力大数据挖掘方法、存储介质及设备。

技术介绍

[0002]随着电力行业在不断推进智能电网业务,目前利用多数据挖掘等形式来提高发电厂发电效率及新能源发电设备的建设效率。电力企业通过对电力大数据的挖掘,以改进和完善各项决策方案,提高核心竞争力,实行企业精细化管理,支撑配用电业务。配用电数据挖掘分析工作中涉及到的配电网规划、运行、社会经济发展等广泛应用,并具有一定的指导意义。对新能源电力大数据的正负关联规则挖掘,可以获得电厂运作过程中的外界因素与电力设备产电量之间的关联规则。并通过关联关系的相关程度,以达到让政府部门对电力行业的发展形势有更为准确的了解,为后期决策提供一定的信息。
[0003]数据挖掘是在大型数据存储库中,自动的发现有用信息的过程。数据挖掘包含数据集间肯定的关系即正关联规则和否定的关系即负关联规则。对于正关联规则,有三种比较著名的方法分别为Apriori,FPGrowth和Eclat。Apriori方法采用逐层搜索的迭代策略,但会产生大量候选集并需要多次扫描事务数据库。FP

Growth方法采用的是基于规则树和深度优先挖掘的方法。相比Apriori,仅需要扫描两次事务数据库,但当规则数据库比较稀疏的时候将会导致生成大量的树节点消耗大量的内存。Eclat也是采用逐层搜索的迭代方法,与Apriori 和FP

Growth方法不同的是,Eclat将关联规则的组合转化成集合运算。但当单条事务过长时,会影响关联规则计算效率。这三种方法都是挖掘正关联规则的著名方法,但无法挖掘负关联规则。所以本专利技术使用相关性模型分析,以挖掘出可靠的负关联规则。负关联规则为计算关联规则的另外一种形式,其目的是寻找项集之间存在的否定关系。负关联规则挖掘更具有挑战性,包括更多的项,更容易造成候选集的过度增长,带来巨大的存储和运算负载。
[0004]目前的负关联规则挖掘方法主要包括:基于多个最小支持度的正负关联规则挖掘,基于相关性和对偶置信度的负关联规则挖掘方法;这两种方法都提出了新的剪枝策略,在一定程度上提高了运行效率,但都无法处理大数据环境下的数据挖掘。所以有学者将方法在云计算下的并行模型MapReduce框架下实现,MapReduce被广泛的应用在电力工业界。因此,目前电力工业界在制造业传感器数据系统、电网系统时主要在MapReduce框架下实现根据粗糙集理论进行负关联规则挖掘,但是这种方法还需要多次扫描数据库从而造成大量的I/O负载,降低数据挖掘运行效率。且由于这种方法基于模糊集理论实现的,会存在项集丢失的问题,从而导致最终数据挖掘结果准确度下降,丢失部分关联规则。

技术实现思路

[0005]本专利技术目的是为了解决目前的电力数据挖掘方法还存在需要多次扫描数据库导致数据挖掘运行效率低以及项集丢失导致挖掘结果准确率下降、丢失部分关联规则的问
题,而提出了一种并行的电力大数据挖掘方法、存储介质及设备。
[0006]一种并行的电力大数据挖掘方法,具体包括:
[0007]步骤一、对电力大数据集进行预处理,从而将电力大数据集转换为频繁1

项集;
[0008]步骤二、对所有的频繁1

项集的位图两两进行交集运算,筛选得到正频繁2

项集;
[0009]步骤三、执行Map流程读取步骤二获得的正频繁2

项集生成分发表并判断项目集的相关性,执行Reudece流程利用分发表生成频繁3

项集;
[0010]步骤四、重复执行步骤三,对频繁项集迭代执行分发表的生成与分发,获得频繁K

项集;
[0011]其中,K>2。
[0012]进一步地,所述步骤一中的对电力大数据集进行预处理,从而将电力大数据集转换为频繁1

项集,包括以下步骤:
[0013]步骤一一、将电力大数据集的形式转换为垂直数据形式获得垂直数据集;
[0014]步骤一二、删除垂直数据集中小于预设最小支持度阈值的项集获得频繁1

项集;
[0015]步骤一三、利用位图保存所有频繁1

项集中的Tid;
[0016]其中,Tid为事务编号。
[0017]进一步地,所述垂直数据的形式为:<itemID:Tid>;
[0018]其中,itemID为事务数据集的内容。
[0019]进一步地,所述步骤二中的对所有的频繁1

项集的位图两两进行交集运算,筛选得到正频繁2

项集,具体为:
[0020]首先,对步骤一获得的频繁1

项集中的数据的itemID两两求并集,同时对Tid两两求交集,获得求交集后的每个Tid长度;
[0021]然后,将求交集后的每个Tid长度与预设最小支持度阈值比较,若交集后的Tid长度大于预设最小支持度阈值,则将该交集后的Tid长度对应的频繁1

项集保存,得到正频繁2
‑ꢀ
项集。
[0022]进一步地,所述步骤三中的执行Map流程读取步骤二获得的正频繁2

项集生成分发表并判断项目集的相关性,执行Reudece流程利用分发表生成频繁3

项集,包括以下步骤:
[0023]步骤三一、执行Map流程读取步骤二获得的正频繁2

项集生成分发表:
[0024]对频繁2

项集中itemID的全部元素进行一次读入,然后将第一个读到的项作为父项,第二个作为子项;
[0025]步骤三二、执行Reudece流程利用分发表生成频繁3

项集。
[0026]进一步地,所述步骤三二中的执行Reudece流程利用分发表生成频繁3

项集,包括以下步骤:
[0027]首先,获得分发表中的每个子项,把每一个子项当做候选1

项集求频繁2

项集,得到的频繁2

项集与父项合并,获得合并后的集合支持度和置信度;
[0028]然后,将合并后集合的支持度与预设最小支持度阈值比较,置信度和预设最小接受度比较,若合并后的集合支持度不小于预设最小支持度阈值且置信度不小于预设最小置信度阈值,则计算合并后集合的兴趣度corr;
[0029]最后,以合并后集合的兴趣度corr的大小为判断依据输出频繁3

项集;
[0030]所述频繁3

项集包括:正频繁3

项集、负频繁3

项集。
[0031]进一步地,所述以合并后集合的兴趣度corr的大小为判断依据输出频繁3本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种并行的电力大数据挖掘方法,其特征在于所述方法具体过程为:步骤一、对电力大数据集进行预处理,从而将电力大数据集转换为频繁1

项集;步骤二、对所有的频繁1

项集的位图两两进行交集运算,筛选得到正频繁2

项集;步骤三、执行Map流程读取步骤二获得的正频繁2

项集生成分发表并判断项目集的相关性,执行Reudece流程利用分发表生成频繁3

项集;步骤四、重复执行步骤三,对频繁项集迭代执行分发表的生成与分发,获得频繁K

项集;其中,K>2。2.根据权利要求1所述的一种并行的电力大数据挖掘方法,其特征在于:所述步骤一中的对电力大数据集进行预处理,从而将电力大数据集转换为频繁1

项集,包括以下步骤:步骤一一、将电力大数据集的形式转换为垂直数据形式获得垂直数据集;步骤一二、删除垂直数据集中小于预设最小支持度阈值的项集获得频繁1

项集;步骤一三、利用位图保存所有频繁1

项集中的Tid;其中,Tid为事务编号。3.根据权利要求2所述的一种并行的电力大数据挖掘方法,其特征在于:所述垂直数据的形式为:<itemID:Tid>。其中,itemID为事务数据集的内容。4.根据权利要求3或2所述的一种并行的电力大数据挖掘方法,其特征在于:所述步骤二中的对所有的频繁1

项集的位图两两进行交集运算,筛选得到正频繁2

项集,具体为:首先,对步骤一获得的频繁1

项集中的数据的itemID两两求并集,同时对Tid两两求交集,获得求交集后的每个Tid长度;然后,将求交集后的每个Tid长度与预设最小支持度阈值比较,若交集后的Tid长度大于预设最小支持度阈值,则将该交集后的Tid长度对应的频繁1

项集保存,得到正频繁2

项集。5.根据权利要求4所述的一种并行的电力大数据挖掘方法,其特征在于:所述步骤三中的执行Map流程读取步骤二获得的正频繁2

项集生成分发表并判断项目集的相关性,执行Reudece流程利用分发表生成频繁3

项集,包括以下步骤:步骤三一、执行Map流程读取步骤二获得的正频繁2

项集生成分发表:对频繁2

项集中itemID的全部元素进行一次读入,然后将第一个读到的项作为父项,第二个作为子项;步骤三二、执行Reudece流程利用分发表生成频繁3

项集。6.根据权利要求5所述的一种并行的电力大数据挖掘方法,其...

【专利技术属性】
技术研发人员:吴迪刘国辉吴伟东商可易金雪松王巍
申请(专利权)人:国家电网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1