【技术实现步骤摘要】
一种并行的电力大数据挖掘方法、存储介质及设备
[0001]本专利技术涉及电力领域,特别涉及一种并行的电力大数据挖掘方法、存储介质及设备。
技术介绍
[0002]随着电力行业在不断推进智能电网业务,目前利用多数据挖掘等形式来提高发电厂发电效率及新能源发电设备的建设效率。电力企业通过对电力大数据的挖掘,以改进和完善各项决策方案,提高核心竞争力,实行企业精细化管理,支撑配用电业务。配用电数据挖掘分析工作中涉及到的配电网规划、运行、社会经济发展等广泛应用,并具有一定的指导意义。对新能源电力大数据的正负关联规则挖掘,可以获得电厂运作过程中的外界因素与电力设备产电量之间的关联规则。并通过关联关系的相关程度,以达到让政府部门对电力行业的发展形势有更为准确的了解,为后期决策提供一定的信息。
[0003]数据挖掘是在大型数据存储库中,自动的发现有用信息的过程。数据挖掘包含数据集间肯定的关系即正关联规则和否定的关系即负关联规则。对于正关联规则,有三种比较著名的方法分别为Apriori,FPGrowth和Eclat。Apriori方法采用逐层搜索的迭代策略,但会产生大量候选集并需要多次扫描事务数据库。FP
‑
Growth方法采用的是基于规则树和深度优先挖掘的方法。相比Apriori,仅需要扫描两次事务数据库,但当规则数据库比较稀疏的时候将会导致生成大量的树节点消耗大量的内存。Eclat也是采用逐层搜索的迭代方法,与Apriori 和FP
‑
Growth方法不同的是,Eclat将关联规则的组合转化 ...
【技术保护点】
【技术特征摘要】
1.一种并行的电力大数据挖掘方法,其特征在于所述方法具体过程为:步骤一、对电力大数据集进行预处理,从而将电力大数据集转换为频繁1
‑
项集;步骤二、对所有的频繁1
‑
项集的位图两两进行交集运算,筛选得到正频繁2
‑
项集;步骤三、执行Map流程读取步骤二获得的正频繁2
‑
项集生成分发表并判断项目集的相关性,执行Reudece流程利用分发表生成频繁3
‑
项集;步骤四、重复执行步骤三,对频繁项集迭代执行分发表的生成与分发,获得频繁K
‑
项集;其中,K>2。2.根据权利要求1所述的一种并行的电力大数据挖掘方法,其特征在于:所述步骤一中的对电力大数据集进行预处理,从而将电力大数据集转换为频繁1
‑
项集,包括以下步骤:步骤一一、将电力大数据集的形式转换为垂直数据形式获得垂直数据集;步骤一二、删除垂直数据集中小于预设最小支持度阈值的项集获得频繁1
‑
项集;步骤一三、利用位图保存所有频繁1
‑
项集中的Tid;其中,Tid为事务编号。3.根据权利要求2所述的一种并行的电力大数据挖掘方法,其特征在于:所述垂直数据的形式为:<itemID:Tid>。其中,itemID为事务数据集的内容。4.根据权利要求3或2所述的一种并行的电力大数据挖掘方法,其特征在于:所述步骤二中的对所有的频繁1
‑
项集的位图两两进行交集运算,筛选得到正频繁2
‑
项集,具体为:首先,对步骤一获得的频繁1
‑
项集中的数据的itemID两两求并集,同时对Tid两两求交集,获得求交集后的每个Tid长度;然后,将求交集后的每个Tid长度与预设最小支持度阈值比较,若交集后的Tid长度大于预设最小支持度阈值,则将该交集后的Tid长度对应的频繁1
‑
项集保存,得到正频繁2
‑
项集。5.根据权利要求4所述的一种并行的电力大数据挖掘方法,其特征在于:所述步骤三中的执行Map流程读取步骤二获得的正频繁2
‑
项集生成分发表并判断项目集的相关性,执行Reudece流程利用分发表生成频繁3
‑
项集,包括以下步骤:步骤三一、执行Map流程读取步骤二获得的正频繁2
‑
项集生成分发表:对频繁2
‑
项集中itemID的全部元素进行一次读入,然后将第一个读到的项作为父项,第二个作为子项;步骤三二、执行Reudece流程利用分发表生成频繁3
‑
项集。6.根据权利要求5所述的一种并行的电力大数据挖掘方法,其...
【专利技术属性】
技术研发人员:吴迪,刘国辉,吴伟东,商可易,金雪松,王巍,
申请(专利权)人:国家电网有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。