一种基于大数据的海量用电数据混合存储系统及方法技术方案

技术编号:14130801 阅读:172 留言:0更新日期:2016-12-09 19:25
一种给予大数据的海量用电数据混合存储系统及方法,包括数据采集装置、用电信息采集系统、用电信息处理系统,其中用电信息采集系统包括集抄子系统和海量数据平台,用电信息处理系统包括数据预处理装置、数据后处理装置、分布式存储器和数据查询服务器,其中用电信息采集系统分别与数据采集装置和用电信息处理系统连接,集抄子系统,海量数据平台,数据预处理装置和数据后处理装置依次连接,数据预处理装置和数据后处理装置分别与分布式存储器双向连接,分布式存储器与数据查询服务器连接,可以快速、高效、及时地处理海量实时数据,同时保证设备安全、稳定、高效地运行。

【技术实现步骤摘要】

本专利技术涉及用电数据分析应用领域,具体涉及到一种基于大数据的海量用电数据混合存储系统及方法
技术介绍
随着计算机技术的飞速发展,各行业的数据急速增长,数据量变的越来越大,类型也越来越多,数据结构也趋于复杂化,传统的数据库不但各设备独立放置,并且需要较大的部署空间,存在不易部署、成本较高等缺点,不能满足用户的一般要求。时序数据是带时间标签的时间序列数据,其典型特点是产生频率快、严重依赖于采集时间、测点多信息量大。在电力行业中,为了保证设备安全、稳定、高效地运行,通常会对发电、变电等各类设备的运行状态进行实时监测,采集获得大量的时序数据可作为设备运行状态评估、设备运行故障预警、设备可靠性分析等高级应用的基础,因而,如何快速、高效、及时地处理海量实时数据,一直是电力、化工、石油、钢铁等重资产行业面临的一项重大课题。电力行业中历史业务数据收集和分析、实时或准实时数据的即时分析是电力行业中信息化建设过程中比较重要的内容,它需要一套完整、稳定、契合实际业务场景的大数据分析装置的解决方案,对设备故障预警等实时分析类业务场景提供稳定可靠的底层数据支撑。近年来,随着云计算、大数据、机器学习、数据挖掘等IT技术迅猛发展,分布式存储、高性能计算在理论研究和技术实践层面均获得了关键性突破,业界涌现出了一批以Hadoop为代表的大数据处理和应用解决方案。Hadoop是一个分布式系统基础架构,包括分布式文件系统HDFS(Hadoop Distributed File System)、分布式存储系统HBase、并行计算编程模型MapReduce等几个核心部分,它可以极大地简化大规模数据的处理过程,Spark是一种分布式大数据处理工具,本身不提供数据存储功能,它可以运行在Hadoop的HDFS或其它的分布式文件系统之上,Spark的设计初衷就是为了解决Hadoop MapReduce反复读写文件系统从而效率低下的问题,它通过构建弹性分布式数据集(RDD)结构,支持数据内存驻留,实现了In-memory MapReduce架构,在特定应用场景下弥补MapReduce的不足。Hadoop、Spark等通用的开源技术组件在功能完整性、运行稳定性方面存在一定的局限性,而基于Hadoop衍生的一些商用大数据平台又跟电力业务场景的实际需求存在偏差,因而,深度分析研究电力行业的业务需求,构建一种基于大数据技术的基于大数据的海量用电数据混合存储系统及方法,具有深远的意义和较强的利用价值。“分而治之”是大数据技术的精髓,它通过并行处理技术来提高数据的处理速度,设计初衷是通过大量低价服务器实现大数据的并行处理,将传统的查询、统计及数据分析进行分布式处理,将处理任务分配到不同的处理节点,由此获得处理性能的大幅提升。全面引入大数据的分布式存储、分布式计算能力,针对监控集抄相关的时序数据、用电用户相关的台账数据、统计分析相关的结果数据分别制定专项存储方案,结合实际业务场景构建混合存储系统;将数据的预处理过程、后处理过程剥离后交由分布式计算模块执行,不仅能够降低数据处理复杂度、提高时序数据接入吞吐量,还可以突破海量存储、即席查询方面的性能瓶颈。然而,目前无法针对长期历史数据执行综合查询的功能问题,短期历史数据综合查询的性能问题,数据存储的成本问题(Oracle一体机的成本远高于Hadoop集群)都是棘手要解决的问题,构建一种基于大数据技术的基于大数据的海量用电数据混合存储系统及方法势在必行,并且系统的实施还可以为分析挖掘类应用的构建提供数据支撑。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种可以快速、高效、及时地处理海量实时数据,同时保证设备安全、稳定、高效地运行的基于大数据的海量用电数据混合存储系统及方法。本专利技术提供了一种基于大数据的海量用电数据混合存储系统,包括数据采集装置、用电信息采集系统、用电信息处理系统,其中用电信息采集系统包括集抄子系统和海量数据平台,用电信息处理系统包括数据预处理装置、数据后处理装置、分布式存储器和数据查询服务器,其中用电信息采集系统分别与数据采集装置和用电信息处理系统连接,集抄子系统,海量数据平台,数据预处理装置和数据后处理装置依次连接,数据预处理装置和数据后处理装置分别与分布式存储器双向连接,分布式存储器与数据查询服务器连接,其中;数据采集装置,用于实时或准实时获取用户用电监测数据,并将采集到的用户用电监测数据传输给用电信息采集系统;用电采集信息系统,包括集抄子系统和海量数据平台,用于通过集抄子系统将用户用电数据采集处理并推送到海量信息平台进行存储,并且以推送的方式或者流式输出的方式,将处理后的用户用电监测数据推送到分布式存储器或输出至数据预处理装置;数据预处理装置,用于以流式接入的方式接收来自用电信息采集系统发送的用户用电监测数据,或者以批量接入的方式,通过预定义的调度计划自动获取用电信息采集系统中的常规的设备台账数据和历史数据,并存储在分布式存储器;数据后处理装置,用于将数据预处理装置的输出数据,在不同的业务指标下对台账数据和历史数据进行过滤和计算,依据预先编排好的处理逻辑对台账数据和历史数据进行处理,训练形成数据挖掘模型,得出指标数据,并将指标数据回传到分布式存储器进行存储;分布式存储器,用于将经过数据预处理和数据后处理后的台账数据,历史数据和指标数据进行存储;数据查询服务器,用于直接从分布式存储器查询数据,对用户用电数据长期历史数据执行综合查询和短期历史数据综合查询。优选地,数据采集装置包括安装于监测设备上的用电信息采集传感器。优选地,数据采集装置还包括监测设备安装区域的和/或温度检测器。优选地,数据预处理装置还用于直接连接数据采集点获取用户用电监测数据。优选地,还包括与用电信息采集系统连接的人工输入装置,用于在因安全要求实施了隔离措施或不支撑数据接入的情形下输入监测设备数据。优选地,数据预处理装置还用于调用和接收时序数据存储器中用户采集系统推送产生的新的时序数据,并对新的时序数据重复执行训练过程,对数据挖掘模型进行更新。优选地,数据后处理装置处理后的结果为用电信息预测结果和/或负荷预测结果。优选地,人工输入装置为笔记本电脑、平板电脑和/或手机。本专利技术还提供了一种基于大数据的海量用电数据混合存储方法,依次包括如下步骤:(1)初始化,设置数据采集装置的初始参数,根据设置好的初始参数控制数据采集装置的采样周期为每小时15次,采样时间为7天,将7天内采样的数据求平均值A;(2)在同样的初始参数条件下,重复步骤(1)5次,分别求得5次的平均值,删除5次中平均值最大和最小的两个数值,其余3次的平均值记为B、C、D;(3)令令P'为数据采集装置的实时测量数值,则:A.如果则数据采集装置性能稳定,进入步骤(4);B.如果则数据采集装置性能不稳定,则进入步骤(1);(4)实时或准实时获取用户用电监测数据,并将采集到的用户用电监测数据传输给用电信息采集系统中的海量信息平台进行存储,以推送的方式,推送到分布式存储器中,或者以流式输出的方式,将用户用电监测数据输出至数据预处理装置;(5)以批量接入的方式,通过预定义的调度计划自动获取分布式存储器中的常规台账数据和历史数据,将设备台账数据和历史数据以预处理规则进本文档来自技高网
...
一种基于大数据的海量用电数据混合存储系统及方法

【技术保护点】
一种基于大数据的海量用电数据混合存储系统,其特征在于:包括数据采集装置、用电信息采集系统、用电信息处理系统,其中用电信息采集系统包括集抄子系统和海量数据平台,用电信息处理系统包括数据预处理装置、数据后处理装置、分布式存储器和数据查询服务器,其中用电信息采集系统分别与数据采集装置和用电信息处理系统连接,集抄子系统,海量数据平台,数据预处理装置和数据后处理装置依次连接,数据预处理装置和数据后处理装置分别与分布式存储器双向连接,分布式存储器与数据查询服务器连接,其中;数据采集装置,用于实时或准实时获取用户用电监测数据,并将采集到的用户用电监测数据传输给用电信息采集系统;用电采集信息系统,包括集抄子系统和海量数据平台,用于通过集抄子系统将用户用电数据采集处理并推送到海量信息平台进行存储,并且以推送的方式或者流式输出的方式,将处理后的用户用电监测数据推送到分布式存储器或输出至数据预处理装置;数据预处理装置,用于以流式接入的方式接收来自用电信息采集系统发送的用户用电监测数据,或者以批量接入的方式,通过预定义的调度计划自动获取用电信息采集系统中的常规的设备台账数据和历史数据,并存储在分布式存储器;数据后处理装置,用于将数据预处理装置的输出数据,在不同的业务指标下对台账数据和历史数据进行过滤和计算,依据预先编排好的处理逻辑对台账数据和历史数据进行处理,训练形成数据挖掘模型,得出指标数据,并将指标数据回传到分布式存储器进行存储;分布式存储器,用于将经过数据预处理和数据后处理后的台账数据,历史数据和指标数据进行存储;数据查询服务器,用于直接从分布式存储器查询数据,对用户用电数据长期历史数据执行综合查询和短期历史数据综合查询。...

【技术特征摘要】
1.一种基于大数据的海量用电数据混合存储系统,其特征在于:包括数据采集装置、用电信息采集系统、用电信息处理系统,其中用电信息采集系统包括集抄子系统和海量数据平台,用电信息处理系统包括数据预处理装置、数据后处理装置、分布式存储器和数据查询服务器,其中用电信息采集系统分别与数据采集装置和用电信息处理系统连接,集抄子系统,海量数据平台,数据预处理装置和数据后处理装置依次连接,数据预处理装置和数据后处理装置分别与分布式存储器双向连接,分布式存储器与数据查询服务器连接,其中;数据采集装置,用于实时或准实时获取用户用电监测数据,并将采集到的用户用电监测数据传输给用电信息采集系统;用电采集信息系统,包括集抄子系统和海量数据平台,用于通过集抄子系统将用户用电数据采集处理并推送到海量信息平台进行存储,并且以推送的方式或者流式输出的方式,将处理后的用户用电监测数据推送到分布式存储器或输出至数据预处理装置;数据预处理装置,用于以流式接入的方式接收来自用电信息采集系统发送的用户用电监测数据,或者以批量接入的方式,通过预定义的调度计划自动获取用电信息采集系统中的常规的设备台账数据和历史数据,并存储在分布式存储器;数据后处理装置,用于将数据预处理装置的输出数据,在不同的业务指标下对台账数据和历史数据进行过滤和计算,依据预先编排好的处理逻辑对台账数据和历史数据进行处理,训练形成数据挖掘模型,得出指标数据,并将指标数据回传到分布式存储器进行存储;分布式存储器,用于将经过数据预处理和数据后处理后的台账数据,历史数据和指标数据进行存储;数据查询服务器,用于直接从分布式存储器查询数据,对用户用电数据长期历史数据执行综合查询和短期历史数据综合查询。2.如权利要求1所述的海量用电数据混合存储系统,其特征在于:数据采集装置包括安装于监测设备上的用电信息采集传感器。3.如权利要求1所述的海量用电数据混合存储系统,其特征在于:数据采集装置还包括监测设备安装区域的和/或温度检测器。4.如权利要求1所述的海量用电数据混合存储系统,其特征在于:数据预处理装置还用于直接连接数据采集点获取用户用电监测数据。5.如权利要求1所述的海量用电数据混合存储系统,其特征在于:还包括与用电信息采集系统连接的人工输入装置,用于在因安全要求实施了隔离措施或不支撑数据接入的情形下输入监测设备数据。6...

【专利技术属性】
技术研发人员:张忠德张建辉丛兴滋杨立涛张俊岭刘猛刘涛王庆刚徐冉段培见苏京彬
申请(专利权)人:山东鲁能软件技术有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1