一种基于Spark流式分类的电力窃电用户识别方法技术

技术编号：21850866 阅读：33 留言：0更新日期：2019-08-14 00:23

本发明专利技术涉及一种基于Spark流式分类的电力窃电用户识别方法。本发明专利技术利用Nginx实时收集来自电力系统的用户数据，并把全部数据传输至kafka集群队列。Spark Streaming会实时消费kafka集群队列里的数据，将数据读取出进行数据的预处理，并用Spark机器学习库MLlib实现决策树算法对窃电用户数据进行自动识别。经过Spark Streaming实时计算程序分析，将结果写入到Hbase数据库，可以实时获取窃电用户。本发明专利技术能够实时的处理来自电力系统的大量用户数据，具有高强度的容错性和实时性，并通过Spark MLlib库的决策树模型准确实时的识别出窃电用户。

A Spark Flow Classification Based User Recognition Method for Electric Power Stealing

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Spark流式分类的电力窃电用户识别方法
本专利技术涉及一种基于Spark流式分类的电力窃电用户识别方法，主要针对物联网传来的海量电力用户数据进行实时处理，提高效率，属于基于云计算平台下的大数据处理

技术介绍
物联网技术和信息技术的飞速发展导致了信息资源的急剧增长，数据源产生的数据越来越多，处理数据的实时性需求越来越大，比如，早期的在网上产生的股市震荡数据或者地震预测消息是有价值的，时间长了价值就降低了。再比如，淘宝购物，系统会根据买家的日常购买信息，综合分析买家消费习性进行实时推荐，以促进消费。如何从海量的数据挖掘中挖掘出隐含的有用的信息并进行实时的分析统计引起人们越来越多的关注。目前最常用的大数据流的并行处理系统有Spark，Storm,Samza和Flink，这些系统都可以用于接收和处理实时的数据流。Spark，是一种通用的大数据计算框架，正如传统大数据技术Hadoop的MapReduce、Hive引擎，以及Storm流式实时计算引擎等。Spark包含常见的各种计算框架：比如SparkCore用于离线计算，SparkSQL用于交互式查询，SparkStreaming用于实时流式计算，SparkMLlib用于机器学习，SparkGraphX用于图计算。Hadoop的核心组件为HDFS和Mapreduce,HDFS以不同机器作为数据存储节点，Mapreduce以分而治之思想作为计算引擎，同时Mapreduce组件是以非内存和离线分析为主的计算处理，无法满足大规模的数据的实时分析和统计要求。Storm是一个基于内存计算的开源的集群计算系统...

【技术保护点】
1.一种基于Spark流式分类的电力窃电用户识别方法，其特征在于：通过Nginx集群作为数据采集系统，不断的接收来自电力系统的用户数据流，利用Kafka集群作为消息缓存队列服务器，接收Nginx传过来的用户数据流，通过Spark Streaming把从Kafak集群接收来的实时用户数据流分成多个数据块存放在内存里，并在间隔时间内对内存中的数据块进行批处理，Spark通过算子对离散流进行数据的预处理，并把分析处理结果写入到Hbase数据库里，利用Spark的机器学习库MLlib对Hbase数据库里的数据实现决策树建模，识别出窃电用户，并通过echarts进行可视化。

【技术特征摘要】
1.一种基于Spark流式分类的电力窃电用户识别方法，其特征在于：通过Nginx集群作为数据采集系统，不断的接收来自电力系统的用户数据流，利用Kafka集群作为消息缓存队列服务器，接收Nginx传过来的用户数据流，通过SparkStreaming把从Kafak集群接收来的实时用户数据流分成多个数据块存放在内存里，并在间隔时间内对内存中的数据块进行批处理，Spark通过算子对离散流进行数据的预处理，并把分析处理结果写入到Hbase数据库里，利用Spark的机器学习库MLlib对Hbase数据库里的数据实现决策树建模，识别出窃电用户，并通过echarts进行可视化。2.根据权利要求1所述的基于Spark流式分类的电力窃电用户识别方法，其特征在于：所述基于Spark流式分类的电力窃电用户识别方法的具体步骤如下：Step1、搭建Nginx集群采集数据，代替flume监听log文件夹，直接把数据导入kafka集群；具体包括：Step1.1、上传Nginx压缩包到Linux集群，并解压；进入Nginx源码目录安装gcc编译器进行预编译；Ste...

【专利技术属性】
技术研发人员：吴晟，舒珏淋，
申请(专利权)人：昆明理工大学，
类型：发明
国别省市：云南,53

全部详细技术资料下载我是这个专利的主人