基于分布式计算平台的GPEH数据解析方法和装置制造方法及图纸

技术编号:11115177 阅读:182 留言:0更新日期:2015-03-05 20:33
本发明专利技术公开了一种基于分布式计算平台的GPEH数据解析方法和装置,首先获取GPEH原始数据;然后将GPEH原始数据上传到HDFS;最后利用MapReduce读取上传到HDFS的数据并进行解析,将解析后的数据输出到HDFS。本发明专利技术采用MapReduce计算框架对GPEH数据进行解析,可根据数据规模定制集群机器数目,集群机器共同完成数据处理,对于海量数据的处理,具有高容错特性和可行性,解析周期随着集群资源扩展而缩短;可根据实际业务需求定制解析程序;存储容量为集群机器所有可用存储之和,可随集群机器数目增加而扩展。

【技术实现步骤摘要】

本专利技术涉及大数据
,特别是涉及一种基于分布式计算平台的GPEH数据解析方法和装置
技术介绍
GPEH(General performance event handling,通过系统定义事件的采集和统计来定位问题)是WCDMA(Wideband Code Division Multiple Access,宽带码分多址)的一个重要功能。对于采集的GPEH原始数据进行解析,可用于无线网络规划、无线网络评估、无线网络资源管理等应用,为通信运营商提供强有力的支撑。目前GPEH信令数据解析通常采用大型服务器进行处理,将原始的GPEH二进制数据通过反加密算法利用多线程资源进行解析,对于小规模GPEH数据可以在一定时间内解析完成。为了全面、准确、快速的进行无线网络规划支撑,底层的GPEH数据需求量巨大(数据总量可达PB级),使用大型服务器解析完成GPEH数据消耗时间难以接受。传统GPEH数据解析通常采用单一机器,机器解析性能受机器硬件条件限制,无法随解析数据量增大而扩展;并且机器的存储、管理和分析数据量也相对较小;对于大数据量数据处理周期长。
技术实现思路
基于上述情况,本专利技术提出了一种基于分布式计算平台的GPEH数据解析方法,采用MapReduce(一种编程模型)计算框架对GPEH数据进行解析,可根据数据规模定制集群机器数目,集群机器共同完成数据处理,数据处理周期随机器计算能力增加而缩短,并且存储容量为集群机器所有可用存储之和,可随集群机器数目增加而扩展。为了实现上述目的,本专利技术技术方案的实施例为:一种基于分布式计算平台的GPEH数据解析方法,包括以下步骤:获取GPEH原始数据;将所述GPEH原始数据上传到HDFS(Hadoop Distributed File System,分布式文件系统);利用MapReduce读取上传到所述HDFS的数据并进行解析,将解析后的数据输出到所述HDFS。针对现有技术问题,本专利技术还提出了一种基于分布式计算平台的GPEH数据解析装置,采用MapReduce并行计算框架实现对GPEH数据的快速、准确解析,结构简单、成本低,符合实际应用。本专利技术技术方案的实施例为:一种基于分布式计算平台的GPEH数据解析装置,包括:获取模块,用于获取GPEH原始数据;传输模块,用于将所述GPEH原始数据上传到HDFS;解析模块,用于利用MapReduce读取上传到所述HDFS的数据并进行解析,将解析后的数据输出到所述HDFS。与现有技术相比,本专利技术的有益效果为:本专利技术基于分布式计算平台的GPEH数据解析方法和装置,采用MapReduce计算框架对GPEH数据进行解析,可根据数据规模定制集群机器数目,集群机器共同完成数据处理,对于海量数据的处理,具有高容错特性和可行性,解析周期随着集群资源扩展而缩短;可根据实际业务需求定制解析程序;存储容量为集群机器所有可用存储之和,可随集群机器数目增加而扩展。附图说明图1为一个实施例中基于分布式计算平台的GPEH数据解析方法流程图;图2为一个实施例中利用MapReduce对上传到HDFS的数据进行读取并解析的方法流程图;图3为基于图1所示方法一个具体示例中基于分布式计算平台的GPEH数据解析方法流程图;图4为一个实施例中基于分布式计算平台的GPEH数据解析装置结构示意图;图5为一个实施例中解析模块结构示意图。具体实施方式为使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本专利技术,并不限定本专利技术的保护范围。一个实施例中基于分布式计算平台的GPEH数据解析方法,如图1所示,包括以下步骤:步骤S101:获取GPEH原始数据;步骤S102:将所述GPEH原始数据上传到HDFS;步骤S103:利用MapReduce读取上传到所述HDFS的数据并进行解析,将解析后的数据输出到所述HDFS。从以上描述可知,本专利技术基于分布式计算平台的GPEH数据解析方法,采用MapReduce计算框架对GPEH数据进行解析,可根据数据规模定制集群机器数目,集群机器共同完成数据处理,数据处理周期随机器计算能力增加而缩短,并且存储容量为集群机器所有可用存储之和,可随集群机器数目增加而扩展。作为一个实施例,所述利用MapReduce读取上传到所述HDFS的数据并进行解析,将解析后的数据输出到所述HDFS的步骤,如图2所示,包括:步骤S201:将上传到所述HDFS的数据分配给空闲的datanode节点(数据节点),所述datanode节点读取分配到的数据;步骤S202:调用EventExpalinMapper函数将所述datanode节点读取到的数据以<key(键),value(值)>格式输出给Explainvalue函数进行解析;步骤S203:调用EventOrderReduce函数对所述Explainvalue函数解析后的数据进行总体排序,并将总体排序后的数据输出到所述HDFS;重复上述步骤S201-步骤S203的处理过程直到MapReduce完成对上传到HDFS的所有数据的解析,在该过程中,各个datanode节点数据处理为并行处理;上述MapReduce程序可以根据实际业务需求定制解析程序;并行解析数据量随着集群规模可以动态扩展,能够满足解析海量数据的时间性能要求;使用MapReduce解析GPEH数据之后,可进一步使用大数据相关技术进行统计分析处理。作为一个实施例,在所述获取GPEH原始数据之后,将所述GPEH原始数据上传到HDFS之前,还包括步骤:根据所述MapReduce中设定的解析数据大小,调用EventSplitMain函数对所述GPEH原始数据进行切分;数据切分将GPEH原始数据制作成MapReduce便于处理的形式,加快后续处理,提高数据解析效率,应用价值高。作为一个实施例,在所述将解析后的数据输出到所述HDFS之后,还包括步骤:导出输出到所述HDFS的解析后的数据,方便用户查看、使用解析结果,适合应用。作为一个实施例,将所述GPEH原始数据上传到HDFS的步骤包括:调用writeToHDFS函数将所述GPEH原始数据上传到HDFS,符合实际应用,保证后续处理正常运行。为了更好地理解本方法,以下详细阐述一个本专利技术基于分布式本文档来自技高网...

【技术保护点】
一种基于分布式计算平台的GPEH数据解析方法,其特征在于,包括以下步骤:获取GPEH原始数据;将所述GPEH原始数据上传到HDFS;利用MapReduce读取上传到所述HDFS的数据并进行解析,将解析后的数据输出到所述HDFS。

【技术特征摘要】
1.一种基于分布式计算平台的GPEH数据解析方法,其特征在于,包括以
下步骤:
获取GPEH原始数据;
将所述GPEH原始数据上传到HDFS;
利用MapReduce读取上传到所述HDFS的数据并进行解析,将解析后的数
据输出到所述HDFS。
2.根据权利要求1所述的基于分布式计算平台的GPEH数据解析方法,其
特征在于,所述利用MapReduce读取上传到所述HDFS的数据并进行解析,将
解析后的数据输出到所述HDFS的步骤包括:
将上传到所述HDFS的数据分配给空闲的datanode节点,所述datanode节
点读取分配到的数据;
调用EventExpalinMapper函数将所述datanode节点读取到的数据以
<key,value>格式输出给Explainvalue函数进行解析;
调用EventOrderReduce函数对所述Explainvalue函数解析后的数据进行总
体排序,并将总体排序后的数据输出到所述HDFS。
3.根据权利要求1或2所述的基于分布式计算平台的GPEH数据解析方法,
其特征在于,在所述获取GPEH原始数据之后,将所述GPEH原始数据上传到
HDFS之前,还包括步骤:
根据所述MapReduce中设定的解析数据大小,调用EventSplitMain函数对
所述GPEH原始数据进行切分。
4.根据权利要求3所述的基于分布式计算平台的GPEH数据解析方法,其
特征在于,在所述将解析后的数据输出到所述HDFS之后,还包括步骤:
导出输出到所述HDFS的解析后的数据。
5.根据权利要求1所述的基于分布式计算平台的GPEH数据解析方法,其
特征在于,将所述GPEH原始数据上传到HDFS的步骤包括:
调用writeToHDFS函数将所述GPEH原始数据上传到HDF...

【专利技术属性】
技术研发人员:蒋超杜翠凤吴靖
申请(专利权)人:广州杰赛科技股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1