一种基于Hadoop架构数据分析图表展示的方法及系统技术方案

技术编号:15822729 阅读:28 留言:0更新日期:2017-07-15 04:55
本发明专利技术公开一种基于Hadoop架构数据分析图表展示的方法及系统,其方法,包括:进行原始数据采集;采用分布式文件系统HDFS作为底层数据存储介质,在其之上构建更高层次的分布式的、面向列的开源数据库HBase和数据仓库基础构架Hive进行数据管理;流式大数据处理框架Storm流处理,实时处理解析该数据管理中的数据流;将该经Storm流处理得到的数据流,导入关系数据库;分析处理该关系数据库中的数据,并直观展示该经分析处理后的数据;从而达到实现可以高效管理和分析海量数据,可以对所展现数据进行挖掘、提取、修正或整合,让用户可以有不同的方式解读同样的数据。

【技术实现步骤摘要】
一种基于Hadoop架构数据分析图表展示的方法及系统
本专利技术涉及分布式计算
,尤其涉及一种基于Hadoop架构数据分析图表展示的方法及系统。
技术介绍
传统的关系型数据库中的表通常由一个或多个字段组成,每个字段都预先定义了其可存储数据的格式及约束等,这类的数据就是结构化数据。相应地,非结构化数据就是指那些没有一个预定义的数据模型或不适于存储在关系型数据库中的数据,这些数据没有额外的描述信息,因此无法推断这些信息的真实意义。现今身处于数据大爆炸的世界,如搜索引擎类公司的网络爬虫爬行而来的web页面或社交类站点产生的用户访问日志都属半结构化或非结构化数据,传统的关系型数据库管理系统对这类数据的存储及处理能力有限,大型数据集或数据的分析能力很快成为各大行业机构竞争力的关键基础,成为生产力、行业成长和创新发展新趋势的基石。
技术实现思路
本专利技术要解决的技术问题是提供一种基于Hadoop架构数据分析图表展示的方法及系统,实现可以高效管理和分析海量数据,可以对所展现数据进行挖掘、提取、修正或整合,让用户可以有不同的方式解读同样的数据。为解决上述技术问题,本专利技术采用的一个技术方案是:提供一种基于Hadoop架构数据分析图表展示的方法,包括:进行原始数据采集;采用分布式文件系统HDFS作为底层数据存储介质,在其之上构建更高层次的分布式的、面向列的开源数据库HBase和数据仓库基础构架Hive进行数据管理;流式大数据处理框架Storm流处理,实时处理解析所述数据管理中的数据流;将所述经Storm流处理得到的数据流,导入关系数据库;分析处理所述关系数据库中的数据,并直观展示所述经分析处理后的数据。其中,所述进行原始数据采集,包括:采用分布式网络爬虫进行原始数据采集。其中,所述采用分布式网络爬虫进行原始数据采集,包括:采用定时定向的信息采集方式进行统一调度,采用分布式网络爬虫进行原始数据采集。其中,所述采用分布式文件系统HDFS作为底层数据存储介质,在其之上构建更高层次的分布式的、面向列的开源数据库HBase和数据仓库基础构架Hive进行数据管理,包括:采用分布式文件系统HDFS作为底层数据存储介质,通过映射函数MapReduce编程模式进行分析,在其之上构建更高层次的分布式的、面向列的开源数据库HBase和数据仓库基础构架Hive进行数据管理。其中,所述分析处理所述关系数据库中的数据,并直观展示所述经分析处理后的数据,包括:分析处理所述关系数据库中的数据,并通过商业级数据图表Echarts前端技术直观展示所述经分析处理后的数据。为解决上述技术问题,本专利技术采用的另一个技术方案是:提供一种一种基于Hadoop架构数据分析图表展示的系统,包括:采集控制器、分布式计算Hadoop平台、数据流处理器、数据库、界面展示器;所述采集控制器,用于进行原始数据采集;所述分布式计算Hadoop平台,用于采用分布式文件系统HDFS作为底层数据存储介质,在其之上构建更高层次的分布式的、面向列的开源数据库HBase和数据仓库基础构架Hive进行数据管理;所述数据流处理器,用于流式大数据处理框架Storm流处理,实时处理解析所述数据管理中的数据流;所述数据库,用于将所述经Storm流处理得到的数据流,导入关系数据库;所述界面展示器,用于分析处理所述关系数据库中的数据,并直观展示所述经分析处理后的数据。其中,所述采集控制器具体用于:采用分布式网络爬虫进行原始数据采集。其中,所述采集控制器具体用于:采用定时定向的信息采集方式进行统一调度,采用分布式网络爬虫进行原始数据采集。其中,所述分布式计算Hadoop平台具体用于:采用分布式文件系统HDFS作为底层数据存储介质,通过映射函数MapReduce编程模式进行分析,在其之上构建更高层次的分布式的、面向列的开源数据库HBase和数据仓库基础构架Hive进行数据管理。其中,所述界面展示器具体用于:分析处理所述关系数据库中的数据,并通过商业级数据图表Echarts前端技术直观展示所述经分析处理后的数据。本专利技术提供的基于Hadoop架构数据分析图表展示的方法,包括:进行原始数据采集;采用分布式文件系统HDFS作为底层数据存储介质,在其之上构建更高层次的分布式的、面向列的开源数据库HBase和数据仓库基础构架Hive进行数据管理;流式大数据处理框架Storm流处理,实时处理解析该数据管理中的数据流;将该经Storm流处理得到的数据流,导入关系数据库;分析处理该关系数据库中的数据,并直观展示该经分析处理后的数据;从而达到实现可以高效管理和分析海量数据,可以对所展现数据进行挖掘、提取、修正或整合,让用户可以有不同的方式解读同样的数据。本专利技术提供的基于Hadoop架构数据分析图表展示的系统,包括:采集控制器、分布式计算Hadoop平台、数据流处理器、数据库、界面展示器;采集控制器,用于进行原始数据采集;分布式计算Hadoop平台,用于采用分布式文件系统HDFS作为底层数据存储介质,在其之上构建更高层次的分布式的、面向列的开源数据库HBase和数据仓库基础构架Hive进行数据管理;数据流处理器,用于流式大数据处理框架Storm流处理,实时处理解析该数据管理中的数据流;数据库,用于将该经Storm流处理得到的数据流,导入关系数据库;界面展示器,用于分析处理该关系数据库中的数据,并直观展示该经分析处理后的数据;从而达到实现可以高效管理和分析海量数据,可以对所展现数据进行挖掘、提取、修正或整合,让用户可以有不同的方式解读同样的数据。附图说明图1为本专利技术基于Hadoop架构数据分析图表展示的方法的流程示意图;图2为本专利技术基于Hadoop架构数据分析图表展示的系统的结构示意图。具体实施方式本专利技术提供一种基于Hadoop架构数据分析图表展示的方法及系统,应用于分布式计算
,本专利技术基于Hadoop架构数据分析图表展示的方法,包括:进行原始数据采集;采用分布式文件系统HDFS作为底层数据存储介质,在其之上构建更高层次的分布式的、面向列的开源数据库HBase和数据仓库基础构架Hive进行数据管理;流式大数据处理框架Storm流处理,实时处理解析该数据管理中的数据流;将该经Storm流处理得到的数据流,导入关系数据库;分析处理该关系数据库中的数据,并直观展示该经分析处理后的数据;从而达到实现可以高效管理和分析海量数据,可以对所展现数据进行挖掘、提取、修正或整合,让用户可以有不同的方式解读同样的数据。为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术提供一种基于Hadoop架构数据分析图表展示的方法。请参见图1,图1为本专利技术基于Hadoop架构数据分析图表展示的方法的流程示意图,需注意的是,若有实质上相同的结果,本专利技术的方法并不以图1所示的流程顺序为限,本专利技术基于Hadoop架构数据分析图表展示的方法,包括:S11:进行原始数据采集。其中,进行原始数据采集,包括:采用分布式网络爬虫进行原始数据采集。其中,采用分布式网络爬虫进行原始数据采集,包括:采用定时定向的信息采集方式进行统一调度,采用分布式网络本文档来自技高网
...
一种基于Hadoop架构数据分析图表展示的方法及系统

【技术保护点】
一种基于Hadoop架构数据分析图表展示的方法,其特征在于,包括:进行原始数据采集;采用分布式文件系统HDFS作为底层数据存储介质,在其之上构建更高层次的分布式的、面向列的开源数据库HBase和数据仓库基础构架Hive进行数据管理;流式大数据处理框架Storm流处理,实时处理解析所述数据管理中的数据流;将所述经Storm流处理得到的数据流,导入关系数据库;分析处理所述关系数据库中的数据,并直观展示所述经分析处理后的数据。

【技术特征摘要】
1.一种基于Hadoop架构数据分析图表展示的方法,其特征在于,包括:进行原始数据采集;采用分布式文件系统HDFS作为底层数据存储介质,在其之上构建更高层次的分布式的、面向列的开源数据库HBase和数据仓库基础构架Hive进行数据管理;流式大数据处理框架Storm流处理,实时处理解析所述数据管理中的数据流;将所述经Storm流处理得到的数据流,导入关系数据库;分析处理所述关系数据库中的数据,并直观展示所述经分析处理后的数据。2.如权利要求1所述的基于Hadoop架构数据分析图表展示的方法,其特征在于,所述进行原始数据采集,包括:采用分布式网络爬虫进行原始数据采集。3.如权利要求2所述的基于Hadoop架构数据分析图表展示的方法,其特征在于,所述采用分布式网络爬虫进行原始数据采集,包括:采用定时定向的信息采集方式进行统一调度,采用分布式网络爬虫进行原始数据采集。4.如权利要求1所述的基于Hadoop架构数据分析图表展示的方法,其特征在于,所述采用分布式文件系统HDFS作为底层数据存储介质,在其之上构建更高层次的分布式的、面向列的开源数据库HBase和数据仓库基础构架Hive进行数据管理,包括:采用分布式文件系统HDFS作为底层数据存储介质,通过映射函数MapReduce编程模式进行分析,在其之上构建更高层次的分布式的、面向列的开源数据库HBase和数据仓库基础构架Hive进行数据管理。5.如权利要求1所述的基于Hadoop架构数据分析图表展示的方法,其特征在于,所述分析处理所述关系数据库中的数据,并直观展示所述经分析处理后的数据,包括:分析处理所述关系数据库中的数据,并通过商业级数据图表Echarts前端技术直观展示所述经分析处理后的数...

【专利技术属性】
技术研发人员:王光
申请(专利权)人:深圳市德信软件有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1