一种基于大数据服务的治理及应用系统技术方案

技术编号:28373482 阅读:42 留言:0更新日期:2021-05-08 00:00
本发明专利技术涉及大数据治理技术领域,且公开了一种基于大数据服务的治理及应用系统,包括:运行有数据采集管理系统服务端软件的采集管理服务器CMSbds,运行有大数据查询系统服务端软件的应用服务器ASbds,运行有非实时类结构化数据采集系统服务端软件且配置有Hive数据库的采集服务器集群CSCrtuda,运行有实时类结构化数据采集系统服务端软件且配置有HBase数据库的采集服务器集群CSCrtsdc,运行有半结构化及非结构化数据采集系统服务端软件且配置有HDFS数据库的采集服务器集群CSCssauda。本发明专利技术解决了如何对大数据进行集成和统一管理的技术问题。

【技术实现步骤摘要】
一种基于大数据服务的治理及应用系统
本专利技术涉及大数据治理
,具体为一种基于大数据服务的治理及应用系统。
技术介绍
大数据服务融合了大数据、云计算、移动互联网等新一代信息技术,通过各数据服务主体之间的交互协作,将以数据为基础的各类资源进行虚拟化和服务化,为用户提供从基础数据资源获取、存储、组织、挖掘、分析、决策到后续的服务评估、管理、安全等全过程的数据生态服务,是一种全新的数据信息服务模式。鉴于大数据多源异构化的特点,如果大数据服务平台没有统一规划和数据标准,那么将导致采集的数据难以集成和统一管理。因此,如何做好大数据治理,成为建设大数据服务平台亟待解决的关键问题。
技术实现思路
(一)解决的技术问题针对现有技术的不足,本专利技术提供一种基于大数据服务的治理及应用系统,以解决如何对大数据进行集成和统一管理的技术问题。(二)技术方案为实现上述目的,本专利技术提供如下技术方案:一种基于大数据服务的治理及应用系统,包括:运行有数据采集管理系统服务端软件的采集管理服务器CMSbds,运行有大数据查询系统服务端软件的应用服务器ASbds;还包括:运行有非实时类结构化数据采集系统服务端软件且配置有Hive数据库的采集服务器集群CSCrtuda,运行有实时类结构化数据采集系统服务端软件且配置有HBase数据库的采集服务器集群CSCrtsdc,运行有半结构化及非结构化数据采集系统服务端软件且配置有HDFS数据库的采集服务器集群CSCssauda;r>所述采集管理服务器CMSbds分别与采集服务器集群CSCrtuda、采集服务器集群CSCrtsdc和采集服务器集群CSCssauda进行相互之间的通信连接;所述应用服务器ASbgs分别与采集服务器集群CSCrtuda、采集服务器集群CSCrtsdc和采集服务器集群CSCssauda进行相互之间的通信连接;所述应用服务器ASbds通过防火墙与外部业务系统进行数据交互。2.根据权利要求1所述的基于大数据服务的治理及应用系统,其特征在于,所述采集服务器集群CSC上的所述数据采集系统在采集数据时的采集方法如下:Step1,数据采集系统获取采集服务器集群CSC的采集通道的总数量Nt、以及每个采集通道分配的数据源节点信息;Step2,数据采集系统判断采集服务器集群CSC的采集通道中是否存在未分配到数据源采集节点的采集通道;若否,即不存在,则返回Step1;若是,即存在,则执行步骤Step3;Step3,数据采集系统获取可采集的数据源节点的总数量Mt;Step4,数据采集系统计算任一个数据源节点理论上可分配的平均采集通道数量[Nt/Mt];Step5,数据采集系统获取任一个数据源节点DSNi上实际运行的采集通道的数量Ni;Step6,数据采集系统判断所述数据源节点DSNi上实际运行的采集通道数量Ni是否小于[Nt/Mt];若否,即Ni不小于[Nt/Mt],则返回Step5;若是,即Ni小于[Nt/Mt],则执行步骤Step7;Step7,数据采集系统向该数据源节点DSNi分配采集通道,直至该数据源节点DSNi上实际运行的采集通道的数量Ni达到[Nt/Mt]个采集通道为止;Step8,数据采集系统判断采集服务器集群CSC的采集通道中是否还存在未分配到数据源采集节点的采集通道;若否,即不存在,则返回Step1;若是,即存在,则返回Step5。进一步的,所述数据采集管理系统将非实时类结构化数据的采集任务定向分配给运行在采集服务器集群CSCrtuda上的非实时类结构化数据采集系统,该采集服务器集群CSCrtuda只采集非实时类的结构化数据类型,而不采集其他的数据类型,并且将采集的非实时类结构化数据定向存储到Hive数据库中。进一步的,所述数据采集管理系统将实时类结构化数据的采集任务定向分配给运行在采集服务器集群CSCrtsdc上的实时类结构化数据采集系统,该采集服务器集群CSCrtsdc只采集实时类的结构化数据类型,而不采集其他的数据类型,并且将采集的实时类结构化数据定向存储到HBase数据库中。进一步的,所述数据采集管理系统将半结构化及非结构化数据的采集任务定向分配给运行在采集服务器集群CSCssauda上的半结构化及非结构化数据采集系统,该采集服务器集群CSCssauda只采集半结构化及非结构化数据类型,而不采集其他的数据类型,并且将采集的半结构化及非结构化数据定向存储到HDFS数据库中。(三)有益的技术效果与现有技术相比,本专利技术具备以下有益的技术效果:本专利技术的数据采集管理系统按照数据源节点上的数据结构类型定向分配数据采集任务,采集服务器集群CSC按照分配任务进行定向采集、并且将采集的数据进行定向存储,从而使定向采集的同构数据可以更加高效地进行集成操作,同时也便于同构数据的统一管理。附图说明图1为本专利技术的数据采集系统的采集步骤流程图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。一种基于大数据服务的治理及应用系统,包括:运行有数据采集管理系统服务端软件的采集管理服务器CMSbds,运行有大数据查询系统服务端软件的应用服务器ASbds;所述基于大数据服务的治理及应用系统还包括:运行有非实时类结构化数据采集系统服务端软件且配置有Hive数据库的采集服务器集群CSCrtuda,运行有实时类结构化数据采集系统服务端软件且配置有HBase数据库的采集服务器集群CSCrtsdc,运行有半结构化及非结构化数据采集系统服务端软件且配置有HDFS数据库的采集服务器集群CSCssauda;所述采集管理服务器CMSbds分别与采集服务器集群CSCrtuda、采集服务器集群CSCrtsdc和采集服务器集群CSCssauda进行相互之间的通信连接;所述应用服务器ASbgs分别与采集服务器集群CSCrtuda、采集服务器集群CSCrtsdc和采集服务器集群CSCssauda进行相互之间的通信连接;进一步的,所述应用服务器ASbds通过防火墙与外部业务系统进行数据交互;其中,Hive数据库,用于存储周期性获取的非实时类数据,该类数据具有固定的表结构,非实时类结构化数据通过Sqoop脚本定时从源数据节点增量抽取到Hive数据库中;HBase数据库,用于存储实时类结构化数据,采集速率在毫秒级和秒级,该类数据采用键值对方式存储;HDFS数据库,用于存储半结构化数据和非结构化数据,半结构化数据包括波形文件和模型文件,非结构化数据包括以文件形式存储的图像和视频,半结构化数据与非结构化数据通本文档来自技高网...

【技术保护点】
1.一种基于大数据服务的治理及应用系统,其特征在于,包括:运行有数据采集管理系统服务端软件的采集管理服务器CMSbds,运行有大数据查询系统服务端软件的应用服务器ASbds;/n还包括:运行有非实时类结构化数据采集系统服务端软件且配置有Hive数据库的采集服务器集群CSCrtuda,运行有实时类结构化数据采集系统服务端软件且配置有HBase数据库的采集服务器集群CSCrtsdc,运行有半结构化及非结构化数据采集系统服务端软件且配置有HDFS数据库的采集服务器集群CSCssauda;/n所述采集管理服务器CMSbds分别与采集服务器集群CSCrtuda、采集服务器集群CSCrtsdc和采集服务器集群CSCssauda进行相互之间的通信连接;/n所述应用服务器ASbgs分别与采集服务器集群CSCrtuda、采集服务器集群CSCrtsdc和采集服务器集群CSCssauda进行相互之间的通信连接;/n所述应用服务器ASbds通过防火墙与外部业务系统进行数据交互。/n

【技术特征摘要】
1.一种基于大数据服务的治理及应用系统,其特征在于,包括:运行有数据采集管理系统服务端软件的采集管理服务器CMSbds,运行有大数据查询系统服务端软件的应用服务器ASbds;
还包括:运行有非实时类结构化数据采集系统服务端软件且配置有Hive数据库的采集服务器集群CSCrtuda,运行有实时类结构化数据采集系统服务端软件且配置有HBase数据库的采集服务器集群CSCrtsdc,运行有半结构化及非结构化数据采集系统服务端软件且配置有HDFS数据库的采集服务器集群CSCssauda;
所述采集管理服务器CMSbds分别与采集服务器集群CSCrtuda、采集服务器集群CSCrtsdc和采集服务器集群CSCssauda进行相互之间的通信连接;
所述应用服务器ASbgs分别与采集服务器集群CSCrtuda、采集服务器集群CSCrtsdc和采集服务器集群CSCssauda进行相互之间的通信连接;
所述应用服务器ASbds通过防火墙与外部业务系统进行数据交互。


2.根据权利要求1所述的基于大数据服务的治理及应用系统,其特征在于,所述采集服务器集群CSC上的所述数据采集系统在采集数据时的采集方法如下:
Step1,数据采集系统获取采集服务器集群CSC的采集通道的总数量Nt、以及每个采集通道分配的数据源节点信息;
Step2,数据采集系统判断采集服务器集群CSC的采集通道中是否存在未分配到数据源采集节点的采集通道;
若否,即不存在,则返回Step1;
若是,即存在,则执行步骤Step3;
Step3,数据采集系统获取可采集的数据源节点的总数量Mt;
Step4,数据采集系统计算任一个数据源节点理论上可分配的平均采集通道数量[Nt/Mt];
Step5,数据采集系统获取任一个数据源节点DSNi上实际运行的采集通道的数量Ni;
Step6,数据采集系统判断...

【专利技术属性】
技术研发人员:孙铭
申请(专利权)人:北京虹信万达科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1