分布式数据采集分析系统及方法、服务器及介质技术方案

技术编号:23932819 阅读:46 留言:0更新日期:2020-04-25 02:04
本发明专利技术公开了一种分布式数据采集分析系统及方法、服务器及介质,其通过不同的采集方式全面对数据进行采集,采用分布式架构有效的横向扩展数据量的增加,且kafka数据库高吞吐量优势满足直接数据采集和传输需求。数据提取单元采用脚本语言实现,能够在线及时修改调试,同时规则引擎子单元的使用能够动态分配数据,灵活性的数据分发为系统的扩展性提供了基础。

Distributed data acquisition and analysis system and method, server and medium

【技术实现步骤摘要】
分布式数据采集分析系统及方法、服务器及介质
本专利技术涉及数据处理
,尤其涉及一种分布式数据采集分析系统及方法、服务器及介质。
技术介绍
随着互联网信息化的高速发展,信息量的迅速增大,人们在面对大量数据面前不可避免的需要耗费大量精力进行筛选分析,从而得到有效且有价值的信息。针对数据私密性不同,数据可以分为两种,1、公开性的数据(主要分布在互联网公网上),2、私有性数据(企业内部系统产生的数据,如系统业务数据、系统日志信息、用户行为信息等)。数据的主要特点为数据量大、数据类型复杂、价值密度低等。使得通过传统集中式数据采集、分析工作变得巨大且繁琐,针对某些实时性要求高的场景下暴露出采集时间成本过大、系统调度能力不足、分析系统能力较差。
技术实现思路
有鉴于此,本专利技术实施例提供了一种分布式数据采集分析系统及方法、服务器及介质,使之能够实时处理高吞吐量的数据,缩短采集时间,并具有便于调整的优势等。本专利技术实施例的第一方面,提供了一种分布式数据采集分析系统,其包含数据采集模块、数据传输模块、数据中心模块、数据分析模块、数据推送模块:所述数据采集模块,配置为采用分布式架构对数据进行采集;所述数据传输模块,配置为将采集到的数据信息传输给数据中心模块进行集中处理;所述数据中心模块,配置为对数据进行存储,并采用规则引擎动态规则将数据分发给数据分析模块和数据推送模块;所述数据分析模块,配置为将采集的数据提交到实时计算框架中进行数据分析处理;所述数据推送模块,配置为将原始数据或者分析后的数据推送给客户系统或者个人用户自定义地址。本专利技术实施例的第二方面,提供了一种分布式数据采集分析方法,所述分布式数据采集分析方法包括如下内容:采用分布式架构对数据进行采集;将采集到的数据信息进行集中处理;对数据进行存储,并采用规则引擎动态规则对数据进行分发。将采集的数据提交到实时计算框架中进行数据分析处理;将原始数据或者分析后的数据推送给客户系统或者个人用户自定义地址。本专利技术实施例的第三方面,提供了一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述分布式数据采集分析方法的步骤。本专利技术实施例的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上所述分布式数据采集分析方法的步骤。本专利技术提供的分布式数据采集分析系统及方法、服务器及介质,其通过不同的采集方式全面对数据进行采集,采用分布式架构有效的横向扩展数据量的增加,且kafka数据库高吞吐量优势满足直接数据采集和传输需求。数据提取单元采用脚本语言实现,能够在线及时修改调试,同时规则引擎子单元的使用能够动态分配数据,灵活性的数据分发为系统的扩展性提供了基础。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的分布式数据采集分析系统的部分模块框图;图2为本专利技术实施例提供的分布式数据采集分析系统的另一部分模块框图;图3为本专利技术实施例提供的分布式数据采集分析方法的流程框图;图4为本专利技术实施例提供的服务器的结构示意图。具体实施方式为使得本专利技术的专利技术目的、特征、优点能够更加的明显和易懂,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本专利技术一部分实施例,而非全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。如图1所示,本专利技术实施例提供的一种分布式数据采集分析系统,其包含数据采集模块10、数据传输模块20、数据中心模块30、数据分析模块40、数据推送模块50;所述数据采集模块10配置为采用分布式架构对数据进行采集;所述数据传输模块20配置为将采集到的数据信息传输给数据中心模块30进行集中处理;所述数据中心模块30配置为对数据进行存储,并采用规则引擎动态规则将数据分发给数据分析模块40和数据推送模块50;所述数据分析模块40配置为将采集的数据提交到实时计算框架中进行数据分析处理;所述数据推送模块50配置为将原始数据或者分析后的数据推送给客户系统或者个人用户自定义地址。其中,如图1所示,所述数据采集模块10包括网络资源下载单元11、数据提取单元12、数据输出单元13以及API接口单元14。所述数据中心模块30包括数据存储单元31、数据配置单元32以及URL任务调度单元33,其中,所述数据存储单元31包括用于存储大数据场景的kafka数据库和用于存储持久化数据的MySQL数据库;所述数据配置单元32配置为将采集的原始数据按照兹定于的规则分到的对应的数据分析模块40;所述URL任务调度单元33配置为为数据下载提供任务链接,以及存储数据提取的URL链接。如图1所示,所述API接口单元14、数据提取单元12、数据输出单元13组成主动上报子模块,其主动上报流程为:业务系统调用API接口单元14将数据进行主动上报,经过数据转换后调用数据提取单元12,数据提取单元12通过提取脚本和提取规则得到相应的数据,然后将结果传输给数据输出单元13,由数据输出单元13将数据添加到Kafka数据库中进行存储。具体的,所述主动上报子模块采用数据埋点和日志采集两种方式;其中,数据埋点方式包括:首先定义埋点采集规范、配置埋点指标管理自定义“指标+维度”体系,然后在配置管理页面定义埋点指标等信息后,各个系统以插件形式集成埋点SDK,对于每一个关键行为或采集点通过API方式上报用户自定义数据。所述日志采集方式是根据不同日志资源生成方通过API接口进行主动上报采集。所述网络资源下载单元11、数据提取单元12、数据输出单元13组成被动收集子模块;其被动收集流程为:当采集模块服务启动后,首先网络资源下载单元11首先会从URL任务调度单元33的URL任务池中获取任务链接,根据URL所在域名地址建立连接池优化下载速度,从互联中下载资源。资源下载完毕后,传输给数据提取单元12,数据提取单元12在第一次启动时根据URL的任务标识从数据中心模块30的数据配置单元32中获取提取规则以及提取脚本。加载脚本后根据资源以及提取规则,将数据提取出来;然后数据提取单元12判别提取结果是否为URL链接,如果为URL链接则向URL任务调度单元33的URL任务池添加;反之则向结果传输给数据输出单元13中,数据输出单元13将数据添加到Kafka数据库中。如图2所示,所述数据配置单元32包括规则引擎子单元321;所述规则引擎子单元321配置为采集原始数据按照兹定于的规则分本文档来自技高网...

【技术保护点】
1.一种分布式数据采集分析系统,其特征在于,包含数据采集模块、数据传输模块、数据中心模块、数据分析模块、数据推送模块:/n所述数据采集模块,配置为采用分布式架构对数据进行采集;/n所述数据传输模块,配置为将采集到的数据信息传输给数据中心模块进行集中处理;/n所述数据中心模块,配置为对数据进行存储,并采用规则引擎动态规则将数据分发给数据分析模块和数据推送模块;/n所述数据分析模块,配置为将采集的数据提交到实时计算框架中进行数据分析处理;/n所述数据推送模块,配置为将原始数据或者分析后的数据推送给客户系统或者个人用户自定义地址。/n

【技术特征摘要】
1.一种分布式数据采集分析系统,其特征在于,包含数据采集模块、数据传输模块、数据中心模块、数据分析模块、数据推送模块:
所述数据采集模块,配置为采用分布式架构对数据进行采集;
所述数据传输模块,配置为将采集到的数据信息传输给数据中心模块进行集中处理;
所述数据中心模块,配置为对数据进行存储,并采用规则引擎动态规则将数据分发给数据分析模块和数据推送模块;
所述数据分析模块,配置为将采集的数据提交到实时计算框架中进行数据分析处理;
所述数据推送模块,配置为将原始数据或者分析后的数据推送给客户系统或者个人用户自定义地址。


2.根据权利要求1所述分布式数据采集分析系统,其特征在于,所述数据采集模块包括网络资源下载单元、数据提取单元、数据输出单元以及API接口单元,所述API接口单元、数据提取单元、数据输出单元组成主动上报子模块,所述网络资源下载单元、数据提取单元、数据输出单元组成被动收集子模块。


3.根据权利要求1所述分布式数据采集分析系统,其特征在于,所述数据中心模块包括数据存储单元和数据配置单元,其中,所述数据配置单元配置为将采集的原始数据按照兹定于的规则分到的对应的数据分析模块。


4.根据权利要求3所述分布式数据采集分析系统,其特征在于,所述数据中心模块还包括URL任务调度单元,所述URL任务调度单元配置为为数据下载提供任务链接,以及存储数据提取的URL链接。

【专利技术属性】
技术研发人员:胡春涛
申请(专利权)人:方正株式武汉科技开发有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1