一种分布式计算机集群下的数据采集系统技术方案

技术编号:14827241 阅读:102 留言:0更新日期:2017-03-16 14:13
一种分布式计算机集群下的数据采集系统,包含:消息转发模块、存储模块和多个信息收集模块;多个消息收集模块分别设置于多个业务系统的应用服务器上,用于检测应用服务器的数据状态,当数据状态发生变化时,采集应用服务器上的增量数据;消息转发模块与多个消息收集模块相连,用于收集多个消息收集模块获得的增量数据,将多个增量数据分别补充处理后合并为更新数据;存储模块与消息转发模块相连,用于将更新数据与存储的历史数据比对合并后根据数据类型存储。通过并发提升了数据传输的效率;通过内存队列为大集群的数据传输提供了顺序性、完整性和可靠性;以“只读+监控”的方式访问数据流,极大的降低了本系统与各业务系统的耦合度。

【技术实现步骤摘要】

本技术涉及计算机数据传输领域,尤指一种分布式计算机集群下的数据采集系统
技术介绍
随着分布式计算、网格计算和并行计算等技术的发展,银行计算机系统越来越朝着分布式集群方向演化,由多台不同类型的计算机协作配合,完成对业务的处理。在银行系统的计算机集群中,数据分散在各个计算机上,数据的集中采集比较困难,比如日志信息。目前通用的数据采集方法是设立专门的应用系统去集中采集数据,为避免给计算机集群系统带来性能压力,该类数据采集系统一般都是定期、批量方式去获取各计算机上的源数据,数据获取不及时;同时,为了能准确获取各类数据,还必须人工区分各类数据的来源路径、采集频率等,流程复杂且容易出错,一旦数据出错,又很难发现错误源来自哪个环节。因此,现有的分布式计算机集群环境下的数据采集方法存在不及时、易出错的缺陷,已经无法满足实际应用需要。
技术实现思路
本技术提出了一种分布式计算机集群下的数据采集系统,可以及时在集群中不同的计算机上获取多种来源数据,大幅缩短数据采集的时间,提高数据采集的效率,同时采用负载均衡单元和内存队列等技术手段,不影响计算机集群系统的稳定性,在具有通用性的前提下,与业务系统隔离,降低了业务系统的改造成本。为达上述目的,本技术所提供的一种分布式计算机集群下的数据采集系统,具体包含:消息转发模块、存储模块和复数个信息收集模块;所述复数个消息收集模块分别设置于复数个业务系统的应用服务器上,用于检测所述应用服务器的数据状态,当所述数据状态发生变化时,采集所述应用服务器上的增量数据;所述消息转发模块与所述复数个消息收集模块相连,用于收集所述复数个消息收集模块获得的增量数据,将复数个增量数据分别补充处理后合并为更新数据;所述存储模块与所述消息转发模块相连,用于将所述更新数据与存储的历史数据比对合并后根据数据类型存储。在上述分布式计算机集群下的数据采集系统中,优选的,所述系统还包含数据加工模块,所述数据加工模块与所述存储模块相连,用于分析处理所述更新数据和历史数据合并后的数据。在上述分布式计算机集群下的数据采集系统中,优选的,所述数据加工模块包含分析单元、计算单元和归档单元;所述分析单元用于分析获取所述更新数据和历史数据合并后的数据的数据属性;所述计算单元与所述归档单元用于根据所述数据属性将所述更新数据和历史数据合并后的数据归档处理。在上述分布式计算机集群下的数据采集系统中,优选的,所述消息转发模块还包含补充单元,所述补充单元用于将发送所述增量数据的应用服务器的发送端信息和发送时间补充至所述增量数据中。在上述分布式计算机集群下的数据采集系统中,优选的,所述消息转发模块还包含负载均衡单元和复数台内存队列单元;所述负载均衡单元分别与所述信息收集模块和内存队列单元相连,用于接收所述增量数据以及周期检查复数个内存队列单元使用状态,当所述负载均衡单元接收到所述增量数据后,根据所述内存队列单元使用状态分配至少两台内存队列单元对所述增量数据进行处理;所述内存队列单元用于将所述增量数据转发至所述存储模块。在上述分布式计算机集群下的数据采集系统中,优选的,所述负载均衡单元包含状态收集装置、通信装置和分配装置;所述状态收集装置用于获取当前内存队列单元的使用状态;所述通信装置用于提供所述消息转发模块与复数个信息收集模块的短连接数据通道;所述分配状态用于根据内存队列单元的使用状态分配内存队列。在上述分布式计算机集群下的数据采集系统中,优选的,状态收集装置包含计时器,所述计时器用于根据预置周期触发所述状态收集装置获取当前内存队列单元的使用状态。在上述分布式计算机集群下的数据采集系统中,优选的,所述信息收集模块包含监控单元,所述监控单元用于监控应用服务器的数据状态,当所述数据状态发生变化时输出触发信号。在上述分布式计算机集群下的数据采集系统中,优选的,所述信息收集模块包含信息采集单元,所述信息采集单元用于根据所述触发信号采集所述应用服务器上的增量数据。在上述分布式计算机集群下的数据采集系统中,优选的,所述增量数据包含业务类型信息以及交易数据。本技术的有益技术效果在于:通过并发提升了数据传输的效率;通过内存队列为大集群的数据传输提供了顺序性、完整性和可靠性;以“只读+监控”的方式访问数据流,无论业务系统如何设计,只要有可读的数据流,即可实现增量的数据收集;极大的降低了本系统与各业务系统的耦合度。附图说明此处所说明的附图用来提供对本技术的进一步理解,构成本申请的一部分,并不构成对本技术的限定。在附图中:图1为本技术所提供的分布式计算机集群下的数据采集系统结构示意图;图2A为本技术所提供的分布式计算机集群下的数据采集方法流程示意图;图2B为本技术所提供的分布式计算机集群下的数据采集方法一实例流程示意图;图3为本技术所提供的分布式计算机集群下的数据采集方法中增量获取数据流程示意图;图4为本技术所提供的分布式计算机集群下的数据采集方法中消息转发流程示意图。具体实施方式为使本技术实施例的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本技术做进一步详细说明。在此,本技术的示意性实施例及其说明用于解释本技术,但并不作为对本技术的限定。请参考图1所示,本技术还提供一种分布式计算机集群下的数据采集系统,所述系统包含:消息转发模块、存储模块和复数个信息收集模块;所述复数个消息收集模块分别设置于复数个业务系统的应用服务器上,用于检测所述应用服务器的数据状态,当所述数据状态发生变化时,采集所述应用服务器上的增量数据;所述消息转发模块与所述复数个消息收集模块相连,用于收集所述复数个消息收集模块获得的增量数据,将复数个增量数据分别补充处理后合并为更新数据;所述存储模块与所述消息转发模块相连,用于将所述更新数据与存储的历史数据比对合并后根据数据类型存储。其中,所述增量数据包含业务类型信息以及交易数据。在上述实施例中,所述信息收集模块包含监控单元和信息采集单元,所述监控单元用于监控应用服务器的数据状态,当所述数据状态发生变化时输出触发信号;所述信息采集单元用于根据所述触发信号采集所述应用服务器上的增量数据。在上述实施例中,所述系统还包含数据加工模块,所述数据加工模块与所述存储模块相连,用于分析处理所述更新数据和历史数据合并后的数据。其中,所述数据加工模块可根据实际需要选择添加,其作用在于帮助进一步处理存储的数据,便于后期其他业务系统使用时,能够较快读取。其中,所述数据加工模块还可包含分析单元、计算单元和归档单元;所述分析单元用于分析获取所述更新数据和历史数据合并后的数据的数据属性;所述计算单元与所述归档单元用于根据所述数据属性将所述更新数据和历史数据合并后的数据归档处理。在上述实施例中,所述消息转发模块还包含负载均衡单元和复数台内存队列单元;所述负载均衡单元分别与所述信息收集模块和内存队列单元相连,用于接收所述增量数据以及周期检查复数个内存队列单元使用状态,当所述负载均衡单元接收到所述增量数据后,根据所述内存队列单元使用状态分配至少两台内存队列单元对所述增量数据进行处理;所述内存队列单元用于将所述增量数据转发至所述存储模块。在上述实施例中,所述负载均衡单元包含状态收集装置、通信装本文档来自技高网...
一种分布式计算机集群下的数据采集系统

【技术保护点】
一种分布式计算机集群下的数据采集系统,其特征在于,所述系统包含:消息转发模块、存储模块和复数个信息收集模块;所述复数个消息收集模块分别设置于复数个业务系统的应用服务器上,用于检测所述应用服务器的数据状态,当所述数据状态发生变化时,采集所述应用服务器上的增量数据;所述消息转发模块与所述复数个消息收集模块相连,用于收集所述复数个消息收集模块获得的增量数据,将复数个增量数据分别补充处理后合并为更新数据;所述存储模块与所述消息转发模块相连,用于将所述更新数据与存储的历史数据比对合并后根据数据类型存储。

【技术特征摘要】
1.一种分布式计算机集群下的数据采集系统,其特征在于,所述系统包含:消息转发模块、存储模块和复数个信息收集模块;所述复数个消息收集模块分别设置于复数个业务系统的应用服务器上,用于检测所述应用服务器的数据状态,当所述数据状态发生变化时,采集所述应用服务器上的增量数据;所述消息转发模块与所述复数个消息收集模块相连,用于收集所述复数个消息收集模块获得的增量数据,将复数个增量数据分别补充处理后合并为更新数据;所述存储模块与所述消息转发模块相连,用于将所述更新数据与存储的历史数据比对合并后根据数据类型存储。2.根据权利要求1所述的分布式计算机集群下的数据采集系统,其特征在于,所述系统还包含数据加工模块,所述数据加工模块与所述存储模块相连,用于分析处理所述更新数据和历史数据合并后的数据。3.根据权利要求2所述的分布式计算机集群下的数据采集系统,其特征在于,所述数据加工模块包含分析单元、计算单元和归档单元;所述分析单元用于分析获取所述更新数据和历史数据合并后的数据的数据属性;所述计算单元与所述归档单元用于根据所述数据属性将所述更新数据和历史数据合并后的数据归档处理。4.根据权利要求1所述的分布式计算机集群下的数据采集系统,其特征在于,所述消息转发模块还包含补充单元,所述补充单元用于将发送所述增量数据的应用服务器的发送端信息和发送时间补充至所述增量数据中。5.根据权利要求1所述的分布式计算机集群下的数据采集系统,其特征在于,所述消息转发模块还包含负载均衡单元和复数...

【专利技术属性】
技术研发人员:何杰王辉武文斌李致波
申请(专利权)人:中国工商银行股份有限公司
类型:新型
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1