一种多对多的数据采集系统及其采集方法技术方案

技术编号:11267956 阅读:357 留言:0更新日期:2015-04-08 14:03
本发明专利技术涉及计算机应用技术领域,特别涉及一种多对多的数据采集系统及其采集方法。本发明专利技术的系统由采集管理平台、采集引擎和数据处理服务器三部分构成。采集管理平台,用于管理节点、通信协议、ETL规则和采集任务;采集引擎,支持多种通信方式,通过通信协议与数据提供方节点进行握手,识别提供方的合法性并进行数据采集,完成后通知数据处理服务器;数据处理服务器包括了数据清洗和拔插式的数据处理组件。本发明专利技术将数据采集流程规范化,组件接口标准化,具有扩展性好,适用范围广等特点,可应用于多种关系型数据库的系统中。

【技术实现步骤摘要】
一种多对多的数据采集系统及其采集方法
本专利技术涉及计算机应用
,特别涉及一种多对多的数据采集系统及其采集方法。
技术介绍
随着计算机应用技术的发展,应用系统间的数据关联越趋紧密,无时无刻都有大量数据信息进行交互。同时,伴随着发展的多样性,各系统数据交互方式不一,当交互方式增加时,数据提供方与接收方均需要额外添加渠道,或者各自建立自己的一套方案来解决这一兼容性问题。当原有交互方式改变时,往往伴随着大量变更工作。
技术实现思路
本专利技术解决的技术问题之一在于针对交互方式多样,各系统增加渠道开销大的问题,提供了一种多对多的数据采集系统。实现数据提供方与接收方统一管理,大大减少了多个系统间新增渠道造成的额外开销,保证了采集任务流程化、节点间交互多样性及可扩展性。本专利技术解决的技术问题之二在于针对交互方式多样,各系统增加渠道开销大的问题,提供了一种多对多的数据采集系统的采集方法。实现数据提供方与接收方统一管理,减少多个系统间新增渠道造成的额外开销,保证采集任务流程化、节点间交互多样性及可扩展性。本专利技术解决上述技术问题之一的技术方案是:所述的系统由采集管理平台、采集引擎和数据处理服务器构成,并提供相应的开发和集成接口;所述的采集管理平台,用于管理数据提供方节点、接收方节点、通信协议、ETL规则和采集任务;每一个提供方或接收方作为一个子节点,描述了与平台的交互及状态,通过平台统一管理;通信协议包括了可配置的通信方式及其规则,是数据采集的方式;ETL规则负责对采集文件进行栏位、条件清洗;采集任务是一条包含了节点信息、通信协议、ETL规则以及其他任务补充信息的数据集合;所述的采集引擎,支持多种通信方式,通过通信协议与数据提供方进行握手,识别提供方的合法性并进行数据采集,通知数据处理服务器;所述的数据处理服务器,包括了数据清洗和拔插式的数据处理组件;数据清洗模块利用ETL规则以及任务指定的数据处理组件对采集数据进行萃取、转换并加载至目标节点;数据处理组件采用系统提供的标准接口,每一个组件处理一种数据文件,可根据实际情况进行拔插。所述的采集管理平台提供CRUD访问接口,用于查询及维护节点信息、通信协议、ETL规则和采集任务。本专利技术解决上述技术问题之二的技术方案是:所述的方法中,建立新任务的详细流程是:第一步,分配提供方和接收方节点编号,维护节点信息;第二步,维护通信协议,添加通信方式及其规则;第三步,与数据提供方和接收方进行通信绿灯测试;第四步,维护ETL规则;第五步,维护任务信息,添加任务使用的节点信息、通信协议、ETL规则及其他任务补充信息;第六步,日志记录,完成;采集引擎的详细工作流程是:第一步,采集引擎调度服务处于监听状态;第二步,根据任务循环周期开始执行任务;第三步,根据任务节点参数验证节点活动状态;第四步,根据任务通信协议与提供方节点握手,连接成功后检查文件完整性并进行文件采集;第五步,添加数据清洗任务至数据处理服务器队列;第六步,日志记录,完成;数据处理服务器的详细工作流程是:第一步,数据处理服务器队列处于运行状态;第二步,分析任务,获取ETL规则、文件类型、目标节点数据库类型及存储位置;第三步,根据文件类型调用对应的数据处理组件;第四步,根据ETL规则对数据文件进行萃取、转换及入库;第五步,日志记录,完成。本专利技术针对交互方式多样,各系统增加渠道开销大的问题,通过管理平台、引擎和服务器的三大部件,将多个系统以节点的模式通过采集、清洗、入库任务链紧密结合在一起。管理平台统一管理节点、通信协议、ETL规则和任务,实现任务流程化管理;采集引擎支持协议多样性,提供标准接口,保证了协议可扩展;数据处理服务器支持可拔插的数据处理模块,同时将任务以队列的方式进行自动化处理。附图说明下面结合附图对本专利技术进一步说明:图1是本专利技术的总体结构图;图2是本专利技术的总体流程框图;图3是本专利技术任务流程的序列图;图4是本专利技术数据处理服务器的处理活动图。具体实施方式本专利技术针对交互方式多样,各系统增加渠道开销大的问题,提供了一种多对多的数据采集系统及其方法。实现了数据提供方与接收方统一管理,大大减少了多个系统间新增渠道造成的额外开销,保证了采集任务流程化、节点间交互多样性及可扩展性。见图1、2所示,本专利技术由采集管理平台、采集引擎和数据处理服务器构成;采集管理平台:用于管理数据提供方和接收方节点、通信协议、ETL规则以及采集任务;节点:每一个提供方或接收方作为一个子节点,描述了与平台的交互及状态,通过平台统一管理;通信协议:包括了可配置的通信方式及其规则,是数据采集的方式;ETL规则:负责对采集文件进行栏位、条件清洗;采集任务:指一条包含了节点信息、通信协议、ETL规则以及其他任务补充信息的数据集合。图2表示了任务的序列流程,任务执行的详细流程是:第一步,采集引擎调度服务拆分任务信息;第二步,根据任务节点参数验证提供方节点活动状态;第三步,接收状态反馈;第四步,根据任务通信协议与提供方节点握手;第五步,接收状态反馈;第六步,连接成功后检查文件完整性并进行文件采集;第七步,添加数据清洗任务至数据处理服务器队列;第八步,队列处理清洗任务;第九步,加载清洗后数据至接收方节点;第十步,接收状态反馈;第十一步,任务状态更新;第十二步,日志记录,完成。图3表示了数据处理服务器的处理活动状态,数据处理服务器详细的业务流程为:第一步,数据处理服务器解析清洗任务,获取ETL规则、文件类型、目标节点数据库类型及存储位置;第二步,根据文件类型调用对应的数据处理组件;第三步,加载文件入缓存库;第四步,根据ETL规则对缓存数据进行萃取、转换;第五步,根据目标节点数据库类型及存储位置进行载入;第六步,任务状态更新;第七步,日志记录,完成。本文档来自技高网...
一种多对多的数据采集系统及其采集方法

【技术保护点】
一种多对多的数据采集系统,其特征在于:所述的系统由采集管理平台、采集引擎和数据处理服务器构成,并提供相应的开发和集成接口;所述的采集管理平台,用于管理数据提供方节点、接收方节点、通信协议、ETL规则和采集任务;每一个提供方或接收方作为一个子节点,描述了与平台的交互及状态,通过平台统一管理;通信协议包括了可配置的通信方式及其规则,是数据采集的方式;ETL规则负责对采集文件进行栏位、条件清洗;采集任务是一条包含了节点信息、通信协议、ETL规则以及其他任务补充信息的数据集合;所述的采集引擎,支持多种通信方式,通过通信协议与数据提供方进行握手,识别提供方的合法性并进行数据采集,通知数据处理服务器;所述的数据处理服务器,包括了数据清洗和拔插式的数据处理组件;数据清洗模块利用ETL规则以及任务指定的数据处理组件对采集数据进行萃取、转换并加载至目标节点;数据处理组件采用系统提供的标准接口,每一个组件处理一种数据文件,可根据实际情况进行拔插。

【技术特征摘要】
1.一种多对多的数据采集系统,其特征在于:所述的系统由采集管理平台、采集引擎和数据处理服务器构成,并提供相应的开发和集成接口;所述的采集管理平台,用于管理数据提供方节点、接收方节点、通信协议、ETL规则和采集任务;每一个提供方或接收方作为一个子节点,描述了与平台的交互及状态,通过平台统一管理;通信协议包括了可配置的通信方式及其规则,是数据采集的方式;ETL规则负责对采集文件进行栏位、条件清洗;采集任务是一条包含了节点信息、通信协议、ETL规则的数据集合;所述的采集引擎,支持多种通信方式,通过通信协议与数据提供方进行握手,识别提供方的合法性并进行数据采集,通知数据处理服务器;所述的数据处理服务器,包括了数据清洗和拔插式的数据处理组件;数据清洗模块利用ETL规则以及任务指定的数据处理组件对采集数据进行萃取、转换并加载至目标节点;数据处理组件采用系统提供的标准接口,每一个组件处理一种数据文件,可根据实际情况进行拔插。2.根据权利要求1所述的一种多对多的数据采集系统,其特征在于:所述的采集管理平台提供CRUD访问接口,用于查询及维护节点信息、通信协议、ETL...

【专利技术属性】
技术研发人员:郑葵荣艾建文安宏伟季统凯
申请(专利权)人:国云科技股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1