The invention discloses a method, device, device and storage medium for data processing. The method includes: obtaining the data access rules corresponding to the target task, including task information and data processing rules, including at least one data source to be processed in the task information; judging the type of data source to be processed according to the task information, calling the data source reading class corresponding to each data source type, and reading at least one data source; Write the read data into the message queue, get the data from the message queue, and process the data according to the data processing rules. Using the technical scheme of the embodiment of the invention, when a new data source is added, only a new data source reading class needs to be added, and the data processing part is universal, thus reducing the cost of data source expansion and improving the performance.
【技术实现步骤摘要】
一种数据处理方法、装置、设备和存储介质
本专利技术实施例涉及信息处理技术,尤其涉及一种数据处理方法、装置、设备和存储介质。
技术介绍
目前很多企业需要对大量分散、标准不统一的数据进行整合,以便为企业的决策提供分析依据。ETL(Extract-Transform-Load,数据仓库技术)就是对大量数据进行抽取、清洗、转换,然后加载到数据仓库的技术。ETL是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。但是目前的开源ETL工具,往往只能支持部分数据源,当出现新的数据源时,就无法进行适用,或是新增数据源时,需要进行较大的改动。这样就使得扩展数据源的成本增加,不利于ETL系统性能的提高。
技术实现思路
本专利技术实施例提供一种数据处理方法、装置、设备和存储介质,以实现数据源通用,当出现新的数据源时,只需添加新的数据源读取类,以降低数据扩展成本,提高性能。第一方面,本专利技术实施例提供了一种数据处理方法,该方法包括:获取与目标任务对应的数据接入规则,所述数据接入规则包括任务信息和数据处理规则,所述任务信息中包括至少一项待处理的数据源;根据所述任务信息,判断所述待处理的数据源的类型,并调用与每个所述数据源的类型分别对应的数据源读取类,读取至少一项数据源;将读取得到的数据写入至消息队列中,从所述消息队列中获取所述数据,并根据所述数据处理规则对所述数据进行处理。第二方面,本专利 ...
【技术保护点】
1.一种数据处理方法,其特征在于,包括:/n获取与目标任务对应的数据接入规则,所述数据接入规则包括任务信息和数据处理规则,所述任务信息中包括至少一项待处理的数据源;/n根据所述任务信息,判断所述待处理的数据源的类型,并调用与每个所述数据源的类型分别对应的数据源读取类,读取至少一项数据源;/n将读取得到的数据写入至消息队列中,从所述消息队列中获取所述数据,并根据所述数据处理规则对所述数据进行处理。/n
【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:
获取与目标任务对应的数据接入规则,所述数据接入规则包括任务信息和数据处理规则,所述任务信息中包括至少一项待处理的数据源;
根据所述任务信息,判断所述待处理的数据源的类型,并调用与每个所述数据源的类型分别对应的数据源读取类,读取至少一项数据源;
将读取得到的数据写入至消息队列中,从所述消息队列中获取所述数据,并根据所述数据处理规则对所述数据进行处理。
2.根据权利要求1所述的数据处理方法,其特征在于,所述方法集成于网页Web管理组件,以及至少一个数据接入组件中实现,所述方法具体包括:
通过所述Web管理组件获取与所述目标任务对应的所述数据接入规则;
通过所述数据接入组件根据所述任务信息,判断所述待处理的数据源的类型,并调用与每个所述数据源的类型分别对应的所述数据源读取类,读取至少一项所述数据源;
通过所述数据接入组件将读取得到的所述数据写入至所述消息队列中,从所述消息队列中获取所述数据,并根据所述数据处理规则对所述数据进行处理。
3.根据权利要求2所述的数据处理方法,其特征在于,所述数据接入组件为java存档文件jar包;
在通过所述Web管理组件获取与目标任务对应的数据接入规则之后,还包括:
通过所述Web管理组件如果检测到对所述目标任务的启动指令,则设置所述目标任务的处理状态为启动状态;
通过所述Web管理组件向所述数据接入组件发送与所述目标任务对应的jar命令,以控制所述数据接入组件开始执行数据的读取及处理操作,所述jar命令中包括有用于识别所述至少一项数据源的类型的任务信息;
通过所述Web管理组件如果检测到对所述目标任务的停止指令,则设置所述目标任务的处理状态为停止状态;
所述方法还包括:通过所述数据接入组件如果检测到所述目标任务的处理状态为停止状态,则停止所述数据的读取及处理操作。
4.根据权利要求2所述的数据处理方法,其特征在于,通过所述数据接入组件调用与每个所述数据源的类型分别对应的所述数据源读取类,具体包括:
通过所述数据接入组件根据所述数据源的类型,查找是否存在与所述数据源的类型对应的数据源读取类;
通过所述数据接入组件如果确定存在所述数据源读取类,则调用该数据源读取类;
通过所述数据接入组件如果确定不存在所述数据源读取类,则从读取类库中获取与所述数据源的类型对应的所述数据源读取类,添加于所述数据接入组件中,并调用该数据源读取类。
5.根据权利要求2所述的数据处理方法,其特征在于,通过所述数据接入组件读取至少一项所述数据源,具体包括:
通过所述数据接入组件...
【专利技术属性】
技术研发人员:火一莽,张立志,万月亮,
申请(专利权)人:北京锐安科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。