System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 多源异构数据处理方法、装置及系统制造方法及图纸_技高网

多源异构数据处理方法、装置及系统制造方法及图纸

技术编号:44053074 阅读:2 留言:0更新日期:2025-01-17 15:56
本发明专利技术提供了一种多源异构数据处理方法、装置及系统,涉及数据处理技术领域,包括:对多个数据目录进行监听,并在监听到数据目录内存储的多源异构数据文件发生变化时创建数据扫描任务;利用数据扫描集群内包含的节点,针对目标数据目录执行数据扫描任务,得到目标数据目录内发生变化的多源异构数据文件;利用多级数据处理集群内包含的节点,基于预设的通用配置信息表,对多源异构数据文件中每个数据维度对应的字段进行标准化转换得到数据处理结果文件。本发明专利技术可以实现多源异构数据的统一处理,不仅显著提升多源异构数据的处理效率,还可以有效缓解多源异构数据处理过程中存在的任务堵塞、数据丢失、服务延迟等问题。

【技术实现步骤摘要】

本专利技术涉及数据处理,尤其是涉及一种多源异构数据处理方法、装置及系统


技术介绍

1、多源异构数据的典型特点是来源多样化、格式不统一、数据量庞大,相关技术多采用定时调度、文件夹监听等方式对多源异构数据进行处理,但在面对大规模的多源异构数据时,容易导致任务堵塞、数据丢失、服务延迟等问题。


技术实现思路

1、有鉴于此,本专利技术的目的在于提供一种多源异构数据处理方法、装置及系统,可以实现多源异构数据的统一处理,不仅显著提升多源异构数据的处理效率,还可以有效缓解多源异构数据处理过程中存在的任务堵塞、数据丢失、服务延迟等问题。

2、第一方面,本专利技术提供了一种多源异构数据处理方法,方法应用于系统,系统内配置有数据扫描集群和多级数据处理集群,方法包括:

3、对多个数据目录进行监听,并在监听到数据目录内存储的多源异构数据文件发生变化时,针对发生变化的目标数据目录创建数据扫描任务,目标数据目录与数据扫描任务一一对应;

4、利用数据扫描集群内包含的节点,针对目标数据目录执行数据扫描任务,得到目标数据目录内发生变化的多源异构数据文件;

5、利用多级数据处理集群内包含的节点,基于预设的通用配置信息表,对多源异构数据文件中每个数据维度对应的字段进行标准化转换,得到多源异构数据文件对应的数据处理结果文件。

6、在一种实施方式中,利用数据扫描集群内包含的节点,针对目标数据目录执行数据扫描任务,得到目标数据目录内发生变化的多源异构数据文件,包括:

7、对数据扫描集群内每个节点的cpu利用率、内存使用率、网络宽带进行监控,以确定数据扫描集群内每个节点对应的负载情况;

8、根据数据扫描任务的权重、上一次针对目标数据目录执行数据扫描任务的时间间隔、数据扫描集群内每个节点的负载情况,确定数据扫描任务在数据扫描集群内每个节点上的第一调用优先级;

9、根据数据扫描集群内每个节点对应的负载情况,和数据扫描任务在数据扫描集群内每个节点上的第一调用优先级,为数据扫描任务分配扫描节点;

10、利用扫描节点针对目标数据目录执行数据扫描任务,得到目标数据目录内发生变化的多源异构数据文件。

11、在一种实施方式中,在利用多级数据处理集群内包含的节点,基于预设的通用配置信息表,对多源异构数据文件中每个数据维度对应的字段进行标准化转换,得到多源异构数据文件对应的数据处理结果文件之前,方法还包括:

12、对多源异构数据文件进行完整性检查;

13、如果多源异构数据文件通过完整性检查,则提取多源异构数据文件的文件特征;

14、通过机器学习模型,基于文件特征从预先配置的多个预处理步骤中确定多源异构数据文件对应的目标预处理步骤,以利用目标预处理步骤对多源异构数据文件进行预处理。

15、在一种实施方式中,通过机器学习模型,基于文件特征从预先配置的多个预处理步骤中确定多源异构数据文件对应的目标预处理步骤,包括:

16、基于预先配置的多个预处理步骤的历史执行结果,动态调整每个预处理步骤对应的权重;

17、通过机器学习模型,基于文件特征,每个预处理步骤对应的历史执行结果和权重,对利用每个预处理步骤对多源异构数据文件进行预处理所耗费的处理时长进行预测;

18、根据每个预处理步骤对应的权重和处理时长,确定每个预处理步骤对应的第二调度优先级;

19、按照第二调度优先级,从每个预处理步骤中确定多源异构数据文件对应的至少一个目标预处理步骤。

20、在一种实施方式中,利用多级数据处理集群内包含的节点,基于预设的通用配置信息表,对多源异构数据文件中每个数据维度对应的字段进行标准化转换,得到多源异构数据文件对应的数据处理结果文件,包括:

21、利用kafka消息队列,针对多源异构数据文件向第一级数据处理集群推送数据复制与解压任务,利用第一级数据处理集群内包含的节点,针对多源异构数据文件执行数据复制与解压任务,得到文件解压结果;

22、继续利用kafka消息队列,针对文件解压结果向第二级数据处理集群推送数据处理与解析任务,利用第二级数据处理集群内包含的节点,针对文件解压结果执行数据处理与解析任务,数据处理与解析任务用于基于预设的通用配置信息表,对文件解压结果中每个数据维度对应的字段进行标准化转换,得到数据处理结果文件。

23、在一种实施方式中,利用第一级数据处理集群内包含的节点,针对多源异构数据文件执行数据复制与解压任务,包括:

24、基于第一级数据处理集群内每个节点对应的当前资源占用率和当前处理能力,确定多源异构数据文件在第一级数据处理集群内每个节点的第三调度优先级;

25、按照第三调度优先级为多源异构数据文件分配处理节点;

26、利用处理节点针对多源异构数据文件执行数据复制与解压任务。

27、在一种实施方式中,基于预设的通用配置信息表,对文件解压结果中每个数据维度对应的字段进行标准化转换,得到数据处理结果文件,包括:

28、基于预设的通用配置信息表描述的数据结构与多个数据维度对应的字段之间的映射关系,对文件解压结果中每个数据维度对应的字段进行标准化转换,得到数据处理结果文件。

29、在一种实施方式中,方法还包括:

30、如果接收到针对数据处理结果文件的服务请求,则基于服务请求携带的查询条件从数据处理结果文件中提取目标数据信息,对目标数据信息进行渲染及展示;

31、其中,服务请求包括渲染服务请求、单点时序图服务请求和剖面图服务请求中的一种或多种。

32、第二方面,本专利技术还提供一种多源异构数据处理装置,装置应用于系统,系统内配置有数据扫描集群和多级数据处理集群,装置包括:

33、扫描任务创建模块,用于对多个数据目录进行监听,并在监听到数据目录内存储的多源异构数据文件发生变化时,针对发生变化的目标数据目录创建数据扫描任务,目标数据目录与数据扫描任务一一对应;

34、扫描任务执行模块,用于利用数据扫描集群内包含的节点,针对目标数据目录执行数据扫描任务,得到目标数据目录内发生变化的多源异构数据文件;

35、处理任务执行模块,用于利用多级数据处理集群内包含的节点,基于预设的通用配置信息表,对多源异构数据文件中每个数据维度对应的字段进行标准化转换,得到多源异构数据文件对应的数据处理结果文件。

36、第三方面,本专利技术还提供一种多源异构数据处理系统,包括处理器和存储器,存储器存储有能够被处理器执行的计算机可执行指令,处理器执行计算机可执行指令以实现第一方面提供的任一项的方法。

37、本专利技术提供的一种多源异构数据处理方法、装置及系统,对多个数据目录进行监听,并在监听到数据目录内存储的多源异构数据文件发生变化时,针对发生变化的目标数据目录创建数据扫描任务,目标数据目录与数据扫描任务一一对应;然后利用数据本文档来自技高网...

【技术保护点】

1.一种多源异构数据处理方法,其特征在于,所述方法应用于系统,所述系统内配置有数据扫描集群和多级数据处理集群,所述方法包括:

2.根据权利要求1所述的多源异构数据处理方法,其特征在于,利用所述数据扫描集群内包含的节点,针对所述目标数据目录执行所述数据扫描任务,得到所述目标数据目录内发生变化的多源异构数据文件,包括:

3.根据权利要求1所述的多源异构数据处理方法,其特征在于,在利用所述多级数据处理集群内包含的节点,基于预设的通用配置信息表,对所述多源异构数据文件中每个数据维度对应的字段进行标准化转换,得到所述多源异构数据文件对应的数据处理结果文件之前,所述方法还包括:

4.根据权利要求3所述的多源异构数据处理方法,其特征在于,通过机器学习模型,基于所述文件特征从预先配置的多个预处理步骤中确定所述多源异构数据文件对应的目标预处理步骤,包括:

5.根据权利要求1所述的多源异构数据处理方法,其特征在于,利用所述多级数据处理集群内包含的节点,基于预设的通用配置信息表,对所述多源异构数据文件中每个数据维度对应的字段进行标准化转换,得到所述多源异构数据文件对应的数据处理结果文件,包括:

6.根据权利要求5所述的多源异构数据处理方法,其特征在于,利用所述第一级数据处理集群内包含的节点,针对所述多源异构数据文件执行所述数据复制与解压任务,包括:

7.根据权利要求5所述的多源异构数据处理方法,其特征在于,基于预设的通用配置信息表,对所述文件解压结果中每个数据维度对应的字段进行标准化转换,得到数据处理结果文件,包括:

8.根据权利要求1所述的多源异构数据处理方法,其特征在于,所述方法还包括:

9.一种多源异构数据处理装置,其特征在于,所述装置应用于系统,所述系统内配置有数据扫描集群和多级数据处理集群,所述装置包括:

10.一种多源异构数据处理系统,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现权利要求1至7任一项所述的方法。

...

【技术特征摘要】

1.一种多源异构数据处理方法,其特征在于,所述方法应用于系统,所述系统内配置有数据扫描集群和多级数据处理集群,所述方法包括:

2.根据权利要求1所述的多源异构数据处理方法,其特征在于,利用所述数据扫描集群内包含的节点,针对所述目标数据目录执行所述数据扫描任务,得到所述目标数据目录内发生变化的多源异构数据文件,包括:

3.根据权利要求1所述的多源异构数据处理方法,其特征在于,在利用所述多级数据处理集群内包含的节点,基于预设的通用配置信息表,对所述多源异构数据文件中每个数据维度对应的字段进行标准化转换,得到所述多源异构数据文件对应的数据处理结果文件之前,所述方法还包括:

4.根据权利要求3所述的多源异构数据处理方法,其特征在于,通过机器学习模型,基于所述文件特征从预先配置的多个预处理步骤中确定所述多源异构数据文件对应的目标预处理步骤,包括:

5.根据权利要求1所述的多源异构数据处理方法,其特征在于,利用所述多级数据处理集群内包含的节点,基于预设的通用配置...

【专利技术属性】
技术研发人员:孙永尚邢武杰赵翔黄彦文李凡凡柴文涛薛洪斌谢仲华林超
申请(专利权)人:北京弘象科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1