System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于作业血缘知识图谱的大数据仓库治理方法技术_技高网

一种基于作业血缘知识图谱的大数据仓库治理方法技术

技术编号:43331870 阅读:8 留言:0更新日期:2024-11-15 20:29
本发明专利技术涉及一种基于作业血缘知识图谱的大数据仓库治理方法,包括以下步骤:采集并预处理大数据仓库的元数据,形成每个作业的唯一标识以及状态表;构建作业血缘知识图谱;构建大数据仓库分层架构,所述大数据仓库分层架构分为六层,数据的传递路径依次为源数据层、贴源层、历史明细层、标准层、基础集市层和应用集市层,且不可逆;基于大数据仓库分层架构实现源数据溯源功能,基于大数据仓库分层架构找出卡批作业,本发明专利技术基于跑批作业之间的依赖关系,构建了作业血缘知识图谱以梳理数据仓库内部复杂的加工路径,此外,本发明专利技术还实现了问题作业的定位功能等,使治理工作更加高效、有序。

【技术实现步骤摘要】

本专利技术涉及大数据管理,特别涉及一种基于作业血缘知识图谱的大数据仓库治理方法


技术介绍

1、在在银行业务数字化转型的推进过程中,大数据仓库作为数据管理和分析的核心技术,发挥着至关重要的作用。它不仅能够整合多渠道的数据资源,提升银行业务的运营效率,而且通过高效的数据处理与分析能力,为风险管理、市场分析、决策支持及客户关系管理等多个关键领域提供了坚实的数据支撑。

2、随着数据量的迅猛增长,银行大数据仓库所承受的压力与日俱增,且由于早期未形成规范化的管理体系,大部分运维工作尚且依赖于人工操作,导致作业运行的卡批频率不断上升。

3、大数据仓库负责数据的加工处理和存储工作,由于数据具有时效性,需要遵循作业之间的依赖关系按顺序调度,只有当前置作业全部完成后,才能获取到最新的数据进行加工。在计算资源有限的情况下,大数据仓库的架构设计、数据质量等因素都会影响数据加工的正常运行。

4、现有的大数据仓库采用结构化数据的方式记录作业之间的依赖关系,难以清晰观察整个数据仓库的全局架构,导致遗漏不合规的作业依赖设计。其次,当出现问题时,通常采用递归查询指定作业路径后逐个排查,计算量大且难以批量处理;同时当前的主要监控目标是作业运行的实时情况,导致难以为问题预防和提前修复提供目标。

5、因此有必要提供一种基于作业血缘知识图谱的大数据仓库治理方法,以解决现有技术中难以为问题作业快速定位和缺少可观测性指标的统计的问题,使大数据仓库治理工作更加高效、有序。


技术实现思路>

1、本专利技术的目的在于提供一种基于作业血缘知识图谱的大数据仓库治理方法,以解决现有技术中难以为问题作业快速定位和缺少可观测性指标的统计的问题,使大数据仓库治理工作更加高效、有序。

2、为了解决现有技术中存在的问题,本专利技术提供了一种基于作业血缘知识图谱的大数据仓库治理方法,包括以下步骤:

3、采集并预处理大数据仓库的元数据,形成每个作业的唯一标识以及状态表;

4、依据每个作业的唯一标识以及状态表,构建作业血缘知识图谱;

5、依据所述作业血缘知识图谱,构建大数据仓库分层架构,所述大数据仓库分层架构分为六层,分别是源数据层、贴源层、历史明细层、标准层、基础集市层和应用集市层,数据的传递路径依次为源数据层、贴源层、历史明细层、标准层、基础集市层和应用集市层,且不可逆;

6、基于大数据仓库分层架构实现源数据溯源功能,方式如下:其中,g为作业血缘知识图谱,v为作业的集合,e为作业间依赖关系的集合;;其中,a(v)为作业v的上游所有依赖的作业集合,作业v为在作业集合中指定的作业;为作业v的源数据作业集合;为作业v的入度,即该作业直接依赖的作业数量;p(v)为作业v的所有直接依赖的作业集合;p属于p(v);为作业v的所有直接依赖作业p(v)的源数据作业的全部集合;

7、依据a(v)找出指定作业的源数据作业集;

8、基于大数据仓库分层架构找出卡批作业,方式如下:

9、指定待查询作业,获取待查询作业直接依赖的作业集合,将直接依赖的作业集合并入未完成作业集合;

10、按顺序取出未完成作业集合中的作业,若当前取出作业的直接依赖作业集合中任意作业的完成时间都大于当前取出作业的开始执行时间,则表示当前取出的作业即为当前的卡批作业;若当前取出作业的直接依赖作业集合中存在完成时间小于或等于当前取出作业的开始执行时间的作业,则将当前取出作业的直接依赖作业集合中所有满足该条件的作业放入未完成作业集合中;

11、重复上述步骤,直到未完成作业集合中的所有作业均被取出检查,即可找出当前时间的所有卡批作业。

12、可选的,在所述基于作业血缘知识图谱的大数据仓库治理方法中,

13、唯一标识由每个作业的作业所属系统字段和作业名字段组成;

14、作业状态表包括作业所属系统、作业名、数据日期、作业开始时间、作业结束时间和作业完成状态。

15、可选的,在所述基于作业血缘知识图谱的大数据仓库治理方法中,所述作业血缘知识图谱包含3类实体和2种关联边,3类实体分别为数据库节点、系统节点以及作业节点,2种关联边分别为从属关系和依赖关系。

16、可选的,在所述基于作业血缘知识图谱的大数据仓库治理方法中,

17、源数据层包含原始数据的副本,原始数据来自各种业务系统、外部数据源和其他数据仓库,其他数据仓库为除开本大数据仓库外的数据仓库;

18、贴源层用于完成从源数据层到大数据仓库的数据抽取、转换和加载;

19、历史明细层用于存储历史数据版本以支持时间序列分析;

20、标准层用于负责数据标准化;

21、基础集市层根据业务需求将数据划分为不同的主题域,主题域包括客户、账户以及交易;

22、应用集市层提供面向特定业务部门或应用程序的数据视图和服务。

23、可选的,在所述基于作业血缘知识图谱的大数据仓库治理方法中,还包括以下步骤:

24、统计大数据仓库运维的可观测性指标,可观测性指标包括:top100作业平均运行时间、作业深度、源数据层作业近一个月开始平均时间以及源数据层作业近一个月开始晚点天数。

25、可选的,在所述基于作业血缘知识图谱的大数据仓库治理方法中,针对源数据层作业近一个月开始晚点天数的异常情况,查找晚点作业的最久加工路径和最晚加工路径。

26、可选的,在所述基于作业血缘知识图谱的大数据仓库治理方法中,基于大数据仓库分层架构,查找晚点作业的最久加工路径,方式如下:,其中,g为作业血缘知识图谱,v为作业的集合,e为作业间依赖关系的集合;

27、计算最久加工耗时和最久加工路径:

28、;;其中,作业v为在作业集合中指定的作业;l(v)为作业v的最久加工耗时;lp(v)为作业v的最久加工路径;t(v)为作业v的平均加工时间;为作业v的入度,即该作业直接依赖的作业数量;p(v)为作业v的所有直接依赖的作业集合;l(p)为作业v的直接依赖作业p的最久加工耗时;为作业v的源数据作业集合;为作业v的直接依赖作业集合中加工耗时最长的作业;为作业v直接依赖作业集合中耗时最长的加工路径。

29、可选的,在所述基于作业血缘知识图谱的大数据仓库治理方法中,基于大数据仓库分层架构,查找晚点作业的最晚加工路径,方式如下:;其中,wp(v)表示最晚加工路径;e(p)表示作业p的平均完成时间,p(v)为作业v的所有直接依赖的作业集合,作业p属于p(v);为作业v的直接依赖作业集合中e(p)最大的作业。

30、在本专利技术所提供的基于作业血缘知识图谱的大数据仓库治理方法中,基于跑批作业之间的依赖关系,构建了作业血缘知识图谱以梳理数据仓库内部复杂的加工路径。此外,本专利技术还实现了问题作业的定位功能和可观测性指标的统计,有效解决了大数据仓库治理工作缺少方向和抓手的问题,使治理工作更加高效、有序。本文档来自技高网...

【技术保护点】

1.一种基于作业血缘知识图谱的大数据仓库治理方法,其特征在于,包括以下步骤:

2.如权利要求1所述的基于作业血缘知识图谱的大数据仓库治理方法,其特征在于,

3.如权利要求1所述的基于作业血缘知识图谱的大数据仓库治理方法,其特征在于,所述作业血缘知识图谱包含3类实体和2种关联边,3类实体分别为数据库节点、系统节点以及作业节点,2种关联边分别为从属关系和依赖关系。

4.如权利要求1所述的基于作业血缘知识图谱的大数据仓库治理方法,其特征在于,

5.如权利要求1所述的基于作业血缘知识图谱的大数据仓库治理方法,其特征在于,还包括以下步骤:

6.如权利要求5所述的基于作业血缘知识图谱的大数据仓库治理方法,其特征在于,针对源数据层作业近一个月开始晚点天数的异常情况,查找晚点作业的最久加工路径和最晚加工路径。

7.如权利要求6所述的基于作业血缘知识图谱的大数据仓库治理方法,其特征在于,基于大数据仓库分层架构,查找晚点作业的最久加工路径,方式如下:

8.如权利要求7所述的基于作业血缘知识图谱的大数据仓库治理方法,其特征在于,基于大数据仓库分层架构,查找晚点作业的最晚加工路径,方式如下:

...

【技术特征摘要】

1.一种基于作业血缘知识图谱的大数据仓库治理方法,其特征在于,包括以下步骤:

2.如权利要求1所述的基于作业血缘知识图谱的大数据仓库治理方法,其特征在于,

3.如权利要求1所述的基于作业血缘知识图谱的大数据仓库治理方法,其特征在于,所述作业血缘知识图谱包含3类实体和2种关联边,3类实体分别为数据库节点、系统节点以及作业节点,2种关联边分别为从属关系和依赖关系。

4.如权利要求1所述的基于作业血缘知识图谱的大数据仓库治理方法,其特征在于,

5.如权利要求1所述的基于作业血缘知识图谱的...

【专利技术属性】
技术研发人员:蒋捷陈超于中宝
申请(专利权)人:上海银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1