System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请属于大数据,涉及一种基于数据血缘的数据平台监控方法、系统、设备及介质。
技术介绍
1、大数据平台在处理海量数据时,通常涉及复杂的数据处理流程和多样化的业务逻辑。有效的监控机制不仅能够确保数据平台的稳定性和可靠性,而且能够及时发现并解决性能瓶颈、故障和异常情况。此外,监控还有助于优化资源分配,降低运营成本,并提升用户体验。这对于维护数据的完整性、提高决策的效率和质量、以及满足法规遵从性要求都至关重要。
2、当前的大数据平台监控方法主要基于流数据处理技术,通过捕获大数据平台的日志服务数据来实现数据的上报和存储。随后,通过对这些日志服务数据进行计算和分析,实现了数据展示和平台监控的功能。尽管这种方案在一定程度上能够满足需求,但也存在一些局限性。例如,当网络规模较大时,定位异常问题所需的时间会显著增加,导致效率和准确性低下。
技术实现思路
1、本申请的目的在于提供一种基于数据血缘的数据平台监控方法、系统、设备及介质,用于解决现有大数据平台监控方法在实时性和准确性方面的局限性。
2、第一方面,本申请提供一种基于数据血缘的数据平台监控方法,包括:定时监控数据平台上调度任务的执行状态;所述调度任务包括入湖任务、etl开发任务和数据同步任务;在所述入湖任务和所述数据同步任务完成后,定时检验数据表的一致性;在监控到异常状态的调度任务或检验到不一致的数据表时,查询预先构建的数据血缘关系图谱;所述数据血缘关系图谱包括多条血缘链路,每条所述血缘链路包括至少两个节点,且每两个相
3、在第一方面的一种实现方式中,所述数据血缘关系图谱的构建方法包括:
4、获取预设时间段内数据仓库中执行的所有sql语句;
5、解析每条所述sql语句,以生成对应的抽象语法树;
6、解析所述抽象语法树,以得到所述抽象语法树中不同节点所包含的血缘信息;所述血缘信息包括源表的信息、目标表的信息以及从所述源表到所述目标表的数据流动路径;
7、将所述源表作为数据流入节点、所述目标表作为数据流出节点、从所述源表到所述目标表的数据流动路径作为关系边,构建出所述数据血缘关系图谱中的血缘链路。
8、在第一方面的一种实现方式中,还包括在定位到下游受影响对象后,启动预警机制;所述启动预警机制包括:
9、基于所述异常状态的调度任务或所述不一致的数据表生成格式化的告警通知文本;
10、调用特定类型的告警接口,通过所述特定类型的告警接口将所述格式化的告警通知文本推送至相关负责人。
11、在第一方面的一种实现方式中,采用图结构数据库neo4j存储所述数据血缘关系图谱。
12、在第一方面的一种实现方式中,查询预先构建的数据血缘关系图谱包括:使用cypher查询语言深度遍历所述图结构数据库neo4j,以获取所述数据血缘关系图谱中的上下游依赖关系。
13、在第一方面的一种实现方式中,在所述入湖任务完成后,定时检验数据表的一致性包括:
14、获取源端业务系统的定时数据统计结果;所述定时数据统计结果被记录在贴源层下特定模式的数据表中;
15、在所述贴源层对所述数据表执行sql查询,得到所述数据表中的实际记录数;
16、将所述定时数据统计结果与所述数据表中的实际记录数进行比较;
17、若两者不一致,则将两者之间的差异记录到监控结果表中。
18、在第一方面的一种实现方式中,在所述数据同步任务完成后,定时检验数据表的一致性包括:
19、定时获取配置表中所有待检验的数据表的表名;
20、在数据报告层或数据集市层查询每个所述数据表中的数据量,得到第一数据查询结果;
21、在doris数据仓库查询对应的数据表中的数据量,得到第二数据查询结果;所述doris数据仓库中的数据由所述数据报告层或所述数据集市层的结果数据同步得到;
22、将所述第一数据查询结果与所述第二数据查询结果进行比较;
23、若两者不一致,则将两者之间的差异记录到监控结果表中。
24、第二方面,本申请提供一种基于数据血缘的数据平台监控系统,包括:任务状态监控模块,用于定时监控数据平台上调度任务的执行状态;所述调度任务包括入湖任务、etl开发任务和数据同步任务;一致性检验模块,用于在所述入湖任务和所述数据同步任务完成后,定时检验数据表的一致性;数据血缘查询模块,用于在监控到异常状态的调度任务或检验到不一致的数据表时,查询预先构建的数据血缘关系图谱;所述数据血缘关系图谱包括多条血缘链路,每条所述血缘链路包括至少两个节点,且每两个相邻的所述节点之间设有一条关系边;每个所述节点用于表示一个所述数据表,每条所述关系边用于表示一个所述调度任务;异常定位模块,用于根据所述数据血缘关系图谱中的上下游依赖关系,定位所述异常状态的调度任务或所述不一致的数据表的下游受影响对象;所述下游受影响对象包括下游调度任务、下游数据表和前端报表页面。
25、第三方面,本申请提供一种电子设备,包括:处理器及存储器;所述存储器用于存储计算机程序;所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行上述任一项所述的方法。
26、第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项所述的方法。
27、如上所述,本申请所述的基于数据血缘的数据平台监控方法、系统、设备及介质,具有以下有益效果:
28、(1)采用自动化的监控和报警机制减少了人工干预,提高了数据处理的效率。
29、(2)通过程序代码对数据平台上调度任务的执行状态和数据表的一致性进行实时监控,能够准确且及时地发现异常问题,从而保障数据平台的稳定运行。
30、(3)采用清晰的数据血缘关系图谱来记录数据实体及其关联,增强了大数据平台数据管理的透明度。用户可以轻松掌握数据之间的相互影响,从而快速了解数据实体之间的关系程度,提高数据的实际应用价值。
31、(4)用户通过深度遍历血缘关系图谱,可以对异常情况进行快速、全面的追踪,并精准定位到问题源头及其影响范围,为及时采取纠正措施提供了重要依据。
32、(5)支持端到端的监控告警,适用于市面上的多数大数据开发平台,具有通用性高、经济实用的特点。
本文档来自技高网...【技术保护点】
1.一种基于数据血缘的数据平台监控方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述数据血缘关系图谱的构建方法包括:
3.根据权利要求1所述的方法,其特征在于,还包括在定位到下游受影响对象后,启动预警机制;所述启动预警机制包括:
4.根据权利要求1所述的方法,其特征在于,采用图结构数据库neo4j存储所述数据血缘关系图谱。
5.根据权利要求4所述的方法,其特征在于,查询预先构建的数据血缘关系图谱包括:使用Cypher查询语言深度遍历所述图结构数据库neo4j,以获取所述数据血缘关系图谱中的上下游依赖关系。
6.根据权利要求1所述的方法,其特征在于,在所述入湖任务完成后,定时检验数据表的一致性包括:
7.根据权利要求1所述的方法,其特征在于,在所述数据同步任务完成后,定时检验数据表的一致性包括:
8.一种基于数据血缘的数据平台监控系统,其特征在于,包括:
9.一种电子设备,其特征在于,包括:处理器及存储器;
10.一种计算机可读存储介质,其上存储有计算机
...【技术特征摘要】
1.一种基于数据血缘的数据平台监控方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述数据血缘关系图谱的构建方法包括:
3.根据权利要求1所述的方法,其特征在于,还包括在定位到下游受影响对象后,启动预警机制;所述启动预警机制包括:
4.根据权利要求1所述的方法,其特征在于,采用图结构数据库neo4j存储所述数据血缘关系图谱。
5.根据权利要求4所述的方法,其特征在于,查询预先构建的数据血缘关系图谱包括:使用cypher查询语言深度遍历所述图结构数据库neo4j,以...
【专利技术属性】
技术研发人员:邹国胜,翁添荣,董子玉,陈梁,李博,
申请(专利权)人:国药控股数字科技上海有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。