System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及大数据,尤其涉及一种hive脚本中的数据链路分析方法及相关装置。
技术介绍
1、数据链路是指从数据的源头到最终目标的数据流动路径。在大数据领域中进行数据加工和展现时,经常创建大量hive脚本和表进行复杂的加工查询,这种复杂的加工会导致数据链路非常复杂,不利于根据数据链路进行数据溯源和问题排查。
技术实现思路
1、鉴于上述问题,本申请提供了一种hive脚本中的数据链路分析方法及相关装置,实现对hive脚本中的数据链路的自动梳理,以可视化的形式展示梳理后的数据链路,便于根据数据链路树进行数据溯源和问题排查。具体方案如下:
2、本申请第一方面提供一种hive脚本中的数据链路分析方法,包括:
3、对待处理的目标hive脚本进行解析,得到至少一个加工语句;
4、提取所述至少一个加工语句中的关键信息,所述关键信息包括表与字段之间的关系、表与表之间的关系以及字段与字段之间的关系;
5、确定所述关键信息中的层级关系和脉络关系;
6、根据所述关键信息中的层级关系和脉络关系生成目标数据链路树。
7、在一种可能的实现中,所述确定所述关键信息中的层级关系和脉络关系,包括:
8、对所述关键信息进行去重;
9、根据所述关键信息中表与表之间的关系,确定层级关系;
10、根据所述关键信息中表与字段之间的关系和字段与字段之间的关系,确定脉络关系。
11、在一种可能的实现中,所述hive脚
12、保存所述目标hive脚本与所述目标数据链路树之间的对应关系;
13、判断数据链路森林中是否已存在所述目标hive脚本对应的数据链路树,所述数据链路森林包括多个hive脚本对应的数据链路树;
14、若所述数据链路森林中已存在所述目标hive脚本对应的数据链路树,根据所述目标数据链路树对所述数据链路森林进行更新;
15、若所述数据链路森林中未存在所述目标hive脚本对应的数据链路树,将所述目标数据链路树拼接到所述数据链路森林中。
16、在一种可能的实现中,所述hive脚本中的数据链路分析方法还包括:
17、在所述目标hive脚本运行报错时,获取报错信息;
18、根据所述报错信息确定出错数据;
19、在所述数据链路森林中标记显示所述出错数据对应的节点。
20、在一种可能的实现中,所述hive脚本中的数据链路分析方法还包括:
21、获取每个hive脚本的运行参数,所述运行参数至少包括数据量和运行时间;
22、在所述数据链路森林中显示每个hive脚本的运行参数。
23、在一种可能的实现中,所述hive脚本中的数据链路分析方法还包括:
24、所述hive脚本中的数据链路分析方法还包括:
25、在可视化界面显示所述数据链路森林;
26、响应于对所述数据链路森林中节点间的连线操作,确定所述节点间的层级关系和脉络关系,所述节点包括表节点和字段节点;
27、根据所述节点间的层级关系和脉络关系,生成所述连线操作对应的hive脚本。
28、本申请第二方面提供一种hive脚本中的数据链路分析装置,包括:
29、脚本解析单元,用于对待处理的目标hive脚本进行解析,得到至少一个加工语句;
30、信息提取单元,用于提取所述至少一个加工语句中的关键信息,所述关键信息包括表与字段之间的关系、表与表之间的关系以及字段与字段之间的关系;
31、关系梳理单元,用于确定所述关键信息中的层级关系和脉络关系;
32、链路树生成单元,用于根据所述关键信息中的层级关系和脉络关系生成目标数据链路树。
33、本申请第三方面提供一种计算机程序产品,包括计算机可读指令,当所述计算机可读指令在电子设备上运行时,使得所述电子设备实现上述第一方面或第一方面任一实现方式的hive脚本中的数据链路分析方法。
34、本申请第四方面提供一种电子设备,包括至少一个处理器和与所述处理器连接的存储器,其中:
35、所述存储器用于存储计算机程序;
36、所述处理器用于执行所述计算机程序,以使所述电子设备能够实现上述第一方面或第一方面任一实现方式的hive脚本中的数据链路分析方法。
37、本申请第五方面提供一种计算机存储介质,所述存储介质承载有一个或多个计算机程序,当所述一个或多个计算机程序被电子设备执行时,能够使所述电子设备上述第一方面或第一方面任一实现方式的hive脚本中的数据链路分析方法。
38、借由上述技术方案,本申请提供的一种hive脚本中的数据链路分析方法及相关装置,对待处理的目标hive脚本进行解析,得到至少一个加工语句,通过提取至少一个加工语句中的关键信息确定关键信息中的层级关系和脉络关系,实现对hive脚本中的数据链路的自动梳理,从而根据关键信息中的层级关系和脉络关系生成目标数据链路树,以可视化的形式展示梳理后的数据链路,便于根据数据链路树进行数据溯源和问题排查。
本文档来自技高网...【技术保护点】
1.一种Hive脚本中的数据链路分析方法,其特征在于,包括:
2.根据权利要求1所述的Hive脚本中的数据链路分析方法,其特征在于,所述确定所述关键信息中的层级关系和脉络关系,包括:
3.根据权利要求1所述的Hive脚本中的数据链路分析方法,其特征在于,所述Hive脚本中的数据链路分析方法还包括:
4.根据权利要求3所述的Hive脚本中的数据链路分析方法,其特征在于,所述Hive脚本中的数据链路分析方法还包括:
5.根据权利要求3所述的Hive脚本中的数据链路分析方法,其特征在于,所述Hive脚本中的数据链路分析方法还包括:
6.根据权利要求3所述的Hive脚本中的数据链路分析方法,其特征在于,所述Hive脚本中的数据链路分析方法还包括:
7.一种Hive脚本中的数据链路分析装置,其特征在于,包括:
8.一种计算机程序产品,其特征在于,包括计算机可读指令,当所述计算机可读指令在电子设备上运行时,使得所述电子设备实现如权利要求1至6中任意一项所述的Hive脚本中的数据链路分析方法。
9.
10.一种计算机存储介质,其特征在于,所述存储介质承载有一个或多个计算机程序,当所述一个或多个计算机程序被电子设备执行时,能够使所述电子设备实现如权利要求1至6中任意一项所述的Hive脚本中的数据链路分析方法。
...【技术特征摘要】
1.一种hive脚本中的数据链路分析方法,其特征在于,包括:
2.根据权利要求1所述的hive脚本中的数据链路分析方法,其特征在于,所述确定所述关键信息中的层级关系和脉络关系,包括:
3.根据权利要求1所述的hive脚本中的数据链路分析方法,其特征在于,所述hive脚本中的数据链路分析方法还包括:
4.根据权利要求3所述的hive脚本中的数据链路分析方法,其特征在于,所述hive脚本中的数据链路分析方法还包括:
5.根据权利要求3所述的hive脚本中的数据链路分析方法,其特征在于,所述hive脚本中的数据链路分析方法还包括:
6.根据权利要求3所述的hive脚本中的数据链路分析方法...
【专利技术属性】
技术研发人员:朱家华,
申请(专利权)人:中国银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。