一种数据血缘关系的构建方法和装置制造方法及图纸

技术编号:36455116 阅读:15 留言:0更新日期:2023-01-25 22:52
本发明专利技术公开了一种数据血缘关系的构建方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:获取待解析程序的注解;逐个判断每个注解标注的算子的算子类型;当算子类型为数据源算子时,将注解解析为数据源表;当算子类型为其它算子时,根据待解析程序的拓扑流向,获取算子执行时依赖的依赖算子;当依赖算子的注解均被解析为数据表时,解析注解得到数据字段之间的依赖关系,并根据依赖关系将注解解析为数据表;根据依赖算子的数据表以及注解解析得到的数据表生成数据血缘关系。该实施方式不仅节省了开发人员的时间和精力,而且生成可读性强的具有统一格式的数据血缘关系,可以高效进行故障问题的数据追溯、定位以及后续的项目交接工作。的项目交接工作。的项目交接工作。

【技术实现步骤摘要】
一种数据血缘关系的构建方法和装置


[0001]本专利技术涉及计算机
,尤其涉及一种数据血缘关系的构建方法和装置。

技术介绍

[0002]当今大数据时代,各种类型数据爆发性、海量地增长,这些庞大复杂的数据信息,通过转换、变换、流转,又生成新的数据,数据从产生、加工融合、流转,到最终输出,数据之间形成一种关联关系,这种关系形象化为数据血缘。目前对于数据流的实时任务暂时没有方法可以直接查看数据血缘,只能通过从开发人员的开发文档中查找相关信息。
[0003]在实现本专利技术过程中,专利技术人发现现有技术中存在如下问题:
[0004]开发文档是由开发人员自主编写的代码说明文档,其不是项目中的必不可缺的文档,存在开发文档缺失的问题;另外,开发文档的编写无标准性规范,可读性不佳;这些问题不仅影响了系统数据分析、故障问题的数据追溯和定位,而且耗费了开发人员的时间和精力,也不利于项目的交接工作。

技术实现思路

[0005]有鉴于此,本专利技术实施例提供一种数据血缘关系的构建方法和装置,基于待解析程序的注解,根据注解标注的算子的算子类型进行不同的解析处理方法,以得到体现数据字段之间的依赖关系的数据血缘关系,不仅节省了开发人员记录、编写数据关系的时间和精力,而且生成的数据血缘关系为统一格式的文档,可读性强,可以高效的进行系统数据分析、故障问题的数据追溯定位、以及后续的项目交接工作。
[0006]为实现所述目的,根据本专利技术实施例的一个方面,提供了一种数据血缘关系的构建方法,包括:
[0007]响应于数据血缘关系构建的请求,获取待解析程序的注解;
[0008]逐个判断每个所述注解标注的算子的算子类型;
[0009]当所述算子类型为数据源算子时,将所述注解解析为数据源表;
[0010]当所述算子类型为非数据源算子时,根据所述待解析程序的拓扑流向关系,获取所述算子执行时依赖的依赖算子;在所述依赖算子的注解均被解析为数据表的情况下,对所述注解进行解析得到数据字段之间的依赖关系,并根据所述数据字段之间的依赖关系将所述注解解析为数据表;根据所述算子的依赖算子的数据表以及所述注解解析得到的数据表生成数据血缘关系。
[0011]可选地,所述方法还包括:在所述依赖算子的注解未被解析为数据表的情况下,将所述依赖算子的注解解析为数据表。
[0012]可选地,将所述注解解析为数据源表,包括:对所述注解进行关键特征提取,以从所述注解中提取字段名和字段类型;根据所述字段名和字段类型生成数据源表。
[0013]可选地,对所述注解进行解析得到数据字段之间的依赖关系,并根据所述数据字段之间的依赖关系将所述注解解析为数据表,包括:对所述注解进行关键特征提取,以从所
述注解中提取字段名和字段类型;对所述注解进行解析得到数据字段之间的依赖关系,并根据所述依赖关系得到字段对应的来源字段;根据所述字段名、字段类型和来源字段生成数据表。
[0014]可选地,所述拓扑流向关系使用数据流处理引擎获取。
[0015]可选地,在生成数据血缘关系时,还生成对应的说明文档。
[0016]根据本专利技术实施例的第二方面,提供一种数据血缘关系的构建装置,包括:
[0017]注解获取模块,用于响应于数据血缘关系构建的请求,获取待解析程序的注解;
[0018]算子类型判断模块,用于逐个判断每个所述注解标注的算子的算子类型;
[0019]数据源算子解析模块,用于当所述算子类型为数据源算子时,将所述注解解析为数据源表;
[0020]非数据源算子解析模块,用于当所述算子类型为非数据源算子时,根据所述待解析程序的拓扑流向关系,获取所述算子执行时依赖的依赖算子;在所述依赖算子的注解均被解析为数据表的情况下,对所述注解进行解析得到数据字段之间的依赖关系,并根据所述数据字段之间的依赖关系将所述注解解析为数据表;根据所述算子的依赖算子的数据表以及所述注解解析得到的数据表生成数据血缘关系。
[0021]可选地,所述装置还包括依赖算子解析模块,用于:在所述依赖算子的注解未被解析为数据表的情况下,将所述依赖算子的注解解析为数据表。
[0022]根据本专利技术实施例的第三方面,提供一种数据血缘关系的构建电子设备,其特征在于,包括:
[0023]一个或多个处理器;
[0024]存储装置,用于存储一个或多个程序,
[0025]当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本专利技术实施例第一方面提供的方法。
[0026]根据本专利技术实施例的第四方面,提供一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本专利技术实施例第一方面提供的方法。
[0027]所述专利技术中的一个实施例具有如下优点或有益效果:通过响应于数据血缘关系构建的请求,获取待解析程序的注解;逐个判断每个注解标注的算子的算子类型;当算子类型为数据源算子时,将注解解析为数据源表;当算子类型为非数据源算子时,根据待解析程序的拓扑流向关系,获取算子执行时依赖的依赖算子;在依赖算子的注解均被解析为数据表的情况下,对注解进行解析得到数据字段之间的依赖关系,并根据数据字段之间的依赖关系将注解解析为数据表;根据算子的依赖算子的数据表以及注解解析得到的数据表生成数据血缘关系的技术方案,实现了基于待解析程序的注解,根据注解标注的算子的算子类型进行不同的解析处理方法,以得到体现数据字段之间的依赖关系的数据血缘关系,不仅节省了开发人员记录、编写数据关系的时间和精力,而且生成的数据血缘关系为统一格式的文档,可读性强,可以高效的进行系统数据分析、故障问题的数据追溯定位以及后续的项目交接工作。
附图说明
[0028]附图用于更好地理解本专利技术,不构成对本专利技术的不当限定。其中:
[0029]图1是根据本专利技术实施例的数据血缘关系的构建方法的主要流程的示意图;
[0030]图2是本专利技术实施例的数据血缘关系构建示意图;
[0031]图3是根据本专利技术实施例的数据血缘关系的构建装置的主要模块示意图;
[0032]图4是本专利技术实施例可以应用于其中的示例性系统架构图;
[0033]图5是适于用来实现本专利技术实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
[0034]以下结合附图对本专利技术的示范性实施例做出说明,其中包括本专利技术实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本专利技术的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0035]目前对于数据流的实时任务通常通过开发文档记录数据之间的关联关系,开发文档是由开发人员自主编写的代码说明文档,其不是项目中的必不可缺的文档,存在开发文档缺失的问题;另外,开发文档的编写无标准性规范,可读性不佳;这些问题不仅影响了系统数据分析、故障问题的数据追溯和定位,而本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据血缘关系的构建方法,其特征在于,包括:响应于数据血缘关系构建的请求,获取待解析程序的注解;逐个判断每个所述注解标注的算子的算子类型;当所述算子类型为数据源算子时,将所述注解解析为数据源表;当所述算子类型为非数据源算子时,根据所述待解析程序的拓扑流向关系,获取所述算子执行时依赖的依赖算子;在所述依赖算子的注解均被解析为数据表的情况下,对所述注解进行解析得到数据字段之间的依赖关系,并根据所述数据字段之间的依赖关系将所述注解解析为数据表;根据所述算子的依赖算子的数据表以及所述注解解析得到的数据表生成数据血缘关系。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:在所述依赖算子的注解未被解析为数据表的情况下,将所述依赖算子的注解解析为数据表。3.根据权利要求1所述的方法,其特征在于,将所述注解解析为数据源表,包括:对所述注解进行关键特征提取,以从所述注解中提取字段名和字段类型;根据所述字段名和字段类型生成数据源表。4.根据权利要求1所述的方法,其特征在于,对所述注解进行解析得到数据字段之间的依赖关系,并根据所述数据字段之间的依赖关系将所述注解解析为数据表,包括:对所述注解进行关键特征提取,以从所述注解中提取字段名和字段类型;对所述注解进行解析得到数据字段之间的依赖关系,并根据所述依赖关系得到字段对应的来源字段;根据所述字段名、字段类型和来源字段生成数据表。5.根据权利要求1所述的方法,其特征在于,所述拓扑流向关系使用数据流处理引擎获取。...

【专利技术属性】
技术研发人员:胡建平
申请(专利权)人:北京京东振世信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1