System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种问题数据溯源方法、装置、设备及存储介质制造方法及图纸_技高网

一种问题数据溯源方法、装置、设备及存储介质制造方法及图纸

技术编号:43202721 阅读:6 留言:0更新日期:2024-11-01 20:20
本申请公开了一种问题数据溯源方法、装置、设备及存储介质,涉及大数据技术领域,包括:若当前数据依次经过若干数据节点,则分别生成相应的若干节点标签,并将计算得到的若干标签值添加至目标数据的节点标签列,得到目标数据;若检测到若干目标数据中存在问题数据,则从预设标签存储数据库中提取待匹配节点标签,并确定待匹配节点标签是否与问题数据的节点标签列中的任一标签值匹配基于匹配结果确定问题数据经过的目标数据节点,并确定目标数据节点对应的目标数据库表是否存在问题,以得到相应的判断结果;基于判断结果确定问题数据是否在所述目标数据节点产生数据损坏。由此,可针对单独问题数据行进行检测和溯源,精准高效且节省计算存储资源。

【技术实现步骤摘要】

本专利技术涉及大数据,特别涉及一种问题数据溯源方法、装置、设备及存储介质


技术介绍

1、随着信息化的发展,各种信息数据呈现爆炸性增长,许多公司和组织使用搭建数据仓库的方式来治理业务数据和生产数据,数据仓库是指将来自各种来源的数据采集、管理和聚合到集中式存储库,数据仓库会根据业务需求进行分类分层,不同层次的库表之间数据依次从底层向各自的上层流动。这些数据流向是通过实时或者离线的方式进行数据集成实现的,这样就形成了复杂的数据流链路,这些链路往往节点众多且相互交错,同一张表中的数据可能来自不同的数据链路。

2、对于上层应用系统,需要数据质量检测工具对上层数据进行检测以及时发现问题数据。传统的数据质量检测方法只能针对特定的库表指定特定的检查规则进行单表检测,以发现该库表的问题数据。但是在实际应用中,一旦发现问题数据,往往需要对问题数据进行溯源。当前主流的溯源方法往往根据经验或者手动绘制和维护拓扑图,手动指定认为相关联的数据库表,或者全库扫描,这样不仅会消耗大量的计算资源去检测无关的数据,而且无法针对具体的问题数据行进行单独溯源。


技术实现思路

1、有鉴于此,本专利技术的目的在于提供一种问题数据溯源方法、装置、设备及存储介质,可针对单独问题数据行进行检测和溯源,精准高效且节省计算存储资源。其具体方案如下:

2、第一方面,本申请公开了一种问题数据溯源方法,包括:

3、若当前数据依次经过若干数据节点,则分别生成与所述若干数据节点相应的若干节点标签,并计算所述若干节点标签对应的若干标签值,以将所述若干标签值添加至所述当前数据的节点标签列,得到目标数据;

4、若检测到若干所述目标数据中存在问题数据,则从预设标签存储数据库中提取待匹配节点标签,并确定所述待匹配节点标签是否与所述问题数据的节点标签列中的任一标签值匹配,以得到相应的匹配结果;

5、基于所述匹配结果确定所述问题数据经过的目标数据节点,并确定所述目标数据节点对应的目标数据库表是否存在问题,以得到相应的判断结果;

6、基于所述判断结果确定所述问题数据是否在所述目标数据节点产生数据损坏。

7、可选的,所述若当前数据依次经过若干数据节点,则分别生成与所述若干数据节点相应的若干节点标签,并计算所述若干节点标签对应的若干标签值,以将所述若干标签值添加至所述当前数据的节点标签列,得到目标数据,包括:

8、若当前数据依次经过若干数据节点,则生成若干数据节点对应的若干节点标签,并将所述若干节点标签存储至预设标签存储数据库;

9、通过预设哈希函数对所述若干节点标签进行计算,以得到与预设格式对应的若干标签值,并将所述若干标签值保存至所述当前数据的节点标签列,得到目标数据。

10、可选的,所述预设格式为布隆过滤器格式。

11、可选的,所述若检测到若干所述目标数据中存在问题数据,则从预设标签存储数据库中提取待匹配节点标签,并确定所述待匹配节点标签是否与所述问题数据的节点标签列中的任一标签值匹配,以得到相应的匹配结果,包括:

12、若接收到数据质量检测请求,则对本地若干目标数据进行质量检测,以确定是否存在问题数据;

13、若存在问题数据,则从预设标签存储数据库中提取任一节点标签作为待匹配节点标签,并确定所述待匹配节点标签是否与所述问题数据的节点标签列中的任一标签值匹配;

14、若不匹配,则从所述预设标签存储数据库中提取下一节点标签作为待匹配节点标签,并重新确定所述待匹配节点标签是否与所述问题数据的节点标签列中的任一标签值匹配;

15、若匹配,则确定所述待匹配节点标签对应的目标节点,并生成表征所述问题数据经过所述目标节点的匹配结果。

16、可选的,所述基于所述匹配结果确定所述问题数据经过的目标数据节点,并确定所述目标数据节点对应的目标数据库表是否存在问题,以得到相应的判断结果,包括:

17、基于所述匹配结果确定所述问题数据经过的目标数据节点,并确定所述于目标数据节点对应的目标数据库表;

18、对所述目标数据库表进行异常数据检测,以确定所述目标数据库表中是否存在问题数据;

19、若不存在问题数据,则生成表征数据库表正常的第一判断结果;

20、若存在问题数据,则生成表征数据库表异常的第二判断结果。

21、可选的,所述基于所述判断结果确定所述问题数据是否在所述目标数据节点产生数据损坏,包括:

22、若所述数据判断结果为所述第一判断结果,则从预设标签存储数据库中提取下一待匹配节点标签,并跳转至所述确定所述待匹配节点标签是否与所述问题数据的节点标签列中的任一标签值匹配,以得到相应的匹配结果的步骤,以确定所述下一待匹配节点标签对应的数据节点相应的数据库表中是否存在问题。

23、可选的,所述基于所述判断结果确定所述问题数据是否在所述目标数据节点产生数据损坏,包括:

24、若所述数据判断结果为所述第二判断结果,则表征所述问题数据在所述目标数据节点产生数据损坏;

25、确定所述目标数据节点相应的数据库表,并在所述数据库表中确定与所述问题数据对应的上层问题数据,以通过所述上层问题数据进行下一轮问题溯源。

26、第二方面,本申请公开了一种问题数据溯源装置,包括:

27、标签添加模块,用于若当前数据依次经过若干数据节点,则分别生成与所述若干数据节点相应的若干节点标签,并计算所述若干节点标签对应的若干标签值,以将所述若干标签值添加至所述当前数据的节点标签列,得到目标数据;

28、匹配模块,用于若检测到若干所述目标数据中存在问题数据,则从预设标签存储数据库中提取待匹配节点标签,并确定所述待匹配节点标签是否与所述问题数据的节点标签列中的任一标签值匹配,以得到相应的匹配结果;

29、问题判断模块,用于基于所述匹配结果确定所述问题数据经过的目标数据节点,并确定所述目标数据节点对应的目标数据库表是否存在问题,以得到相应的判断结果;

30、损坏判断模块,用于基于所述判断结果确定所述问题数据是否在所述目标数据节点产生数据损坏。

31、第三方面,本申请公开了一种电子设备,包括:

32、存储器,用于保存计算机程序;

33、处理器,用于执行所述计算机程序,以实现如前述的问题数据溯源方法。

34、第四方面,本申请公开了一种计算机可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现如前述的问题数据溯源方法。

35、本申请中,如果当前数据依次经过若干数据节点,则分别生成与所述若干数据节点相应的若干节点标签,并计算所述若干节点标签对应的若干标签值,以将所述若干标签值添加至所述当前数据的节点标签列,得到目标数据;如果检测到若干所述目标数据中存在问题数据,则从预设标签存储数据库中提取待匹配节点标签,并确定所述待匹配节点标签是否与本文档来自技高网...

【技术保护点】

1.一种问题数据溯源方法,其特征在于,包括:

2.根据权利要求1所述的问题数据溯源方法,其特征在于,所述若当前数据依次经过若干数据节点,则分别生成与所述若干数据节点相应的若干节点标签,并计算所述若干节点标签对应的若干标签值,以将所述若干标签值添加至所述当前数据的节点标签列,得到目标数据,包括:

3.根据权利要求1所述的问题数据溯源方法,其特征在于,所述预设格式为布隆过滤器格式。

4.根据权利要求1所述的问题数据溯源方法,其特征在于,所述若检测到若干所述目标数据中存在问题数据,则从预设标签存储数据库中提取待匹配节点标签,并确定所述待匹配节点标签是否与所述问题数据的节点标签列中的任一标签值匹配,以得到相应的匹配结果,包括:

5.根据权利要求1至4任一项所述的问题数据溯源方法,其特征在于,所述基于所述匹配结果确定所述问题数据经过的目标数据节点,并确定所述目标数据节点对应的目标数据库表是否存在问题,以得到相应的判断结果,包括:

6.根据权利要求5所述的问题数据溯源方法,其特征在于,所述基于所述判断结果确定所述问题数据是否在所述目标数据节点产生数据损坏,包括:

7.根据权利要求5所述的问题数据溯源方法,其特征在于,所述基于所述判断结果确定所述问题数据是否在所述目标数据节点产生数据损坏,包括:

8.一种问题数据溯源装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括:

10.一种计算机可读存储介质,其特征在于,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的问题数据溯源方法。

...

【技术特征摘要】

1.一种问题数据溯源方法,其特征在于,包括:

2.根据权利要求1所述的问题数据溯源方法,其特征在于,所述若当前数据依次经过若干数据节点,则分别生成与所述若干数据节点相应的若干节点标签,并计算所述若干节点标签对应的若干标签值,以将所述若干标签值添加至所述当前数据的节点标签列,得到目标数据,包括:

3.根据权利要求1所述的问题数据溯源方法,其特征在于,所述预设格式为布隆过滤器格式。

4.根据权利要求1所述的问题数据溯源方法,其特征在于,所述若检测到若干所述目标数据中存在问题数据,则从预设标签存储数据库中提取待匹配节点标签,并确定所述待匹配节点标签是否与所述问题数据的节点标签列中的任一标签值匹配,以得到相应的匹配结果,包括:

5.根据权利要求1至4任一项所述的问题数据溯...

【专利技术属性】
技术研发人员:窦洋肖雪张宏磊杨继伟
申请(专利权)人:浪潮云信息技术股份公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1