一种数据追踪方法、设备及存储介质技术

技术编号:24456660 阅读:21 留言:0更新日期:2020-06-10 15:45
本申请实施例提供一种数据追踪方法、设备及存储介质,其中,所述方法包括:确定数据集中的待追踪数据,并获取所述待追踪数据对应的调用信息;从所述待追踪数据的调用信息中提取所述待追踪数据对应的至少一条调用链路;根据所述至少一条调用链路,生成所述待追踪数据对应的数据流动拓扑。在本申请实施例中,基于待追踪数据对应的调用信息,可提取出待追踪数据对应的至少一条调用链路,并可基于待追踪数据对应的至少一条调用链路,生成待追踪数据的数据流动拓扑。因此,在数据追踪过程中无需入侵应用,便可从数据源头出发,自动追踪单个数据的流动过程,这可有效提高数据追踪的效率、准确度及细粒度。

A data tracking method, equipment and storage medium

【技术实现步骤摘要】
一种数据追踪方法、设备及存储介质
本申请涉及数据处理
,尤其涉及一种数据追踪方法、设备及存储介质。
技术介绍
在数据防泄漏和隐私保护等安全业务场景中,了解敏感数据的流动情况,对制定数据风险防控策略以及科学地评估隐私保护合规状况等,起着至关重要的作用。目前,业界在对敏感数据追踪时,主要依赖人工梳理业务系统,手工统计敏感数据的流动情况。然而,这种人工梳理的方式将耗费大量的人力物力,且梳理出的结果的准确性并不高。
技术实现思路
本申请的多个方面提供一种数据追踪方法、设备及存储机制,用以提高数据追踪的效率和准确性。本申请实施例提供一种数据追踪方法,包括:确定数据集中的待追踪数据,并获取所述待追踪数据对应的调用信息;从所述待追踪数据的调用信息中提取所述待追踪数据对应的至少一条调用链路;根据所述至少一条调用链路,生成所述待追踪数据对应的数据流动拓扑。本申请实施例还提供一种计算设备,包括存储器和处理器;所述存储器用于存储一条或多条计算机指令;所述处理器与所述存储器耦合,用于执行所述一条或多条计算机指令,以用于:确定数据集中的待追踪数据,并获取所述待追踪数据对应的调用信息;从所述待追踪数据的调用信息中提取所述待追踪数据对应的至少一条调用链路;根据所述至少一条调用链路,生成所述待追踪数据对应的数据流动拓扑。本申请实施例还提供一种存储计算机指令的计算机可读存储介质,其特征在于,当所述计算机指令被一个或多个处理器执行时,致使所述一个或多个处理器执行前述的数据追踪方法。在本申请实施例中,基于待追踪数据对应的调用信息,可提取出待追踪数据对应的至少一条调用链路,并可基于待追踪数据对应的至少一条调用链路,生成待追踪数据的数据流动拓扑。因此,在数据追踪过程中无需入侵应用,便可从数据源头出发,自动追踪单个数据的流动过程,这可有效提高数据追踪的效率、准确度及细粒度。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1为本申请一实施例提供的数据追踪方法的流程示意图;图2a为本申请一实施例提供的待追踪数据对应的一条调用链路的示意图;图2b为本申请一实施例提供的待追踪数据对应的另一条调用链路的示意图;图3为本申请一实施例提供的待追踪数据对应的一条归并链路的示意图;图4为本申请一实施例提供的一种数据流动拓扑的示意图;图5为本申请一实施例提供的另一种数据流动拓扑的示意图;图6为本申请一实施例提供的又一种数据流动拓扑的示意图;图7为本申请另一实施例提供的一种计算设备的结构示意图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。目前,业界在对敏感数据追踪时,主要依赖人工梳理业务系统,手工统计敏感数据的流动情况。然而,这种人工梳理的方式将耗费大量的人力物力,且梳理出的结果的准确性并不高。在本申请的一些实施例中:可基于待追踪数据对应的调用信息,可提取出待追踪数据对应的至少一条调用链路,并可基于待追踪数据对应的至少一条调用链路,生成待追踪数据的数据流动拓扑。因此,在数据追踪过程中无需入侵应用,便可从数据源头出发,自动追踪单个数据的流动过程,这可有效提高数据追踪的效率、准确度及细粒度。以下结合附图,详细说明本申请各实施例提供的技术方案。图1为本申请一实施例提供的数据追踪方法的流程示意图。如图1所示,该方法包括:100、确定数据集中的待追踪数据,并获取待追踪数据对应的调用信息;101、从待追踪数据的调用信息中提取待追踪数据对应的至少一条调用链路;102、根据至少一条调用链路,生成待追踪数据对应的数据流动拓扑。本实施例提供的数据追踪方法可应用于各种需要对数据进行追踪的场景中,例如,数据防泄漏、隐私保护等安全业务场景中,本实施例对此不作限定。其中,本实施例中的数据集可以是单个数据方所拥有的全部或部分数据,当然,还可以是根据其它追踪需求确定的数据范围,本实施例对此不作限定。另外,数据集中的数据可存储在数据库(Database,DB)或开放数据处理服务(OpenDataProcessingService,ODPS)等静态数据存储单元中,据此,可按照数据结构来对数据集中的数据进行组织、存储和管理。数据集的数据结构包括但不限于数据表名称、数据表描述、数据字段名称、数据字段描述等等。基于数据集的数据结构,本实施例中,可根据追踪需求,利用数据识别手段从数据集中定位出待追踪数据所在的数据字段、数据表和/或数据库。例如,可根据追踪需求中设定的敏感字段,从数据集中定位出敏感数据所在的数据字段、数据表和/或数据库,以将敏感数据作为待追踪数据。从而,可根据本实施例提供的数据追踪方法实现对敏感数据的追踪。当然,本实施例中,待追踪数据并不局限于敏感数据,待追踪数据还可以是其它需要追踪的数据,本实施例对此不作限定。在确定出数据集中的待追踪数据后,还可根据上述定位出的待追踪数据所在的数据字段、数据表和/或数据库来获取待追踪数据对应的调用信息。在一些实际应用中,可在用户发起对数据集的访问请求时,采集该访问请求中各应用和/或服务的调用信息,并可将针对待追踪数据所在的数据字段、数据表和/或数据库的访问请求中各应用和/或服务的调用信息,作为待追踪数据对应的调用信息。据此,待追踪数据对应的调用信息中可包括访问请求的标识信息、参与访问待追踪数据的各应用和/或服务的描述信息、访问过程中各应用和/或服务之间的调用关系、出口URL、数据源等等,其中,出口URL是指承载针对数据集的访问请求的URL。当然,待追踪数据对应的调用信息中还可包含其它信息,本实施例并不限于此。其中,可采用埋点的方式,通过在公共组件如RPC或者公共的通讯框架SOFARPC等注入代码,以采集访问请求中各应用和/或服务的调用信息。另外,可在访问请求发起时生成一个全局唯一的追踪TraceID作为访问请求的标识信息,并通过该TraceID将该访问过程中各应用和/或服务进行统一标识,从而对不同的访问过程进行区分。这使得采集访问请求中各应用和/或服务的调用信息的操作无需侵入应用,整个采集过程中应用无感知。据此,可从待追踪数据的调用信息中提取待追踪数据对应的至少一条调用链路。承接上例,可根据待追踪数据的调用信息中的至少一个TraceID,将对应于同一TraceID的应用和/或服务进行串接,并结合数据源和出口URL,组成至少一条调用链路。对于每条调用链路,可至少包括数据源、访问请求中的各应用和/或服务、出口UR本文档来自技高网...

【技术保护点】
1.一种数据追踪方法,其特征在于,包括:/n确定数据集中的待追踪数据,并获取所述待追踪数据对应的调用信息;/n从所述待追踪数据的调用信息中提取所述待追踪数据对应的至少一条调用链路;/n根据所述至少一条调用链路,生成所述待追踪数据对应的数据流动拓扑。/n

【技术特征摘要】
1.一种数据追踪方法,其特征在于,包括:
确定数据集中的待追踪数据,并获取所述待追踪数据对应的调用信息;
从所述待追踪数据的调用信息中提取所述待追踪数据对应的至少一条调用链路;
根据所述至少一条调用链路,生成所述待追踪数据对应的数据流动拓扑。


2.根据权利要求1所述的方法,其特征在于,所述根据所述至少一条调用链路,生成所述待追踪数据对应的数据流动拓扑,包括:
按照调用链路中各链路节点之间的调用顺序,对所述至少一条调用链路进行归并,以获得至少一条归并链路;
根据所述至少一条归并链路,生成所述待追踪数据对应的数据流动拓扑。


3.根据权利要求2所述的方法,其特征在于,所述根据所述至少一条归并链路,生成所述待追踪数据对应的数据流动拓扑,包括:
确定所述至少一条归并链路中包含的各出口URL,所述出口URL是指承载针对所述数据集的访问请求的URL;
基于所述各出口URL接收到的来自所述数据集的数据,从所述至少一条归并链路中识别出可信调用链路;
根据所述可信调用链路生成所述待追踪数据对应的数据流动拓扑。


4.根据权利要求3所述的方法,其特征在于,所述基于所述各出口URL接收到的来自所述数据集的数据,从所述至少一条归并链路中识别出可信调用链路,包括:
根据所述待追踪数据对应的数据字段,从各出口URL中识别出其接收到的来自所述数据集的数据中包含与所述数据字段匹配的数据的目标出口URL;
将所述至少一个归并链路中所述目标出口URL所在的调用链路确定为可信调用链路。


5.根据权利要求3所述的方法,其特征在于,所述基于所述至少一条归并链路中包含的各出口URL各自接收到的数据,从所述至少一条归并链路中确定出至少一条可信调用链路,包括:
基于所述数据集对应的数据出口URL集,根据所述至少一条归并链路中包含的各出口URL及所述待追踪数据对应的数据字段,检索所述数据出口URL集,其中,所述数据出口URL集中包含数据字段以及一个数据字段对应的一个或多个出口URL;
若在所述数据出口URL集中检索到符合条件的目标出口URL,则将所述至少一条归并链路中目标出口URL所在的调用链路,确定为可信调用链路。


6.根据权利要求5所述的方法,其特征在于,所述检索所述数据出口URL集之前,还包括:
基于所述数据集包含的一个或多个数据字段,对所述数据集对应的一个或多个出口URL所接收到的数据进行数据字段识别;
根据识别结果,建立各数据字段与一个或多个出口URL之间的对应关系;
根据所述数据集包含的一个或多个数据字段以及各数据字段与一个或多个出口URL之间的对应关系,生成所述数据集对应的数据出口URL集。


7.根据权利要求6所述的方法,其特征在于,还包括:
基于所述数据集对应的数据入口URL集,根据所述待追踪数据对应的数据字段,检索所述数据入口URL集,以获得所述待追踪数据对应的一个或多个入口URL;其中,所述数据入口URL集中包含数据字段以及一个数据字段对应的一个或多个入口URL,所述入口URL是指承载针对所述数据集的写入请求的URL;
根据所述待追踪数据对应的一个或多个入口URL以及所述待追踪数据对应的所述至少一条归并链路中包含的各出口URL,确定所述待追踪数据的流动方向;
将所述流动方向以可视化的方式加入所述待追踪数据对应的数据流动拓扑中。


8.根据权利要求7所述的方法,其特征在于,在所述基于所述数据集对应的数据入口URL集,根据所述待追踪数据对应的数据字段,检索所述数据入口URL集之前,还包括:
基于所述数据集包含的一个或多个数据字段,对所述数据集对应的一个或多个入口URL所输出的数据进行数据字段识别;
根据识别结果,建立各数据字段与一个或多个入口URL之间的对应关系;
根据所述数据集包含的一个或多个数据字段以及各数据字段与一个或多个入口URL之间的对应关系,生成所述数据集对应的数据入口URL集。


9.根据权利要求3所述的方法,其特征在于,根据所述可信调用链路生成所述待追踪数据对应的数据流动拓扑,包括:
将所述至少一条归并链路中可信调用链路之外的其它调用链路,作为非可信调用链路;
对所述至少一条归并链路中的可信调用链路和非可信调用链路打标,以获得所述待追踪数据对应的数据流动拓扑。


10.根据权利要求2所述的方法,其特征在于,所述按照调用链路中各链路节点之间的调用顺序,对所述至少一条调用链路进行归并,以获得至少一条归并链路,包括:
按照调用链路中各链路节点之间的调用顺序,从各个调用链路中的首个链路节点所在的链路位置开始,将各调用链路中处于相同链路位置上且具有相同的在前链路节点的链路节点归并,以获得至少一条归并链路。


11.根据权利要求10所述的方法,其特征在于,还包括:
根据所述至少一条归并链路中各链路节点对应的归并次数,确定所述至少一条归并链路各自对应的防控权重,所述防控权重用于表征在对所述归并链路进行风险防控时所需的关注度;
将所述防控权重以可视化的方式加入所述待追踪数据对应的数据流动拓扑中。


12.根据权利要求1所述的方法,其特征在于,所述确定数据集中的待追踪数据,包括:
基于预设的一个或多个敏感字段,对所述数据集进行敏感字段识别;
根据识别结果,输出所述数据集中包含的各敏感字段对应的敏感数据的静态分布信息,所述静态分布信息用于记录各敏感字段对应的敏感数据所属的数据表;
将所述数据集中包含的各敏感字段对应的敏感数据作为所述待追踪数据;
所述获取所述待追踪数据对应的调用信息,包括:
根据所述静态分布信息,确定所述待追踪数据所属的数据表;
获取所述待追踪数据所属的数据表对应的调用信息,作为所述待追踪数据对应的调用信息。


13.根据权利要求12所述的方法,其特征在于,还包括:
基于所述静态分布信息,将所述待追踪数据所属的数据表的描述信息加入所述待追踪数据对应的数据流动拓扑中。


14.一种计算设备,其特征在于,包括存储器和处理器;
所述存储器用于存储一条或多条计算机指令;
所述处理器与所述存储器耦合,用于执行所述一条或多条计算机指令,以用于:
确定数据集中的待追踪数据,并获取所述待追踪数据...

【专利技术属性】
技术研发人员:陈艳军崔捷袁小杰
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1