【技术实现步骤摘要】
一种数据追踪方法、设备及存储介质
本申请涉及数据处理
,尤其涉及一种数据追踪方法、设备及存储介质。
技术介绍
在数据防泄漏和隐私保护等安全业务场景中,了解敏感数据的流动情况,对制定数据风险防控策略以及科学地评估隐私保护合规状况等,起着至关重要的作用。目前,业界在对敏感数据追踪时,主要依赖人工梳理业务系统,手工统计敏感数据的流动情况。然而,这种人工梳理的方式将耗费大量的人力物力,且梳理出的结果的准确性并不高。
技术实现思路
本申请的多个方面提供一种数据追踪方法、设备及存储机制,用以提高数据追踪的效率和准确性。本申请实施例提供一种数据追踪方法,包括:确定数据集中的待追踪数据,并获取所述待追踪数据对应的调用信息;从所述待追踪数据的调用信息中提取所述待追踪数据对应的至少一条调用链路;根据所述至少一条调用链路,生成所述待追踪数据对应的数据流动拓扑。本申请实施例还提供一种计算设备,包括存储器和处理器;所述存储器用于存储一条或多条计算机指令;所述处理器与所述存储器耦合,用于执行所述一条或多条计算机指令,以用于:确定数据集中的待追踪数据,并获取所述待追踪数据对应的调用信息;从所述待追踪数据的调用信息中提取所述待追踪数据对应的至少一条调用链路;根据所述至少一条调用链路,生成所述待追踪数据对应的数据流动拓扑。本申请实施例还提供一种存储计算机指令的计算机可读存储介质,其特征在于,当所述计算机指令被一个或多个处理器执行时 ...
【技术保护点】
1.一种数据追踪方法,其特征在于,包括:/n确定数据集中的待追踪数据,并获取所述待追踪数据对应的调用信息;/n从所述待追踪数据的调用信息中提取所述待追踪数据对应的至少一条调用链路;/n根据所述至少一条调用链路,生成所述待追踪数据对应的数据流动拓扑。/n
【技术特征摘要】
1.一种数据追踪方法,其特征在于,包括:
确定数据集中的待追踪数据,并获取所述待追踪数据对应的调用信息;
从所述待追踪数据的调用信息中提取所述待追踪数据对应的至少一条调用链路;
根据所述至少一条调用链路,生成所述待追踪数据对应的数据流动拓扑。
2.根据权利要求1所述的方法,其特征在于,所述根据所述至少一条调用链路,生成所述待追踪数据对应的数据流动拓扑,包括:
按照调用链路中各链路节点之间的调用顺序,对所述至少一条调用链路进行归并,以获得至少一条归并链路;
根据所述至少一条归并链路,生成所述待追踪数据对应的数据流动拓扑。
3.根据权利要求2所述的方法,其特征在于,所述根据所述至少一条归并链路,生成所述待追踪数据对应的数据流动拓扑,包括:
确定所述至少一条归并链路中包含的各出口URL,所述出口URL是指承载针对所述数据集的访问请求的URL;
基于所述各出口URL接收到的来自所述数据集的数据,从所述至少一条归并链路中识别出可信调用链路;
根据所述可信调用链路生成所述待追踪数据对应的数据流动拓扑。
4.根据权利要求3所述的方法,其特征在于,所述基于所述各出口URL接收到的来自所述数据集的数据,从所述至少一条归并链路中识别出可信调用链路,包括:
根据所述待追踪数据对应的数据字段,从各出口URL中识别出其接收到的来自所述数据集的数据中包含与所述数据字段匹配的数据的目标出口URL;
将所述至少一个归并链路中所述目标出口URL所在的调用链路确定为可信调用链路。
5.根据权利要求3所述的方法,其特征在于,所述基于所述至少一条归并链路中包含的各出口URL各自接收到的数据,从所述至少一条归并链路中确定出至少一条可信调用链路,包括:
基于所述数据集对应的数据出口URL集,根据所述至少一条归并链路中包含的各出口URL及所述待追踪数据对应的数据字段,检索所述数据出口URL集,其中,所述数据出口URL集中包含数据字段以及一个数据字段对应的一个或多个出口URL;
若在所述数据出口URL集中检索到符合条件的目标出口URL,则将所述至少一条归并链路中目标出口URL所在的调用链路,确定为可信调用链路。
6.根据权利要求5所述的方法,其特征在于,所述检索所述数据出口URL集之前,还包括:
基于所述数据集包含的一个或多个数据字段,对所述数据集对应的一个或多个出口URL所接收到的数据进行数据字段识别;
根据识别结果,建立各数据字段与一个或多个出口URL之间的对应关系;
根据所述数据集包含的一个或多个数据字段以及各数据字段与一个或多个出口URL之间的对应关系,生成所述数据集对应的数据出口URL集。
7.根据权利要求6所述的方法,其特征在于,还包括:
基于所述数据集对应的数据入口URL集,根据所述待追踪数据对应的数据字段,检索所述数据入口URL集,以获得所述待追踪数据对应的一个或多个入口URL;其中,所述数据入口URL集中包含数据字段以及一个数据字段对应的一个或多个入口URL,所述入口URL是指承载针对所述数据集的写入请求的URL;
根据所述待追踪数据对应的一个或多个入口URL以及所述待追踪数据对应的所述至少一条归并链路中包含的各出口URL,确定所述待追踪数据的流动方向;
将所述流动方向以可视化的方式加入所述待追踪数据对应的数据流动拓扑中。
8.根据权利要求7所述的方法,其特征在于,在所述基于所述数据集对应的数据入口URL集,根据所述待追踪数据对应的数据字段,检索所述数据入口URL集之前,还包括:
基于所述数据集包含的一个或多个数据字段,对所述数据集对应的一个或多个入口URL所输出的数据进行数据字段识别;
根据识别结果,建立各数据字段与一个或多个入口URL之间的对应关系;
根据所述数据集包含的一个或多个数据字段以及各数据字段与一个或多个入口URL之间的对应关系,生成所述数据集对应的数据入口URL集。
9.根据权利要求3所述的方法,其特征在于,根据所述可信调用链路生成所述待追踪数据对应的数据流动拓扑,包括:
将所述至少一条归并链路中可信调用链路之外的其它调用链路,作为非可信调用链路;
对所述至少一条归并链路中的可信调用链路和非可信调用链路打标,以获得所述待追踪数据对应的数据流动拓扑。
10.根据权利要求2所述的方法,其特征在于,所述按照调用链路中各链路节点之间的调用顺序,对所述至少一条调用链路进行归并,以获得至少一条归并链路,包括:
按照调用链路中各链路节点之间的调用顺序,从各个调用链路中的首个链路节点所在的链路位置开始,将各调用链路中处于相同链路位置上且具有相同的在前链路节点的链路节点归并,以获得至少一条归并链路。
11.根据权利要求10所述的方法,其特征在于,还包括:
根据所述至少一条归并链路中各链路节点对应的归并次数,确定所述至少一条归并链路各自对应的防控权重,所述防控权重用于表征在对所述归并链路进行风险防控时所需的关注度;
将所述防控权重以可视化的方式加入所述待追踪数据对应的数据流动拓扑中。
12.根据权利要求1所述的方法,其特征在于,所述确定数据集中的待追踪数据,包括:
基于预设的一个或多个敏感字段,对所述数据集进行敏感字段识别;
根据识别结果,输出所述数据集中包含的各敏感字段对应的敏感数据的静态分布信息,所述静态分布信息用于记录各敏感字段对应的敏感数据所属的数据表;
将所述数据集中包含的各敏感字段对应的敏感数据作为所述待追踪数据;
所述获取所述待追踪数据对应的调用信息,包括:
根据所述静态分布信息,确定所述待追踪数据所属的数据表;
获取所述待追踪数据所属的数据表对应的调用信息,作为所述待追踪数据对应的调用信息。
13.根据权利要求12所述的方法,其特征在于,还包括:
基于所述静态分布信息,将所述待追踪数据所属的数据表的描述信息加入所述待追踪数据对应的数据流动拓扑中。
14.一种计算设备,其特征在于,包括存储器和处理器;
所述存储器用于存储一条或多条计算机指令;
所述处理器与所述存储器耦合,用于执行所述一条或多条计算机指令,以用于:
确定数据集中的待追踪数据,并获取所述待追踪数据...
【专利技术属性】
技术研发人员:陈艳军,崔捷,袁小杰,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛;KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。