一种基于数据映射的数据泄漏溯源判定方法及系统技术方案

技术编号:21089636 阅读:37 留言:0更新日期:2019-05-11 09:59
本发明专利技术涉及一种基于数据映射的数据泄漏溯源判定方法及系统,其中的方法包括:抽取原始数据集的子集作为交付数据集;对被抽取出的交付数据集中的每一条数据进行数据标记以标识交付对象;建立交付对象的识别标签;将待溯源数据集中的每一条数据,与原始数据集中的各个子集进行匹配,得到匹配数据集;统计匹配数据集中所有子集数据的数据标记的分布,结合识别标签,判定待溯源数据集所指向的交付对象。本发明专利技术通过将不同的原始数据集抽取的子集进行数据标记后分发给不同的用户,并针对不同交付对象的交付数据集中的数据标记的数量统计关系建立了对应的识别标签,在发现数据泄露后的追责阶段,可以根据泄露的数据对应的识别标签找到具体的数据持有用户。

【技术实现步骤摘要】
一种基于数据映射的数据泄漏溯源判定方法及系统
本专利技术涉及信息安全领域,具体涉及一种基于数据映射的数据泄漏溯源判定方法及系统。
技术介绍
随着大数据时代的来临,机器学习等数据分析技术的进步和提升,数据所含有的内在价值使得人们对数据交易和自由流转的需求越发迫切。然而在实现数据交易与流转之前,亟需解决的一大顾虑与难关,是在数据泄露发生时,数据的原始所有方如何才能将责任划清界限并使正当权益得到维护。数据溯源的难题是,数据交付时将作为一个数据集交付,而流通并泄露后得到的可能仅仅是其一个子集。即数据集是可分割的,无法被捆绑打包并作为一个整体做上标记。而若是对其中的每一条目做上标记,则将遇到另一困难,就是标记的隐蔽性和抗移除性,若添加的数据易于辨别且无关紧要,则数据流通时该标记完全可能被移除。另外,数据溯源中的另一问题,是泄露的数据与最初交付的原始数据集之间可以存在一定的差异。比如,当如下一些操作并非大规模发生、或仅对重要性较低的部分发生时,可以不对数据的使用价值产生显著影响:增,向数据中添加一些的数据,这里指的是添加整条数据;删,删除数据中部分数据;改,修改数据中的某些字段或者增删某些字段。
技术实现思路
针对上述技术问题,本专利技术提供一种基于数据映射的数据泄漏溯源判定方法及系统。本专利技术解决上述技术问题的技术方案如下:一种基于数据映射的数据泄漏溯源判定方法,包括:步骤1、抽取原始数据集的子集作为交付数据集;步骤2、对被抽取出的所述交付数据集中的每一条数据进行数据标记以标识交付对象;步骤3、根据所述交付数据集中所有数据的数据标记的数量,建立所述交付对象的识别标签;步骤4、将待溯源数据集中的每一条数据,与所述原始数据集进行匹配,得到由所述原始数据集中匹配成功的数据构成的匹配数据集;步骤5、统计所述匹配数据集中所有数据的数据标记的分布,结合所述识别标签,判定所述待溯源数据集所指向的交付对象。为实现上述专利技术目的,本专利技术还提供一种基于数据映射的数据泄漏溯源判定系统,包括:抽取模块,用于抽取原始数据集的子集作为交付数据集;标记模块,用于对被抽取出的所述交付数据集中的每一条数据进行数据标记以标识交付对象;建立模块,用于根据所述交付数据集中所有数据的数据标记的数量,建立所述交付对象的识别标签;匹配模块,用于将待溯源数据集中的每一条数据,与所述原始数据集进行匹配,得到由所述原始数据集中匹配成功的数据构成的匹配数据集;判定模块,用于统计所述匹配数据集中所有数据的数据标记的分布,结合所述识别标签,判定所述待溯源数据集所指向的交付对象。本专利技术的有益效果是:在不改变原始数据集的情况下,通过将不同的原始数据集抽取的子集进行数据标记后分发给不同的用户,并针对不同交付对象的交付数据集中的数据标记的数量统计关系建立了对应的识别标签,在发现数据泄露后的追责阶段,可以根据泄露的数据对应的识别标签找到具体的数据持有用户。附图说明图1为本专利技术实施例提供的一种基于数据映射的数据泄漏溯源判定方法的流程图。具体实施方式以下结合附图对本专利技术的原理和特征进行描述,所举实例只用于解释本专利技术,并非用于限定本专利技术的范围。图1为本专利技术实施例提供的一种基于数据映射的数据泄漏溯源判定方法的流程图,如图1所示,该方法包括:S1、抽取原始数据集的子集作为交付数据集;具体的,可以按照一定的抽取规则从数据集的随机均匀抽取,该规则包含但不限于随机抽样。S2、对被抽取出的所述交付数据集中的每一条数据进行数据标记以标识交付对象;具体的,数据标记(datalabel)与单条数据单元绑定,用于标识历史交付对象。一条数据标记可以标识一个或多个交付对象,也可以标识空的交付对象(即未曾被交付)。举例来说,数据标记的一种实现方式是使用比特串,使每一位代表一个特定的交付对象,假设比特串的四位分别代表ABCD四个交付对象,以“1”代表“交付过”,且0001,0110,0000是某三条数据的数据标记,则这三条数据依次“曾仅交付过D”,“仅交付过BC”,“未曾交付过”。S3、根据所述交付数据集中所有数据的数据标记的数量,建立所述交付对象的识别标签;具体的,交付数据集中所有数据的数据标记的数量指的是对“交付给该交付对象的数据集”所记录的、与该交付对象及交付数据集绑定的、该交付数据集中每条数据标记所标识的“交付对象(包含所有历史交付对象)”经统计求和所得数量,由于交付的随机性,每个交付对象的数量统计会存在一定的区别,可据此建立交付对象的识别标签。在具体实现时应当注意,不同的识别标签之间,应满足一定的区分度,以便在数据匹配部分能够区分判定不同的交付对象。另外,不同的交付数据集的数据量可以不同;不同的交付数据集之间可以有交集;数据标记以及交付对象识别标签仅由原始数据所有者掌握,不随交付数据集交付;数据标记标识了交付对象,但这种标识并非只能是“个体”与“标识”的一一对应,例如,一个交付对象可以交付多个标识的数据集(一对多),或者某一集体对象共用一个标识(多对一),或某一集体对象共用多个标识的交付数据集(多对多)。S4、将待溯源数据集中的每一条数据,与所述原始数据集进行匹配,得到由原始数据集中匹配成功的数据构成的匹配数据集;具体的,当原始数据持有者得知数据泄露后,需要对获取的泄露数据进行溯源时,可将泄露数据与原始数据集进行匹配,按照设定的匹配算法得到由原始数据集中匹配成功的数据构成的匹配数据集。S5、统计所述匹配数据集中所有数据的数据标记的分布,结合所述识别标签,判定所述待溯源数据集所指向的交付对象。具体的,在得到匹配数据集后,原始数据持有者通过所掌握的数据标记对匹配数据集中所有数据的数据标记的分布进行统计,并将其与所掌握的交付对象的识别标签进行比对,即可对待溯源数据集所指向的交付对象进行判定,从而可对该交付对象进行相应的追责。本专利技术本专利技术实施例提供的一种基于数据映射的数据泄漏溯源判定方法,在不改变原始数据集的情况下,通过将不同的原始数据集抽取的子集进行数据标记后分发给不同的用户,并针对不同交付对象的交付数据集中的数据标记的数量统计关系建立了对应的识别标签,在发现数据泄露后的追责阶段,可以根据泄露的数据对应的识别标签找到具体的数据持有用户。可选地,在该实施例中,步骤S1具体包括:随机抽取原始数据集的预设比例的数据作为交付数据集。具体的,子集的抽取规则应满足,其一,抽取子集应具有随机分布性,不应影响数据的统计分布;其二,抽取子集应设定上限,不能超过原始数据量的一定比例,不能为100%(即全部数据),且该上限值设置得越大,该专利技术方法的可靠性越低,可在50%左右选择。可选地,在该实施例中,步骤S3具体包括:S3.1、按照交付对象分别统计所述交付数据集中所有子集的数据标记的数量;S3.2、分别计算各个交付对象对应的数据标记的数量与所述交付数据集数据总量的比例;S3.3、将计算得到的各个比例按照预设顺序排列构成的向量作为所述交付对象的识别标签。具体的,在该实施例中,交付对象的识别标签(usertag),即对“交付给该交付对象的数据集”所记录的、与该交付对象及交付数据集绑定的、该交付数据集中每条数据标记所标识的“交付对象(包含所有历史交付对象)”经统计求和所得数量或其占交付数据集总量的比例“按指定顺序”构成的向量。比如,交付本文档来自技高网...

【技术保护点】
1.一种基于数据映射的数据泄漏溯源判定方法,其特征在于,包括:步骤1、抽取原始数据集的子集作为交付数据集;步骤2、对被抽取出的所述交付数据集中的每一条数据进行数据标记以标识交付对象;步骤3、根据所述交付数据集中所有数据的数据标记的数量,建立所述交付对象的识别标签;步骤4、将待溯源数据集中的每一条数据,与所述原始数据集进行匹配,得到由所述原始数据集中匹配成功的数据构成的匹配数据集;步骤5、统计所述匹配数据集中所有数据的数据标记的分布,结合所述识别标签,判定所述待溯源数据集所指向的交付对象。

【技术特征摘要】
1.一种基于数据映射的数据泄漏溯源判定方法,其特征在于,包括:步骤1、抽取原始数据集的子集作为交付数据集;步骤2、对被抽取出的所述交付数据集中的每一条数据进行数据标记以标识交付对象;步骤3、根据所述交付数据集中所有数据的数据标记的数量,建立所述交付对象的识别标签;步骤4、将待溯源数据集中的每一条数据,与所述原始数据集进行匹配,得到由所述原始数据集中匹配成功的数据构成的匹配数据集;步骤5、统计所述匹配数据集中所有数据的数据标记的分布,结合所述识别标签,判定所述待溯源数据集所指向的交付对象。2.根据权利要求1所述的方法,其特征在于,所述步骤1具体包括:随机抽取原始数据集的预设比例的数据作为交付数据集。3.根据权利要求1所述的方法,其特征在于,所述步骤3具体包括:步骤3.1、按照交付对象分别统计所述交付数据集中所有子集的数据标记的数量;步骤3.2、分别计算各个交付对象对应的数据标记的数量与所述交付数据集数据总量的比例;步骤3.3、将计算得到的各个比例按照预设顺序排列构成的向量作为所述交付对象的识别标签。4.根据权利要求1所述的方法,其特征在于,所述步骤4具体包括:将待溯源数据集中的每一条数据,与所述原始数据集中的各条数据进行相似度计算,将所述原始数据集中与所述待溯源数据集中数据的相似度最大且最大相似度大于预设阈值的数据加入匹配数据集。5.根据权利要求1-4任一项所述的方法,其特征在于,所述步骤5具体包括:步骤5.1、按照交付对象分别统计所述匹配数据集中所有数据的数据标记的数量;步骤5.2、分别计算各个交付对象对应的数据标记的数量与所述匹配数据集数据总量的比例;步骤5.3、将计算得到的各个比例按照预设顺序排列构成的向量作为匹配标签;步骤5.4、将所述匹配标签与所述用户标签进行匹配,根据匹配结果判定所述待溯源数据集所指向的交易对象。6.一种基于数据映射的数据泄漏溯源判定...

【专利技术属性】
技术研发人员:闫炳豪庄子迪党美刘会议
申请(专利权)人:北京三未信安科技发展有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1