一种基于数据映射的数据泄漏溯源判定方法及系统技术方案

技术编号：21089636 阅读：37 留言：0更新日期：2019-05-11 09:59

本发明专利技术涉及一种基于数据映射的数据泄漏溯源判定方法及系统,其中的方法包括：抽取原始数据集的子集作为交付数据集；对被抽取出的交付数据集中的每一条数据进行数据标记以标识交付对象；建立交付对象的识别标签；将待溯源数据集中的每一条数据，与原始数据集中的各个子集进行匹配，得到匹配数据集；统计匹配数据集中所有子集数据的数据标记的分布，结合识别标签，判定待溯源数据集所指向的交付对象。本发明专利技术通过将不同的原始数据集抽取的子集进行数据标记后分发给不同的用户，并针对不同交付对象的交付数据集中的数据标记的数量统计关系建立了对应的识别标签，在发现数据泄露后的追责阶段，可以根据泄露的数据对应的识别标签找到具体的数据持有用户。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于数据映射的数据泄漏溯源判定方法及系统
本专利技术涉及信息安全领域，具体涉及一种基于数据映射的数据泄漏溯源判定方法及系统。
技术介绍
随着大数据时代的来临，机器学习等数据分析技术的进步和提升,数据所含有的内在价值使得人们对数据交易和自由流转的需求越发迫切。然而在实现数据交易与流转之前，亟需解决的一大顾虑与难关，是在数据泄露发生时，数据的原始所有方如何才能将责任划清界限并使正当权益得到维护。数据溯源的难题是，数据交付时将作为一个数据集交付，而流通并泄露后得到的可能仅仅是其一个子集。即数据集是可分割的，无法被捆绑打包并作为一个整体做上标记。而若是对其中的每一条目做上标记，则将遇到另一困难，就是标记的隐蔽性和抗移除性，若添加的数据易于辨别且无关紧要，则数据流通时该标记完全可能被移除。另外，数据溯源中的另一问题，是泄露的数据与最初交付的原始数据集之间可以存在一定的差异。比如，当如下一些操作并非大规模发生、或仅对重要性较低的部分发生时，可以不对数据的使用价值产生显著影响：增，向数据中添加一些的数据，这里指的是添加整条数据；删，删除数据中部分数据；改，修改数据中的某些字段或者增删某些字段。
技术实现思路
针对上述技术问题，本专利技术提供一种基于数据映射的数据泄漏溯源判定方法及系统。本专利技术解决上述技术问题的技术方案如下：一种基于数据映射的数据泄漏溯源判定方法，包括：步骤1、抽取原始数据集的子集作为交付数据集；步骤2、对被抽取出的所述交付数据集中的每一条数据进行数据标记以标识交付对象；步骤3、根据所述交付数据集中所有数据的数据标记的数量，建立所述交付对象的识别标签；...

【技术保护点】
1.一种基于数据映射的数据泄漏溯源判定方法，其特征在于，包括：步骤1、抽取原始数据集的子集作为交付数据集；步骤2、对被抽取出的所述交付数据集中的每一条数据进行数据标记以标识交付对象；步骤3、根据所述交付数据集中所有数据的数据标记的数量，建立所述交付对象的识别标签；步骤4、将待溯源数据集中的每一条数据，与所述原始数据集进行匹配，得到由所述原始数据集中匹配成功的数据构成的匹配数据集；步骤5、统计所述匹配数据集中所有数据的数据标记的分布，结合所述识别标签，判定所述待溯源数据集所指向的交付对象。

【技术特征摘要】
1.一种基于数据映射的数据泄漏溯源判定方法，其特征在于，包括：步骤1、抽取原始数据集的子集作为交付数据集；步骤2、对被抽取出的所述交付数据集中的每一条数据进行数据标记以标识交付对象；步骤3、根据所述交付数据集中所有数据的数据标记的数量，建立所述交付对象的识别标签；步骤4、将待溯源数据集中的每一条数据，与所述原始数据集进行匹配，得到由所述原始数据集中匹配成功的数据构成的匹配数据集；步骤5、统计所述匹配数据集中所有数据的数据标记的分布，结合所述识别标签，判定所述待溯源数据集所指向的交付对象。2.根据权利要求1所述的方法，其特征在于，所述步骤1具体包括：随机抽取原始数据集的预设比例的数据作为交付数据集。3.根据权利要求1所述的方法，其特征在于，所述步骤3具体包括：步骤3.1、按照交付对象分别统计所述交付数据集中所有子集的数据标记的数量；步骤3.2、分别计算各个交付对象对应的数据标记的数量与所述交付数据集数据总量的比例；步骤3.3、将计算得到的各个比例按照预设顺序排列构成的向量作为所述交付对象的识别标签。4.根据权利要求1所述的方法，其特征在于，所述步骤4具体包括：将待溯源数据集中的每一条数据，与所述原始数据集中的各条数据进行相似度计算，将所述原始数据集中与所述待溯源数据集中数据的相似度最大且最大相似度大于预设阈值的数据加入匹配数据集。5.根据权利要求1-4任一项所述的方法，其特征在于，所述步骤5具体包括：步骤5.1、按照交付对象分别统计所述匹配数据集中所有数据的数据标记的数量；步骤5.2、分别计算各个交付对象对应的数据标记的数量与所述匹配数据集数据总量的比例；步骤5.3、将计算得到的各个比例按照预设顺序排列构成的向量作为匹配标签；步骤5.4、将所述匹配标签与所述用户标签进行匹配，根据匹配结果判定所述待溯源数据集所指向的交易对象。6.一种基于数据映射的数据泄漏溯源判定...

【专利技术属性】
技术研发人员：闫炳豪，庄子迪，党美，刘会议，
申请(专利权)人：北京三未信安科技发展有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人