System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于数据查询领域,具体的,涉及一种基于数据查询的信息泄露追踪方法和系统。
技术介绍
1、随着大数据技术、数据湖、数据中台等技术工具的快速发展和应用,人们获得和使用数据的方式越来越便捷,得到的数据类型和数据量也越来越丰富。这给敏感数据的查询和跟踪带来了巨大的挑战。
2、数据使用人员通过电脑或移动设备查询数据时,是可以利用数据导出、数据复制、屏幕拷贝、拍摄录像等多种技术手段复制和传输数据信息的。要追溯到哪些查询和使用过这些信息的用户,常常需要(直接或间接)对比各用户的查询历史数据和泄露样本数据。直接记录用户的每次查询结果集历史,将需要巨大的存储空间冗余存储样本数据和建立数据索引。虽然可以采用数据归一化压缩(如使用表记录主键等代表检索数据行),但自助查询或api查询通常涉及多张表的链接甚至嵌套,实现压缩非常复杂困难,同时影响用户正常查询体验和应用查询逻辑。还有一种方式是通过记录查询sql来进行追溯,但一方面同一sql在查询时和追溯时的结果集存在差异,另一方面如果表结构发生变化该sql可能面临无法执行的问题,还需要面临sql全部再执行的查询成本和时间成本。
3、无论是大数据平台、数据湖、数据中台本身已经涉及海量的数据存储,it建设具有较高的资本支出和运营成本。数据追溯属于事后处理,有些亡羊补牢的意味,通常难以获得较大的成本支持和投入,相比数据追溯人们更愿意在前期数据治理和安全管理方面下功夫。从市场产品层面或已有专利查询来看,大部分方案都是基于操作日志、系统日志、数据日志等关联分析和机器学习技术等应用实现
技术实现思路
1、根据本专利技术第一方面,本专利技术请求保护一种基于数据查询的信息泄露追踪方法,其特征在于,包括:
2、用户通过业务查询界面输入查询内容,获得查询结果后,为所述查询结果添加追溯标记数据;
3、将所述查询结果异步输出至查询结果数据索引,依据所述查询结果构建或更新所述查询结果数据索引;
4、数据审查员导入待追踪泄漏数据,依据所述待追踪泄漏数据构建泄露数据指纹索引;
5、将泄露数据指纹索引与所述查询结果数据索引进行比对,得到相似度大于预设阈值的查询结果,将对应的查询用户认定为信息泄露嫌疑人。
6、进一步的,所述用户通过业务查询界面输入查询内容,获得查询结果后,为所述查询结果添加追溯标记数据,具体包括:
7、数据审查员管理维护所述追溯标记数据,存入追溯标记数据库中;
8、所述追溯标记数据由不可见的html属性节点组成,不会影响用户阅读;或由可见的不影响用户对语义理解的文本文字组成;
9、每类追溯标记数据由元组标记组成。
10、进一步的,所述将所述查询结果异步输出至查询结果数据索引,依据所述查询结果构建或更新所述查询结果数据索引,具体包括:
11、用户通过数据查询功能查询需要的业务数据;
12、所述数据查询功能的实现为一个函数或服务,直接返回查询结果;
13、所述查询结果由数据库中的raw数据或raw数据间接加工而成;
14、所述查询结果中的敏感字段,依据追溯标记数据库中的tracekey类型关系,增加对应的trace_value数据,加入追溯标记数据后的字段描述为{querykey:queryvalue+
15、{trace_value}};
16、每一条查询结果记录由一组相关的{querykey:queryvalue和{trace_value}}组成,查询结果记录的集合形成查询结果集;
17、将所述查询结果集展示给用户的,同时,用户信息和查询结果集信息通过消息类中间件异步发往查询结果索引引擎,所述查询结果索引引擎更新所述查询结果数据索引。
18、进一步的,所述查询结果数据索引的构建或更新过程包括:
19、所述查询结果索引引擎获得所述查询结果集信息后判定用户是否已建立查询结果数据索引,当没有时,为所述用户创建查询结果数据索引并初始化,当已建立时,循环遍历查询结果数据索引的结果记录;
20、计算字段的valuehash和tracehash;
21、更新所述valuehash和tracehash到用户索引区。
22、进一步的,所述计算字段的valuehash,具体包括:
23、计算value={querykey:queryvalue};
24、利用8个哈希函数用hm=hashm(value+seedm)进行编码,产生8个信息指纹{hm},{seedm}为随机生成的8个函数参数种子;
25、hashm=sha1(value+seedm)<<34,用不同的质数按哈希取模计算哈希值;
26、将信息指纹{hm}加入预设数组,形成valuehash;
27、计算字段的tracehash的计算过程如下:
28、计算tvalue={querykey:queryvalue+{trace_value}},+表示字符串拼接;
29、利用计算valuehash的8个哈希函数hm=hashm(tvalue+seedm)进行编码,产生8个信息指纹{hm},hashm的计算同于valuehash;
30、将信息指纹{hm}加入数组,形成tracehash。
31、进一步的,所述查询结果索引引擎更新所述查询结果数据索引,具体包括:
32、对valuehash的信息指纹{hm}作循环,获得8个long值hm1;
33、按hm1循环取值计算对应的索引位位置,并置为1;
34、对tracehash的信息指纹{hm}作循环,获得8个long值hm2;
35、按hm2循环取值计算对应的索引位位置,并置为1。
36、进一步的,所述数据审查员导入待追踪泄漏数据,依据所述待追踪泄漏数据构建泄露数据指纹索引,具体包括:
37、数据审查员导入待追踪泄漏数据,对所述待追踪泄漏数据的敏感内容和字段建立valuehash;
38、如果含有trace值信息,则建立tracehash;
39、建立泄露数据指纹索引hm1,hm2。
40、进一步的,所述将泄露数据指纹索引与所述查询结果数据索引进行比对,得到相似度大于预设阈值的查询结果,将对应的查询用户认定为信息泄露嫌疑人,具体包括:
41、利用泄露数据指纹索引检查各用户的查询结果数据索引,计算各用户与所述待追踪泄漏数据的相似度s;
42、所述相似度s=用户索引区数据信息和泄露数据指纹索引数据中位1重叠计数/16.0;
4本文档来自技高网...
【技术保护点】
1.一种基于数据查询的信息泄露追踪方法,其特征在于,包括:
2.如权利要求1所述的一种基于数据查询的信息泄露追踪方法,其特征在于,所述用户通过业务查询界面输入查询内容,获得查询结果后,为所述查询结果添加追溯标记数据,具体包括:
3.如权利要求1所述的一种基于数据查询的信息泄露追踪方法,其特征在于,所述将所述查询结果异步输出至查询结果数据索引,依据所述查询结果构建或更新所述查询结果数据索引,具体包括:
4.如权利要求3所述的一种基于数据查询的信息泄露追踪方法,其特征在于,所述查询结果数据索引的构建或更新过程包括:
5.如权利要求4所述的一种基于数据查询的信息泄露追踪方法,其特征在于,所述计算字段的valuehash,具体包括:
6.如权利要求4所述的一种基于数据查询的信息泄露追踪方法,其特征在于,所述查询结果索引引擎更新所述查询结果数据索引,具体包括:
7.如权利要求6所述的一种基于数据查询的信息泄露追踪方法,其特征在于,所述数据审查员导入待追踪泄漏数据,依据所述待追踪泄漏数据构建泄露数据指纹索引,具体包括:数
8.如权利要求6所述的一种基于数据查询的信息泄露追踪方法,其特征在于,所述将泄露数据指纹索引与所述查询结果数据索引进行比对,得到相似度大于预设阈值的查询结果,将对应的查询用户认定为信息泄露嫌疑人,具体包括:
9.如权利要求6所述的一种基于数据查询的信息泄露追踪方法,其特征在于,还包括:
10.一种基于数据查询的信息泄露追踪系统,其特征在于,包括:
...【技术特征摘要】
1.一种基于数据查询的信息泄露追踪方法,其特征在于,包括:
2.如权利要求1所述的一种基于数据查询的信息泄露追踪方法,其特征在于,所述用户通过业务查询界面输入查询内容,获得查询结果后,为所述查询结果添加追溯标记数据,具体包括:
3.如权利要求1所述的一种基于数据查询的信息泄露追踪方法,其特征在于,所述将所述查询结果异步输出至查询结果数据索引,依据所述查询结果构建或更新所述查询结果数据索引,具体包括:
4.如权利要求3所述的一种基于数据查询的信息泄露追踪方法,其特征在于,所述查询结果数据索引的构建或更新过程包括:
5.如权利要求4所述的一种基于数据查询的信息泄露追踪方法,其特征在于,所述计算字段的valuehash,具体包括:
6.如权利要求4所述的一种基于数据查询的信息泄露追踪方法,其特征在...
【专利技术属性】
技术研发人员:白景明,李鹏辉,
申请(专利权)人:大唐软件技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。