一种敏感数据发现方法及装置制造方法及图纸

技术编号:36502359 阅读:23 留言:0更新日期:2023-02-01 15:25
本申请公开了一种敏感数据发现方法及装置,用以根据用户配置的敏感数据发现规则,实现快速从大规模数据中精确查找到敏感数据。本申请提供的一种敏感数据发现方法,包括:获取用户预先配置的敏感数据发现规则;其中,所述敏感数据发现规则包括下列发现规则之一或组合:字段排除、字段扫描、内容扫描;其中,所述字段排除,根据预先配置的字段排除内容,过滤掉待识别的数据集合中的非敏感字段;所述字段扫描,根据预先配置的字段扫描内容,从待识别的数据集合中筛选出敏感字段;所述内容扫描,根据记录有敏感数据内容的文本,从待识别的数据集合中筛选出敏感数据;通过所述敏感数据发现规则,确定待识别的数据集合中是否含有敏感数据。据。据。

【技术实现步骤摘要】
一种敏感数据发现方法及装置


[0001]本申请涉及数据存储
,尤其涉及一种敏感数据发现方法及装置。

技术介绍

[0002]随着数据中台的发展,数据安全越来越得到用户的重视,如何在复杂、庞大、数据存储格式不一的存储引擎中快速找到用户的敏感数据就变得非常重要。
[0003]现有的敏感数据发现方法有很多,但大部分都是基于系统预先设置好的简单规则,而无法支持用户精细化制定规则,进行敏感数据发现,这种场景只能满足很局限的用户需求,例如用户建立规则:字段名称为电话号码的均认为是敏感字段,那么会将数据仓库中所有的电话号码字段都认为是敏感数据,其实很多的电话号码不是敏感数据,例如12345市长热线等公众号码。也就是说,敏感数据发现技术强依赖于敏感规则的制订,如果不能支持各种复杂场景的规则,将无法准确无误发现敏感数据。

技术实现思路

[0004]本申请实施例提供了一种敏感数据发现方法及装置,用以根据用户配置的敏感数据发现规则,实现快速从大规模数据中精确查找到敏感数据,从而提高敏感数据发现的准确率和效率。
[0005]本申请实施例提供的一种敏感数据发现方法,所述方法包括:
[0006]获取用户预先配置的敏感数据发现规则;其中,所述敏感数据发现规则包括下列发现规则之一或组合:字段排除、字段扫描、内容扫描;其中,所述字段排除,根据预先配置的字段排除内容,过滤掉待识别的数据集合中的非敏感字段;所述字段扫描,根据预先配置的字段扫描内容,从待识别的数据集合中筛选出敏感字段;所述内容扫描,根据记录有敏感数据内容的文本,从待识别的数据集合中筛选出敏感数据;
[0007]通过所述敏感数据发现规则,确定待识别的数据集合中是否含有敏感数据。
[0008]通过该方法,获取用户预先配置的敏感数据发现规则;其中,所述敏感数据发现规则包括下列发现规则之一或组合:字段排除、字段扫描、内容扫描;其中,所述字段排除,根据预先配置的字段排除内容,过滤掉待识别的数据集合中的非敏感字段;所述字段扫描,根据预先配置的字段扫描内容,从待识别的数据集合中筛选出敏感字段;所述内容扫描,根据记录有敏感数据内容的文本,从待识别的数据集合中筛选出敏感数据;通过所述敏感数据发现规则,确定待识别的数据集合中是否含有敏感数据,从而可以快速从大规模数据中准确无误地发现敏感数据。
[0009]在一些实施例中,所述通过所述敏感数据发现规则,确定待识别的数据集合中是否含有敏感数据,包括:
[0010]通过所述敏感数据发现规则与待识别的数据集合进行匹配,计算出待识别的数据范围;其中,所述数据集合由预设的数据信息构成,其中,所述数据信息包括:项目信息、项目下的数据表信息以及项目下的数据表中的字段信息;
[0011]基于所述待识别的数据范围,确定所述数据集合中是否含有敏感数据。
[0012]通过该方法,从待识别的数据集合中筛选出待识别的数据范围,进而识别出敏感数据。
[0013]在一些实施例中,所述字段扫描包括下列扫描内容之一或组合:
[0014]*p*.*t*.*f*,其中,p表示项目名称中的关键字,t表示含关键字p的项目下的数据表名称中的关键字,f表示含关键字p的项目下的含关键字t的数据表中的字段名称中的关键字;
[0015]p*.t*.f*,其中,p表示项目名称开头的关键字,t表示以关键字p开头的项目下的数据表名称开头的关键字,f表示以关键字p开头的项目下的以关键字t开头的数据表中的字段名称开头的关键字;
[0016]*p.*t.*f,其中,p表示项目名称结尾的关键字,t表示以关键字p结尾的项目下的数据表名称结尾的关键字,f表示以关键字p结尾的项目下的以关键字t结尾的数据表中的字段名称结尾的关键字;
[0017]*.t.f,其中,t表示所有项目下的数据表名称,f表示所有项目下的含关键字t的数据表中的字段名称;
[0018]p.*.f,其中,p表示项目名称,f表示含关键字p的项目下所有数据表中的字段名称;
[0019]p.t..*,其中,p表示项目名称,t表示含关键字p的项目下的数据表名称;
[0020]其中,*表示通配符,用于对项目名称、数据表名称、字段名称中的一个或多个进行模糊;.表示连接符,用于对项目名称、数据表名称、字段名称的中间进行连接。
[0021]通过该方法,实现用户根据自己的需求配置字段扫描内容。
[0022]在一些实施例中,所述字段排除包括下列排除内容之一或组合:
[0023]*p*.*t*.*f*,其中,p表示项目名称中的关键字,t表示含关键字p的项目下的数据表名称中的关键字,f表示含关键字p的项目下的含关键字t的数据表中的字段名称中的关键字;
[0024]p*.t*.f*,其中,p表示项目名称开头的关键字,t表示以关键字p开头的项目下的数据表名称开头的关键字,f表示以关键字p开头的项目下的以关键字t开头的数据表中的字段名称开头的关键字;
[0025]*p.*t.*f,其中,p表示项目名称结尾的关键字,t表示以关键字p结尾的项目下的数据表名称结尾的关键字,f表示以关键字p结尾的项目下的以关键字t结尾的数据表中的字段名称结尾的关键字;
[0026]*.t.f,其中,t表示所有项目下的数据表名称,f表示所有项目下的含关键字t的数据表中的字段名称;
[0027]p.*.f,其中,p表示项目名称,f表示含关键字p的项目下所有数据表中的字段名称;
[0028]p.t..*,其中,p表示项目名称,t表示含关键字p的项目下的数据表名称。
[0029]通过该方法,实现用户根据自己的需求配置字段排除内容。
[0030]在一些实施例中,所述方法还包括:
[0031]输出用户界面,通过所述用户界面获取用户预先配置的所述敏感数据发现规则。
[0032]通过该方法,实现用户自主配置满足更多复杂场景的敏感数据发现规则。
[0033]在一些实施例中,用户将敏感数据内容记录于文本中,并通过所述用户界面获取所述文本中的敏感数据内容,其中,所述文本就是用户配置的内容扫描的敏感数据发现规则。
[0034]通过该方法,实现获取用户配置的内容扫描文本内容。
[0035]在一些实施例中,所述基于所述待识别的数据范围,确定所述数据集合中是否含有敏感数据,包括:
[0036]判断用户预先配置的敏感数据发现规则是否包含内容扫描;
[0037]当包含内容扫描时,利用所述内容扫描生成扫描语句,对所述待识别的数据范围进行扫描,确定所述待识别的数据范围中是否存在敏感数据;
[0038]当不包含内容扫描时,利用字段扫描生成扫描语句,对所述待识别的数据范围进行扫描,确定所述待识别的数据范围中是否存在敏感数据。
[0039]通过该方法,实现根据内容扫描或字段扫描,以确定待识别的数据范围中是否含有敏感数据,从而提高敏感数据发现的准确率。
[0040]本申请另一实施例提供本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种敏感数据发现方法,其特征在于,所述方法包括:获取用户预先配置的敏感数据发现规则;其中,所述敏感数据发现规则包括下列发现规则之一或组合:字段排除、字段扫描、内容扫描;其中,所述字段排除,根据预先配置的字段排除内容,过滤掉待识别的数据集合中的非敏感字段;所述字段扫描,根据预先配置的字段扫描内容,从待识别的数据集合中筛选出敏感字段;所述内容扫描,根据记录有敏感数据内容的文本,从待识别的数据集合中筛选出敏感数据;通过所述敏感数据发现规则,确定待识别的数据集合中是否含有敏感数据。2.根据权利要求1所述的方法,其特征在于,所述通过所述敏感数据发现规则,确定待识别的数据集合中是否含有敏感数据,包括:通过所述敏感数据发现规则与待识别的数据集合进行匹配,计算出待识别的数据范围;其中,所述数据集合由预设的数据信息构成,其中,所述数据信息包括:项目信息、项目下的数据表信息以及项目下的数据表中的字段信息;基于所述待识别的数据范围,确定所述数据集合中是否含有敏感数据。3.根据权利要求1所述的方法,其特征在于,所述字段扫描包括下列扫描内容之一或组合:*p*.*t*.*f*,其中,p表示项目名称中的关键字,t表示含关键字p的项目下的数据表名称中的关键字,f表示含关键字p的项目下的含关键字t的数据表中的字段名称中的关键字;p*.t*.f*,其中,p表示项目名称开头的关键字,t表示以关键字p开头的项目下的数据表名称开头的关键字,f表示以关键字p开头的项目下的以关键字t开头的数据表中的字段名称开头的关键字;*p.*t.*f,其中,p表示项目名称结尾的关键字,t表示以关键字p结尾的项目下的数据表名称结尾的关键字,f表示以关键字p结尾的项目下的以关键字t结尾的数据表中的字段名称结尾的关键字;*.t.f,其中,t表示所有项目下的数据表名称,f表示所有项目下的含关键字t的数据表中的字段名称;p.*.f,其中,p表示项目名称,f表示含关键字p的项目下所有数据表中的字段名称;p.t..*,其中,p表示项目名称,t表示含关键字p的项目下的数据表名称;其中,*表示通配符,用于对项目名称、数据表名称、字段名称中的一个或多个关键字进行模糊;.表示连接符,用于对项目名称、数据表名称、字段名称的中间进行连接。4.根据权利要求1所述的方法,其特征在于,所述字段排除包括下列排除内容之一或组合:*p*.*t*.*f*,其...

【专利技术属性】
技术研发人员:唐彪周明伟陆金虎
申请(专利权)人:浙江大华技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1