敏感数据识别方法、装置、设备及计算机存储介质制造方法及图纸

技术编号:24409791 阅读:18 留言:0更新日期:2020-06-06 08:40
本发明专利技术公开了一种敏感数据识别方法、装置、设备及计算机存储介质。敏感数据识别方法,包括:获取用于定位待识别的目标数据的特征参数和用于在目标数据中识别敏感数据的正则表达式;根据特征参数,获取包含目标数据的目标对象;根据正则表达式逐行识别目标对象内的目标数据,以确定目标对象内是否包含敏感数据。根据本发明专利技术实施例,能够快速、准确地识别大量数据中的敏感数据。

Sensitive data identification method, device, equipment and computer storage medium

【技术实现步骤摘要】
敏感数据识别方法、装置、设备及计算机存储介质
本专利技术属于数据处理
,尤其涉及一种敏感数据识别方法、装置、设备及计算机存储介质。
技术介绍
目前的敏感数据识别方法主要是基于关键字库的匹配方法结合人工识别方法来进行敏感数据的识别。其中,关键字库的匹配方法的原理为,通过人工定义敏感数据的匹配模式,对数据进行逐一匹配,当发现数据满足模式匹配时,定义该数据为敏感数据。而人工识别方法的原理为,评估人员根据预定义的数据模型,例如数据库设计模型、文件系统组织结构等,依据经验将模型中的多个数据定义为敏感信息,然后在敏感信息中,采用数据抽样的形式进行敏感数据的识别。因此,现有的利用关键字库的匹配方法和人工识别方法结合的方法对敏感数据进行识别的主要过程如下:评估人员首先定义敏感数据的匹配模式,然后根据预定义的模型确定关键字库的匹配方位,最后,利用敏感数据的匹配模式对目标进行匹配扫描,在完成扫描后,评估人员再对匹配结果进行过滤,以对匹配结果进行优化。虽然目前的敏感数据识别方法能够一定程度地识别出敏感数据,但是依然存在如下缺点:自动化程度不足:敏感数据的识别需要人工执行匹配结果过滤,导致效率比较低下;识别精准度底:关键字库的匹配方法采用的是模式化匹配的方式,因此,关键字库的建立决定了识别敏感数据的准确度,当关键字库不完整或者建立有误时,会出现准确度较低的问题;识别速度慢:由于采用人工处理的方式,在面对大量数据的时候,会出现识别速度周期较长的问题,而且采用人工处理的方式对评估人员的要求较高。
技术实现思路
本专利技术实施例提供一种敏感数据识别方法、装置、设备及计算机存储介质,能够快速、准确地识别大量数据中的敏感数据。一方面,本专利技术实施例提供一种敏感数据识别方法,包括:获取用于定位待识别的目标数据的特征参数和用于在所述目标数据中识别敏感数据的正则表达式;根据所述特征参数,获取包含所述目标数据的目标对象;根据所述正则表达式逐行识别所述目标对象内的所述目标数据,以确定所述目标对象内是否包含所述敏感数据。进一步地,所述特征参数包括所述目标对象的存放位置参数以及所述目标数据在所述目标对象中的取样范围参数。进一步地,所述目标对象的存放位置参数至少包括存放所述目标对象的数据库类型,其中,所述数据库类型为Hive数据库、Hbase数据库、Linux数据库、Windows数据库、ORACLE数据库、MySQL数据库或db2数据库。进一步地,根据所述特征参数,获取包含所述目标数据的目标对象包括:基于所述存放位置参数对应的存放位置,获取在所述存放位置中的目标文件;根据所述取样范围参数对应的取样范围,获取在所述目标文件中的所述取样范围内的目标数据,并构成包含所述目标数据的所述目标对象。进一步地,基于所述存放位置参数对应的存放位置,获取在所述存放位置中的目标文件包括:根据所述存放位置,获取在所述存放位置中具有操作权限的数据文件;剔除所述数据文件中的临时文件,并获得所述目标文件。进一步地,所述正则表达式包括用于识别所述敏感数据的敏感信息参数和根据所述敏感信息参数生成的识别规则。进一步地,确定所述目标对象内包含所述敏感数据后,还包括:获取所述敏感数据位于所述目标数据中的数据位置参数和所述敏感数据在所述数据位置中的字段参数;根据所述数据位置参数和所述字段参数,生成关于所述敏感数据的提示信息。另一方面,本专利技术实施例提供了一种敏感数据识别装置,所述装置包括:信息获取单元,被配置为获取用于定位待识别的目标数据的特征参数和用于在所述目标数据中识别敏感数据的正则表达式;对象确定单元,被配置为根据所述特征参数,获取包含所述目标数据的目标对象;数据识别单元,被配置为根据所述正则表达式逐行识别所述目标对象内的所述目标数据,以确定所述目标对象内是否包含所述敏感数据。再一方面,本专利技术实施例提供了一种敏感数据识别设备,所述设备包括:处理器以及存储有计算机程序指令的存储器;所述处理器执行所述计算机程序指令时实现如上所述的敏感数据识别方法。再一方面,本专利技术实施例提供了一种计算机存储介质,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如上所述的敏感数据识别方法。本专利技术实施例的敏感数据识别方法、装置、设备及计算机存储介质,能够根据获取的待识别的目标数据的特征参数查找到包含目标数据的目标对象,并根据获取的用于识别敏感数据的正则表达式对目标对象进行扫描,并且确定该目标对象中是否包含敏感数据,此过程中无需人工处理,能够提高敏感数据识别的自动化程度及准确度,同时提高识别速度,从而能够高效、准确地对各类数据库进行敏感数据的识别,尤其适用于人工处理较难的大数据数据库。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一个实施例提供的敏感数据识别方法的流程示意图;图2是图1中步骤S120的具体方法的流程示意图;图3是图2中步骤S121的具体方法的流程示意图;图4是图1中步骤S130的具体方法的流程示意图;图5是本专利技术另一个实施例提供的敏感数据识别方法的流程示意图;图6是本专利技术实施例的敏感数据识别方法的一个示例的流程示意图;图7是本专利技术一个实施例提供的敏感数据识别装置的结构示意图;图8是本专利技术另一个实施例提供的敏感数据识别装置的结构示意图;图9是本专利技术实施例提供的敏感数据识别设备的硬件结构示意图。具体实施方式下面将详细描述本专利技术的各个方面的特征和示例性实施例,为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本专利技术进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本专利技术,并不被配置为限定本专利技术。对于本领域技术人员来说,本专利技术可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本专利技术的示例来提供对本专利技术更好的理解。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。为了解决现有技术问题,本专利技术实施例提供了一种敏感数据识别方法、装置、设备及计算本文档来自技高网
...

【技术保护点】
1.一种敏感数据识别方法,其特征在于,包括:/n获取用于定位待识别的目标数据的特征参数和用于在所述目标数据中识别敏感数据的正则表达式;/n根据所述特征参数,获取包含所述目标数据的目标对象;/n根据所述正则表达式逐行识别所述目标对象内的所述目标数据,以确定所述目标对象内是否包含所述敏感数据。/n

【技术特征摘要】
1.一种敏感数据识别方法,其特征在于,包括:
获取用于定位待识别的目标数据的特征参数和用于在所述目标数据中识别敏感数据的正则表达式;
根据所述特征参数,获取包含所述目标数据的目标对象;
根据所述正则表达式逐行识别所述目标对象内的所述目标数据,以确定所述目标对象内是否包含所述敏感数据。


2.根据权利要求1所述的敏感数据识别方法,其特征在于,所述特征参数包括所述目标对象的存放位置参数以及所述目标数据在所述目标对象中的取样范围参数。


3.根据权利要求2所述的敏感数据识别方法,其特征在于,所述目标对象的存放位置参数至少包括存放所述目标对象的数据库类型,其中,所述数据库类型为Hive数据库、Hbase数据库、Linux数据库、Windows数据库、ORACLE数据库、MySQL数据库或db2数据库。


4.根据权利要求2所述的敏感数据识别方法,其特征在于,根据所述特征参数,获取包含所述目标数据的目标对象包括:
基于所述存放位置参数对应的存放位置,获取在所述存放位置中的目标文件;
根据所述取样范围参数对应的取样范围,获取在所述目标文件中的所述取样范围内的目标数据,并构成包含所述目标数据的所述目标对象。


5.根据权利要求4所述的敏感数据识别方法,其特征在于,基于所述存放位置参数对应的存放位置,获取在所述存放位置中的目标文件包括:
根据所述存放位置,获取在所述存放位置中具有操作权限的数据文件;<...

【专利技术属性】
技术研发人员:陆艳军杨翔赵立农廖天宇
申请(专利权)人:中国移动通信集团重庆有限公司中国移动通信集团有限公司
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1