敏感数据识别方法、装置、电子设备和存储介质制造方法及图纸

技术编号:36394301 阅读:15 留言:0更新日期:2023-01-18 09:59
本发明专利技术实施例提供敏感数据识别方法、装置、电子设备和存储介质,该方法包括:当接收到数据脱敏指令时,获取待识别数据,并将其导入至基于场景和类别构建得到的识别模型;通过识别模型识别待识别数据,得到初始敏感数据;提取初始敏感数据的特征关键词,并将特征关键词转换为特征向量;计算初始敏感数据的特征向量与预置敏感数据样本的特征向量之间的目标余弦值;当根据目标余弦值,确定初始敏感数据为目标敏感数据时,针对目标敏感数据进行脱敏处理。本发明专利技术实施例基于场景和类别构建识别模型,识别模型具有针对性,然后结合特征向量进一步识别处理,可极大提高识别效率和准确性,由此解决现有技术中无法对敏感数据进行高效且精准的识别问题。且精准的识别问题。且精准的识别问题。

【技术实现步骤摘要】
敏感数据识别方法、装置、电子设备和存储介质


[0001]本专利技术涉及数据处理
,特别涉及一种敏感数据识别方法、一种敏感数据识别装置、一种电子设备和一种计算机可读存储介质。

技术介绍

[0002]敏感数据是指泄漏后可能会给社会或个人带来严重危害的数据。敏感数据包括个人隐私数据,如姓名、身份证号码、住址、电话、银行账号、邮箱、密码、医疗信息、教育背景等;也包括企业或社会机构不适合公布的数据,如企业的经营情况,企业的网络结构、IP(Internet Protocol Address,互联网协议地址)地址列表等。因此,对敏感数据的保护尤为重要,敏感数据保护方案的核心部分就是从海量的数据中挑选出敏感数据,完成对敏感数据的精准识别。
[0003]现有技术中一般是基于字典匹配方法和人工识别方法,对敏感数据进行识别发现,虽然其可以进行简单的敏感数据发现,但是现有技术中均存在着识别精度低、识别效率不高的问题,无法对不同的敏感数据进行高效精准的识别。

技术实现思路

[0004]鉴于上述问题,提出了本专利技术实施例以便提供一种克服上述问题或者至少部分地解决上述问题的敏感数据识别方法。
[0005]本专利技术实施例还提供了一种敏感数据识别装置、电子设备和存储介质,以保证上述方法的实施。
[0006]为了解决上述问题,本专利技术实施例公开了一种敏感数据识别方法,所述方法包括:
[0007]当接收到数据脱敏指令时,获取待识别数据,并将所述待识别数据导入至预先构建的识别模型;所述识别模型基于应用场景信息和类别信息进行构建得到;
[0008]通过所述识别模型对所述待识别数据进行识别,得到初始敏感数据;
[0009]提取所述初始敏感数据的特征关键词,并将所述特征关键词转换为特征向量;
[0010]计算所述初始敏感数据的特征向量与预置敏感数据样本的特征向量之间的目标余弦值;
[0011]根据所述目标余弦值,确定所述初始敏感数据是否为目标敏感数据;
[0012]当确定所述初始敏感数据为目标敏感数据时,针对所述目标敏感数据进行脱敏处理。
[0013]可选地,所述根据所述目标余弦值,确定所述初始敏感数据是否为目标敏感数据,包括:
[0014]比较所述目标余弦值和预设余弦值;
[0015]若所述目标余弦值大于或等于所述预设余弦值,则确定所述初始敏感数据为目标敏感数据;
[0016]若所述目标余弦值小于所述预设余弦值,则确定所述初始敏感数据不为目标敏感
数据。
[0017]可选地,所述提取所述初始敏感数据的特征关键词,包括:
[0018]根据预置敏感数据特征,提取所述初始敏感数据的特征关键词;所述预置敏感数据特征基于对历史识别场景下的历史敏感数据进行分析并提取得到。
[0019]可选地,所述将所述特征关键词转换为特征向量,包括:
[0020]采用词频

逆向文件频率TF

IDF算法,对所述初始敏感数据的特征关键词进行计算,得到所述初始敏感数据的特征向量。
[0021]可选地,所述获取待识别数据,包括:
[0022]获取待识别文本;
[0023]确定所述待识别文本所属的识别场景;所述识别场景具有对应的识别抓取范围;
[0024]基于所述识别抓取范围,从所述待识别文本中抓取特定数据量的文本数据,并将每次抓取的所述文本数据作为待识别数据。
[0025]可选地,所述识别模型通过如下方式构建得到:
[0026]获取应用场景信息;
[0027]从所述应用场景信息中提取多个场景关键词;
[0028]基于各个场景关键词在预置敏感关联数据库中进行场景匹配,分别获得所述各个场景关键词对应场景下关联的多个敏感关联数据;
[0029]根据所述各个场景关键词和所述预置敏感数据样本,对所述多个敏感关联数据进行分类,得到类别信息;
[0030]采用所述应用场景信息和所述类别信息构建识别模型。
[0031]可选地,所述根据所述各个场景关键词和所述预置敏感数据样本,对所述多个敏感关联数据进行分类,得到类别信息,包括:
[0032]基于所述各个场景关键词在所述预置敏感数据样本中进行场景匹配,分别获得所述各个场景关键词对应场景的目标敏感样本;
[0033]将所述多个敏感关联数据和所述对应场景的目标敏感样本进行聚类;
[0034]若某一敏感关联数据与所述对应场景的目标敏感样本聚为一类,则依据所述对应场景的目标敏感样本所属的类别,为所述某一敏感关联数据生成标记信息;
[0035]将所述多个敏感关联数据对应的标记信息作为类别信息。
[0036]可选地,所述方法还包括:
[0037]对所述目标敏感数据进行特性分析,得到目标特性数据;
[0038]采用所述目标特性数据对所述识别模型进行更新,以优化所述识别模型。
[0039]本专利技术实施例还公开了一种敏感数据识别装置,所述装置包括:
[0040]待识别数据导入模块,用于当接收到数据脱敏指令时,获取待识别数据,并将所述待识别数据导入至预先构建的识别模型;所述识别模型基于应用场景信息和类别信息进行构建得到;
[0041]待识别数据识别模块,用于通过所述识别模型对所述待识别数据进行识别,得到初始敏感数据;
[0042]转换模块,用于提取所述初始敏感数据的特征关键词,并将所述特征关键词转换为特征向量;
[0043]目标余弦值计算模块,用于计算所述初始敏感数据的特征向量与预置敏感数据样本的特征向量之间的目标余弦值;
[0044]目标敏感数据确定模块,用于根据所述目标余弦值,确定所述初始敏感数据是否为目标敏感数据;
[0045]脱敏处理模块,用于当确定所述初始敏感数据为目标敏感数据时,针对所述目标敏感数据进行脱敏处理。
[0046]可选地,所述目标敏感数据确定模块包括:
[0047]比较子模块,用于比较所述目标余弦值和预设余弦值;
[0048]初始敏感数据为目标敏感数据的确定子模块,若所述目标余弦值大于或等于所述预设余弦值,则确定所述初始敏感数据为目标敏感数据;
[0049]初始敏感数据不为目标敏感数据的确定子模块,若所述目标余弦值小于所述预设余弦值,则确定所述初始敏感数据不为目标敏感数据。
[0050]可选地,所述转换模块包括:
[0051]特征关键词提取子模块,用于根据预置敏感数据特征,提取所述初始敏感数据的特征关键词;所述预置敏感数据特征基于对历史识别场景下的历史敏感数据进行分析并提取得到。
[0052]可选地,所述转换模块包括:
[0053]转换子模块,用于采用词频

逆向文件频率TF

IDF算法,对所述初始敏感数据的特征关键词进行计算,得到所述初始敏感数据的特征向量。
[0054]可选地,所述待识别数据导本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种敏感数据识别方法,其特征在于,所述方法包括:当接收到数据脱敏指令时,获取待识别数据,并将所述待识别数据导入至预先构建的识别模型;所述识别模型基于应用场景信息和类别信息进行构建得到;通过所述识别模型对所述待识别数据进行识别,得到初始敏感数据;提取所述初始敏感数据的特征关键词,并将所述特征关键词转换为特征向量;计算所述初始敏感数据的特征向量与预置敏感数据样本的特征向量之间的目标余弦值;根据所述目标余弦值,确定所述初始敏感数据是否为目标敏感数据;当确定所述初始敏感数据为目标敏感数据时,针对所述目标敏感数据进行脱敏处理。2.根据权利要求1所述的方法,其特征在于,所述根据所述目标余弦值,确定所述初始敏感数据是否为目标敏感数据,包括:比较所述目标余弦值和预设余弦值;若所述目标余弦值大于或等于所述预设余弦值,则确定所述初始敏感数据为目标敏感数据;若所述目标余弦值小于所述预设余弦值,则确定所述初始敏感数据不为目标敏感数据。3.根据权利要求1所述的方法,其特征在于,所述提取所述初始敏感数据的特征关键词,包括:根据预置敏感数据特征,提取所述初始敏感数据的特征关键词;所述预置敏感数据特征基于对历史识别场景下的历史敏感数据进行分析并提取得到。4.根据权利要求1所述的方法,其特征在于,所述将所述特征关键词转换为特征向量,包括:采用词频

逆向文件频率TF

IDF算法,对所述初始敏感数据的特征关键词进行计算,得到所述初始敏感数据的特征向量。5.根据权利要求1所述的方法,其特征在于,所述获取待识别数据,包括:获取待识别文本;确定所述待识别文本所属的识别场景;所述识别场景具有对应的识别抓取范围;基于所述识别抓取范围,从所述待识别文本中抓取特定数据量的文本数据,并将每次抓取的所述文本数据作为待识别数据。6.根据权利要求1所述的方法,其特征在于,所述识别模型通过如下方式构建得到:获取应用场景信息;从所述应用场景信息中提取多个场景关键词;基于各个场景关键词在预置敏感关联数据库中进行场景匹配,分别获得所述各个场景关键词对应场景下关联的多个敏感关联数据;根据所述各个场景关键词和所述预...

【专利技术属性】
技术研发人员:常青郭小宁
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1