数据分级方法、系统、设备及存储介质技术方案

技术编号:38718719 阅读:13 留言:0更新日期:2023-09-08 15:01
本发明专利技术涉及数据治理技术领域,并公开了一种数据分级方法、系统、设备及存储介质,该方法包括:构建敏感词库,并确定敏感词库中敏感词字段的敏感词字段级别;通过文本语义匹配的方式构建待分级字段和敏感词字段的相似度关联矩阵;基于敏感词字段、敏感词字段级别和待分级字段将相似度关联矩阵转换为目标二维表;根据目标二维表中敏感词字段级别进行聚合运算,获得待分级字段各分级级别对应的得分值;通过得分值确定待分级字段对应的分级级别。相比现有技术,本发明专利技术有效提高了数据分级的准确率和效率。效率。效率。

【技术实现步骤摘要】
数据分级方法、系统、设备及存储介质


[0001]本专利技术涉及数据治理
,尤其涉及一种数据分级方法、系统、设备及存储介质。

技术介绍

[0002]当前数据分级的主要思路是自动发现敏感词数据,再结合人工方式进行分级操作,虽可帮助相关人员快速发现敏感词数据,但针对主观数据还是不从心,分级方式不灵活,不能适应各种组织的数据安全分级需要。
[0003]由于业界数据分级没有统一的标准,多数解决方式是利用具有行业、业务、安全等多方面经验的人员进行梳理,特点是准确性高、效果好但效率低、周期长、无规范依据。
[0004]因此,亟需一种数据分级方法,解决如何有效提高数据分级的准确率和效率的技术问题。

技术实现思路

[0005]本专利技术的主要目的在于提供了一种数据分级方法、系统、设备及存储介质,旨在解决如何有效提高数据分级的准确率和效率的技术问题。
[0006]为实现上述目的,本专利技术提供了一种数据分级方法,所述方法包括以下步骤:构建敏感词库,并确定所述敏感词库中敏感词字段的敏感词字段级别;通过文本语义匹配的方式构建待分级字段和所述敏感词字段的相似度关联矩阵;基于所述敏感词字段、所述敏感词字段级别和所述待分级字段将所述相似度关联矩阵转换为目标二维表;根据所述目标二维表中敏感词字段级别进行聚合运算,获得所述待分级字段各分级级别对应的得分值;通过所述待分级字段各分级级别对应的得分值确定所述待分级字段对应的分级级别。
[0007]可选地,所述通过文本语义匹配的方式构建待分级字段和所述敏感词字段的相似度关联矩阵的步骤,包括:基于BERT模型将待分级字段和所述敏感词字段转换为768维的词向量,获得待分级字段矩阵和敏感词字段矩阵;对所述待分级字段矩阵中对应的词向量和所述敏感词字段矩阵中对应的词向量进行哈达玛乘积运算,获得所述待分级字段和所述敏感词字段的相似度关联矩阵。
[0008]可选地,所述对所述待分级字段矩阵中对应的词向量和所述敏感词字段矩阵中对应的词向量进行哈达玛乘积运算,获得所述待分级字段和所述敏感词字段的相似度关联矩阵的步骤,包括:根据预设方式对所述待分级字段矩阵和所述敏感词字段矩阵分别增加维度,获得第一矩阵和第二矩阵;
利用Numpy/Tensor的广播机制对所述第一矩阵中对应的词向量和所述第二矩阵中对应的词向量进行哈达玛乘积批量运算,获得所述待分级字段和所述敏感词字段的相似度关联矩阵。
[0009]可选地,所述对所述待分级字段矩阵中对应的词向量和所述敏感词字段矩阵中对应的词向量进行哈达玛乘积运算,获得所述待分级字段和所述敏感词字段的相似度关联矩阵的步骤,还包括:根据所述待分级字段的数量和所述敏感词字段的数量,确定待分级字段批次值和敏感词字段批次值;按照所述待分级字段批次值将所述待分级字段矩阵拆分为多个目标待分级字段矩阵;按照所述敏感词字段批次值将所述敏感词字段矩阵拆分为多个目标敏感词字段矩阵;根据所述预设方式对所述目标待分级字段矩阵和所述目标敏感词字段矩阵分别增加维度,获得第三矩阵和第四矩阵;利用Numpy/Tensor的广播机制对所述第三矩阵中对应的词向量和所述第四矩阵中对应的词向量进行哈达玛乘积批量运算,获得所述待分级字段和所述敏感词字段的相似度关联矩阵。
[0010]可选地,所述基于所述敏感词字段、所述敏感词字段级别和所述待分级字段将所述相似度关联矩阵转换为目标二维表的步骤之后,还包括:通过机器学习算法以所述敏感词字段作为输入,所述敏感词字段对应的敏感词级别作为输出进行监督学习训练,获得多分类模型;根据所述多分类模型,确定相似度临界阈值;将所述目标二维表中小于所述相似度临界阈值的相似度用缺失值替换,获得新的目标二维表。
[0011]可选地,所述根据所述目标二维表中敏感词字段级别进行聚合运算,获得所述待分级字段各分级级别对应的得分值的步骤,具体包括:基于所述目标二维表中敏感词字段级别按均值进行聚合运算,获得所述待分级字段各分级级别对应的得分值。
[0012]可选地,所述通过所述待分级字段各分级级别对应的得分值确定所述待分级字段对应的分级级别的步骤,包括:将所述待分级字段各分级级别对应的得分值进行比较,获得比较结果;根据所述比较结果确定所述待分级字段对应的分级级别。
[0013]此外,为实现上述目的,本专利技术还提出一种数据分级系统,所述系统包括:词库构建模块,用于构建敏感词库,并确定所述敏感词库中的敏感词字段的敏感词字段级别;矩阵构建模块,用于通过文本语义匹配的方式构建待分级字段和所述敏感词字段的相似度关联矩阵;矩阵转换模块,用于基于所述敏感词字段、所述敏感词字段级别和所述待分级字段将所述相似度关联矩阵转换为目标二维表;
Access Memory,RAM),也可以是稳定的非易失性存储器(Non

Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
[0022]本领域技术人员可以理解,图1中示出的结构并不构成对数据分级设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
[0023]如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及数据分级程序。
[0024]在图1所示的数据分级设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本专利技术数据分级设备中的处理器1001、存储器1005可以设置在数据分级设备中,所述数据分级设备通过处理器1001调用存储器1005中存储的数据分级程序,并执行本专利技术实施例提供的数据分级方法。
[0025]本专利技术实施例提供了一种数据分级方法,参照图2,图2为本专利技术数据分级方法第一实施例的流程示意图。
[0026]本实施例中,所述数据分级方法包括以下步骤:步骤S10:构建敏感词库,并确定所述敏感词库中敏感词字段的敏感词字段级别。
[0027]需要说明的是,本实施例的执行主体可以是一种具有数据处理、网络通信以及程序运行功能的计算服务设备,例如服务器、平板电脑、个人电脑、手机等,或者是一种能够实现上述功能的电子设备、数据分级设备等。以下以数据分级设备为例,对本实施例及下述各实施例进行举例说明。
[0028]需要解释的是,通过构建敏感词库,并为敏感词库中每一个敏感词字段标记一个敏感词字段级别,例如如L5、L4、L3等。另一方面,对数据库中待分级的数据表字段,提取表头字段的文本信息,构造待分级字段文本列表,所述待分级字段文本列表中包含多个待分级字段。
[0029]在具体实现中,构建敏感词库,对敏感词库中每一个敏感词字段给定分级级别,即敏感词字段级别。例如,参考图3,图3为敏感词字段与待分级字段示意图,标椎库敏感字段中敏感字段text为工资、薪酬、奖金对应分级级别(grade)为L5;手机、电话、邮箱分级级别为L4;性别、年龄分级级别为L3。假设待分级字段text(待识别和本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据分级方法,其特征在于,所述数据分级方法包括以下步骤:构建敏感词库,并确定所述敏感词库中敏感词字段的敏感词字段级别;通过文本语义匹配的方式构建待分级字段和所述敏感词字段的相似度关联矩阵;基于所述敏感词字段、所述敏感词字段级别和所述待分级字段将所述相似度关联矩阵转换为目标二维表;根据所述目标二维表中敏感词字段级别进行聚合运算,获得所述待分级字段各分级级别对应的得分值;通过所述待分级字段各分级级别对应的得分值确定所述待分级字段对应的分级级别。2.如权利要求1所述的数据分级方法,其特征在于,所述通过文本语义匹配的方式构建待分级字段和所述敏感词字段的相似度关联矩阵的步骤,包括:基于BERT模型将待分级字段和所述敏感词字段转换为768维的词向量,获得待分级字段矩阵和敏感词字段矩阵;对所述待分级字段矩阵中对应的词向量和所述敏感词字段矩阵中对应的词向量进行哈达玛乘积运算,获得所述待分级字段和所述敏感词字段的相似度关联矩阵。3.如权利要求2所述的数据分级方法,其特征在于,所述对所述待分级字段矩阵中对应的词向量和所述敏感词字段矩阵中对应的词向量进行哈达玛乘积运算,获得所述待分级字段和所述敏感词字段的相似度关联矩阵的步骤,包括:根据预设方式对所述待分级字段矩阵和所述敏感词字段矩阵分别增加维度,获得第一矩阵和第二矩阵;利用Numpy/Tensor的广播机制对所述第一矩阵中对应的词向量和所述第二矩阵中对应的词向量进行哈达玛乘积批量运算,获得所述待分级字段和所述敏感词字段的相似度关联矩阵。4.如权利要求3所述的数据分级方法,其特征在于,所述对所述待分级字段矩阵中对应的词向量和所述敏感词字段矩阵中对应的词向量进行哈达玛乘积运算,获得所述待分级字段和所述敏感词字段的相似度关联矩阵的步骤,还包括:根据所述待分级字段的数量和所述敏感词字段的数量,确定待分级字段批次值和敏感词字段批次值;按照所述待分级字段批次值将所述待分级字段矩阵拆分为多个目标待分级字段矩阵;按照所述敏感词字段批次值将所述敏感词字段矩阵拆分为多个目标敏感词字段矩阵;根据所述预设方式对所述目标待分级字段矩阵和所述目标敏感词字段矩阵分别增加维度,获得第三矩阵和第四矩阵;利用Numpy/Tensor的广播机制对所述第三矩阵中对应的词向量和所...

【专利技术属性】
技术研发人员:邓理平
申请(专利权)人:深圳市傲天科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1