数据分级方法、系统、设备及存储介质技术方案

技术编号：38718719 阅读：13 留言：0更新日期：2023-09-08 15:01

本发明专利技术涉及数据治理技术领域，并公开了一种数据分级方法、系统、设备及存储介质，该方法包括：构建敏感词库，并确定敏感词库中敏感词字段的敏感词字段级别；通过文本语义匹配的方式构建待分级字段和敏感词字段的相似度关联矩阵；基于敏感词字段、敏感词字段级别和待分级字段将相似度关联矩阵转换为目标二维表；根据目标二维表中敏感词字段级别进行聚合运算，获得待分级字段各分级级别对应的得分值；通过得分值确定待分级字段对应的分级级别。相比现有技术，本发明专利技术有效提高了数据分级的准确率和效率。效率。效率。

全部详细技术资料下载

【技术实现步骤摘要】
数据分级方法、系统、设备及存储介质

[0001]本专利技术涉及数据治理
，尤其涉及一种数据分级方法、系统、设备及存储介质。

技术介绍

[0002]当前数据分级的主要思路是自动发现敏感词数据，再结合人工方式进行分级操作，虽可帮助相关人员快速发现敏感词数据，但针对主观数据还是不从心，分级方式不灵活，不能适应各种组织的数据安全分级需要。
[0003]由于业界数据分级没有统一的标准，多数解决方式是利用具有行业、业务、安全等多方面经验的人员进行梳理，特点是准确性高、效果好但效率低、周期长、无规范依据。
[0004]因此，亟需一种数据分级方法，解决如何有效提高数据分级的准确率和效率的技术问题。

技术实现思路

[0005]本专利技术的主要目的在于提供了一种数据分级方法、系统、设备及存储介质，旨在解决如何有效提高数据分级的准确率和效率的技术问题。
[0006]为实现上述目的，本专利技术提供了一种数据分级方法，所述方法包括以下步骤：构建敏感词库，并确定所述敏感词库中敏感词字段的敏感词字段级别；通过文本语义匹配的方式构建待分级字段和所述敏感词字段的相似度关联矩阵；基于所述敏感词字段、所述敏感词字段级别和所述待分级字段将所述相似度关联矩阵转换为目标二维表；根据所述目标二维表中敏感词字段级别进行聚合运算，获得所述待分级字段各分级级别对应的得分值；通过所述待分级字段各分级级别对应的得分值确定所述待分级字段对应的分级级别。
[0007]可选地，所述通过文本语义匹配的方式构建待分级字段和所述敏...

【技术保护点】

【技术特征摘要】
1.一种数据分级方法，其特征在于，所述数据分级方法包括以下步骤：构建敏感词库，并确定所述敏感词库中敏感词字段的敏感词字段级别；通过文本语义匹配的方式构建待分级字段和所述敏感词字段的相似度关联矩阵；基于所述敏感词字段、所述敏感词字段级别和所述待分级字段将所述相似度关联矩阵转换为目标二维表；根据所述目标二维表中敏感词字段级别进行聚合运算，获得所述待分级字段各分级级别对应的得分值；通过所述待分级字段各分级级别对应的得分值确定所述待分级字段对应的分级级别。2.如权利要求1所述的数据分级方法，其特征在于，所述通过文本语义匹配的方式构建待分级字段和所述敏感词字段的相似度关联矩阵的步骤，包括：基于BERT模型将待分级字段和所述敏感词字段转换为768维的词向量，获得待分级字段矩阵和敏感词字段矩阵；对所述待分级字段矩阵中对应的词向量和所述敏感词字段矩阵中对应的词向量进行哈达玛乘积运算，获得所述待分级字段和所述敏感词字段的相似度关联矩阵。3.如权利要求2所述的数据分级方法，其特征在于，所述对所述待分级字段矩阵中对应的词向量和所述敏感词字段矩阵中对应的词向量进行哈达玛乘积运算，获得所述待分级字段和所述敏感词字段的相似度关联矩阵的步骤，包括：根据预设方式对所述待分级字段矩阵和所述敏感词字段矩阵分别增加维度，获得第一矩阵和第二矩阵；利用Numpy/Tensor的广播机制对所述第一矩阵中对应的词向量和所述第二矩阵中对应的词向量进行哈达玛乘积批量运算，获得所述待分级字段和所述敏感词字段的相似度关联矩阵。4.如权利要求3所述的数据分级方法，其特征在于，所述对所述待分级字段矩阵中对应的词向量和所述敏感词字段矩阵中对应的词向量进行哈达玛乘积运算，获得所述待分级字段和所述敏感词字段的相似度关联矩阵的步骤，还包括：根据所述待分级字段的数量和所述敏感词字段的数量，确定待分级字段批次值和敏感词字段批次值；按照所述待分级字段批次值将所述待分级字段矩阵拆分为多个目标待分级字段矩阵；按照所述敏感词字段批次值将所述敏感词字段矩阵拆分为多个目标敏感词字段矩阵；根据所述预设方式对所述目标待分级字段矩阵和所述目标敏感词字段矩阵分别增加维度，获得第三矩阵和第四矩阵；利用Numpy/Tensor的广播机制对所述第三矩阵中对应的词向量和所...

【专利技术属性】
技术研发人员：邓理平，
申请(专利权)人：深圳市傲天科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人