一种数据分级方法、系统及相关装置制造方法及图纸

技术编号：44189160 阅读：10 留言：0更新日期：2025-02-06 18:29

本申请公开了一种数据分级方法、系统及相关装置，用于对数据进行快速且准确的分级。本申请方法包括：获取数据来源信息，基于所述数据来源信息得到数据清单；根据所述数据清单，通过预设分类模型提取目标数据；获取定性要素和定量要素，基于所述定性要素和所述分类模型对所述目标数据进行分级得到初始级别；判断已得到所述初始级别后的所述目标数据是否包含敏感信息；若是，则设定要素权重，基于所述定量要素和所述要素权重对目标数据得到所述目标数据的二次定级，在得到所述目标数据的所述二次定级后，结合所述初始级别对所述二次定级进行调整，最终得到目标数据的目标级别；若否，则将所述目标数据的所述初始级别确定为所述目标级别。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及大数据信息，尤其涉及一种数据分级方法、系统及相关装置。

技术介绍

1、随着信息技术的发展，大数据的规模和应用场景已经呈现出爆炸式增长。在政务部门中，数据涵盖了公民的个人信息、城市的规划建设、政策的执行情况等众多敏感且重要的领域，数据的来源广泛且复杂，包括各级政务部门的业务系统、社会公共服务平台以及物联网设备等，但不同类型的数据在重要性、敏感性和使用权限上存在巨大差异，例如公民的身份证号码、家庭住址等个人隐私数据一旦泄露，可能会对公民的权益造成严重损害；政务部门的政策规划数据在未正式发布之前，也需要严格保密，因此为数据做好分级的规范化是当务之急，才能使政务部门更好地管理数据资产，明确不同级别数据的管理策略，提高数据安全性，防范数据泄露风险。

2、在现有技术中，数据分级通常采用人工进行分级工作，首先需要人工从多个数据源进行数据的汇聚，例如从不同的政务系统中收集数据，然后依据经验或者一些简单的预定义规则对数据进行简单分类，将数据中的敏感数据和普通数据进行区分和标注，依据区分出的敏感数据和普通数据进行分级，最后得到数据的分级结果。

3、然而，现有技术中的数据分级技术的整个流程都是人工进行，人工收集时需要耗费大量精力去整理这些数据，在对数据进行分级的过程中，更多依赖人工的主观性判断，在面对海量数据时，不仅耗时费力，而且容易出错，会导致无法准确得到数据分级结果，难以满足政务部门对数据快速、准确分级的需求。

技术实现思路

1、为了解决上述技术问题，本申请提供了一

2、下面对本申请中提供的技术方案进行描述：

3、本申请第一方面提供了一种数据分级方法，所述方法包括：

4、获取数据来源信息，基于所述数据来源信息得到数据清单；

5、根据所述数据清单，通过预设分类模型提取目标数据；

6、获取定性要素和定量要素，基于所述定性要素和所述分类模型对所述目标数据进行分级得到初始级别；

7、判断已得到所述初始级别后的所述目标数据是否包含敏感信息；

8、若是，则设定要素权重，基于所述定量要素和所述要素权重对目标数据得到所述目标数据的二次定级，在得到所述目标数据的所述二次定级后，结合所述初始级别对所述二次定级进行调整，调整后得到目标数据的目标级别；

9、若否，则将所述目标数据的所述初始级别确定为所述目标级别。

10、可选的，所述获取数据来源信息，基于所述数据来源信息选择数据清单包括：

11、获取数据来源信息，对所述数据来源信息进行数据处理，提取已完成数据处理的所述数据来源信息，得到数据清单。

12、可选的，所述获取数据来源信息，对所述数据来源信息进行数据处理，提取已完成数据处理的所述数据来源信息，得到数据清单包括：

13、获取数据来源信息，识别并去除所述数据来源信息的重复数据、冗余信息以及缺失值；

14、对已去除所述重复数据、所述冗余信息以及所述缺失值的所述数据来源信息进行数据格式统一；

15、提取已完成所述数据格式统一的所述数据来源信息，并采用空格符对所述数据来源信息进行拼接，得到数据清单。

16、可选的，所述根据所述数据清单，通过预设分类模型提取目标数据包括：

17、将所述数据清单输入至预设分类模型中的学习模块进行预训练，得到预训练结果；

18、将所述预训练结果输入至所述预设分类模型中的神经网络模块进行线性变换和激活函数处理，得到目标数据。

19、可选的，所述将所述预训练结果输入至所述预设分类模型中的神经网络模块进行线性变换和函数处理，得到目标数据包括：

20、将所述预训练结果输入至所述预设分类模型中的神经网络模块；

21、所述神经网络模块对所述预训练结果进行线性变换，并将所述线性变换后的结果映射至特征空间，得到特征表示；

22、将特征表示通过激活函数处理进行转换，得到目标数据。

23、可选的，所述线性变换通过如下式子表示：

24、；

25、其中，表示所述线性变换后的结果，表示所述预训练结果，表示所述神经网络模块的权重矩阵，表示所述神经网络模块的偏置向量。

26、可选的，所述定性要素包括领域因素；所述定量要素包括数据量规模、数据访问频率以及更新频率。

27、本申请第二方面提供了一种数据分级系统，所述系统包括：

28、第一获取单元，用于获取数据来源信息，基于所述数据来源信息得到数据清单；

29、提取单元，用于根据所述数据清单，通过预设分类模型提取目标数据；

30、分级单元，用于获取定性要素和定量要素，基于所述定性要素和所述分类模型对所述目标数据进行分级得到初始级别；

31、判断单元，用于判断已得到所述初始级别后的所述目标数据是否包含敏感信息；

32、调整单元，用于若是，则设定要素权重，基于所述定量要素和所述要素权重对目标数据得到所述目标数据的二次定级，在得到所述目标数据的所述二次定级后，结合所述初始级别对所述二次定级进行调整，调整后得到目标数据的目标级别；

33、确定单元，用于若否，则将所述目标数据的所述初始级别确定为所述目标级别。

34、本申请第三方面提供了一种数据分级装置，所述装置包括：

35、处理器、存储器、输入输出单元以及总线；

36、所述处理器与所述存储器、所述输入输出单元以及所述总线相连；

37、所述存储器保存有程序，所述处理器调用所述程序以执行第一方面以及第一方面中任一项可选的所述方法。

38、本申请第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质上保存有程序，所述程序在计算机上执行时执行第一方面以及第一方面中任一项可选的所述方法。

39、从以上技术方案可以看出，本申请具有以下优点：

40、1、使用信息技术从不同的数据来源中获取数据，可以确保收集到的数据是全面的，避免数据遗漏或者数据获取不完整的情况。

41、2、采用分类模型对数据进行提取，可以快捷地处理数据格式不统一、质量参差不齐的问题，减少人工解读数据时可能出现的错误，为后续的分级工作提供了高质量的数据基础。

42、3、通过分级标准中的多个维度对数据进行判断分级，避免了人工分类时依赖主观经验带来的差异，提高了数据分级结果的一致性和准确性。

本文档来自技高网...

【技术保护点】

1.一种数据分级方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取数据来源信息，基于所述数据来源信息选择数据清单包括：

3.根据权利要求2所述的方法，其特征在于，所述获取数据来源信息，对所述数据来源信息进行数据处理，提取已完成数据处理的所述数据来源信息，得到数据清单包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述数据清单，通过预设分类模型提取目标数据包括：

5.根据权利要求4所述的方法，其特征在于，所述将所述预训练结果输入至所述预设分类模型中的神经网络模块进行线性变换和函数处理，得到目标数据包括：

6.根据权利要求5所述的方法，其特征在于，所述线性变换通过如下式子表示：

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述定性要素包括领域因素；所述定量要素包括数据量规模、数据访问频率以及更新频率。

8.一种数据分级系统，其特征在于，包括：

9.一种数据分级装置，其特征在于，所述装置包括：

10.一种计算机可读存储介质，所

...

【技术特征摘要】

1.一种数据分级方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取数据来源信息，基于所述数据来源信息选择数据清单包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述数据清单，通过预设分类模型提取目标数据包括：

5.根据权利要求4所述的方法，其特征在于，所述将所述预训练结果输入至所述预设分类模型中的神...

【专利技术属性】
技术研发人员：曹扬，汪洋舟，支婷，洒科进，舒珏淋，程建润，龚昱鸣，
申请(专利权)人：中电科大数据研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人