一种面向项目密评的敏感数据识别方法及系统技术方案

技术编号:37348112 阅读:31 留言:0更新日期:2023-04-22 21:44
本发明专利技术公开一种面向项目密评的敏感数据识别方法及系统,所述方法包括:采集各类项目的主内容及其元数据并进行预处理,得到数据集D,对数据集D进行标注与格式化;对数据集D中的各个类型的项目分别构建敏感数据深度识别子模型,计算各个模型在对应类型项目数据下的初始梯度;基于联邦学习模型计算各个子模型的聚合梯度均值并共享给各个子模型,更新各个子模型的参数;根据联邦学习模型的损失函数判断是否停止训练或进入下一轮训练,直到联邦学习模型训练结束;待识别的项目数据及其元数据输入联邦学习模型,识别项目中的敏感数据。本发明专利技术将自适应梯度剪枝与联邦学习结合,可实现通用领域中多种类型的敏感数据识别,提高敏感数据识别的泛化能力。识别的泛化能力。识别的泛化能力。

【技术实现步骤摘要】
一种面向项目密评的敏感数据识别方法及系统


[0001]本专利技术属于数据安全
,具体涉及一种面向项目密评的敏感数据识别方法及系统。

技术介绍

[0002]项目评审是由专家与参与会议的技术人员通过问询、交流与探讨,辨识项目技术难点与风险点,研究技术途径可行性、拟定方案合理性、实现科学决断的一项技术活动。对于提升设计工作效率,缩短研制研发周期,提高产品经济效益与社会效益,都具有十分重要的意义。然而,在项目书中可能会涉及到各种类型的敏感数据,如:个人信息数据、企业经营数据和国家重要机密信息等,其中个人数据包括个人身份信息、个人生物识别信息、个人健康生理信息等10余个类型;国有企业、民营企业等在经营过程中的重要工业技术、设计、施工、安装文档和数据等;国家市政工程、航空航天与高端制造技术数据等。这类敏感数据在项目立项、评审与结项过程中作为评判依据必不可少,却存在巨大的敏感数据泄露问题,会给国家、企业及人民造成严重损失。
[0003]为了保障项目申请过程中敏感数据的安全,目前方法主要集中在隐私保护的数据发布(PPDP)阶段,其技术方法分为基于数据失真的隐私保护技术、基于数据加密的隐私保护技术和基于限制发布的隐私保护技术。这些方法均需要对敏感数据进行识别与级别检测,实现有针对性的脱敏处理,主要包括:1)规则匹配法,该方法需要在数据到来之前设置好针对敏感数据分类规则及匹配方式,并人工测试与审核,审核通过后分类规则与数据匹配方式才生效,但该方法需要大量的人力、时间成本且工作重复冗余,造成了数据脱敏时的效率较低;2)智能数据脱敏方法,该方法通过机器学习算法自动提取特征,实现智能算法选择、数据分类、识别敏感级等,可提高模型自适应性、有效缓解传统规则匹配法的缺陷。
[0004]目前为了减少敏感数据识别与处理的人力成本、提升数据脱敏的效率和准确率,基于机器学习的智能方法逐渐替代了规则匹配的方法。中国专利申请CN112270415A公开了一种基于数据加密的机器学习来训练数据准备方法、装置和设备,将目标隐私数据转换为目标加密数据类型进而联合多个参与方进行机器学习算法训练。此外,中国专利申请CN 111800252A公开了基于区块链的信息审核方法、装置和计算机设备,该方法采用同态加密实现在未获得知识的情况下得到可靠、准确的审核结果。然而,这些方法对多类型项目的隐私数据识别泛化能力不高,且存在隐私保护与数据利用率协调差等问题。

技术实现思路

[0005]有鉴于此,本专利技术提出了一种面向项目密评的敏感数据识别方法及系统,用于解决现有的敏感数据识别方法对多类型项目的隐私数据识别泛化能力不高的问题。
[0006]本专利技术第一方面,公开一种面向项目密评的敏感数据识别方法,所述方法包括:
[0007]采集各类项目的主内容及其元数据并进行预处理,得到数据集D,对数据集D进行标注与格式化;
[0008]对数据集D中的各个类型的项目分别构建敏感数据深度识别子模型,计算各个模型在对应类型项目数据下的初始梯度;
[0009]基于联邦学习模型计算各个子模型的聚合梯度均值并共享给各个子模型,更新各个子模型的参数;
[0010]根据联邦学习模型的损失函数判断是否停止训练或进入下一轮训练,直到联邦学习模型训练结束;
[0011]待识别的项目数据及其元数据输入联邦学习模型,识别项目中的敏感数据。
[0012]在以上技术方案的基础上,优选的,所述采集各类项目的主内容及其元数据并进行预处理具体包括:
[0013]采集各类项目评审过程中的项目数据及其元数据;所述项目数据包括文本、图片和/或表格,所述元数据为数据描述、数据名称、数据类型相关的文本数据;
[0014]将元数据以文本形式整合排列,并与各自的项目数据对应;
[0015]将项目数据和对应的元数据以元组的形式保存。
[0016]在以上技术方案的基础上,优选的,所述对数据集D进行标注与格式化具体包括:
[0017]将数据集D按照类型抽取为常见数据类型数据集D1和非常见类型数据集D2;
[0018]制定各类型敏感数据分级标准,并细化其敏感数据抽取与分离细则;
[0019]按照敏感数据抽取与分离细则抽取常见数据类型数据集D1和非常见类型数据集D2中的敏感信息,将敏感信息标记为MD,非敏感信息标记为FD,定义敏感数据级别标签L;
[0020]对每个项目数据,形成<元数据,MD,FD,L>格式的四元组。
[0021]在以上技术方案的基础上,优选的,所述基于联邦学习模型计算各个子模型的聚合梯度均值并共享给各个子模型,更新各个子模型的参数具体包括:
[0022]初始化各个子模型的参数,分别读取常见数据类型数据集D1和非常见类型数据集D2中的样本并分别输入联邦学习模型中进行训练;
[0023]通过梯度剪枝算法对各个子模型m
i
剪枝;
[0024]计算剪枝后子模型m
i
中第k层结点的梯度;
[0025]计算联邦学习模型的聚合梯度,公式如下:
[0026][0027]其中,表示子模型m
i
中第k层结点的梯度,K为子模型m
i
的总层数;
[0028]计算聚合梯度的均值并共享给各个子模型m
i
,利用反向传播算法迭代更新各个子模型的参数,使损失函数值最小化。
[0029]在以上技术方案的基础上,优选的,所述通过梯度剪枝算法对各个子模型剪枝具体包括:
[0030]计算子模型m
i
第k层的各神经元反向传播梯度,取其中最大值记为设置第k层梯度保留阈值为基于梯度保留阈值对子模型m
i
进行剪枝,重新设置模型m
i
第k层的神经元数量,其中,α表示调节因子,用于控制模型梯度的剪枝率。
[0031]在以上技术方案的基础上,优选的,所述损失函数定义为:
[0032][0033]其中,i=1,2,

,n,n为子模型总数,样本,n,n为子模型总数,样本分别为真实的敏感数据级别标签,Θ
i
、Θ
j
分别为子模型m
i
、m
j
的参数;λ为损失调节系数。
[0034]在以上技术方案的基础上,优选的,敏感数据深度识别子模型采用机器学习或神经网络模型作为基础模型。
[0035]本专利技术第二方面,公开一种面向项目密评的敏感数据识别系统,所述系统包括:
[0036]数据预处理模块:用于采集各类项目的主内容及其元数据并进行预处理,得到数据集D,对数据集D进行标注与格式化;
[0037]子模型构建模块:用于对数据集D中的各个类型的项目分别构建敏感数据深度识别子模型,计算各个模型在对应类型项目数据下的初始梯度;
[0038]联邦学习训练模块:用于基于联邦学习模型计算各个子模型的聚合梯度均值并共享给各个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向项目密评的敏感数据识别方法,其特征在于,所述方法包括:采集各类项目的主内容及其元数据并进行预处理,得到数据集D,对数据集D进行标注与格式化;对数据集D中的各个类型的项目分别构建敏感数据深度识别子模型,计算各个模型在对应类型项目数据下的初始梯度;基于联邦学习模型计算各个子模型的聚合梯度均值并共享给各个子模型,更新各个子模型的参数;根据联邦学习模型的损失函数判断是否停止训练或进入下一轮训练,直到联邦学习模型训练结束;待识别的项目数据及其元数据输入联邦学习模型,识别项目中的敏感数据。2.根据权利要求1所述的面向项目密评的敏感数据识别方法,其特征在于,所述采集各类项目的主内容及其元数据并进行预处理具体包括:采集各类项目评审过程中的项目数据及其元数据;所述项目数据包括文本、图片和/或表格,所述元数据为数据描述、数据名称、数据类型相关的文本数据;将元数据以文本形式整合排列,并与各自的项目数据对应;将项目数据和对应的元数据以元组的形式保存。3.根据权利要求1所述的面向项目密评的敏感数据识别方法,其特征在于,所述对数据集D进行标注与格式化具体包括:将数据集D按照类型抽取为常见数据类型数据集D1和非常见类型数据集D2;制定各类型敏感数据分级标准,并细化其敏感数据抽取与分离细则;抽取常见数据类型数据集D1和非常见类型数据集D2中的敏感信息,将敏感信息标记为MD,非敏感信息标记为FD,定义敏感数据级别标签L;对每个项目数据,形成<元数据,MD,FD,L>格式的四元组。4.根据权利要求1所述的面向项目密评的敏感数据识别方法,其特征在于,所述基于联邦学习模型计算各个子模型的聚合梯度均值并共享给各个子模型,更新各个子模型的参数具体包括:初始化各个子模型的参数,分别读取常见数据类型数据集D1和非常见类型数据集D2中的样本并分别输入联邦学习模型中进行训练;通过梯度剪枝算法对各个子模型m
i
剪枝;计算剪枝后子模型m
i
中第k层结点的梯度;计算联邦学习模型的聚合梯度,公式如下:其中,表示子模型m
i
中第k层结点的梯度,K为子模型m
i
的总层数;计算聚合梯度的均值并共享给各个子模型m
i
,利用反向传播算法迭代更新各个子模型的参数,使损失函...

【专利技术属性】
技术研发人员:李国强罗隽李琳吴小华刘磊孙雪丰
申请(专利权)人:武汉深捷科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1