【技术实现步骤摘要】
基于集成决策学习的数据隐私可保护分类分级方法及系统
[0001]本专利技术属于电力数据安全
,涉及基于集成决策学习的数据隐私可保护分类分级方法、系统。
技术介绍
[0002]随着电网数字化转型发展,电力数据作为核心生产要素,已经成为推进能源数字化转型、建设新型电力系统的关键战略资源,加强数据安全防护面临迫切需求,其中数据分类分级是数据安全防护工作的重要基础。随着《数据安全法》、《个人信息保护法》的发布,明确提出了数据分类分级要求。近年来,电网公司围绕数据分类分级积极做出一系列初步探索,初步形成了分类分级方法和实践操作基础。但同时,目前分类分级工作主要依赖人工方式,存在着效率低、准确性差且难以落地等诸多问题。
[0003]电力数据呈现体量大、类型多和涉密程度高等特点,包含大量对国家、社会及公司利益造成影响的商密数据和个人信息数据。为更好理清重要数据、明确数据风险、强化数据安全防护,近年来电力行业围绕数据分类分级积极做出一系列初步探索,先后发布《国家电网有限公司互联网业务数据安全典型架构设计(国家电网互联[2019]806号)》、《国家电网有限公司关于进一步规范数据安全工作的通知(国家电网互联[2020]745号)》、《国家电网有限公司关于加强数据共享负面清单梳理应用工作的通知(国家电网互联[2020]280号)》等文件,提出了电力数据分类分级总体要求,并基于数据表、字段描述,通过人工梳理方式,发布了共享负面清单目录,推进电力数据内部共享融通。
[0004]目前电力数据涉及生产域、基建域、营销域等1 ...
【技术保护点】
【技术特征摘要】
1.基于集成决策学习的数据隐私可保护分类分级方法,其特征在于:所述方法包括以下步骤:各用户侧设备已知分类分级情况的电力数据样本集合为D,将样本数据的类别属性对应的集合定义为c={c1,c2,
…
,c
k
},c
i
(i=1,2,
…
k)为第i类别属性,计算得到各类别属性对应的样本数据频率集合P
D
={P1,P2,
…
,P
k
};用户侧设备生成随机数z,并将z添加到P
D
的各元素上,得到P
′
D
={P1+z,P2+z,
…
,P
k
+z};对随机数z用云端服务器公钥进行加密,并将随机数z密文发送至云端服务器;用户侧设备采用对称加密算法对P
′
D
中各元素进行加密,并将P
′
D
中各元素密文E(P
i
+z)发送至云端服务器;接收云端服务器返回的加密求和值,所述加密求和值由所有用户侧设备的样本数据频率原始值对应的密文求和得到;用户侧设备对加密求和值进行解密得到求和值,根据求和值计算各类别属性的信息增益;用户侧设备以各类别属性的信息增益值和其原始样本数据所对应分级分类情况为训练集训练决策树模型,完成集成决策学习;采用训练后的决策树模型进行用户侧设备本地数据的分类分级识别。2.根据权利要求1所述的基于集成决策学习的数据隐私可保护分类分级方法,其特征在于:频率集合P
D
中的元素P
i
(i=1,2,
…
k)的值为用户侧设备第i个类别属性对应的样本数据数量占用户侧设备电力样本数据集D数据量的比例。3.根据权利要求1所述的基于集成决策学习的数据隐私可保护分类分级方法,其特征在于:选择随机数r,采用对称加密算法公钥pk按如下公式对P
′
D
中元素P
i
+z进行对称加密得到密文E(P
i
+z):其中,n,g均为对称加密算法公钥pk=(n,g)中的参数值,mod为求余算式。4.根据权利要求3所述的基于集成决策学习的数据隐私可保护分类分级方法,其特征在于:按照以下方式生成对称加密算法的公钥和私钥:公钥pk=(n,g),私钥sk=(p,q,μ);其中,n的欧拉函数值为λ;n=pq,为随机整数,且n整除g的阶;p,q为随机选择的素数,表示为正整数域;λ=(p
‑
1)(q
‑
1)。5.根据权利要求4所述的基于集成决策学习的数据隐私可保护分类分级方法,其特征在于:
第i个属性类别的样本数据频率原始值对应的密文E(P
i
)为:6.根据权利要求1所述的基于集成决策学习的数据隐私可保护分类分级方法,其特征在于:假设有m个用户侧设备,P
ji
表示为第j(j=1,2,
…
m)个用户侧设备的第i个属性类别的样本数据频率原始值,第j个用户侧设备的第i个属性类别的样本数据频率原始值对应的密文为E<...
【专利技术属性】
技术研发人员:赵磊,许道强,钱旭盛,邓君华,吴波,朱妍,
申请(专利权)人:国网江苏省电力有限公司国家电网有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。