基于集成决策学习的数据隐私可保护分类分级方法及系统技术方案

技术编号:35016934 阅读:23 留言:0更新日期:2022-09-21 15:22
一种基于集成决策学习的数据隐私可保护分类分级方法及系统,将训练决策树模型所需的用户侧设备数据类别属性参数以加扰的方式通过对称加密送至云端服务器进行数据集成;云端服务器利在不解密的情况下将所有用户侧设备上传的类别属性进行集成,再将集成计算后的密文下发至各用户侧设备,用户侧设备利用解密获得的数据完成集成决策学习的决策树模型的训练;采用训练后的决策树模型进行用户侧设备本地数据的分类分级识别。本发明专利技术可实现云服务场景下的数据在加密保护情况下的自动分类分级识别。识别。识别。

【技术实现步骤摘要】
基于集成决策学习的数据隐私可保护分类分级方法及系统


[0001]本专利技术属于电力数据安全
,涉及基于集成决策学习的数据隐私可保护分类分级方法、系统。

技术介绍

[0002]随着电网数字化转型发展,电力数据作为核心生产要素,已经成为推进能源数字化转型、建设新型电力系统的关键战略资源,加强数据安全防护面临迫切需求,其中数据分类分级是数据安全防护工作的重要基础。随着《数据安全法》、《个人信息保护法》的发布,明确提出了数据分类分级要求。近年来,电网公司围绕数据分类分级积极做出一系列初步探索,初步形成了分类分级方法和实践操作基础。但同时,目前分类分级工作主要依赖人工方式,存在着效率低、准确性差且难以落地等诸多问题。
[0003]电力数据呈现体量大、类型多和涉密程度高等特点,包含大量对国家、社会及公司利益造成影响的商密数据和个人信息数据。为更好理清重要数据、明确数据风险、强化数据安全防护,近年来电力行业围绕数据分类分级积极做出一系列初步探索,先后发布《国家电网有限公司互联网业务数据安全典型架构设计(国家电网互联[2019]806号)》、《国家电网有限公司关于进一步规范数据安全工作的通知(国家电网互联[2020]745号)》、《国家电网有限公司关于加强数据共享负面清单梳理应用工作的通知(国家电网互联[2020]280号)》等文件,提出了电力数据分类分级总体要求,并基于数据表、字段描述,通过人工梳理方式,发布了共享负面清单目录,推进电力数据内部共享融通。
[0004]目前电力数据涉及生产域、基建域、营销域等11个业务域,再汇合为生产数据、营销数据、管理数据三个大类,呈现电力数据种类繁多、场景复杂的特点,传统依靠人工梳理方式难以有效开展大数据量的电力业务数据分类分级工作,一般采用基于云服务的自动化大数据分类处理,用户侧设备可以依托云服务资源,将各用户侧设备的数据进行汇总进行集成决策学习训练得到数据的分类分级识别模型。但是传统的数据分类分级机器学习方法需要云端服务器汇聚用户侧设备的原始数据信息才能实现训练识别,从而造成用户侧设备数据隐私泄露问题,包含诸如电量、欠费、缴费等大量电力数据客户隐私数据一旦泄露会造成客户的合法权益受到损害。而传统的加密算法对数据进行加密后,现有的机器学习方法也无法实现数据的分类分级识别处理。
[0005]因此,如何同时满足云服务场景下数据分类分级识别与用户侧设备数据隐私保护这两类需求,是基于云服务的数据分类分级方案目前亟待解决的关键问题。

技术实现思路

[0006]为解决现有技术中存在的不足,本专利技术提供基于集成决策学习的数据隐私可保护分类分级方法及系统,可实现云服务场景下的数据在加密保护情况下的自动分类分级识别。
[0007]为了实现上述目标,本专利技术采用如下技术方案:
[0008]基于集成决策学习的数据隐私可保护分类分级方法,包括以下步骤:
[0009]设各用户侧设备已知分类分级情况的电力数据样本集合为D,将样本数据的类别属性对应的集合定义为c={c1,c2,

,c
k
},c
i
(i=1,2,

k)为第i类别属性,计算得到各类别属性对应的样本数据频率集合P
D
={P1,P2,

,P
k
};
[0010]用户侧设备生成随机数z,并将z添加到P
D
的各元素上,得到P
D

={P1+z,P2+z,

,P
k
+z};
[0011]对随机数z用云端服务器公钥进行加密,并将随机数z密文发送至云端服务器;
[0012]用户侧设备采用对称加密算法对P
D

中各元素进行对称加密,并将P
D

中各元素密文E(P
i
+z)发送至云端服务器;
[0013]对随机数z密文用云端服务器私钥解密得到随机数z,并从E(P
i
+z)中减去随机数z,得到第i个属性类别的样本数据频率原始值对应的密文E(P
i
):
[0014]接收云端服务器返回的加密求和值,所述加密求和值由所有用户侧设备的样本数据频率原始值对应的密文求和得到;
[0015]用户侧设备对加密求和值进行解密得到求和值,根据求和值计算各类别属性的信息增益;
[0016]用户侧设备以各类别属性的信息增益值和其原始样本数据所对应分级分类情况为训练集训练决策树模型,完成集成决策学习;
[0017]采用训练后的决策树模型进行用户侧设备本地数据的分类分级识别。
[0018]本专利技术进一步包括以下优选方案:
[0019]优选地,频率集合P
D
中的元素P
i
(i=1,2,

k)的值为用户侧设备第i个类别属性对应的样本数据数量占用户侧设备电力样本数据集D数据量的比例。
[0020]优选地,选择随机数r,采用对称加密算法公钥pk按如下公式对P
D

中元素P
i
+z进行对称加密得到密文E(P
i
+z):
[0021][0022]其中,n,g均为对称加密算法公钥pk=(n,g)中的参数值,mod为求余算式。
[0023]优选地,按照以下方式生成对称加密算法的公钥和私钥:
[0024]公钥pk=(n,g),私钥sk=(p,q,μ);
[0025]其中,n的欧拉函数值为λ;
[0026]为随机整数,且n整除g的阶;
[0027]p,q为随机选择的两个大素数,表示为正整数域;
[0028][0029]λ=(p

1)(q

1)。
[0030]优选地,第i个属性类别的样本数据频率原始值对应的密文E(P
i
)为:
[0031][0032]优选地,假设有m个用户侧设备,P
ji
表示为第j(j=1,2,

m)个用户侧设备的第i个属性类别的样本数据频率原始值,第j个用户侧设备第i个属性类别的样本数据频率原始值
对应的密文为E
j
(P
ji
),则所述加密求和值为:
[0033][0034]优选地,解密过程为:
[0035][0036]为解密得到的求和值。
[0037]优选地,第i个类别属性的信息增益值IG(i)计算公式为:
[0038]IG(i)=Entropy(D)

Entropy
i
(D)(4)
[0039]其中,
[0040][0041]为解密得到的求和值;
[0042]D表示电力数据样本集合,运算符||表示集合的个数;
[0043]a
l
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于集成决策学习的数据隐私可保护分类分级方法,其特征在于:所述方法包括以下步骤:各用户侧设备已知分类分级情况的电力数据样本集合为D,将样本数据的类别属性对应的集合定义为c={c1,c2,

,c
k
},c
i
(i=1,2,

k)为第i类别属性,计算得到各类别属性对应的样本数据频率集合P
D
={P1,P2,

,P
k
};用户侧设备生成随机数z,并将z添加到P
D
的各元素上,得到P

D
={P1+z,P2+z,

,P
k
+z};对随机数z用云端服务器公钥进行加密,并将随机数z密文发送至云端服务器;用户侧设备采用对称加密算法对P

D
中各元素进行加密,并将P

D
中各元素密文E(P
i
+z)发送至云端服务器;接收云端服务器返回的加密求和值,所述加密求和值由所有用户侧设备的样本数据频率原始值对应的密文求和得到;用户侧设备对加密求和值进行解密得到求和值,根据求和值计算各类别属性的信息增益;用户侧设备以各类别属性的信息增益值和其原始样本数据所对应分级分类情况为训练集训练决策树模型,完成集成决策学习;采用训练后的决策树模型进行用户侧设备本地数据的分类分级识别。2.根据权利要求1所述的基于集成决策学习的数据隐私可保护分类分级方法,其特征在于:频率集合P
D
中的元素P
i
(i=1,2,

k)的值为用户侧设备第i个类别属性对应的样本数据数量占用户侧设备电力样本数据集D数据量的比例。3.根据权利要求1所述的基于集成决策学习的数据隐私可保护分类分级方法,其特征在于:选择随机数r,采用对称加密算法公钥pk按如下公式对P

D
中元素P
i
+z进行对称加密得到密文E(P
i
+z):其中,n,g均为对称加密算法公钥pk=(n,g)中的参数值,mod为求余算式。4.根据权利要求3所述的基于集成决策学习的数据隐私可保护分类分级方法,其特征在于:按照以下方式生成对称加密算法的公钥和私钥:公钥pk=(n,g),私钥sk=(p,q,μ);其中,n的欧拉函数值为λ;n=pq,为随机整数,且n整除g的阶;p,q为随机选择的素数,表示为正整数域;λ=(p

1)(q

1)。5.根据权利要求4所述的基于集成决策学习的数据隐私可保护分类分级方法,其特征在于:
第i个属性类别的样本数据频率原始值对应的密文E(P
i
)为:6.根据权利要求1所述的基于集成决策学习的数据隐私可保护分类分级方法,其特征在于:假设有m个用户侧设备,P
ji
表示为第j(j=1,2,

m)个用户侧设备的第i个属性类别的样本数据频率原始值,第j个用户侧设备的第i个属性类别的样本数据频率原始值对应的密文为E<...

【专利技术属性】
技术研发人员:赵磊许道强钱旭盛邓君华吴波朱妍
申请(专利权)人:国网江苏省电力有限公司国家电网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1