【技术实现步骤摘要】
一种基于联邦皮尔逊相关性分析的指标预测方法及系统
[0001]本专利技术涉及隐私计算
,具体而言,涉及一种基于联邦皮尔逊相关性分析的指标预测方法及系统
。
技术介绍
[0002]纵向联邦建模时,任务发起方和合作方的数据集有共同的样本空间,不同的特征空间,需要使用加密算法保证数据隐私安全,对节点每个连续型特征及其与对方节点的其他特征进行相关性分析,去除相关性较大的特征,提升建模的效率和准确性,现存的联邦相关性分析,可以转化为矩阵秘文相乘,性能较差,通讯开销也大,计算过程复杂,效率低
。
[0003]针对现有技术中联邦相关性分析性能差,通讯开销大,计算过程复杂,效率低的问题,目前尚未提出有效的解决方案
。
技术实现思路
[0004]本专利技术实施例中提供一种基于联邦皮尔逊相关性分析的指标预测方法及系统,以解决现有技术中联邦相关性分析性能差,通讯开销大,计算过程复杂,效率低的问题
。
[0005]为达到上述目的,一方面,本专利技术提供了一种基于联邦皮尔逊相关性分析的指标预测方法,该方法包括:
S1、
将纵向联邦学习中的发起方的第一数据集
X
进行标准化得到第一标准数据集
X
’
,合作方的第二数据集
Y
进行标准化得到第二标准数据集
Y
’
;
S2、
发起方根据第一随机数据集
R0
对
X
’
进行分片 ...
【技术保护点】
【技术特征摘要】
1.
一种基于联邦皮尔逊相关性分析的指标预测方法,其特征在于,包括:
S1、
将纵向联邦学习中的发起方的第一数据集
X
进行标准化得到第一标准数据集
X
’
,合作方的第二数据集
Y
进行标准化得到第二标准数据集
Y
’
;
S2、
发起方根据第一随机数据集
R0
对
X
’
进行分片得到第一分片数据集
X0’
,合作方将共享的
R0
作为第二分片数据集
X1’
;合作方根据第二随机数据集
R1
对
Y
’
进行分片得到第三分片数据集
Y0’
,发起方将共享的所述
R1
作为第四分片数据集
Y1’
;
S3、
可信执行环境根据第三随机数据集
a0、
第四随机数据集
b0、
第五随机数据集
a1
和第六随机数据集
b1
计算得到乘积数据集
c
;根据所述
c
随机生成与所述
c
矩阵相同大小的第一生成数据集
c0
;根据所述
c
和所述
c0
计算得到第二生成数据集
c1
;发起方共享
a0、b0
,获取可信执行环境发送的
c0
;合作方共享
a1、b1
,获取可信执行环境发送的
c1
;
S4、
合作方根据
X1’
、a1
以及共享的发起方的
X0’
和
a0
的和值计算得到第一公共参数;发起方根据
Y1’
、b0
以及共享的合作方的
Y0’
和
b1
的和值计算得到第二公共参数;
S5、
发起方根据
a0、b0、c0、
第二公共参数以及共享的第一公共参数计算得到第一分片相关系数;合作方根据
a1、b1、c1、
第一公共参数以及共享的第二公共参数计算得到第二分片相关系数;
S6、
两方分别根据各自的分片相关系数以及共享的对方的分片相关系数计算得到联邦相关系数;
S7、
根据所述联邦相关系数进行联邦皮尔逊相关性分析,根据分析结果确定模型训练数据,并采用模型训练数据训练联邦学习模型;
S8、
通过所述联邦学习模型进行指标预测;所述指标包括:故障性能指标
、
盈利指标
。2.
根据权利要求1所述的方法,其特征在于,所述
S2
包括:发起方生成的第一随机种子发送给合作方,发起方和合作方根据所述第一随机种子生成第一随机数据集
R0
;发起方根据所述第一随机数据集
R0
对所述第一标准数据集
X
’
进行分片,得到第一分片数据集
X0’
;合作方将所述第一随机数据集
R0
作为第二分片数据集
X1’
;合作方生成的第二随机种子发送给发起方,发起方和合作方根据所述第二随机种子生成第二随机数据集
R1
;合作方根据所述第二随机数据集
R1
对所述第二标准数据集
Y
’
进行分片,得到第三分片数据集
Y0’
;发起方将所述第二随机数据集
R1
作为第四分片数据集
Y1’
。3.
根据权利要求1所述的方法,其特征在于:所述乘积数据集
c
根据以下公式计算:
c
=
(a0+a1)
×
(b0+b1)
;所述第二生成数据集
c1
根据以下公式计算:
c1
=
c
‑
c0
;其中,
a0
为第三随机数据集,
a1
为第五随机数据集,
b0
为第四随机数据集,
b1
为第六随机数据集,
c
为乘积数据集,
c0
为第一生成数据集,
c1
为第二生成数据集
。4.
根据权利要求1所述的方法,其特征在于:所述第一公共参数根据以下公式计算:
X
’
+a
=
X0’
+a0+X1’
+a1
;其中,
X
’
+a
为第一公共参数,
X0’
为第一分片数据集,
a0
为第三随机数据集,
X1’
为第二分片数据集,
a1
为第五随机数据集;
所述第二公共参数根据以下公式计算:
Y
’
+b
=
Y0’
+b1+Y1’
+b0
;其中,
Y
’
+b
为第二公共参数,
Y0’
为第三分片数据集,
b1
为第六随机数据集,
Y1’
为第四分片数据集,
b0
为第四随机数据集
。5.
根据权利要求1所述的方法,其特征在于:所述第一分片相关系数根据以下公式计算:
corr0=
c0
‑
a0*(Y
’
+b)
‑
(X
’
+a)*b0+(X
’
+a)*(Y
’
+b)
;其中,
corr0为第一分片相关系数,
c0
为第一生成数据集,
a0
为第三随机数据集,
b0
为第四随机数据集,
X
’
+a
为第一公共参数,
Y
’
+b
为第二公共参数;所述第二分片相关系数根据以下公式计算:
corr1=
c1
‑
a1*(Y
’
+b)
‑
(X
’
+a)*b1
;其中,
corr1为第二分片相关系数,
c1
为第二生成数据集,
a1
为第五随机数据集,
b1
为第六随机数据集,
X
’
+a
为第一公共参数,
Y
’
+b<...
【专利技术属性】
技术研发人员:孙银银,兰春嘉,
申请(专利权)人:上海零数众合信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。