基于纵向联邦学习的用能企业征信评价方法、系统及设备技术方案

技术编号:38505252 阅读:9 留言:0更新日期:2023-08-19 16:52
一种基于纵向联邦学习的用能企业征信评价方法、系统及设备,方法包括基于纵向联邦学习建立用能企业征信评价模型;分析用能征信数据共享场景的业务目标,剖析各参与方电网电能数据与业务目标的内在关联性,筛选出关联度满足阈值条件的电能数据特征,加密后上传至模型;梳理电网以及合作方各自的基础信息,根据基础信息建立相应的评分规则,并通过隐私计算方法计算对应评分;在评分中选取特征,将历史数据对应于模型得到的评分作为评分真实值,采用Softmax回归方法预测未来时期模型的评分,在回归的过程中对数据进行同态加密,最后对用能企业征信评价模型完成部署。本发明专利技术在扩大数据标签,增加数据池的同时,又有效保障了数据隐私。隐私。隐私。

【技术实现步骤摘要】
基于纵向联邦学习的用能企业征信评价方法、系统及设备


[0001]本专利技术属于电力市场交易
,具体涉及一种基于纵向联邦学习的用能企业征信评价方法、系统及设备。

技术介绍

[0002]信用是市场经济运行的前提与基础,市场经济主要通过市场机制实现资源配置,而作为市场机制核心内容的商品交换,其基本原则是建立在信用基础上的等价交换。因此,通过构建企业信用评价体系数据产品,可以为市场化交易提供信息指导,多维度丰富企业融资信用体系。然而,目前对于信用风险评价的研究大都集中于银行信贷级别,对电网用能企业信用的判别处于一个待探索阶段。
[0003]随着大数据技术的应用,基于营销大数据和智能算法的用能企业征信评价模型也获得了应用,但是智能算法往往需要海量标签数据进行训练,而对于一个地区的用户来讲,相关数据还很欠缺,智能算法训练数据不足,导致了模型结果精度不足的问题。
[0004]如果要扩大数据量级,必然需要联合多家公司的用户数据,但获取多家公司的用户数据又会存在用户数据泄露的问题。

技术实现思路

[0005]本专利技术的目的在于针对上述现有技术中的问题,提供一种基于纵向联邦学习的用能企业征信评价方法、系统及设备,在扩大数据标签,增加数据池的同时,又有效保障了数据隐私,有效地解决了传统电力领域中存在的数据标签少、数据不足的难题。
[0006]为了实现上述目的,本专利技术有如下的技术方案:
[0007]第一方面,提供一种基于纵向联邦学习的用能企业征信评价方法,包括:
[0008]基于纵向联邦学习建立用能企业征信评价模型;
[0009]分析用能征信数据共享场景的业务目标,剖析各参与方电网电能数据与业务目标的内在关联性,筛选出关联度满足阈值条件的电能数据特征,加密后上传至用能企业征信评价模型;
[0010]梳理电网以及合作方各自的基础信息,根据梳理出的基础信息建立相应的评分规则,并通过隐私计算方法计算出对应的评分;
[0011]在计算出的评分中选取特征,将历史数据对应用能企业征信评价模型得到的评分作为评分真实值,采用Softmax回归方法预测未来时期用能企业征信评价模型的评分,在Softmax回归的过程中对数据进行同态加密,依据未来时期评分对用能企业征信评价模型完成部署。
[0012]作为优选,所述基于纵向联邦学习建立用能企业征信评价模型的步骤包括:
[0013]模型需求方提供训练模型、模型参数的汇总更新以及模型片段的组合,模型训练参与方依据自身拥有的数据对模型片段进行训练;
[0014]M个模型训练参与方拥有的数据子集为其中只有一个数据子集
包含标签;模型需求方持有模型初始化参数β0,M个模型训练参与方将模型分成M个片段将模型片段加密后分发给相应的模型训练参与方;
[0015]各个模型训练参与方利用收到的模型片段及自己的数据进行计算,通过协同计算更新各自的模型片段,训练结束后将各自的模型发送给模型需求方;
[0016]整个计算过程在密文上进行,模型需求方不接触任何数据,数据拥有方只接触到发送给自己的模型片段密文,模型的加解密采用同态加密算法。
[0017]作为优选,所述的同态加密算法包含消息空间、密钥生成、加密、解密四个部分;
[0018]消息空间由明文空间和密文空间两部分组成,明文空间为t表示系数模数,表示多项式系数均为模t的整数集;x
n
+1是多项式模数,表示多项式每一项都是模x
n
+1的元素,密文空间由两个环上具有相同多项式模数的多项式组成,其中q>>t;
[0019]密钥生成的方式为:私钥s=
±
x
n
±
x
n
‑1±…±
x2±
x
±
1是在R
n
中生成的系数为

1、0或1的多项式,公钥p
k
=(p[0],p[1])=(

[as+e]q
,a)是一个多项式,其中a是在密文空间中随机生成的一个多项式,系数为模q的余数,e是添加的噪声;
[0020]加密过程通过u、e1、e2三个多项式实现,u是用于掩盖明文m的掩码,是系数

1、0、1的多项式,e1、e2是添加的噪声,三个多项式仅加密时使用;密文c由两个多项式(c[0],c[1])组成,消息通过计算进行加密;
[0021]解密过程为:将密文的c[0]代入公钥,展开为c[0]=[e1+eu

aus+qm/t]q
,同理得到c[1]=[au+e2]q
;若私钥s已知,通过计算c[1]·
s=[aus+e2s]q
,将密文中的掩码项消去,得到[e1+eu+e2s+qm/t]q
,即在明文项加上一些噪声;所述噪声是比较小的项,在同态运算过程中噪声值会随着加法和乘法量而增长;当噪声变化量小于设定值时,通过近似操作消去噪声项,解密过程的表达式为:
[0022]作为优选,所述剖析各参与方电网电能数据与业务目标的内在关联性的步骤包括:
[0023]基于主成分分析进行指标权重确定,基于多个因子综合进行维度评分,判断内在关联性:
[0024]构造样本矩阵:其中,x
ij
表示第i组样本数据的第j个变量的值,n为样本数量,p为变量数量;
[0025]对样本矩阵X进行变化,得:Y=[y
ij
]n*p
,其中,
[0026]对Y做标准化变换得标准化矩阵:其中,s
j
分别为Y矩阵中第j列的平均值和标准差;
[0027]计算标准化矩阵Z的样本相关系数矩阵:
[0028]求特征值:|R

λ*I
p
|=0,解得:p个特征值λ1≥λ2≥

≥λ
p
≥0;
[0029]对每个λ
j
,j=1,2,

,p,解方程组R*b=λ
j
*b,得到单位向量:
[0030]求决策矩阵:
[0031]确定初级权重模型,即主成分模型:
[0032][0033]构建综合评价函数:其中,kλ1+λ2+


p
;a1,a2,

,a
n
即指标ω1,ω2,


n
在主成分中的综合重要度;
[0034]计算原有指标得分综合值:
[0035]计算各指标权重:
[0036]变量归一化评分,解决单个因子进行评分时所出现的现实数据映射到评分的问题:
[0037]进行实际因子数据排名,确定高低两个标杆,若变量为正向因子,将变量的最大值设为高标杆,评分为100;以变量的最小值设为低标杆,评分为60;<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于纵向联邦学习的用能企业征信评价方法,其特征在于,包括:基于纵向联邦学习建立用能企业征信评价模型;分析用能征信数据共享场景的业务目标,剖析各参与方电网电能数据与业务目标的内在关联性,筛选出关联度满足阈值条件的电能数据特征,加密后上传至用能企业征信评价模型;梳理电网以及合作方各自的基础信息,根据梳理出的基础信息建立相应的评分规则,并通过隐私计算方法计算出对应的评分;在计算出的评分中选取特征,将历史数据对应用能企业征信评价模型得到的评分作为评分真实值,采用Softmax回归方法预测未来时期用能企业征信评价模型的评分,在Softmax回归的过程中对数据进行同态加密,依据未来时期评分对用能企业征信评价模型完成部署。2.根据权利要求1所述基于纵向联邦学习的用能企业征信评价方法,其特征在于,所述基于纵向联邦学习建立用能企业征信评价模型的步骤包括:模型需求方提供训练模型、模型参数的汇总更新以及模型片段的组合,模型训练参与方依据自身拥有的数据对模型片段进行训练;M个模型训练参与方拥有的数据子集为其中只有一个数据子集包含标签;模型需求方持有模型初始化参数β0,M个模型训练参与方将模型分成M个片段将模型片段加密后分发给相应的模型训练参与方;各个模型训练参与方利用收到的模型片段及自己的数据进行计算,通过协同计算更新各自的模型片段,训练结束后将各自的模型发送给模型需求方;整个计算过程在密文上进行,模型需求方不接触任何数据,数据拥有方只接触到发送给自己的模型片段密文,模型的加解密采用同态加密算法。3.根据权利要求2所述基于纵向联邦学习的用能企业征信评价方法,其特征在于,所述的同态加密算法包含消息空间、密钥生成、加密、解密四个部分;消息空间由明文空间和密文空间两部分组成,明文空间为t表示系数模数,表示多项式系数均为模t的整数集;x
n
+1是多项式模数,表示多项式每一项都是模x
n
+1的元素,密文空间由两个环上具有相同多项式模数的多项式组成,其中q&gt;&gt;t;密钥生成的方式为:私钥s=
±
x
n
±
x
n
‑1±…±
x2±
x
±
1是在R
n
中生成的系数为

1、0或1的多项式,公钥p
k
=(p[0],p[1])=(

[as+e]
q
,a)是一个多项式,其中a是在密文空间中随机生成的一个多项式,系数为模q的余数,e是添加的噪声;加密过程通过u、e1、e2三个多项式实现,u是用于掩盖明文m的掩码,是系数

1、0、1的多项式,e1、e2是添加的噪声,三个多项式仅加密时使用;密文c由两个多项式(c[0],c[1])组成,消息通过计算进行加密;解密过程为:将密文的c[0]代入公钥,展开为c[0]=[e1+eu

aus+qm/t]
q
,同理得到c[1]=[au+e2]
q
;若私钥s已知,通过计算c[1]
·
s=[aus+e2s]
q
,将密文中的掩码项消去,得到[e
l
+eu+e2s+qm/t]
q
,即在明文项加上一些噪声;所述噪声是比较小的项,在同态运算过程中噪声值会随着加法和乘法量而增长;当噪声变化量小于设定值时,通过近似操作消去噪声项,
解密过程的表达式为:4.根据权利要求1所述基于纵向联邦学习的用能企业征信评价方法,其特征在于,所述各剖析参与方电网电能数据与业务目标的内在关联性的步骤包括:基于主成分分析进行指标权重确定,基于多个因子综合进行维度评分,判断内在关联性:构造样本矩阵:其中,x
ij
表示第i组样本数据的第j个变量的值,n为样本数量,p为变量数量;对样本矩阵X进行变化,得:Y=[y
ij
]
n*p
,其中,对Y做标准化变换得标准化矩阵:其中,其中,s
j
分别为Y矩阵中第j列的平均值和标准差;计算标准化矩阵Z的样本相关系数矩阵:求特征值:|R

λ*I
p
|=0,解得:p个特征值λ1≥λ2≥

≥λ
p
≥0;对每个λ
j
,j=1,2,

,p,解方程组R*b=λ
j
*b,得到单位向量:求决策矩阵:确定初级权重模型,即主成分模型:构建综合评价函数:其中,k=λ1+λ2+


p
;a1,a2,

,a
n
即指标ω1,ω2,


n
在主成分中的综合重要度;计算原有指标得分综合值:计算各指标权重:变量归一化评分,解决单个因子进行评分时所出现的现实数据映射到评分的问题:进行实际因子数据排名,确定高低两个标杆,若变量为正向因子,将变量的最大值设为高标杆,评分为100;以变量的最小值设为低标杆,评分为60;归一化处理,计算因子评分:
判断数据集中度情况,若腰部数据集中度超过阈值,则进行数据自然对数(lnX)平滑处理,即以ln(MAX因子值)设为高标杆,评分为100,以ln(MIN因子值)设为低标杆,评分为60;若腰部数据集中度未超过阈值,则不进行数据对平滑处理。5.根据权利要求1所述基于纵向联邦学习的用能企业征信评价方法,其特征在于,在梳理电网以及合作方各自的基础信息的步骤中,所述电网以及合作方各自的基础信息包括特征维度、标签数据、样本规模。6.根据权利要求1所述基于纵向联邦学习的用能企业征信评价方法,其特征在于,所述根据梳理出的基础信息建立相应的评分规则的步骤具体包括:建立企业工商登记信息评分的规则如下:根据工商部门登记的企业资质、违法处罚记录信息进行评分:企业工商登记信息评分=(企业资质数量*A+企业违法处罚记录数量*B),式中,A,B为加权系数,通过基于主成分分析的指标权重确定A和B,且A+B=1;指标评分计算:使用因子归一化评分方法;权重计算:使用基于主成分分析的指标权重计算方法;建立企业纳税信息评分的规则如下:根据税务部门登记的纳税信息进行评分:企业工商登记信息评分=(企业按期缴费率*A+企业偷税漏税记录数量*B),式中,A,B为加权系数,通过基于主成分分析的指标权重确定A和B,且A+B=1;业务指标计算:取值为60~100,通过因子归一化评分计算企业按期缴费率评分;指标评分计算:使用因子归一化评分方法;权重计算:使用基于主成分分析的指标权重计算方法;建立企业中标信息评分的规则如下:根据招标代理机构记录的企业中标信息进行评分:企业中标评分=(企业中标次数*A+(企业失标次数+企业串标次数)*B)/企业投标次数;式中,A,B为加权系数,通过基于主成分分析的指标权重确定A和B,且A+B=1;指标评分计算:使用因子归一化评分方法;权重计算:使用基于主成分分析的指标权重计算方法;建立企业用电能力评分的规则如下:分行业进行企业月用电量排名,确定高低两个标杆,以对应行业最高用电量设为标杆,即对应行业用电量最高的企业评分为100,对应行业最低用电量的企业评分为60;进行归一化处理,计算企业用电量评分:根据数据集中度情况,若腰部数据集中度超过阈值,则进行数据自然对数(lnX)平滑处理,即以ln(MAX企业用电量)设为高标杆,评分为100,以ln(MIN企业用电量)设为低标杆,评分为60;若腰部数据集中度未超过阈值,则不进行数据对数化处理;建立企业用电潜力评分的规则如下:
根据企业月用电量增长率及容量增减判断企业用电潜力:企业月用电潜力评分=(企业月用电量增长率评分*A+容量增减评分*B),式中,A、B为加权系数,通过基于主成分分析的指标权重确定A和B,且A+B=1;业务指标计算:企业用电量增长率=(本月用电量

上月用电量)/上月用电量,取值为60~100,通过因子归一化评分计算企业月用电量增长率评分;增减扩容次数=增加容量次数

减少容量次数,取值为60~100,通过因子归一化评分计算增减扩容次数评分;指标评分计算:使用因子归一化评分方法;权重计算:使用基于主成分分析的指标权重计算方法;建立企业缴费能力评分的规则如下:根据企业按期缴费率和企业缴费裕度进行评分:企业缴费能力评分=(企业按期交费率评分*A+企业缴费裕度评分*B),式中,A、B为加权系数,通过基于主成分分析的指标权重确定A和B,且A+B=1;业务指标计算:取值为60~100,通过因子归一化评分计算企业按期缴费率评分;若企业按期交费率大于等于1,评分均为100;企业缴费裕度=∑(企业当月所有电费发行单的缴费截止时间

企业当月所有电费发行单的缴费实际时间),取值为60~100,通过因子归一化评分计算企业缴费裕度评分;指标评分计算:使用因子归一化评分方法;权重计算:使用基于主成分分析的指标权重计算方法;建立企业违约状况评分的规则如下:根据企业月违约类别次数和企业月窃电次数进行评分:企业违约状况评分=(企业月违约类别次数评分*A+企业月窃电次数评分*B),式中,A、B为加权系数,通过基于主成分分析的指标权重确定A和B,且A+B=1;业务指标计算:企业当月违约类别次数=Σ(擅改用电类别次数+擅超合同约定容量用电次数+擅超用电指标次数+擅自使用已暂停的电力设备次数+擅自启封电力设备次数+擅自迁移、更动、操作计量装置次数+擅自迁移、更动、操作供电设施次数+擅自迁移、更动、操作用户售电设备次数+擅自引入电源次数+擅自供出电源次数+自备电源擅自并网次数+其它违章或违约用电次数)通过因子归一化评分计算企业违约类别次数评分,取值为60~100;通过因子归一化评分计算企业窃电次数评分,取值为60~100;指标评分计算:使用因子归一化评分方法;权重计算:使用基于主成分分析的指标权重计算方法;A、B为加权系数,通过基于主成分分析的指标权重确定A和B,且A+B=1;建立企业历史信用评分的规则如下:为企业在所属行业的历史信用评分,根据企业账户账龄(年)判断企业历史信用...

【专利技术属性】
技术研发人员:王晓辉李道兴郭鹏天季知祥程凯杨会峰
申请(专利权)人:国网河北省电力有限公司信息通信分公司国家电网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1