一种用于联邦学习的特征分箱方法及电子设备技术

技术编号：42356494 阅读：32 留言：0更新日期：2024-08-16 14:42

本发明专利技术公开了一种用于联邦学习的特征分箱方法及电子设备。该方法包括以下步骤：发起方、参与方进行样本对齐，分别对发起方特征的特征值、参与方特征的特征值进行排序，得到每个样本对应的第一排序号、第二排序号；发起方将每个样本的标签加密成加密标签并发送给参与方，参与方将第二排序号与对应的加密标签绑定得到绑定数据对，打乱顺序后发送给发起方；发起方对加密标签进行解密，对所有第一排序号、第二排序号进行排序，得到向量G<subgt;1</subgt;、G<subgt;2</subgt;；发起方根据向量G<subgt;1</subgt;、G<subgt;2</subgt;的WOE单调性趋势分别对向量G<subgt;1</subgt;、G<subgt;2</subgt;进行WOE单调分箱，将向量G<subgt;2</subgt;的分箱结果发送给参与方。本发明专利技术在保护双方数据隐私的情况下自动完成分箱，保证分箱结果具有WOE单调性，提高了计算效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理，尤其涉及一种用于联邦学习的特征分箱方法及电子设备。

技术介绍

1、联邦学习的目标是在保证数据隐私安全及合法合规的基础上，实现共同建模，常用于金融风控领域。在联邦学习建模过程中常常需要进行特征工程，通过特征工程处理分析特征和目标的关系，获得更好的建模效果。

2、特征分箱是一种常见的特征工程方法，作用是将连续型的特征值进行若干个区域的划分，将连续型数据转换成离散型数据。然而，在金融风控等业务场景下，特征分箱需要控制woe单调性，以保证特征与目标的线性关系，以及模型的稳定性。目前在金融风控建模过程中，通常先进行特征分箱，然后计算每个分箱的woe值，根据分箱的woe值由人工手动调整分箱，最后得到具有woe单调性的分箱结果。由于金融风控建模是在联邦场景下进行，联邦特征分箱需要在密文下进行计算，人工手动调整分箱使分箱结果具有woe单调性的传统方法存在流程复杂、计算速度慢的缺点。

技术实现思路

1、本专利技术为了解决上述技术问题，提供了一种用于联邦学习的特征分箱方法及电子设备，其能够在发起方、参与方的数据不出库的情况下自动完成特征分箱，保证分箱结果具有woe单调性，提高了计算效率。

2、为了解决上述问题，本专利技术采用以下技术方案予以实现：

3、本专利技术的一种用于联邦学习的特征分箱方法，包括以下步骤：

4、s1：发起方、参与方进行样本对齐，发起方读取对齐的m个样本的标签和发起方特征的特征值，参与方读取对齐的m个样本的参与方特征的特征值；

5、s2：发起方对m个样本的发起方特征的特征值进行排序，得到每个样本对应的第一排序号，参与方对m个样本的参与方特征的特征值进行排序，得到每个样本对应的第二排序号；

6、s3：发起方对每个样本的标签进行加密，得到每个样本对应的加密标签，并发送给参与方，参与方将每个样本对应的第二排序号、加密标签绑定得到对应的绑定数据对，将m个绑定数据对打乱顺序后发送给发起方；

7、s4：发起方对绑定数据对中的加密标签进行解密，对m个第一排序号进行排序，得到向量g1，对m个第二排序号进行排序，得到向量g2；

8、s5：发起方判断向量g1、向量g2的woe单调性趋势，根据向量g1、向量g2的woe单调性趋势分别对向量g1、向量g2进行woe单调分箱，将向量g2的分箱结果发送给参与方；

9、s6：发起方根据向量g1的分箱结果对m个样本的发起方特征的特征值进行分箱，参与方根据向量g2的分箱结果对m个样本的参与方特征的特征值进行分箱。

10、在本方案中，发起方将样本的标签加密成加密标签后发送给参与方，使得参与方无法获取到标签的明文，由于发起方、参与方的样本对齐，所以参与方能够知道样本与加密标签的对应关系。参与方将参与方特征的特征值转换为对应的第二排序号后与对应的加密标签绑定成绑定数据对，将绑定数据对打乱顺序后发送给发起方，这样发起方就无法获取到参与方特征的特征值明文，而发起方对加密标签解密后可以得到每个第二排序号对应的样本的标签，使得发起方可以对第二排序号进行分箱。发起方对第一排序号、第二排序号分别按照数值大小进行升序排序或降序排序，得到向量g1、向量g2，根据向量g1、向量g2的woe单调性趋势分别对向量g1、向量g2进行woe单调分箱，发起方、参与方分别根据向量g1、向量g2的分箱结果对各自持有的特征值进行分箱。

11、作为优选，所述m个样本的标签组成标签向量y={y1,y2,……ym}，m个样本的发起方特征的特征值组成发起方特征向量xa={xa1, xa2,……xam}，m个样本的参与方特征的特征值组成参与方特征向量xb={xb1, xb2,……xbm}，其中，1≤i≤m，yi为第i个样本的标签，xai为第i个样本的发起方特征的特征值，xbi为第i个样本的参与方特征的特征值。

12、作为优选，所述步骤s2包括以下步骤：发起方对发起方特征向量xa进行排序，得到第一排序号向量ra={ra1, ra2,……ram}，rai为第i个样本对应的第一排序号，参与方对参与方特征向量xb进行排序，得到第二排序号向量rb={rb1, rb2,……rbm}，rbi为第i个样本对应的第二排序号。

13、作为优选，所述步骤s3中发起方对每个样本的标签进行加密，得到每个样本对应的加密标签，并发送给参与方的方法如下：发起方对标签向量y进行加密，得到加密标签向量enc(y)={enc(y1), enc(y2),……enc(ym)}，enc(yi)为第i个样本对应的加密标签，将加密标签向量enc(y)发送给参与方。

14、作为优选，所述步骤s3中参与方将每个样本对应的第二排序号、加密标签绑定得到对应的绑定数据对，将m个绑定数据对打乱顺序后发送给发起方的方法如下：参与方将每个样本对应的第二排序号、加密标签绑定，得到绑定数据对集合d={d1,d2,……dm}，di=(rbi,enc(yi))，di为第i个样本对应的绑定数据对，将绑定数据对集合d中的绑定数据对打乱顺序后发送给发起方。

15、作为优选，所述步骤s5中发起方判断向量gj的woe单调性趋势的方法如下，1≤j≤2：

16、计算向量gj中前a个值组成的第一分组的woe值、后a个值组成的第二分组的woe值，如果第一分组的woe值大于第二分组的woe值，则判断向量gj的woe单调性趋势为单调递减；如果第一分组的woe值小于第二分组的woe值，则判断向量gj的woe单调性趋势为单调递增。

17、作为优选，所述步骤s5中发起方根据向量gj的woe单调性趋势对向量gj进行woe单调分箱的方法如下，1≤j≤2：

18、m1：将向量gj中的排序号分配到编号与排序号一致的分箱中，得到q个分箱组成的分箱向量f={f1,f2,……fq}，1≤t≤q≤m，ft为编号为t的分箱；

19、m2：按照编号从小到大的顺序依次判断分箱向量f中相邻两个分箱构成的分箱组的woe单调性趋势，如果分箱组的woe单调性趋势与向量gj的woe单调性趋势相反，则将分箱组中的两个分箱合并为一个分箱，如果分箱组的woe单调性趋势与向量gj的woe单调性趋势相同或者分箱组的woe单调性趋势为单调不变，则分箱组中的两个分箱不合并，最终得到新的分箱向量f；

20、m3：计算新的分箱向量f中每个分箱的p_value值，根据p_value值对分箱向量f中的分箱进行调整，得到最终的分箱向量f，最终的分箱向量f就是向量gj的分箱结果。

21、作为优选，所述步骤m2中判断相邻两个分箱构成的分箱组的woe单调性趋势的方法如下：

22、计算两个分箱的woe值，如果前一个分箱的woe值大于后一个分箱的woe值，则分箱组的woe单调性趋势为单调递减；如果前一个分箱的woe值小于后一个分箱的woe值，则分箱组的woe单调性趋势为单调递增；如果前一个分箱的woe值等于后一个分箱的woe值，则分箱组的w本文档来自技高网...

【技术保护点】

1.一种用于联邦学习的特征分箱方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种用于联邦学习的特征分箱方法，其特征在于，所述m个样本的标签组成标签向量Y={y1,y2,……ym}，m个样本的发起方特征的特征值组成发起方特征向量XA={xA1, xA2,……xAm}，m个样本的参与方特征的特征值组成参与方特征向量XB={xB1,xB2,……xBm}，其中，1≤i≤m，yi为第i个样本的标签，xAi为第i个样本的发起方特征的特征值，xBi为第i个样本的参与方特征的特征值。

3.根据权利要求2所述的一种用于联邦学习的特征分箱方法，其特征在于，所述步骤S2包括以下步骤：

4.根据权利要求3所述的一种用于联邦学习的特征分箱方法，其特征在于，所述步骤S3中发起方对每个样本的标签进行加密，得到每个样本对应的加密标签，并发送给参与方的方法如下：

5.根据权利要求4所述的一种用于联邦学习的特征分箱方法，其特征在于，所述步骤S3中参与方将每个样本对应的第二排序号、加密标签绑定得到对应的绑定数据对，将m个绑定数据对打乱顺序后发送给发起方的方法如下：

6.根据权利要求1所述的一种用于联邦学习的特征分箱方法，其特征在于，所述步骤S5中发起方判断向量Gj的WOE单调性趋势的方法如下，1≤j≤2：

7.根据权利要求1所述的一种用于联邦学习的特征分箱方法，其特征在于，所述步骤S5中发起方根据向量Gj的WOE单调性趋势对向量Gj进行WOE单调分箱的方法如下，1≤j≤2：

8.根据权利要求7所述的一种用于联邦学习的特征分箱方法，其特征在于，所述步骤M2中判断相邻两个分箱构成的分箱组的WOE单调性趋势的方法如下：

9.根据权利要求7所述的一种用于联邦学习的特征分箱方法，其特征在于，所述步骤M3包括以下步骤：

10.一种电子设备，其特征在于，包括存储器和处理器，所述存储器上存储有可执行代码，当所述可执行代码被处理器执行时，执行如权利要求1-9中任一权利要求所述的方法。

...

【技术特征摘要】

1.一种用于联邦学习的特征分箱方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种用于联邦学习的特征分箱方法，其特征在于，所述m个样本的标签组成标签向量y={y1,y2,……ym}，m个样本的发起方特征的特征值组成发起方特征向量xa={xa1, xa2,……xam}，m个样本的参与方特征的特征值组成参与方特征向量xb={xb1,xb2,……xbm}，其中，1≤i≤m，yi为第i个样本的标签，xai为第i个样本的发起方特征的特征值，xbi为第i个样本的参与方特征的特征值。

3.根据权利要求2所述的一种用于联邦学习的特征分箱方法，其特征在于，所述步骤s2包括以下步骤：

4.根据权利要求3所述的一种用于联邦学习的特征分箱方法，其特征在于，所述步骤s3中发起方对每个样本的标签进行加密，得到每个样本对应的加密标签，并发送给参与方的方法如下：

5.根据权利要求4所述的一种用于联邦学习的特征分箱方法，其特征在于，所述步骤s3中参与方...

【专利技术属性】
技术研发人员：杨超，李陆沁，任江哲，张英杰，
申请(专利权)人：蓝象智联杭州科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人