基于隐私保护的有监督特征分箱方法及装置制造方法及图纸

技术编号:24855885 阅读:22 留言:0更新日期:2020-07-10 19:08
本说明书实施例提供了一种基于隐私保护的有监督特征分箱方法及装置。双方各自存储有隐私数据。标签持有方将同态加密后的N个第一加密标签值发送至特征持有方;特征持有方将N个第一加密标签值与N个特征值进行关联,并对N个特征值按照值大小重新排序,得到按照更新顺序排列的N个特征值构成的第一序列和N个第二加密标签值构成的第二序列,并将第二序列发送至标签持有方;标签持有方对第二序列中的第二加密标签值进行解密,得到各个初始分箱中的原始标签值,并基于此进行特征分箱,得到第一分箱结果,并发送至特征持有方;特征持有方再根据第一分箱结果对N个特征值进行分箱。

【技术实现步骤摘要】
基于隐私保护的有监督特征分箱方法及装置
本说明书一个或多个实施例涉及数据处理
,尤其涉及一种基于隐私保护的有监督特征分箱方法及装置。
技术介绍
分箱是机器学习建模中对特征进行处理的一种方法。对一个特征进行分箱,是对该特征的特征值值构成的集合(可能很大)进行分组,并将每一组视为一个类别值,也就是将集合中的很多值,聚合成少数个类别值。例如,对于年龄这个特征来说,各个样本中所有年龄的取值从1到50构成一个离散值集合,对该集合进行分组后可能得到以下3个分箱,年龄值从1到15构成一个分箱,从16到35构成一个分箱,从35到50构成一个分箱。对特征进行分箱,能够将连续变量离散化,将多状态的离散变量少状态化。分箱之后的特征,能够为模型训练带来很多性能提升,例如能够更易于对模型的快速迭代、提高模型稳定性、减少模型过拟合等。分箱方法分为无监督分箱和有监督分箱。在无监督分箱中,对特征进行分箱时不需要依据样本标签。而在有监督分箱中,需要结合样本标签对特征进行分箱。在有监督分箱中,一种应用场景是,样本的特征和标签分布在不同的持有方中,并且每个持有方对各自的数据存在隐私保护的要求,不会将自身数据进行明文输出。但是,两方为了联合训练模型等目的,又需要对特征进行有监督的分箱。因此,希望能有改进的方案,可以在特征和标签分布在不同方的场景下实现对特征的有监督分箱,同时保证隐私数据的隐私性和安全性。
技术实现思路
本说明书一个或多个实施例描述了一种基于隐私保护的有监督特征分箱方法及装置,以在特征和标签分布在不同方的场景下实现对特征的有监督分箱,同时保证隐私数据的隐私性和安全性。具体的技术方案如下。第一方面,提供了一种基于隐私保护的有监督特征分箱方法,通过特征持有方执行,所述特征持有方存储有N个样本的第一特征的特征值,所述N个样本的原始标签值存储在标签持有方中,所述N个样本按照既定顺序排列;所述方法包括:获取所述标签持有方发送的按照所述既定顺序排列的N个第一加密标签值,每个第一加密标签值是使用公钥对对应的原始标签值同态加密后得到;基于所述既定顺序,将所述N个第一加密标签值分别与所述第一特征的N个特征值进行关联,得到关联关系;对所述N个特征值按照值大小重新排序,得到按照更新顺序排列的N个特征值构成的第一序列,并基于所述关联关系,处理得到按照所述更新顺序排列的N个第二加密标签值构成的第二序列;至少将所述第二序列发送至所述标签持有方,以使所述标签持有方至少基于所述第二序列进行特征分箱,得到第一分箱结果;接收所述标签持有方发送的所述第一分箱结果,其中示出所述更新顺序中各个位置所对应的第一分箱;按照所述第一分箱结果,对所述第一序列中各个位置的特征值进行分箱,得到特征分箱结果。第二方面,实施例提供了一种基于隐私保护的有监督特征分箱方法,通过标签持有方执行,所述标签持有方存储有N个样本的原始标签值,所述N个样本中的第一特征的特征值存储在特征持有方中,所述N个样本按照既定顺序排列;所述方法包括:使用公钥将N个原始标签值同态加密为对应的第一加密标签值,并将按照所述既定顺序排列的N个第一加密标签值发送至所述特征持有方;接收所述特征持有方至少发送的第二序列;所述第二序列由按照更新顺序排列的N个第二加密标签值组成;使用与所述公钥对应的私钥,将所述第二序列中的N个第二加密标签值解密为对应的原始标签值,得到按照所述更新顺序排列的N个原始标签值;至少基于按照所述更新顺序排列的N个原始标签值,进行相邻分箱合并操作,得到第一分箱结果,其中示出所述更新顺序中各个位置所对应的第一分箱;将所述第一分箱结果发送至所述特征持有方。第三方面,实施例提供了一种基于隐私保护的有监督特征分箱方法,通过标签持有方执行,所述标签持有方存储有N个样本的原始标签值,所述N个样本中的第一特征的特征值存储在特征持有方中,所述N个样本按照既定顺序排列;所述方法包括:使用公钥将N个原始标签值同态加密为对应的第一加密标签值,并将按照所述既定顺序排列的N个第一加密标签值发送至所述特征持有方;接收所述特征持有方至少发送的所述第二序列,所述第二序列由按照更新顺序排列的N个第二加密标签值组成;使用与所述公钥对应的私钥,将所述第二序列中的N个第二加密标签值解密为对应的原始标签值,得到按照所述更新顺序排列的N个原始标签值;至少基于按照所述更新顺序排列的N个原始标签值进行拆分分箱操作,得到第一分箱结果,其中示出所述更新顺序中各个位置所对应的第一分箱;将所述第一分箱结果发送至所述特征持有方。第四方面,实施例提供了一种基于隐私保护的有监督特征分箱装置,部署在特征持有方中,所述特征持有方存储有N个样本的第一特征的特征值,所述N个样本的原始标签值存储在标签持有方中,所述N个样本按照既定顺序排列;所述装置包括:获取模块,配置为,获取所述标签持有方发送的按照所述既定顺序排列的N个第一加密标签值,每个第一加密标签值是使用公钥对对应的原始标签值同态加密后得到;关联模块,配置为,基于所述既定顺序,将所述N个第一加密标签值分别与所述第一特征的N个特征值进行关联,得到关联关系;重排模块,配置为,对所述N个特征值按照值大小重新排序,得到按照更新顺序排列的N个特征值构成的第一序列,并基于所述关联关系,处理得到按照所述更新顺序排列的N个第二加密标签值构成的第二序列;第一发送模块,配置为,至少将所述第二序列发送至所述标签持有方,以使所述标签持有方至少基于所述第二序列进行特征分箱,得到第一分箱结果;第一接收模块,配置为,接收所述标签持有方发送的所述第一分箱结果,其中示出所述更新顺序中各个位置所对应的第一分箱;第一分箱模块,配置为,按照所述第一分箱结果,对所述第一序列中各个位置的特征值进行分箱,得到特征分箱结果。第五方面,实施例提供了一种基于隐私保护的有监督特征分箱装置,部署在标签持有方中,所述标签持有方存储有N个样本的原始标签值,所述N个样本中的第一特征的特征值存储在特征持有方中,所述N个样本按照既定顺序排列;所述装置包括:加密模块,配置为,使用公钥将N个原始标签值同态加密为对应的第一加密标签值,并将按照所述既定顺序排列的N个第一加密标签值发送至所述特征持有方;第二接收模块,配置为接收所述特征持有方至少发送的第二序列;所述第二序列由按照更新顺序排列的N个第二加密标签值组成;解密模块,配置为,使用与所述公钥对应的私钥,将所述第二序列中的N个第二加密标签值解密为对应的原始标签值,得到按照所述更新顺序排列的N个原始标签值;第二分箱模块,配置为,至少基于按照所述更新顺序排列的N个原始标签值,进行相邻分箱合并操作,得到第一分箱结果,其中示出所述更新顺序中各个位置所对应的第一分箱;第二发送模块,配置为将所述第一分箱结果发送至所述特征持有方。第六方面,实施例提供了一种基于隐私保护的有监督特征分箱装置,部署在标签持本文档来自技高网...

【技术保护点】
1.一种基于隐私保护的有监督特征分箱方法,通过特征持有方执行,所述特征持有方存储有N个样本的第一特征的特征值,所述N个样本的原始标签值存储在标签持有方中,所述N个样本按照既定顺序排列;所述方法包括:/n获取所述标签持有方发送的按照所述既定顺序排列的N个第一加密标签值,每个第一加密标签值是使用公钥对对应的原始标签值同态加密后得到;/n基于所述既定顺序,将所述N个第一加密标签值分别与所述第一特征的N个特征值进行关联,得到关联关系;/n对所述N个特征值按照值大小重新排序,得到按照更新顺序排列的N个特征值构成的第一序列,并基于所述关联关系,处理得到按照所述更新顺序排列的N个第二加密标签值构成的第二序列;/n至少将所述第二序列发送至所述标签持有方,以使所述标签持有方至少基于所述第二序列进行特征分箱,得到第一分箱结果;/n接收所述标签持有方发送的所述第一分箱结果,其中示出所述更新顺序中各个位置所对应的第一分箱;/n按照所述第一分箱结果,对所述第一序列中各个位置的特征值进行分箱,得到特征分箱结果。/n

【技术特征摘要】
1.一种基于隐私保护的有监督特征分箱方法,通过特征持有方执行,所述特征持有方存储有N个样本的第一特征的特征值,所述N个样本的原始标签值存储在标签持有方中,所述N个样本按照既定顺序排列;所述方法包括:
获取所述标签持有方发送的按照所述既定顺序排列的N个第一加密标签值,每个第一加密标签值是使用公钥对对应的原始标签值同态加密后得到;
基于所述既定顺序,将所述N个第一加密标签值分别与所述第一特征的N个特征值进行关联,得到关联关系;
对所述N个特征值按照值大小重新排序,得到按照更新顺序排列的N个特征值构成的第一序列,并基于所述关联关系,处理得到按照所述更新顺序排列的N个第二加密标签值构成的第二序列;
至少将所述第二序列发送至所述标签持有方,以使所述标签持有方至少基于所述第二序列进行特征分箱,得到第一分箱结果;
接收所述标签持有方发送的所述第一分箱结果,其中示出所述更新顺序中各个位置所对应的第一分箱;
按照所述第一分箱结果,对所述第一序列中各个位置的特征值进行分箱,得到特征分箱结果。


2.根据权利要求1所述的方法,所述N个原始标签值取整数;所述基于所述关联关系,处理得到按照所述更新顺序排列的N个第二加密标签值构成的第二序列的步骤,包括:
针对所述N个第一加密标签值中的任意一个第一加密标签值,生成对应的随机数;将所述随机数与指定整数值相乘,得到变换随机数;使用所述公钥将所述变换随机数同态加密为加密随机数;将所述加密随机数与所述第一加密标签值同态相加,得到第二加密标签值;其中,所述指定整数值大于所述N个原始标签值中的最大值;
基于所述关联关系,确定按照所述更新顺序排列的N个第二加密标签值构成的第二序列。


3.根据权利要求1所述的方法,在所述N个特征值中不存在相等特征值的情况下,所述至少将所述第二序列发送至所述标签持有方的步骤,包括:直接将所述第二序列发送至所述标签持有方。


4.根据权利要求1所述的方法,在所述N个特征值中存在相等特征值的情况下,所述至少将所述第二序列发送至所述标签持有方的步骤,包括:
基于所述第一序列中的N个特征值,确定所述更新顺序中相等特征值所在位置,将所述第二序列以及所述更新顺序中相等特征值所在位置发送至所述标签持有方。


5.根据权利要求1所述的方法,所述按照所述第一分箱结果,对所述第一序列中各个位置的特征值进行分箱的步骤,包括:
将所述第一分箱结果中的各个位置分别与所述第一序列中的各个位置进行对应,将所述第一分箱结果中每个位置的第一分箱确定为所述第一序列中对应位置的特征值的分箱。


6.根据权利要求1所述的方法,所述更新顺序中相等特征值所在位置采用以下方式中的一种表示:
所述更新顺序中位置之间存在预设间隔符,用于标记相同特征值所在位置;
所述更新顺序中的各个位置采用一维位图表示,各个位置中相等特征值位置采用所述一维位图中的指定数值分布规则区分。


7.一种基于隐私保护的有监督特征分箱方法,通过标签持有方执行,所述标签持有方存储有N个样本的原始标签值,所述N个样本中的第一特征的特征值存储在特征持有方中,所述N个样本按照既定顺序排列;所述方法包括:
使用公钥将N个原始标签值同态加密为对应的第一加密标签值,并将按照所述既定顺序排列的N个第一加密标签值发送至所述特征持有方;
接收所述特征持有方至少发送的第二序列;所述第二序列由按照更新顺序排列的N个第二加密标签值组成;
使用与所述公钥对应的私钥,将所述第二序列中的N个第二加密标签值解密为对应的原始标签值,得到按照所述更新顺序排列的N个原始标签值;
至少基于按照所述更新顺序排列的N个原始标签值,进行相邻分箱合并操作,得到第一分箱结果,其中示出所述更新顺序中各个位置所对应的第一分箱;
将所述第一分箱结果发送至所述特征持有方。


8.根据权利要求7所述的方法,所述N个原始标签值取整数;所述使用与所述公钥对应的私钥,将所述第二序列中的N个第二加密标签值解密为对应的原始标签值的步骤,包括:
使用与所述公钥对应的私钥,将所述第二序列中的N个第二加密标签值解密为对应的第一值,将N个第一值分别除以指定整数值后再取余数,得到对应的原始标签值;其中,所述指定整数值大于所述N个原始标签值中的最大值。


9.根据权利要求7所述的方法,所述至少基于按照所述更新顺序排列的N个原始标签值,进行相邻分箱合并操作,得到第一分箱结果的步骤,包括:
将按照所述更新顺序排列的N个原始标签值对应的每个位置作为一个初始分箱,得到N个初始分箱;
基于各个初始分箱中的原始标签值,对各个初始分箱进行相邻分箱合并操作,得到更新分箱结果,其中示出所述更新顺序中各个位置所对应的更新分箱;
当各个更新分箱不满足预设分箱条件时,将所述更新分箱作为初始分箱,返回执行所述基于各个初始分箱中的原始标签值,对各个初始分箱进行相邻分箱合并操作的步骤;
当各个更新分箱满足所述预设分箱条件时,将所述更新分箱结果确定为第一分箱结果。


10.根据权利要求7所述的方法,其中,除了接收到所述特征持有方发送的第二序列之外,还接收到所述特征持有方发送的所述更新顺序中相等特征值所在位置;所述至少基于按照所述更新顺序排列的N个原始标签值,进行相邻分箱合并操作的步骤,包括:
基于所述更新顺序中相等特征值所在位置,确定按照所述更新顺序排列的N个原始标签值对应的初始分箱;
基于各个初始分箱中的原始标签值,对各个初始分箱进行相邻分箱合并操作,得到更新分箱结果,其中示出所述更新顺序中各个位置所对应的更新分箱;
当各个更新分箱不满足预设分箱条件时,将所述更新分箱作为初始分箱,返回执行所述基于各个初始分箱中的原始标签值,对各个初始分箱进行相邻分箱合并操作的步骤;
当各个更新分箱满足所述预设分箱条件时,将所述更新分箱结果确定为第一分箱结果。


11.根据权利要求10所述的方法,所述基于所述更新顺序中相等特征值所在位置,确定按照所述更新顺序排列的N个原始标签值对应的初始分箱的步骤,包括:
基于所述更新顺序中相等特征值所在位置,针对按照所述更新顺序排列的N个原始标签值,将不同特征值所在位置的原始标签值划分至不同初始分箱,将相同特征值所在位置的原始标签值划分至相同初始分箱。


12.根据权利要求9或10所述的方法,所述基于各个初始分箱中的原始标签值,对各个初始分箱进行相邻分箱合并操作的步骤,包括:
基于各个初始分箱中的原始标签值,依次确定每一对相邻初始分箱的卡方值,得到多个卡方值,将最小卡方值对应的一对相邻初始分箱进行合并。


13.根据权利要求9或10所述的方法,所述预设分箱条件包括:多个更新分箱的总数目达到预设数目;或者,当采用卡方分箱的方式进行相邻分箱合并操作时,多个更新分箱中任意一对更新分箱的卡方值大于预设阈值。


14.一种基于隐私保护的有监督特征分箱方法,通过标签持有方执行,所述标签持有方存储有N个样本的原始标签值,所述N个样本中的第一特征的特征值存储在特征持有方中,所述N个样本按照既定顺序排列;所述方法包括:
使用公钥将N个原始标签值同态加密为对应的第一加密标签值,并将按照所述既定顺序排列的N个第一加密标签值发送至所述特征持有方;
接收所述特征持有方至少发送的所述第二序列,所述第二序列由按照更新顺序排列的N个第二加密标签值组成;
使用与所述公钥对应的私钥,将所述第二序列中的N个第二加密标签值解密为对应...

【专利技术属性】
技术研发人员:李漓春张文彬
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1