联合训练模型的数据预处理方法及装置制造方法及图纸

技术编号:39243874 阅读:8 留言:0更新日期:2023-10-30 11:56
本说明书实施例提供一种联合更新模型的数据预处理方法及装置,给出一种联合训练模型之前,多方联合安全进行业务特征选择的实施框架。该框架中,由标签持有方来选择联合训练模型的业务特征和模型训练过程的参与方。具体而言,标签持有方可以将标签数据、已选特征的编码数据提供给各个候选方,由各个候选方基于标签数据确定本地候选特征的特征分数,该特征分数描述了业务特征与标签数据、已选特征之间的关联关系。标签持有方汇总各个候选方的特征分数,并按照特征分数由大到小的顺序,确定选定成员以及选定特征。这种业务特征的选择方式在保护数据隐私性的同时,提高业务特征选择的有效性。效性。效性。

【技术实现步骤摘要】
联合训练模型的数据预处理方法及装置


[0001]本说明书一个或多个实施例涉及安全计算
,尤其涉及联合训练模型的数据预处理方法及装置。

技术介绍

[0002]随着深度学习的飞速发展,人工智能技术正在几乎每个行业中展示其优势。然而大数据驱动的人工智能在现实情况中存在很多困难。例如数据孤岛现象严重,利用率低且成本一直居高不下。一些行业的单一训练成员还可能存在数据有限或数据质量较差的问题。另外,由于行业竞争,隐私安全和复杂的管理程序,即使同一公司的不同部门之间的数据集成也可能面临着巨大的阻力,数据整合成本较高。
[0003]联邦学习正是在这样的背景下提出的。联邦学习是一种基于分布式机器学习的框架,主要思想是基于分布在多个设备上的数据集构建机器学习模型,同时防止数据泄露。在这种框架下,各个参与方在保护数据隐私的情况下联合训练模型,训练数据可保留在客户端本地,无需像传统机器学习方法将数据上传至数据中心。由于在模型训练过程中需要使用多种严格的加密算法,导致纵向联邦学习在训练过程中的计算开销和通信开销都十分庞大。为了减少模型训练过程中的开销,不仅可以在联邦学习在压缩传输量、改进加密算法等方面进行,在联邦学习之前的业务特征选择同样是一种有效的方式。

技术实现思路

[0004]本说明书一个或多个实施例描述了一种联合训练模型的数据预处理方法及装置,用以解决
技术介绍
提到的一个或多个问题。
[0005]根据第一方面,提供一种联合训练模型的数据预处理方法,基于对各方数据的隐私保护,由持有标签数据的第一方安全地在各自持有至少一个候选特征的多个候选方为模型确定若干业务特征,所述方法包括循环执行的各个选择周期,单个选择周期确定出第一数量的候选方作为选定成员,并对各个选定成员确定相应的选定特征作为业务特征,直至满足预定结束条件;在单个选择周期,由第一方执行的选择操作包括:向其他成员提供当前参考信息,以供各个候选方基于所述当前参考信息反馈本地各个候选特征分别对应的各个特征分数,在初始周期,所述当前参考信息为所述标签数据,在其他周期,所述当前参考信息为前一周期选定特征的编码数据,所述编码数据经由前一周期的选定成员对本地选定特征统计编码确定;根据对各个候选方提供的特征分数由大到小的排序,按照当前期望数量确定当前周期的有效特征,所述有效特征是靠前排列在期望业务特征数量内的候选特征;将所对应有效特征的特征分数融合值最大的第一数量的候选方作为当前周期的选定成员,并确定该选定成员中的有效特征为当前周期选定特征。
[0006]在一个实施例中,所述预定结束条件包括:已确定的业务特征数量累计达到全局期望特征总数,或者,各个候选方均被确定为选定成员。
[0007]在一个实施例中,所述第一数量为1个。
[0008]在一个实施例中,所述当前周期的选定成员包括第三方,所述第三方在当前周期对应的有效特征数量为第三数量,所述方法还包括:向所述第三方提供所述第三数量,以供第三方将本地特征分数最大的第三数量的候选特征进行编码,得到相应的第三编码数据;从所述第三方获取所述第三编码数据,并将所述第三编码数据作为下个周期向各个候选方提供的参考信息。
[0009]在一个实施例中,当前期望数量为全局期望特征总数量与已确定的业务特征数量的差,初始周期时,当前期望数量以全局期望特征总数量为初始值;在确定当前周期选定特征数量后,当前期望数量通过减去当前周期选定特征数量的方式进行更新。
[0010]在一个实施例中,单个候选方的特征分数融合值是其对应的有效特征的特征分数的均值。
[0011]根据第二方面,提供一种联合训练模型的数据预处理方法,基于对各方数据的隐私保护,由持有标签数据的第一方安全地在各自持有至少一个候选特征的多个候选方为模型确定若干业务特征,所述方法包括循环执行的各个选择周期,单个选择周期选择第一数量的候选方作为选定成员,并对各个选定成员确定相应的选定特征作为业务特征,直至满足预定结束条件;所述多个候选方包括第二方,在作为候选方的单个选择周期,第二方执行的数据处理操作包括:从第一方接收当前参考信息,在初始周期,所述当前参考信息为所述标签数据,在其他周期,所述当前参考信息为前一周期选定特征的编码数据,所述编码数据经由前一周期的选定成员对本地选定特征统计编码确定;基于所述当前参考信息确定本地各个候选特征分别对应的各个特征分数;将各个特征分数反馈至第一方,以供第一方根据对各个候选方提供的特征分数由大到小的排序,按照当前期望数量确定当前周期的有效特征,并基于有效特征确定第一数量的候选方作为当前周期的选定成员,所述有效特征是靠前排列在期望业务特征数量内的候选特征。
[0012]在一个实施例中,所述数据处理操作还包括:响应于从第一方接收到被确定为选定成员的选定信息,确定当前周期在本地的选定特征,所述选定信息包括当前周期针对第二方的选定特征数量N
t
;对本地的选定特征进行编码,得到相应的第二编码数据;向第一方提供所述第二编码数据,以供第一方将所述第二编码数据作为下个周期的参考信息提供给各个候选方。
[0013]在一个实施例中,所述对本地的选定特征进行编码,得到相应的第二编码数据包括:从本地候选特征中获取当前周期确定的各个特征分数最大的N
t
个候选特征作为选定特征;按照预设的分组容量m将该N
t
个选定特征随机分为至少一个特征组;将各个特征组分别编码为各个编码张量,作为所述第二编码数据。
[0014]在一个实施例中,单个特征组对应的选定特征数量不大于m,特征组数量为N
t
与m的比值,或者N
t
与m的比值的整数部分加1。
[0015]在一个实施例中,所述将各个特征组分别编码为各个编码张量包括,针对单个特征组通过以下方式确定单个编码张量:对各个样本在该单个特征组上的取值组合去重,并对去重后的各个取值组合分别通过唯一对应的组合标识描述;将各个样本在该单个特征组上的各个取值组合依次用相应的组合标识表示,得到该单个特征组对应的编码张量。
[0016]在一个实施例中,单个候选特征的特征分数根据单个候选特征对应的特征张量与所述当前参考信息的条件互信息确定,所述特征张量由各个样本在该单个候选特征上的特
征值确定;单个候选特征按照候选特征的特征值被划分为多个桶,所述特征张量包括各个桶分别对应的各个特征张量,则单个候选特征对应的特征分数为各个特征张量分别与所述当前参考信息的条件互信息之和。
[0017]在一个实施例中,在初始周期,单个候选特征对应的特征分数为该单个候选特征对应的特征张量与所述当前参考信息按照以下方式确定的互信息:所述标签数据的信息熵与所述当前参考信息在所述特征张量条件下的条件熵的差。
[0018]在一个实施例中,单个周期的编码数据包括至少一个编码张量,在其他周期,单个候选特征对应的特征分数包括,标签数据Y和该单个候选特征在各个周期的编码张量条件下的互信息累积结果;其中,标签数据Y和该单个候选特征在单个周期的单个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种联合训练模型的数据预处理方法,基于对各方数据的隐私保护,由持有标签数据的第一方安全地在各自持有至少一个候选特征的多个候选方为模型确定若干业务特征,所述方法包括循环执行的各个选择周期,单个选择周期确定出第一数量的候选方作为选定成员,并对各个选定成员确定相应的选定特征作为业务特征,直至满足预定结束条件;在单个选择周期,由第一方执行的选择操作包括:向其他成员提供当前参考信息,以供各个候选方基于所述当前参考信息反馈本地各个候选特征分别对应的各个特征分数,在初始周期,所述当前参考信息为所述标签数据,在其他周期,所述当前参考信息为前一周期选定特征的编码数据,所述编码数据经由前一周期的选定成员对本地选定特征统计编码确定;根据对各个候选方提供的特征分数由大到小的排序,按照当前期望数量确定当前周期的有效特征,所述有效特征是靠前排列在期望业务特征数量内的候选特征;将所对应有效特征的特征分数融合值最大的第一数量的候选方作为当前周期的选定成员,并确定该选定成员中的有效特征为当前周期选定特征。2.如权利要求1所述的方法,其中,所述预定结束条件包括:已确定的业务特征数量累计达到全局期望特征总数,或者,各个候选方均被确定为选定成员。3.如权利要求1所述的方法,其中,所述第一数量为1个。4.如权利要求1所述的方法,其中,所述当前周期的选定成员包括第三方,所述第三方在当前周期对应的有效特征数量为第三数量,所述选择操作还包括:向所述第三方提供所述第三数量,以供第三方将本地特征分数最大的第三数量的候选特征进行编码,得到相应的第三编码数据;从所述第三方获取所述第三编码数据,并将所述第三编码数据作为下个周期向各个候选方提供的参考信息。5.如权利要求1所述的方法,其中,当前期望数量为全局期望特征总数量与已确定的业务特征数量的差,初始周期时,当前期望数量以全局期望特征总数量为初始值;在确定当前周期选定特征数量后,当前期望数量通过减去当前周期选定特征数量的方式进行更新。6.如权利要求1所述的方法,其中,单个候选方的特征分数融合值是其对应的有效特征的特征分数的均值。7.一种联合训练模型的数据预处理方法,基于对各方数据的隐私保护,由持有标签数据的第一方安全地在各自持有至少一个候选特征的多个候选方为模型确定若干业务特征,所述方法包括循环执行的各个选择周期,单个选择周期选择第一数量的候选方作为选定成员,并对各个选定成员确定相应的选定特征作为业务特征,直至满足预定结束条件;所述多个候选方包括第二方,在作为候选方的单个选择周期,第二方执行的数据处理操作包括:从第一方接收当前参考信息,在初始周期,所述当前参考信息为所述标签数据,在其他周期,所述当前参考信息为前一周期选定特征的编码数据,所述编码数据经由前一周期的选定成员对本地选定特征统计编码确定;基于所述当前参考信息确定本地各个候选特征分别对应的各个特征分数;将各个特征分数反馈至第一方,以供第一方根据对各个候选方提供的特征分数由大到小的排序,按照当前期望数量确定当前周期的有效特征,并基于有效特征确定第一数量的候选方作为当前周期的选定成员,所述有效特征是靠前排列在期望业务特征数量内的候选
特征。8.如权利要求7所述的方法,其中,所述数据处理操作还包括:响应于从第一方接收到被确定为选定成员的选定信息,确定当前周期在本地的选定特征,所述选定信息包括当前周期针对第二方的选定特征数量N
t
;对本地的选定特征进行编码,得到相应的第二编码数据;向第一方提供所述第二编码数据,以供第一方将所述第二编码数据作为下个周期的参考信息提供给各个候选方。9.如权利要求8所述的方法,其中,所述对本地的选定特征进行编码,得到相应的第二编码数据包括:从本地候选特征中获取当前周期确定的各个特征分数最大的N
t
个候选特征作为选定特征;按照预设的分组容量m将该N
t
个选定特征随机分为至少一个特征组;将各个特征组分别编码为各个编码张量,作为所述第二编码数据。10.如权利要求9所述的方法,其中,单个特征组对应的选定特征数量不大于m,特征组数量为N
t
与m的比值,或者N
t
与m的比值的整数部分加1。11.如权利要求9所述的方法,其中,所述将各个特征组分别编码为各个编码张量包括,针对单个特征组通过以下方式确定单个编码张量:对各个样本在该单个特征组上的取值组合去重,并对去重后的各个取值组合分别通过唯一对应的组合标识描述;将各个样本在该单个特征...

【专利技术属性】
技术研发人员:张美慧徐泉清付瑞杨传辉吴云乘
申请(专利权)人:北京奥星贝斯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1