联合建模方法、装置、电子设备及存储介质制造方法及图纸

技术编号:32969776 阅读:12 留言:0更新日期:2022-04-09 11:33
本发明专利技术涉及数据处理领域,揭露一种联合建模方法,包括:对第一样本集及每个第二样本集分别执行公有样本ID识别处理,基于识别结果将第一样本集拆分为每个第二参与方对应的第一子样本集;基于每个第一子样本集对应的预设模型的初始参数及对应的第二参与方的第二样本集,计算每个第一子样本集对应的梯度值;基于梯度值确定每个第一子样本集对应的第一参数;接收每个第二参与方发送的第二参数及其它第一参与方发送的第三参数;当判断预设模型收敛时,基于第一参数、第二参数及第三参数确定目标参数,并将目标参数发送给其它参与方,完成联合建模。本发明专利技术还提供一种联合建模装置、电子设备及存储介质。本发明专利技术提高了联合模型的精确度。确度。确度。

【技术实现步骤摘要】
联合建模方法、装置、电子设备及存储介质


[0001]本专利技术涉及数据处理领域,尤其涉及一种联合建模方法、装置、电子设备及存储介质。

技术介绍

[0002]为消除数据孤岛、保证数据安全,联邦学习已被广泛应用于联合建模中。联邦学习过程中,各个参与方不共享数据,分别使用本地数据训练模型,通过交换加密的模型参数来对模型进行参数更新,完成建模。
[0003]联邦学习包括横向联邦学习和纵向联邦学习,通常,若参与方之间有相同的样本特征,但样本数量都不足,则采用横向联邦学习方案;若参与方样本数量足够,但都缺少样本特征,则采用纵向联邦学习方案。然而,对于既缺少样本特征又缺少样本数量的情况,无论使用横向联邦学习方案还是纵向联邦学习方案,构建的联合模型的精确度都不高。因此,亟需一种联合建模方法,以在缺少样本特征和样本数量的情况下,提高联合模型的精确度。

技术实现思路

[0004]鉴于以上内容,有必要提供一种联合建模方法,旨在提高联合模型的精确度。
[0005]本专利技术提供的联合建模方法,应用于联合建模系统中任意一个第一参与方,所述联合建模系统包括通信连接的多个第一参与方及多个第二参与方,各个第一参与方与每个第二参与方之间包含相同的样本对象及不同的样本特征,各个第二参与方之间包含相同的样本特征及不同的样本对象,所述方法包括:
[0006]接收所述联合建模系统中每个第二参与方发送的同态加密密钥对中的公钥,基于所述公钥对本地存储的不含标签信息的第一样本集及每个第二参与方的携带标签信息的第二样本集分别执行公有样本ID识别处理,基于公有样本ID识别结果将所述第一样本集拆分为每个第二参与方对应的第一子样本集;
[0007]获取每个第一子样本集对应的预设模型的初始参数,基于所述公钥、初始参数及对应的第二参与方的第二样本集,计算每个第一子样本集对应的梯度值;
[0008]基于所述梯度值对每个第一子样本集对应的预设模型执行参数更新处理,得到每个第一子样本集对应的第一参数;
[0009]接收每个第二参与方发送的其第二样本集对应的采用安全聚合算法处理后的第二参数及损失值,并接收其它第一参与方发送的其每个子样本集对应的采用安全聚合算法处理后的第三参数;
[0010]基于所述损失值判断所述预设模型是否收敛,当判断是时,基于所述第一参数、第二参数及第三参数确定目标参数,并将所述目标参数分别发送给所述联合建模系统中其它参与方,完成联合建模。
[0011]可选的,所述基于所述公钥对本地存储的不含标签信息的第一样本集及每个第二参与方的携带标签信息的第二样本集分别执行公有样本ID识别处理,包括:
[0012]选择一个第二参与方,计算所述第一样本集中各个样本ID的第一哈希值,采用所述选择的第二参与方对应的同态加密密钥对中的公钥加密所述第一哈希值,得到第一密文,并建立第一密文与样本ID之间的映射关系;
[0013]接收选择的第二参与方发送的第二密文,所述第二密文是选择的第二参与方采用同一同态加密密钥对中的公钥加密其第二样本集中各个样本ID的第二哈希值得到的;
[0014]计算第一密文与第二密文的交集,得到公有样本ID密文,基于所述映射关系确定所述公有样本ID密文的明文数据。
[0015]可选的,所述基于所述公钥、初始参数及对应的第二参与方的第二样本集,计算每个第一子样本集对应的梯度值,包括:
[0016]根据第一子样本集的数量开启多个进程,每个进程根据对应的第一子样本集及其初始参数,计算每个第一子样本集对应的第一特征矩阵;
[0017]将所述第一特征矩阵发送给对应的第二参与方,接收对应的第二参与方发送的采用所述公钥加密后的误差值,所述误差值是对应的第二参与方根据其第二样本集的第二特征矩阵及所述第一特征矩阵计算得到的;
[0018]将加密后的误差值代入梯度值计算公式,得到每个第一子样本集对应的加密后的梯度值,将所述加密后的梯度值发送给对应的第二参与方,以获取所述加密后的梯度值的明文数据。
[0019]可选的,所述对应的第二参与方根据其第二样本集的第二特征矩阵及所述第一特征矩阵计算误差值的过程,包括:
[0020]对应的第二参与方基于其第二样本集的第二特征矩阵及所述第一特征矩阵计算其第二样本集的特征值;
[0021]将所述特征值输入预设模型,得到其第二样本集的预测值;
[0022]基于所述标签信息确定其第二样本集的真实值,基于所述真实值及所述预测值计算误差值,并将所述误差值采用对应的同态加密密钥对中的公钥加密后发送给对应的第一参与方。
[0023]可选的,所述将所述加密后的梯度值发送给对应的第二参与方,以获取所述加密后的梯度值的明文数据,包括:
[0024]为每个第二参与方生成一个第三随机数,采用对应的公钥加密对应的第三随机数,计算加密后的梯度值与加密后的第三随机数的和,得到加密和,将加密和发送给对应的第二参与方;
[0025]接收对应的第二参与方解密所述加密和得到的数值,从所述得到的数值中减去对应的第三随机数,得到对应的第一子样本集对应的解密后的梯度值。
[0026]可选的,所述每个进程根据对应的第一子样本集及其初始参数,计算每个第一子样本集对应的第一特征矩阵,包括:
[0027]选择一个进程,获取该进程对应的第一子样本集及初始参数,确定获取的第一子样本集的初始特征矩阵,基于所述初始特征矩阵及所述初始参数计算获取的第一子样本集对应的第一特征矩阵。
[0028]可选的,所述损失值的计算公式为:
[0029][0030]其中,L
i
为第i个第二参与方对应的损失值,y
ij
为第i个第二参与方的第二样本集中第j个样本的真实值,h
θ
(x
ij
)为第i个第二参与方的第二样本集中第j个样本的预测值,n为第i个第二参与方的第二样本集中样本的总数量。
[0031]为了解决上述问题,本专利技术还提供一种联合建模装置,所述装置包括:
[0032]接收模块,用于接收联合建模系统中每个第二参与方发送的同态加密密钥对中的公钥,基于所述公钥对本地存储的不含标签信息的第一样本集及每个第二参与方的携带标签信息的第二样本集分别执行公有样本ID识别处理,基于公有样本ID识别结果将所述第一样本集拆分为每个第二参与方对应的第一子样本集;
[0033]计算模块,用于获取每个第一子样本集对应的预设模型的初始参数,基于所述公钥、初始参数及对应的第二参与方的第二样本集,计算每个第一子样本集对应的梯度值;
[0034]更新模块,用于基于所述梯度值对每个第一子样本集对应的预设模型执行参数更新处理,得到每个第一子样本集对应的第一参数;
[0035]接收模块,用于接收每个第二参与方发送的其第二样本集对应的采用安全聚合算法处理后的第二参数及损失值,并接收其它第一参与方发送的其每个子样本集对应的采用安全聚合算法处理后的第三参数;
[0036本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种联合建模方法,应用于联合建模系统中任意一个第一参与方,所述联合建模系统包括通信连接的多个第一参与方及多个第二参与方,其特征在于,各个第一参与方与每个第二参与方之间包含相同的样本对象及不同的样本特征,各个第二参与方之间包含相同的样本特征及不同的样本对象,所述方法包括:接收所述联合建模系统中每个第二参与方发送的同态加密密钥对中的公钥,基于所述公钥对本地存储的不含标签信息的第一样本集及每个第二参与方的携带标签信息的第二样本集分别执行公有样本ID识别处理,基于公有样本ID识别结果将所述第一样本集拆分为每个第二参与方对应的第一子样本集;获取每个第一子样本集对应的预设模型的初始参数,基于所述公钥、初始参数及对应的第二参与方的第二样本集,计算每个第一子样本集对应的梯度值;基于所述梯度值对每个第一子样本集对应的预设模型执行参数更新处理,得到每个第一子样本集对应的第一参数;接收每个第二参与方发送的其第二样本集对应的采用安全聚合算法处理后的第二参数及损失值,并接收其它第一参与方发送的其每个子样本集对应的采用安全聚合算法处理后的第三参数;基于所述损失值判断所述预设模型是否收敛,当判断是时,基于所述第一参数、第二参数及第三参数确定目标参数,并将所述目标参数分别发送给所述联合建模系统中其它参与方,完成联合建模。2.如权利要求1所述的联合建模方法,其特征在于,所述基于所述公钥对本地存储的不含标签信息的第一样本集及每个第二参与方的携带标签信息的第二样本集分别执行公有样本ID识别处理,包括:选择一个第二参与方,计算所述第一样本集中各个样本ID的第一哈希值,采用所述选择的第二参与方对应的同态加密密钥对中的公钥加密所述第一哈希值,得到第一密文,并建立第一密文与样本ID之间的映射关系;接收选择的第二参与方发送的第二密文,所述第二密文是选择的第二参与方采用同一同态加密密钥对中的公钥加密其第二样本集中各个样本ID的第二哈希值得到的;计算第一密文与第二密文的交集,得到公有样本ID密文,基于所述映射关系确定所述公有样本ID密文的明文数据。3.如权利要求1所述的联合建模方法,其特征在于,所述基于所述公钥、初始参数及对应的第二参与方的第二样本集,计算每个第一子样本集对应的梯度值,包括:根据第一子样本集的数量开启多个进程,每个进程根据对应的第一子样本集及其初始参数,计算每个第一子样本集对应的第一特征矩阵;将所述第一特征矩阵发送给对应的第二参与方,接收对应的第二参与方发送的采用所述公钥加密后的误差值,所述误差值是对应的第二参与方根据其第二样本集的第二特征矩阵及所述第一特征矩阵计算得到的;将加密后的误差值代入梯度值计算公式,得到每个第一子样本集对应的加密后的梯度值,将所述加密后的梯度值发送给对应的第二参与方,以获取所述加密后的梯度值的明文数据。4.如权利要求3所述的联合建模方法,其特征在于,所述对应的第二参与方根据其第二
样本集的第二特征矩阵及所述第一特征矩阵计算误差值的过程,包括:对应的第二参与方基于其第二样本集的第二特征矩阵及所述第一特征矩阵计算其第二样本集的特征值;将所述特征值输入预设模型,得到其第二样本集的预测值;基于所述标签信息确定其第二样本集的真实值,基于所述...

【专利技术属性】
技术研发人员:张铁钢许文彬
申请(专利权)人:卫盈联信息技术深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1