一种数据处理方法、装置、计算机设备以及可读存储介质制造方法及图纸

技术编号:39294938 阅读:11 留言:0更新日期:2023-11-07 11:02
本申请实施例提供了一种数据处理方法、装置、计算机设备以及可读存储介质,该方法包括:获取第一参与方的第一业务标识的第一特征数据和参与纵向联邦学习的第二参与方的第二业务标识的第一数据分片;将第一特征数据和第一数据分片输入至第一参与方的第一决策树;获取与分裂特征相关联的第一特征布尔分片;其中,第一特征布尔分片和第二特征布尔分片共同用于从第一特征数据、第一数据分片和第二数据分片中获取与分裂特征相关联的节点特征数据;节点特征数据用于确定第一业务标识和第二业务标识之间的交集业务标识的预测值;预测值用于确定交集业务标识的业务处理结果。采用本申请,可以提高参与方所拥有的数据的安全性。可以提高参与方所拥有的数据的安全性。可以提高参与方所拥有的数据的安全性。

【技术实现步骤摘要】
一种数据处理方法、装置、计算机设备以及可读存储介质


[0001]本申请涉及互联网
,尤其涉及一种数据处理方法、装置、计算机设备以及可读存储介质。

技术介绍

[0002]纵向联邦学习算法获取参与纵向联邦学习的第一参与方的第一业务标识,以及获取参与纵向联邦学习的第二参与方的第二业务标识,直接对第一业务标识和第二业务标识进行比较(例如,第一参与方将第一业务标识发送至第二参与方,第二参与方对第一业务标识和第二业务标识进行比较),生成第一业务标识和第二业务标识之间的交集业务标识,进而基于交集业务标识在第一参与方的业务特征的特征数据和交集业务标识在第二参与方的业务特征的特征数据,确定交集业务标识的预测值。
[0003]然而,第一业务标识和第二业务标识可能为隐私数据(例如,手机号),直接使用隐私数据(例如,手机号)生成交集业务标识的预测值的过程不可避免地会暴露这些隐私数据(例如,将第一参与方的第一业务标识暴露至第二参与方),从而降低了纵向联邦学习算法的参与方所拥有的数据的安全性。

技术实现思路

[0004]本申请实施例提供一种数据处理方法、装置、计算机设备以及可读存储介质,可以提高参与方所拥有的数据的安全性。
[0005]本申请实施例一方面提供了一种数据处理方法,方法由参与纵向联邦学习的第一参与方执行,包括:
[0006]获取第一参与方的第一业务标识的第一特征数据和参与纵向联邦学习的第二参与方的第二业务标识的第一数据分片;第一数据分片和第二参与方所持有的第二业务标识的第二数据分片是第二业务标识的第二特征数据的分片;
[0007]将第一特征数据和第一数据分片输入至第一参与方的第一决策树;第一决策树包括第一划分节点对应的第一分裂特征分片;第一划分节点与第二参与方的第二决策树的第二划分节点相对应;第一分裂特征分片和第二划分节点对应的第二分裂特征分片是第一划分节点和第二划分节点共同对应的分裂特征的特征标识的分片;
[0008]获取与分裂特征相关联的第一特征布尔分片;第一特征布尔分片和第二参与方所持有的与分裂特征相关联的第二特征布尔分片是特征布尔向量的分片;第一特征布尔分片和第二特征布尔分片均是对第一分裂特征分片和第二分裂特征分片进行向量处理所得到的;特征布尔向量用于在第一业务标识的第一业务特征和第二业务标识的第二业务特征中表征分裂特征;
[0009]其中,第一特征布尔分片和第二特征布尔分片共同用于从第一特征数据、第一数据分片和第二数据分片中获取与分裂特征相关联的节点特征数据;节点特征数据用于确定第一业务标识和第二业务标识之间的交集业务标识的预测值;预测值用于确定交集业务标
识的业务处理结果。
[0010]本申请实施例一方面提供了一种数据处理装置,装置运行在参与纵向联邦学习的第一参与方上,包括:
[0011]数据获取模块,用于获取第一参与方的第一业务标识的第一特征数据和参与纵向联邦学习的第二参与方的第二业务标识的第一数据分片;第一数据分片和第二参与方所持有的第二业务标识的第二数据分片是第二业务标识的第二特征数据的分片;
[0012]数据输入模块,用于将第一特征数据和第一数据分片输入至第一参与方的第一决策树;第一决策树包括第一划分节点对应的第一分裂特征分片;第一划分节点与第二参与方的第二决策树的第二划分节点相对应;第一分裂特征分片和第二划分节点对应的第二分裂特征分片是第一划分节点和第二划分节点共同对应的分裂特征的特征标识的分片;
[0013]特征表征模块,用于获取与分裂特征相关联的第一特征布尔分片;第一特征布尔分片和第二参与方所持有的与分裂特征相关联的第二特征布尔分片是特征布尔向量的分片;第一特征布尔分片和第二特征布尔分片均是对第一分裂特征分片和第二分裂特征分片进行向量处理所得到的;特征布尔向量用于在第一业务标识的第一业务特征和第二业务标识的第二业务特征中表征分裂特征;
[0014]其中,第一特征布尔分片和第二特征布尔分片共同用于从第一特征数据、第一数据分片和第二数据分片中获取与分裂特征相关联的节点特征数据;节点特征数据用于确定第一业务标识和第二业务标识之间的交集业务标识的预测值;预测值用于确定交集业务标识的业务处理结果。
[0015]其中,数据获取模块包括:
[0016]哈希映射单元,用于对第一参与方的第一业务标识进行布谷鸟哈希映射,得到第一业务标识对应的第一哈希表;
[0017]第一获取单元,用于获取与第一哈希表和第二哈希表相关联的第一布尔交集分片;第一布尔交集分片和第二参与方所持有的第二布尔交集分片是布尔交集向量的分片;第一哈希表和第二哈希表用于通过不经意可编程伪随机函数进行哈希表匹配,生成第一布尔交集分片和第二布尔交集分片;第二哈希表是参与纵向联邦学习的第二参与方对第二参与方的第二业务标识进行哈希映射所得到的;布尔交集向量用于指示第一业务标识针对第二业务标识的交集状态;
[0018]第二获取单元,用于获取第一业务标识的第一原始数据和第二业务标识的第一原始分片;第一原始分片和第二参与方所持有的第二原始分片是第二原始数据的分片;第一原始数据用于表征第一业务标识在第一业务特征下的特征数据;第二原始数据用于表征第二业务标识在第二业务特征下的特征数据;第一布尔交集分片和第二布尔交集分片共同用于对第一原始数据进行数据筛选,得到第一参与方所持有的第一业务标识的第一特征数据;第一布尔交集分片和第二布尔交集分片共同用于对第一原始分片和第二原始分片进行数据筛选,得到第一参与方所持有的第二业务标识的第一数据分片和第二参与方所持有的第二业务标识的第二数据分片。
[0019]其中,第一业务特征和第二业务特征的总数量为Q个,Q为大于1的整数;特征布尔向量的向量维度等于Q,特征布尔向量包括Q个特征布尔参数;Q个特征布尔参数中的一个特征布尔参数可以用于表征Q个业务特征中的一个业务特征;特征布尔向量中属于特征标识
的特征布尔参数为匹配布尔参数,特征布尔向量中不属于特征标识的特征布尔参数为不匹配布尔参数。
[0020]其中,节点特征数据包括第一参与方所持有的第一节点分片和第二参与方所持有的第二节点分片;若分裂特征属于第一业务特征,则第一节点分片和第二节点分片是由第一特征数据所确定的;若分裂特征属于第二业务特征,则第一节点分片是从第一数据分片中所获取的,第二节点分片是从第二数据分片中所获取的;第一决策树还包括第一划分节点对应的第一分裂值分片,第二决策树还包括第二划分节点对应的第二分裂值分片;第一分裂值分片和第二分裂值分片是第一划分节点和第二划分节点共同对应的分裂值的分片;
[0021]装置还包括:
[0022]第一获取模块,用于获取与第一划分节点相关联的第一节点布尔分片;第一节点布尔分片和第二参与方所持有的与第二划分节点相关联的第二节点布尔分片是第一节点布尔向量的分片;第一节点布尔向量用于表征节点特征数据和分裂值之间的关系;第一节点布尔分片和第二节点布尔分片是通过将第一节点分片和第二节点分片共同与第一分裂值分片和第二本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法由参与纵向联邦学习的第一参与方执行,包括:获取所述第一参与方的第一业务标识的第一特征数据和参与纵向联邦学习的第二参与方的第二业务标识的第一数据分片;所述第一数据分片和所述第二参与方所持有的所述第二业务标识的第二数据分片是所述第二业务标识的第二特征数据的分片;将所述第一特征数据和所述第一数据分片输入至所述第一参与方的第一决策树;所述第一决策树包括第一划分节点对应的第一分裂特征分片;所述第一划分节点与所述第二参与方的第二决策树的第二划分节点相对应;所述第一分裂特征分片和所述第二划分节点对应的第二分裂特征分片是所述第一划分节点和所述第二划分节点共同对应的分裂特征的特征标识的分片;获取与所述分裂特征相关联的第一特征布尔分片;所述第一特征布尔分片和所述第二参与方所持有的与所述分裂特征相关联的第二特征布尔分片是特征布尔向量的分片;所述第一特征布尔分片和所述第二特征布尔分片均是对所述第一分裂特征分片和所述第二分裂特征分片进行向量处理所得到的;所述特征布尔向量用于在所述第一业务标识的第一业务特征和所述第二业务标识的第二业务特征中表征所述分裂特征;其中,所述第一特征布尔分片和所述第二特征布尔分片共同用于从所述第一特征数据、所述第一数据分片和所述第二数据分片中获取与所述分裂特征相关联的节点特征数据;所述节点特征数据用于确定所述第一业务标识和所述第二业务标识之间的交集业务标识的预测值;所述预测值用于确定所述交集业务标识的业务处理结果。2.根据权利要求1所述的方法,其特征在于,所述获取所述第一参与方的第一业务标识的第一特征数据和参与纵向联邦学习的第二参与方的第二业务标识的第一数据分片,包括:对所述第一参与方的第一业务标识进行布谷鸟哈希映射,得到所述第一业务标识对应的第一哈希表;获取与所述第一哈希表和第二哈希表相关联的第一布尔交集分片;所述第一布尔交集分片和所述第二参与方所持有的第二布尔交集分片是布尔交集向量的分片;所述第一哈希表和所述第二哈希表用于通过不经意可编程伪随机函数进行哈希表匹配,生成所述第一布尔交集分片和所述第二布尔交集分片;所述第二哈希表是参与纵向联邦学习的第二参与方对所述第二参与方的第二业务标识进行哈希映射所得到的;所述布尔交集向量用于指示所述第一业务标识针对所述第二业务标识的交集状态;获取所述第一业务标识的第一原始数据和所述第二业务标识的第一原始分片;所述第一原始分片和所述第二参与方所持有的第二原始分片是第二原始数据的分片;所述第一原始数据用于表征所述第一业务标识在第一业务特征下的特征数据;所述第二原始数据用于表征所述第二业务标识在第二业务特征下的特征数据;所述第一布尔交集分片和所述第二布尔交集分片共同用于对所述第一原始数据进行数据筛选,得到所述第一参与方所持有的所述第一业务标识的第一特征数据;所述第一布尔交集分片和所述第二布尔交集分片共同用于对所述第一原始分片和所述第二原始分片进行数据筛选,得到所述第一参与方所持有的所述第二业务标识的第一数据分片和所述第二参与方所持有的所述第二业务标识的第二数据分片。
3.根据权利要求1所述的方法,其特征在于,所述第一业务特征和所述第二业务特征的总数量为Q个,所述Q为大于1的整数;所述特征布尔向量的向量维度等于所述Q,所述特征布尔向量包括Q个特征布尔参数;Q个所述特征布尔参数中的一个特征布尔参数可以用于表征Q个业务特征中的一个业务特征;所述特征布尔向量中属于所述特征标识的特征布尔参数为匹配布尔参数,所述特征布尔向量中不属于所述特征标识的特征布尔参数为不匹配布尔参数。4.根据权利要求3所述的方法,其特征在于,所述节点特征数据包括所述第一参与方所持有的第一节点分片和所述第二参与方所持有的第二节点分片;若所述分裂特征属于所述第一业务特征,则所述第一节点分片和所述第二节点分片是由所述第一特征数据所确定的;若所述分裂特征属于所述第二业务特征,则所述第一节点分片是从所述第一数据分片中所获取的,所述第二节点分片是从所述第二数据分片中所获取的;所述第一决策树还包括所述第一划分节点对应的第一分裂值分片,所述第二决策树还包括所述第二划分节点对应的第二分裂值分片;所述第一分裂值分片和所述第二分裂值分片是所述第一划分节点和所述第二划分节点共同对应的分裂值的分片;所述方法还包括:获取与所述第一划分节点相关联的第一节点布尔分片;所述第一节点布尔分片和所述第二参与方所持有的与所述第二划分节点相关联的第二节点布尔分片是第一节点布尔向量的分片;所述第一节点布尔向量用于表征所述节点特征数据和所述分裂值之间的关系;所述第一节点布尔分片和所述第二节点布尔分片是通过将所述第一节点分片和所述第二节点分片共同与所述第一分裂值分片和所述第二分裂值分片进行分片比较所得到的。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:获取Q个所述业务特征分别对应的第一特征分片;Q个所述业务特征包括业务特征V
d
,所述d为小于所述Q的非负整数;所述业务特征V
d
对应的第一特征分片和所述第二参与方所持有的所述业务特征V
d
对应的第二特征分片均是由所述业务特征V
d
在所述第一特征布尔分片中的第一特征布尔参数和所述业务特征V
d
在所述第二特征布尔分片中的第二特征布尔参数,对所述业务特征V
d
的特征数据进行数据选择所得到的;若所述分裂特征属于所述第一业务特征,则所述业务特征V
d
的特征数据是从所述第一特征数据中所获取的;若所述分裂特征属于所述第二业务特征,则所述业务特征V
d
的特征数据是从所述第一数据分片和所述第二数据分片中所获取的;对Q个所述第一特征分片进行求和处理,得到所述第一节点分片;所述第一节点分片和所述第二节点分片是所述节点特征数据的分片;所述第二节点分片是由所述第二参与方对Q个所述业务特征分别对应的第二特征分片进行求和处理所得到的;所述节点特征数据用于表征所述交集业务标识在所述分裂特征下的特征数据。6.根据权利要求4所述的方法,其特征在于,所述方法还包括:若所述第一划分节点的子节点为叶子节点,则获取所述第一划分节点的子节点的子节点权重分片;所述子节点权重分片包括所述第一划分节点的第一子节点的第一子节点权重分片和所述第一划分节点的第二子节点的第二子节点权重分片;所述第一子节点权重分片和所述第二参与方所持有的所述第二划分节点的第三子节点的第三子节点权重分片是第一子节点权重的分片;所述第一子节点权重用于表征所述第一子节点的权重参数;所述第
二子节点权重分片和所述第二参与方所持有的所述第二划分节点的第四子节点的第四子节点权重分片是第二子节点权重的分片;所述第二子节点权重用于表征所述第二子节点的权重参数;其中,所述第一节点布尔分片和所述第二节点布尔分片共同用于对所述第一子节点权重分片、所述第二子节点权重分片、所述第三子节点权重分片和所述第四子节点权重分片进行分片选择,得到所述第一参与方所持有的针对所述第一划分节点的第一候选权重分片和所述第二参与方所持有的针对所述第二划分节点的第二候选权重分片;所述第一候选权重分片和所述第二候选权重分片是候选权重向量的分片;所述候选权重向量...

【专利技术属性】
技术研发人员:张凡蒋杰刘煜宏陈鹏黄晨宇程勇
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1