System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本说明书一个或多个实施例涉及隐私保护,尤其涉及一种基于隐私保护的特征分桶方法、电子设备、计算机可读存储介质及计算机程序产品。
技术介绍
1、特征工程是机器学习中的重要步骤,它涉及对原始数据进行转换、提取和选择,以创建适合用于训练机器学习模型的特征集。其中,对特征进行分桶也是特征工程中常用的方法之一。
2、在相关技术的隐私保护联合建模中,会通过隐私保护求交(private setintersection,psi)方法对至少两个数据提供方持有的数据集进行求交处理,得到交集数据。在使用psi方法之后,至少两个数据提供方通过公开交集主键的形式对齐数据,然后各自在本地对自身持有的与交集主键对应的特征值进行分桶操作,分桶操作可以帮助数据提供方将数值型特征映射到离散的桶或区间中,以便更好地捕获特征的模式和非线性关系,提高建模效率。但是,上述的分桶操作存在信息泄露风险。
技术实现思路
1、有鉴于此,本说明书一个或多个实施例提供一种基于隐私保护的特征分桶方法、电子设备、计算机可读存储介质及计算机程序产品。
2、为实现上述目的,本说明书一个或多个实施例提供技术方案如下:
3、根据本说明书一个或多个实施例的第一方面,提出了一种基于隐私保护的特征分桶方法,应用于将持有的数据集与其它数据提供方持有的数据集进行隐私集合求交psi计算的至少两个数据提供方中的第一数据提供方对应的电子设备;其中,所述数据集中包含若干数据样本;所述数据样本包括数据标识和与该数据标识对应的特征值;所
4、获取与所述第一数据提供方持有的第一数据集对应的第一求交结果;其中,所述第一求交结果为将所述第一数据提供方持有的第一数据集中包含的数据标识,与所述至少两个数据提供方中的第二数据提供方持有的第二数据集中包含的数据标识进行psi计算得到的求交结果;所述第一求交结果包括分别与所述第一数据集包含的各个数据标识对应的第一求交结果;与所述第一数据集中的任一数据标识对应的第一求交结果包含基于秘密分享算法针对与该数据标识对应的psi计算结果进行拆分得到的至少两个秘密分片;所述至少两个秘密分片包括由所述第一数据提供方持有的第一秘密分片;
5、按照所述第一数据集中包含的各个数据标识对应的特征值的大小关系,对持有的所述第一秘密分片进行排序,得到由排序后的第一秘密分片构成的第一序列;
6、计算与所述第一序列中包含的各个第一秘密分片对应的前缀和;以及,基于与所述第一数据集中的各个数据标识对应的psi计算结果确定所述第一数据集中包含的数据标识,与第二数据提供方持有的第二数据集中包含的数据标识存在交集的目标数量;
7、基于所述目标数量和预设分桶数量,将与所述第一序列中包含的各个第一秘密分片对应的前缀和,映射为由所述第一数据提供方持有的第一分桶编号分片,以在本地完成针对所述第一数据集中包含的各个数据标识对应的特征值的特征分桶;其中,所述第一分桶编号分片为与所述第一数据集中包含的各个数据标识对应的特征值所属的分桶编号的其中一个由所述第一数据提供方持有的分桶编号分片;所述第一分桶编号分片用于作为与所述第一数据提供方对应的训练特征参与联合训练。
8、根据本说明书一个或多个实施例的第二方面,提出了一种电子设备,包括:
9、处理器;
10、用于存储处理器可执行指令的存储器;
11、其中,所述处理器执行所述可执行指令时,用于实现第一方面所述的方法。
12、根据本说明书实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项所述方法的步骤。
13、根据本说明书实施例的第四方面,提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述任一项所述方法的步骤。
14、本说明书的实施例提供的技术方案可以包括以下有益效果:
15、本说明书实施例中,根据特征值的大小关系对秘密分片进行排序并计算前缀和,可以将原始数据的敏感信息隐藏在前缀和中,减少了攻击者通过推断攻击获取原始数据的可能性。同时,基于目标数量和预设分桶数量将前缀和映射为第一分桶编号分片,第一分桶编号分片只是第一数据集中包含的数据标识对应的特征值所属的分桶编号的一部分,使得攻击者难以从第一分桶编号分片推断出真实的分桶编号,从而降低了攻击者获取数据的风险,实现了无需公开分桶编号的特征分桶方式,真正做到了无任何信息泄露,充分保证了数据的隐私安全。
16、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书。
本文档来自技高网...【技术保护点】
1.一种基于隐私保护的特征分桶方法,应用于将持有的数据集与其它数据提供方持有的数据集进行隐私集合求交PSI计算的至少两个数据提供方中的第一数据提供方对应的电子设备;其中,所述数据集中包含若干数据样本;所述数据样本包括数据标识和与该数据标识对应的特征值;所述方法包括:
2.根据权利要求1所述的方法,所述第一序列中包含的第i个第一秘密分片的前缀和,为所述第一序列中包含的前i个第一秘密分片的取值之和,i为大于0的整数。
3.根据权利要求1所述的方法,所述至少两个数据提供方分别持有的数据集中包含具有相同的数据标识的数据样本;其中,所述至少两个数据提供方分别持有的数据集中具有相同的数据标识的数据样本,所包含的与该相同的数据标识对应的特征值,分别对应不同的类型。
4.根据权利要求1所述的方法,所述至少两个秘密分片还包含由所述第二数据提供方持有的第二秘密分片;
5.根据权利要求1所述的方法,还包括:
6.根据权利要求5所述的方法,与所述第二数据提供方持有的第二数据集对应的第二求交结果,包括分别与所述第二数据集包含的各个数据标识对应的第
7.根据权利要求1至6任意一项所述的方法,与所述第一数据集对应的第一求交结果包括:
8.根据权利要求7所述的方法,所述哈希表包括布谷鸟哈希表。
9.根据权利要求7所述的方法,所述按照所述第一数据集中包含的各个数据标识对应的特征值的大小关系,对持有的所述第一秘密分片进行排序,得到由排序后的第一秘密分片构成的第一序列,包括:
10.根据权利要求9所述的方法,还包括:
11.根据权利要求1至6任意一项所述的方法,如果与所述第一数据集中的任一数据标识对应的第一求交结果包含的至少两个秘密分片的组合结果的取值为第一指定值,表示所述数据标识与第二数据提供方持有的第二数据集中包含的数据标识存在交集;
12.根据权利要求11所述的方法,所述第一指定值为1,所述第二指定值为0;所述特征分桶方法用于对所述第一数据集中的与第二数据提供方持有的第二数据集存在交集的数据标识对应的特征值进行等频分桶;
13.根据权利要求11所述的方法,所述第一指定值为1,所述第二指定值为0;所述特征分桶方法用于对所述第一数据集中的与第二数据提供方持有的第二数据集存在交集的数据标识对应的特征值进行等频分箱;
14.根据权利要求10所述的方法,还包括:
15.根据权利要求14所述的方法,在获取由所述第一原始序列和所述第五序列构成的第一矩阵之前,还包括:
16.根据权利要求15所述的方法,所述按照所述第一数据集中的各个数据标识的大小关系,确定所述第一数据集中的各个数据标识对应的第一排序序号分片,包括:
17.根据权利要求15所述的方法,与所述第二数据提供方持有的第二数据集对应的第二求交结果,包括分别与所述第二数据集包含的各个数据标识对应的第二求交结果;所述第二求交结果为将所述第二数据提供方持有的第二数据集中包含的数据标识,与所述第一数据提供方持有的数据集中包含的数据标识进行PSI计算得到的求交结果;与所述第二数据集中任一数据标识对应的第二求交结果包含基于秘密分享算法针对与该数据标识对应的PSI计算结果进行拆分得到的至少两个秘密分片;所述至少两个秘密分片包括由所述第一数据提供方持有的第三秘密分片;
18.根据权利要求17所述的方法,所述方法还包括:
19.一种电子设备,包括:
20.一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如权利要求1至18中任一项所述方法的步骤。
21.一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现权利要求1至18任意一项所述方法的步骤。
...【技术特征摘要】
1.一种基于隐私保护的特征分桶方法,应用于将持有的数据集与其它数据提供方持有的数据集进行隐私集合求交psi计算的至少两个数据提供方中的第一数据提供方对应的电子设备;其中,所述数据集中包含若干数据样本;所述数据样本包括数据标识和与该数据标识对应的特征值;所述方法包括:
2.根据权利要求1所述的方法,所述第一序列中包含的第i个第一秘密分片的前缀和,为所述第一序列中包含的前i个第一秘密分片的取值之和,i为大于0的整数。
3.根据权利要求1所述的方法,所述至少两个数据提供方分别持有的数据集中包含具有相同的数据标识的数据样本;其中,所述至少两个数据提供方分别持有的数据集中具有相同的数据标识的数据样本,所包含的与该相同的数据标识对应的特征值,分别对应不同的类型。
4.根据权利要求1所述的方法,所述至少两个秘密分片还包含由所述第二数据提供方持有的第二秘密分片;
5.根据权利要求1所述的方法,还包括:
6.根据权利要求5所述的方法,与所述第二数据提供方持有的第二数据集对应的第二求交结果,包括分别与所述第二数据集包含的各个数据标识对应的第二求交结果;所述第二求交结果为将所述第二数据提供方持有的第二数据集中包含的数据标识,与所述第一数据提供方持有的数据集中包含的数据标识进行psi计算得到的求交结果;与所述第二数据集中任一数据标识对应的第二求交结果包含基于秘密分享算法针对与该数据标识对应的psi计算结果进行拆分得到的至少两个秘密分片;所述至少两个秘密分片包括由所述第一数据提供方持有的第三秘密分片;
7.根据权利要求1至6任意一项所述的方法,与所述第一数据集对应的第一求交结果包括:
8.根据权利要求7所述的方法,所述哈希表包括布谷鸟哈希表。
9.根据权利要求7所述的方法,所述按照所述第一数据集中包含的各个数据标识对应的特征值的大小关系,对持有的所述第一秘密分片进行排序,得到由排序后的第一秘密分片构成的第一序列,包括:
10.根据权利要求9所述的方法,还包括:
11.根据权利要求1至6任意一...
【专利技术属性】
技术研发人员:吴泽成,李漓春,赵原,殷山,
申请(专利权)人:蚂蚁区块链科技上海有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。