数据过滤方法、装置及系统制造方法及图纸

技术编号:27420303 阅读:29 留言:0更新日期:2021-02-21 14:38
本说明书的实施例提供一种数据过滤方法、装置及设备。第一和第二成员设备分别具有待过滤的数据样本集中的每条数据样本的分片数据。响应于数据样本过滤请求,第一和第二成员设备执行多方安全计算来确定各条数据样本的过滤标签数据,每个成员设备分别具有过滤标签数据的标签分片数据。随后

【技术实现步骤摘要】
数据过滤方法、装置及系统


[0001]本说明书实施例通常涉及数据处理领域,尤其涉及用于对第一和第二成员设备的数据样本集进行过滤处理的数据过滤方法、数据过滤装置以及数据过滤系统。

技术介绍

[0002]随着技术的发展,越来越多的业务应用场景需要使用多个数据拥有方的本地数据来进行多方数据联合处理,例如,使用机器学习模型的业务应用场景,比如,使用机器学习模型进行风险评估、人群识别、业务分类等。在机器学习模型的应用中,在比如模型预测或模型训练的应用场景下,需要使用多个数据拥有方的本地数据来联合进行模型预测处理得到模型预测结果。
[0003]在进行多方数据联合处理时,可以对各个数据拥有方具有的本地数据组成的数据集进行分片处理,每个数据拥有方具有数据集中的每条数据的分片数据,由此得到经过加密处理后的数据集(加密数据集),每个数据拥有方都不能知晓完整数据信息,从而在多方数据联合处理时实现各个数据拥有方的数据隐私保护。
[0004]在一些应用场景下,在进行多方数据联合处理时,需要从利用分片数据组成的加密数据集中过滤出期望的数据样本来进行后续处理,如何从上述加密数据集中过滤出期望的数据样本成为亟待解决的问题。

技术实现思路

[0005]鉴于上述,本说明书实施例提供一种用于对第一和第二成员设备的数据样本集进行过滤处理的数据过滤方法、数据过滤装置以及数据过滤系统。利用该数据过滤方法、数据过滤装置及数据过滤系统,可以从基于分片数据组成的加密数据集中过滤出期望的数据样本。
[0006]根据本说明书实施例的一个方面,提供一种用于对第一和第二成员设备的数据样本集进行过滤处理的方法,所述数据样本集中的每条数据样本具有多个特征维度,第一和第二成员设备分别具有每条数据样本的分片数据,所述方法由第一成员设备或第二成员设备执行,所述方法包括:响应于包含用于数据样本过滤的过滤特征维度及过滤特征维度值的数据样本过滤请求,与另一成员设备一起执行多方安全计算来确定所述数据样本集的各条数据样本的过滤标签数据,每个成员设备具有所述过滤标签数据的标签分片数据;与所述另一成员设备一起,使用所具有的分片数据和标签分片数据以及所述另一成员设备所具有的标签分片数据,执行基于同态加密的不经意过滤处理来得到过滤出的数据样本在所述成员设备和所述另一成员设备处的第一和第二分片数据,所述第一和第二分片数据是所述成员设备所具有的分片数据的二次分片数据;与所述另一成员设备一起,使用所具有的标签分片数据以及所述另一成员设备所具有的分片数据和标签分片数据,执行基于同态加密的不经意过滤处理来得到过滤出的数据样本在所述成员设备和所述另一成员设备处的第三和第四分片数据,所述第三和第四分片数据是所述另一成员设备所具有的分片数据的二
次分片数据;以及对所述第一和第三分片数据进行求和,得到所述过滤出的数据样本在所述成员设备处的分片数据,其中,所述第二和第四分片数据经由所述另一成员设备进行求和,得到所述过滤出的数据样本在所述另一成员设备处的分片数据。
[0007]可选地,在上述方面的一个示例中,在第一和第二成员设备之间执行基于同态加密的不经意过滤处理包括:在所述第一和第二成员设备处分别生成用于同态加密的公钥/私钥对,并且共享各自的公钥;在第一和第二成员设备中的仅仅具有标签分片数据的一个成员设备处,使用本地公钥来对所具有的标签分片数据进行同态加密,得到第一加密序列,并将所述第一加密序列发送给对端成员设备;在所述对端成员设备处,使用所接收的公钥对所具有的标签分片数据进行同态加密以及使用本地公钥对所具有的分片数据进行同态加密来分别得到第二和第三加密序列,对所述第一和第二加密序列进行同态加密分析得到第四加密序列,所述第四加密序列是两个成员设备的标签分片数据的对应维度特征差值的同态加密结果,并将所述第三和第四加密序列经过打乱处理后发送给所述一个成员设备;在所述一个成员设备处,使用本地私钥对打乱后的第四加密序列进行解密处理,根据所述打乱后的第四加密序列的解密结果来从所述第三加密序列中确定出第五加密序列,所述第五加密序列包括过滤出的数据样本的密文分片数据,对经过打乱处理后的第五加密序列进行分片处理,得到所述第五加密序列中的密文分片数据的明文二级分片数据以及密文二级分片数据,并且将每个密文分片数据的密文二级分片数据发送给所述对端成员设备;以及在所述对端成员设备处,使用本地私钥对所接收的密文二级分片数据进行解密,得到每个密文分片数据的明文二级分片数据。
[0008]可选地,在上述方面的一个示例中,所述分片数据和/或所述标签分片数据是基于秘密分享处理得到的分片数据。
[0009]可选地,在上述方面的一个示例中,所述一个成员设备处的明文二级分片数据为随机掩码数据。
[0010]可选地,在上述方面的一个示例中,在多方安全计算结果示出数据样本的对应特征维度的特征值等于所述过滤特征维度值时,该数据样本的过滤标签数据为0,以及在多方安全计算结果示出数据样本的对应特征维度的特征值不等于所述过滤特征维度值时,该数据样本的过滤标签数据为1。
[0011]可选地,在上述方面的一个示例中,根据所述第四加密序列的解密结果来从所述第三加密序列中确定出第五加密序列包括:从所述第三加密序列中提取与所述第四加密序列中的解密结果为0的元素对应的元素,得到第五加密序列。
[0012]可选地,在上述方面的一个示例中,所述多方安全计算包括下述多方安全计算中的一种:基于秘密分享的多方安全计算;基于同态加密的多方安全计算;基于不经意传输的多方安全计算;基于混淆电路的多方安全计算;和基于可信执行环境的多方安全计算。
[0013]可选地,在上述方面的一个示例中,所述数据样本包括基于文本数据、图像数据和/或视频数据的数据样本。
[0014]可选地,在上述方面的一个示例中,所述数据样本包括应用于机器学习模型训练或机器学习模型预测的数据样本或者应用于多方数据查询的数据样本。
[0015]根据本说明书的实施例的另一方面,提供一种用于对第一和第二成员设备的数据样本集进行过滤处理的装置,所述数据样本集中的每条数据样本具有多个特征维度,第一
和第二成员设备分别具有每条数据样本的分片数据,所述装置应用于第一或第二成员设备,所述装置包括:至少一个处理器,与所述至少一个处理器耦合的存储器,以及存储在所述存储器中的计算机程序,所述至少一个处理器执行所述计算机程序来实现:响应于包含用于数据样本过滤的过滤特征维度及过滤特征维度值的数据样本过滤请求,与另一成员设备一起执行多方安全计算来确定所述数据样本集的各条数据样本的过滤标签数据,每个成员设备具有所述过滤标签数据的标签分片数据;与所述另一成员设备一起,使用所具有的分片数据和标签分片数据以及所述另一成员设备所具有的标签分片数据,执行基于同态加密的不经意过滤处理来得到过滤出的数据样本在所述成员设备和所述另一成员设备处的第一和第二分片数据,所述第一和第二分片数据是所述成员设备所具有的分片数据的二次分片数据;与所述另一成员设备一起,使用所具有的标签分片数据以及所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于对第一和第二成员设备的数据样本集进行过滤处理的方法,所述数据样本集中的每条数据样本具有多个特征维度,第一和第二成员设备分别具有每条数据样本的分片数据,所述方法由第一成员设备或第二成员设备执行,所述方法包括:响应于包含用于数据样本过滤的过滤特征维度及过滤特征维度值的数据样本过滤请求,与另一成员设备一起执行多方安全计算来确定所述数据样本集的各条数据样本的过滤标签数据,每个成员设备具有所述过滤标签数据的标签分片数据;与所述另一成员设备一起,使用所具有的分片数据和标签分片数据以及所述另一成员设备所具有的标签分片数据,执行基于同态加密的不经意过滤处理来得到过滤出的数据样本在所述成员设备和所述另一成员设备处的第一和第二分片数据,所述第一和第二分片数据是所述成员设备所具有的分片数据的二次分片数据;与所述另一成员设备一起,使用所具有的标签分片数据以及所述另一成员设备所具有的分片数据和标签分片数据,执行基于同态加密的不经意过滤处理来得到过滤出的数据样本在所述成员设备和所述另一成员设备处的第三和第四分片数据,所述第三和第四分片数据是所述另一成员设备所具有的分片数据的二次分片数据;以及对所述第一和第三分片数据进行求和,得到所述过滤出的数据样本在所述成员设备处的分片数据,其中,所述第二和第四分片数据经由所述另一成员设备进行求和,得到所述过滤出的数据样本在所述另一成员设备处的分片数据。2.如权利要求1所述的方法,其中,在第一和第二成员设备之间执行基于同态加密的不经意过滤处理包括:在所述第一和第二成员设备处分别生成用于同态加密的公钥/私钥对,并且共享各自的公钥;在第一和第二成员设备中的仅仅具有标签分片数据的一个成员设备处,使用本地公钥来对所具有的标签分片数据进行同态加密,得到第一加密序列,并将所述第一加密序列发送给对端成员设备;在所述对端成员设备处,使用所接收的公钥对所具有的标签分片数据进行同态加密以及使用本地公钥对所具有的分片数据进行同态加密来分别得到第二和第三加密序列,对所述第一和第二加密序列进行同态加密分析得到第四加密序列,所述第四加密序列是两个成员设备的标签分片数据的对应维度特征差值的同态加密结果,并将所述第三和第四加密序列经过打乱处理后发送给所述一个成员设备;在所述一个成员设备处,使用本地私钥对打乱后的第四加密序列进行解密处理,根据所述打乱后的第四加密序列的解密结果来从所述第三加密序列中确定出第五加密序列,所述第五加密序列包括过滤出的数据样本的密文分片数据,对经过打乱处理后的第五加密序列进行分片处理,得到所述第五加密序列中的密文分片数据的明文二级分片数据以及密文二级分片数据,并且将每个密文分片数据的密文二级分片数据发送给所述对端成员设备;以及在所述对端成员设备处,使用本地私钥对所接收的密文二级分片数据进行解密,得到每个密文分片数据的明文二级分片数据。3.如权利要求1所述的方法,其中,所述分片数据和/或所述标签分片数据是基于秘密
分享处理得到的分片数据。4.如权利要求2所述的方法,其中,所述一个成员设备处的明文二级分片数据为随机掩码数据。5.如权利要求2所述的方法,其中,在多方安全计算结果示出数据样本的过滤特征维度的特征值等于所述过滤特征维度值时,该数据样本的过滤标签数据为0,以及在多方安全计算结果示出数据样本的过滤特征维度的特征值不等于所述过滤特征维度值时,该数据样本的过滤标签数据为1。6.如权利要求5所述的方法,其中,根据所述第四加密序列的解密结果来从所述第三加密序列中确定出第五加密序列包括:从所述第三加密序列中提取与所述第四加密序列中的解密结果为0的元素对应的元素,得到第五加密序列。7.如权利要求1所述的方法,其中,所述多方安全计算包括下述多方安全计算中的一种:基于秘密分享的多方安全计算;基于同态加密的多方安全计算;基于不经意传输的多方安全计算;基于混淆电路的多方安全计算;和基于可信执行环境的多方安全计算。8.如权利要求1到7中任一所述的方法,其中,所述数据样本包括基于文本数据、图像数据和/或视频数据的数据样本。9.如...

【专利技术属性】
技术研发人员:崔锦铭陈超超王力
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1