数据处理方法、设备、系统及存储介质技术方案

技术编号:33842169 阅读:21 留言:0更新日期:2022-06-18 10:24
本申请实施例提供一种数据处理方法、设备、系统及存储介质。在本申请实施例中,提供了一种基于虚拟数据的本地差分隐私机制,即基于数据分析算法的差分隐私参数,在原始数据中添加一定数量的虚拟数据,之后对添加虚拟数据后的混合数据进行置乱操作,将置乱后的混合数据提供给数据分析方进行分析。其中,在原始数据中添加虚拟数据,可为原始数据提供一定程度的隐私保护,且经数据分析端修正后的数据分析结果可直接提供给查询用户,无需添加噪声量,可解决中心化差分隐私存在的数据一致性问题;另外,对添加虚拟数据的混合数据进行置乱操作,只需添加较少数量的虚拟数据即可满足差分隐私需求,提供可量化的隐私保护效果。提供可量化的隐私保护效果。提供可量化的隐私保护效果。

【技术实现步骤摘要】
数据处理方法、设备、系统及存储介质


[0001]本申请涉及互联网
,尤其涉及一种数据处理方法、设备、系统及存储介质。

技术介绍

[0002]随着大数据时代的到来,大数据分析平台越来越多。几乎所有的大数据分析平台都对外提供了数据统计分析功能,例如直方图分析。最典型的直方图分析功能是人群画像分析。为实现隐私保护,各个大数据分析平台通常采用差分隐私技术,在保证数据查询准确性的同时,为数据提供一定程度的隐私保护。
[0003]其中,中心化差分隐私(Central Differential Privacy)是一种常见的差分隐私技术。在应用中,用户将真实数据上传给可信的数据所有方,数据所有方为数据分析方开放数据分析功能,并在对外输出的分析结果上随机增加噪声,为用户数据提供隐私保护。但是,因为每次查询都要在分析结果上随机增加噪声,对于具有相关性的查询请求,很可能出现数据一致性问题,即本该相同的查询结果却在不同查询中因增加的噪声量不同而得到了不同的结果。

技术实现思路

[0004]本申请的多个方面提供一种数据处理方法、设备、系统及存储介质,用以在实现数据隐私保护的同时,解决中心化差分隐私存在的数据一致性问题。
[0005]本申请实施例提供一种数据处理系统,包括:至少一个数据源端、数据置乱端以及数据分析端;所述至少一个数据源端,用于基于数据分析算法的差分隐私参数,在原始数据中添加虚拟数据以得到混合数据;所述数据置乱端,用于对所述混合数据进行置乱处理,并将置乱后的混合数据提供给所述数据分析端;所述数据分析端,用于根据查询用户的查询请求,采用所述数据分析算法对所述置乱后的混合数据进行数据分析,并将数据分析结果输出给所述查询用户。
[0006]本申请实施例还提供一种数据处理系统,包括:至少一个数据源端、数据置乱端以及数据分析端;所述至少一个数据源端,用于将原始数据上传至所述数据置乱端;所述数据置乱端,用于基于数据分析算法的差分隐私参数,在所述原始数据中添加虚拟数据以得到混合数据,对所述混合数据进行置乱处理;所述数据分析端,用于根据查询用户的查询请求,采用所述数据分析算法对置乱后的混合数据进行数据分析,并将数据分析结果输出给所述查询用户。
[0007]本申请实施例还提供一种数据处理方法,适用于于数据源端,所述方法包括:生成原始数据;基于数据分析算法的差分隐私参数,在所述原始数据中添加虚拟数据,以得到混合数据;将所述混合数据上传至数据置乱端,以供所述数据置乱端将所述混合数据置乱后提供给数据分析端,由所述数据分析端采用所述数据分析算法对置乱后的混合数据进行数据分析。
[0008]本申请实施例还提供一种数据处理方法,适用于数据置乱端,所述方法包括:接收至少一个数据源端上传的原始数据;基于数据分析算法的差分隐私参数,在所述原始数据中添加虚拟数据,以得到混合数据;对所述混合数据进行置乱处理,并将置乱后的混合数据发送给数据分析端,以供所述数据分析端采用所述数据分析算法对所述置乱后的混合数据进行数据分析。
[0009]本申请实施例还提供一种数据处理方法,包括:接收至少一个数据源上传的原始数据;基于数据分析算法的差分隐私参数,在所述原始数据中添加虚拟数据以得到混合数据,并对所述混合数据进行置乱处理以得到置乱后的混合数据;根据查询用户的查询请求,采用所述数据分析算法对所述置乱后的混合数据进行数据分析,并将数据分析结果输出给所述查询用户。
[0010]本申请实施例还提供一种数据源设备,包括:存储器和处理器;所述存储器,用于存储计算机程序;所述处理器与所述存储器耦合,用于执行所述计算机程序,以用于:生成原始数据;基于数据分析算法的差分隐私参数,在所述原始数据中添加虚拟数据,以得到混合数据;将所述混合数据上传至数据置乱端,以供所述数据置乱端将所述混合数据置乱后提供给数据分析端,由所述数据分析端采用所述数据分析算法对置乱后的混合数据进行数据分析。
[0011]本申请实施例还提供一种数据处理设备,包括:存储器和处理器;所述存储器,用于存储计算机程序;所述处理器与所述存储器耦合,用于执行所述计算机程序,以用于:接收至少一个数据源端上传的原始数据;基于数据分析算法的差分隐私参数,在所述原始数据中添加虚拟数据,以得到混合数据;对所述混合数据进行置乱处理,并将置乱后的混合数据发送给数据分析端,以供所述数据分析端采用所述数据分析算法对所述置乱后的混合数据进行数据分析。
[0012]本申请实施例还提供一种数据处理设备,包括:存储器和处理器;所述存储器,用于存储计算机程序;所述处理器与所述存储器耦合,用于执行所述计算机程序,以用于:接收至少一个数据源上传的原始数据;基于数据分析算法的差分隐私参数,在所述原始数据中添加虚拟数据以得到混合数据,并对所述混合数据进行置乱处理以得到置乱后的混合数据;根据查询用户的查询请求,采用所述数据分析算法对所述置乱后的混合数据进行数据分析,并将数据分析结果输出给所述查询用户。
[0013]本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,当所述计算机程序被处理器执行时,致使所述处理器实现本申请实施例提供的各方法中的步骤。
[0014]在本申请实施例中,提供了一种基于虚拟数据的本地差分隐私机制,即基于数据分析算法的差分隐私参数,在原始数据中添加一定数量的虚拟数据,之后对添加虚拟数据后的混合数据进行置乱操作,将置乱后的混合数据提供给数据分析方进行分析。其中,在原始数据中添加虚拟数据,可为原始数据提供一定程度的隐私保护,且经数据分析端修正后的数据分析结果可直接提供给查询用户,无需添加噪声量,可解决中心化差分隐私存在的数据一致性问题;另外,对添加虚拟数据的混合数据进行置乱操作,只需添加较少数量的虚拟数据即可满足差分隐私需求,提供可量化的隐私保护效果。
附图说明
[0015]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0016]图1为本申请示例性实施例提供的一种数据处理系统的结构示意图;
[0017]图2为本申请示例性实施例提供的另一种数据处理系统的结构示意图;
[0018]图3a为本申请示例性实施例提供的一种数据处理方法的流程示意图;
[0019]图3b为本申请示例性实施例提供的另一种数据处理方法的流程示意图;
[0020]图3c为本申请示例性实施例提供的又一种数据处理方法的流程示意图;
[0021]图4a为本申请示例性实施例提供的一种数据处理装置的结构示意图;
[0022]图4b为本申请示例性实施例提供的一种数据源设备的结构示意图;
[0023]图5a为本申请示例性实施例提供的另一种数据处理装置的结构示意图;
[0024]图5b为本申请示例性实施例提供的一种数据处理装置的结构示意图;
[0025]图6a为本申请示例性实施例提供的又一种数据处理装置的结构示意图;
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理系统,其特征在于,包括:至少一个数据源端、数据置乱端以及数据分析端;所述至少一个数据源端,用于基于数据分析算法的差分隐私参数,在原始数据中添加虚拟数据以得到混合数据;所述数据置乱端,用于对所述混合数据进行置乱处理,并将置乱后的混合数据提供给所述数据分析端;所述数据分析端,用于根据查询用户的查询请求,采用所述数据分析算法对所述置乱后的混合数据进行数据分析,并将数据分析结果输出给所述查询用户。2.根据权利要求1所述的系统,其特征在于,所述至少一个数据源端还用于:基于数据分析算法的差分隐私参数,获取数据混合比例;根据所述数据混合比例,在所述原始数据中添加虚拟数据以得到混合数据。3.根据权利要求2所述的系统,其特征在于,所述至少一个数据源端还用于:在所述数据混合比例小于1的情况下,确定自身是否属于有权添加虚拟数据的部分数据源端;在确定属于的情况下,在所述原始数据中添加虚拟数据以得到混合数据。4.根据权利要求2所述的系统,其特征在于,所述数据分析端具体用于:根据所述数据混合比例,计算由所述虚拟数据产生的第一噪声量;根据所述第一噪声量对所述数据分析结果进行修正,并将修正后的数据分析结果输出给所述查询用户。5.根据权利要求1

4任一项所述的系统,其特征在于,所述至少一个数据源端具体用于:在原始数据对应的数据集合中随机均匀采样出虚拟数据,并添加到所述原始数据中以得到混合数据。6.根据权利要求1所述的系统,其特征在于,所述至少一个数据源端还用于:在添加所述虚拟数据之前或之后,对所述原始数据进行随机化处理。7.根据权利要求6所述的系统,其特征在于,所述至少一个数据源端具体用于:基于数据分析算法的差分隐私参数,获取数据混合比例和随机化概率;根据所述随机化概率对所述原始数据进行随机化处理;根据所述数据混合比例,在随机化后的数据中添加虚拟数据以得到混合数据;或者基于数据分析算法的差分隐私参数,获取数据混合比例和随机化概率;根据所述数据混合比例,在原始数据中添加虚拟数据以得到混合数据;根据所述随机化概率对所述混合数据中的原始数据进行随机化处理。8.根据权利要求7所述的系统,其特征在于,所述至少一个数据源端具体用于:按照所述随机化概率产生随机数;若所述随机数满足第一条件,保持所述原始数据;若所述随机数满足第二条件,则利用随机化数据替代所述原始数据;其中,产生满足第一条件的随机数的概率和产生满足第二条件的随机数的概率由所述随机化概率确定。9.根据权利要求8所述的系统,其特征在于,所述至少一个数据源端还用于:在原始数据对应的数据集合中随机均匀采样出所述随机化数据;以及在原始数据对应的数据集合中随机均匀采样出所述虚拟数据。10.根据权利要求8或9所述的系统,其特征在于,所述数据分析端具体用于:根据所述
数据混合比例,计算由所述虚拟数据产生的第一噪声量;根据所述随机化概率,计算由随机化处理产生的第二噪声量;根据所述第一噪声量和所述第二噪声量对所述数据分析结果进行修正,并将修正后的数据分析结果输出给所述查询用户。11.根据权利要求1

4以及6

9任一项所述的系统,其特征在于,所述数据源端为应用端,所述数据置乱端为数据中台,所述数据分析端为云端服务器。12.一种数据处理系统,其特征在于,包括:至少一个数据源端、数据置乱端以及数据分析端;所述至少一个数据源端,用于将原始数据上传至所述数据置乱端;所述数据置乱端,用于基于数据分析算法的差分隐私参数,在所述原始数据中添加虚拟数据以得到混合数据,对所述混合数据进行置乱处理;所述数据分析端,用于根据查询用户的查询请求,采用所述数据分析算法对置乱后的混合数据进行数据分析,并将数据分析结果输出给所述查询用户。13.根据权利要求12所述的系统,其特征在于,所述数据置乱端还用于:在添加所述虚拟数据之前或之后,对所述原始数据进行随机化处理。14.一种数据处理方法,适用于数据源端,其特征在于,所述方法包括:生成原始数据;基于数据分析算法的差分隐私参数,在所述原始数据中添加虚拟数据,以得到混合数据;将所述混合数据上传至数据置乱端,以供所述数据置乱端将所述混合数据置乱后提供给数据分析端,由所述数据分析端采用所述数据分析算法对置乱后的混合数据进行数据分析。15.根据权利要求14所述的方法,其特征在于,基于...

【专利技术属性】
技术研发人员:刘巍然张磊
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1