【技术实现步骤摘要】
数据处理方法、设备、系统及存储介质
[0001]本申请涉及互联网
,尤其涉及一种数据处理方法、设备、系统及存储介质。
技术介绍
[0002]随着大数据时代的到来,大数据分析平台越来越多。几乎所有的大数据分析平台都对外提供了数据统计分析功能,例如直方图分析。最典型的直方图分析功能是人群画像分析。为实现隐私保护,各个大数据分析平台通常采用差分隐私技术,在保证数据查询准确性的同时,为数据提供一定程度的隐私保护。
[0003]其中,中心化差分隐私(Central Differential Privacy)是一种常见的差分隐私技术。在应用中,用户将真实数据上传给可信的数据所有方,数据所有方为数据分析方开放数据分析功能,并在对外输出的分析结果上随机增加噪声,为用户数据提供隐私保护。但是,因为每次查询都要在分析结果上随机增加噪声,对于具有相关性的查询请求,很可能出现数据一致性问题,即本该相同的查询结果却在不同查询中因增加的噪声量不同而得到了不同的结果。
技术实现思路
[0004]本申请的多个方面提供一种数据处理方法、设备、系统及存储介质,用以在实现数据隐私保护的同时,解决中心化差分隐私存在的数据一致性问题。
[0005]本申请实施例提供一种数据处理系统,包括:至少一个数据源端、数据置乱端以及数据分析端;所述至少一个数据源端,用于基于数据分析算法的差分隐私参数,在原始数据中添加虚拟数据以得到混合数据;所述数据置乱端,用于对所述混合数据进行置乱处理,并将置乱后的混合数据提供给所述数据分析端;所述数 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理系统,其特征在于,包括:至少一个数据源端、数据置乱端以及数据分析端;所述至少一个数据源端,用于基于数据分析算法的差分隐私参数,在原始数据中添加虚拟数据以得到混合数据;所述数据置乱端,用于对所述混合数据进行置乱处理,并将置乱后的混合数据提供给所述数据分析端;所述数据分析端,用于根据查询用户的查询请求,采用所述数据分析算法对所述置乱后的混合数据进行数据分析,并将数据分析结果输出给所述查询用户。2.根据权利要求1所述的系统,其特征在于,所述至少一个数据源端还用于:基于数据分析算法的差分隐私参数,获取数据混合比例;根据所述数据混合比例,在所述原始数据中添加虚拟数据以得到混合数据。3.根据权利要求2所述的系统,其特征在于,所述至少一个数据源端还用于:在所述数据混合比例小于1的情况下,确定自身是否属于有权添加虚拟数据的部分数据源端;在确定属于的情况下,在所述原始数据中添加虚拟数据以得到混合数据。4.根据权利要求2所述的系统,其特征在于,所述数据分析端具体用于:根据所述数据混合比例,计算由所述虚拟数据产生的第一噪声量;根据所述第一噪声量对所述数据分析结果进行修正,并将修正后的数据分析结果输出给所述查询用户。5.根据权利要求1
‑
4任一项所述的系统,其特征在于,所述至少一个数据源端具体用于:在原始数据对应的数据集合中随机均匀采样出虚拟数据,并添加到所述原始数据中以得到混合数据。6.根据权利要求1所述的系统,其特征在于,所述至少一个数据源端还用于:在添加所述虚拟数据之前或之后,对所述原始数据进行随机化处理。7.根据权利要求6所述的系统,其特征在于,所述至少一个数据源端具体用于:基于数据分析算法的差分隐私参数,获取数据混合比例和随机化概率;根据所述随机化概率对所述原始数据进行随机化处理;根据所述数据混合比例,在随机化后的数据中添加虚拟数据以得到混合数据;或者基于数据分析算法的差分隐私参数,获取数据混合比例和随机化概率;根据所述数据混合比例,在原始数据中添加虚拟数据以得到混合数据;根据所述随机化概率对所述混合数据中的原始数据进行随机化处理。8.根据权利要求7所述的系统,其特征在于,所述至少一个数据源端具体用于:按照所述随机化概率产生随机数;若所述随机数满足第一条件,保持所述原始数据;若所述随机数满足第二条件,则利用随机化数据替代所述原始数据;其中,产生满足第一条件的随机数的概率和产生满足第二条件的随机数的概率由所述随机化概率确定。9.根据权利要求8所述的系统,其特征在于,所述至少一个数据源端还用于:在原始数据对应的数据集合中随机均匀采样出所述随机化数据;以及在原始数据对应的数据集合中随机均匀采样出所述虚拟数据。10.根据权利要求8或9所述的系统,其特征在于,所述数据分析端具体用于:根据所述
数据混合比例,计算由所述虚拟数据产生的第一噪声量;根据所述随机化概率,计算由随机化处理产生的第二噪声量;根据所述第一噪声量和所述第二噪声量对所述数据分析结果进行修正,并将修正后的数据分析结果输出给所述查询用户。11.根据权利要求1
‑
4以及6
‑
9任一项所述的系统,其特征在于,所述数据源端为应用端,所述数据置乱端为数据中台,所述数据分析端为云端服务器。12.一种数据处理系统,其特征在于,包括:至少一个数据源端、数据置乱端以及数据分析端;所述至少一个数据源端,用于将原始数据上传至所述数据置乱端;所述数据置乱端,用于基于数据分析算法的差分隐私参数,在所述原始数据中添加虚拟数据以得到混合数据,对所述混合数据进行置乱处理;所述数据分析端,用于根据查询用户的查询请求,采用所述数据分析算法对置乱后的混合数据进行数据分析,并将数据分析结果输出给所述查询用户。13.根据权利要求12所述的系统,其特征在于,所述数据置乱端还用于:在添加所述虚拟数据之前或之后,对所述原始数据进行随机化处理。14.一种数据处理方法,适用于数据源端,其特征在于,所述方法包括:生成原始数据;基于数据分析算法的差分隐私参数,在所述原始数据中添加虚拟数据,以得到混合数据;将所述混合数据上传至数据置乱端,以供所述数据置乱端将所述混合数据置乱后提供给数据分析端,由所述数据分析端采用所述数据分析算法对置乱后的混合数据进行数据分析。15.根据权利要求14所述的方法,其特征在于,基于...
【专利技术属性】
技术研发人员:刘巍然,张磊,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。