一种满足本地差分隐私的真值发现方法和电子设备技术

技术编号:35561745 阅读:10 留言:0更新日期:2022-11-12 15:44
本申请提供一种满足本地差分隐私的真值发现方法和电子设备包括:发布多个真值发现任务,并根据所述多个任务生成指示矩阵;根据所述指示矩阵和所述多个任务的阈值范围以及隐私预算确定对所述指示矩阵的采样比例;根据所述采样比例对所述指示矩阵进行两阶段随机采样并生成索引矩阵后将所述索引矩阵发送至多个用户端口;所述多个用户端口对所述索引矩阵内的数据进行加噪处理得到加噪数据;计算所述多个用户端口的权重后根据所述加噪数据和所述权重对未被采样到的数据进行推断统计;根据所述加噪数据和所述推断统计得到的剩余数据值得到每个采样任务的真值。本申请通过两阶段随机采样以及多可客户端口赋予不同的权重,最终得到每个采样任务的真值。终得到每个采样任务的真值。终得到每个采样任务的真值。

【技术实现步骤摘要】
一种满足本地差分隐私的真值发现方法和电子设备


[0001]本申请涉及数据共享技术,特别涉及一种满足本地差分隐私的真值发现方法和一种电子设备。

技术介绍

[0002]在众包系统中,任务被外包给一大批工人(多个客户端口)。通过众包智慧来集成工人们的感知数据,即便是极端困难的任务也能够轻易被解决。然而,由于不同的工人具有不同的背景知识、专业技能和感知设备,不可避免地,不同工人的数据可能显著不一致。因此,很有必要将工人的可靠程度融合到评分估计中来。真值发现,通过集成不同感知质量的工人数据,是一种有效的方法来解决上述问题。最终得到的“真值”可以被公开并有利于数据收集者等,但是每个人的感知数据可能包含个人的敏感信息。因此,尽管通过真值发现,能得到有价值的“真值”,但是不加保护地上传每个参与者的感知数据可能会严重泄露个人隐私进而导致工人不愿意提供个人数据或者蓄意提供虚假数据,进一步地降低众包系统的效用。

技术实现思路

[0003]有鉴于此,本申请的目的在于提出一种满足本地差分隐私的真值发现方法和存储介质。
[0004]作为本申请的一个方面,提供了一种满足本地差分隐私的真值发现方法,包括:
[0005]发布多个真值发现任务,并根据所述多个真值发现任务生成指示矩阵;
[0006]根据所述指示矩阵和所述多个任务的阈值范围以及隐私预算确定对所述指示矩阵的采样比例;
[0007]根据所述采样比例对所述指示矩阵进行两阶段随机采样,得到随机采样数据;
[0008]根据所述随机采样数据生成索引矩阵,并将所述索引矩阵发送至多个用户端口;
[0009]接收所述多个用户端口对所述索引矩阵内的数据进行加噪处理而得到的加噪数据;
[0010]基于所述加噪数据计算所述多个用户端口的权重,并根据所述加噪数据和所述权重对所述指示矩阵中未被采样到的数据进行推断统计;
[0011]根据所述加噪数据和所述推断统计得到的剩余数据值,得到每个采样任务的真值。
[0012]可选的,根据所述多个真值发现任务生成指示矩阵,包括:
[0013]将所述多个真值发现任务分配给所述多个客户端口;
[0014]根据所述多个客户端口与所述多个真值发现任务的对应关系建立所述指示矩阵。
[0015]可选的,所述根据所述指示矩阵和所述多个任务的阈值范围以及隐私预算确定对所述指示矩阵的采样比例表示为:
[0016][0017]其中,M表示所述多个用户端口,N表示所述多个真值处理任务,M
s
表示所述多个用户端口所处理的所述多个真值发现任务的集合,dom(n)表示所述阈值范围,ε表示所述隐私预算,Num表示所述多个用户端口所完成的所述多个真值发现任务的总数量。
[0018]可选的,根据所述采样比例对所述指示矩阵进行两阶段随机采样,包括:
[0019]确定第一采样比例,并根据所述第一采样比例对所述指示矩阵进行第一次随机采样;
[0020]确定第二采样比例,并根据所述第二采样比例对所述指示矩阵进行第二次随机采样,其中,所述第二次随机采样的数据不完全与所述第一次随机采样的数据相同。
[0021]可选的,所述第一采样比例可在小于所述采样比例的范围内进行随机设置,所述第二采样比例表示为:
[0022][0023]其中,γ1表示为所述第一采样比例,γ2表示为所述第二采样比例。
[0024]可选的,所述根据所述随机采样数据生成索引矩阵,包括:
[0025]根据所述第一次随机采样的数据生成第一次采样数据集合;
[0026]根据所述第二次随机采样的数据生成第二次采样数据集合;
[0027]根据所述第一次采样数据集合和所述第二次采样数据集合建立所述索引矩阵。
[0028]可选的,所述加噪数据是采用以下方法得到的:
[0029]所述多个用户端口对所述索引矩阵内的数据注入规模为的噪音,其中,
[0030]对所述索引矩阵进行加噪处理得到所述加噪数据。
[0031]可选的,基于所述加噪数据计算所述多个用户端口的权重,并根据所述加噪数据和所述权重对所述指示矩阵中未被采样到的数据进行推断统计,包括:
[0032]基于所述加噪数据计算所述多个用户端口的权重,并根据所述权重的集合得出所述权重的加权矩阵;
[0033]根据所述加权矩阵与所述加噪数据对所述指示矩阵中未被采样到的数据进行推断统计;
[0034]其中,所述权重和所述加权矩阵表示为:
[0035][0036][0037]其中,w
s
表示为所述权重,d(
·
)可用欧式距离来度量偏差,U为所述多个用户端口的表示向量,V为所述多个真值发现任务的表示向量,W为所述多个用户端口的权重集合,β为矩阵分解的超参数(设置为1即可)。
[0038]可选的,根据所述加噪数据和所述推断统计得到的剩余数据值,得到每个采样任务的真值,包括:
[0039]根据推断统计得出的未被采样到的数据,并结合所述加噪数据进行计算直至收敛,得到所述每个采样任务的真值,其中所述计算的过程表示为:
[0040][0041][0042]其中,表示为一个用户端口一个加噪数据的值,表示为第n个所述真值发现任务的真值,w
s
表示为第s个用户端口的权重,i表示指示矩阵,α表示为计算系数,可在0

1的范围之内进行取值。
[0043]作为本申请的第二个方面,一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现本申请所提供的上述满足本地差分隐私的真值发现方法。
[0044]从上面所述可以看出,本申请提供的满足本地差分隐私的真值发现的方法和电子设备,能够在通过对多个真值发现任务进行两阶段的随机采样,并基于采样后得到的加噪数据推断未被采样到的数据值,最后根据采样得到的加噪数据和推断得到的未被采样的数据值调用非隐私的真值发现算法得到每个任务的真值,实现了在避免多个用户端口隐私泄露同时保证了最终得到的真值发现结果的准确性。
附图说明
[0045]为了更清楚地说明本申请或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0046]图1A为本申请实施例所提供的一种满足本地差分隐私的真值发现方法示意图。
[0047]图1B为本申请实施例所提供的一种两阶段随机采样过程的方法示意图。
[0048]图1C为本申请实施例所提供的一种通过两阶段随机采样建立索引矩阵的方法示意图。
[0049]图2为本申请实施例所提供的一种满足本地差分隐私的真值发现方法的电子设备结构示意图。
具体实施方式
[0050]为使本申请的目本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种满足本地差分隐私的真值发现方法,其特征在于,包括:发布多个真值发现任务,并根据所述多个真值发现任务生成指示矩阵;根据所述指示矩阵和所述多个任务的阈值范围以及隐私预算确定对所述指示矩阵的采样比例;根据所述采样比例对所述指示矩阵进行两阶段随机采样,得到随机采样数据;根据所述随机采样数据生成索引矩阵,并将所述索引矩阵发送至多个用户端口;接收所述多个用户端口对所述索引矩阵内的数据进行加噪处理而得到的加噪数据;基于所述加噪数据计算所述多个用户端口的权重,并根据所述加噪数据和所述权重对所述指示矩阵中未被采样到的数据进行推断统计;根据所述加噪数据和所述推断统计得到的剩余数据值,得到每个采样任务的真值。2.根据权利要求1所述的方法,其特征在于,根据所述多个真值发现任务生成指示矩阵,包括:将所述多个真值发现任务分配给所述多个客户端口;根据所述多个客户端口与所述多个真值发现任务的对应关系建立所述指示矩阵。3.根据权利要求1所述的方法,其特征在于,所述根据所述指示矩阵和所述多个任务的阈值范围以及隐私预算确定对所述指示矩阵的采样比例表示为:阈值范围以及隐私预算确定对所述指示矩阵的采样比例表示为:阈值范围以及隐私预算确定对所述指示矩阵的采样比例表示为:其中,M表示所述多个用户端口,N表示所述多个真值处理任务,M
s
表示所述多个用户端口所处理的所述多个真值发现任务的集合,dom(n)表示所述阈值范围,ε表示所述隐私预算,Num表示所述多个用户端口所完成的所述多个真值发现任务的总数量。4.根据权利要求3所述的方法,其特征在于,根据所述采样比例对所述指示矩阵进行两阶段随机采样,包括:确定第一采样比例,并根据所述第一采样比例对所述指示矩阵进行第一次随机采样;确定第二采样比例,并根据所述第二采样比例对所述指示矩阵进行第二次随机采样,其中,所述第二次随机采样的数据不完全与所述第一次随机采样的数据相同。5.根据权利要求4所述的方法,其特征在于,所述第一采样比例可在小于所述采样比例的范围内进行随机设置,所述第二采样比例表示为:其中,γ1表示为所述第一采样比例,γ2表示为所述第二采样比例。6...

【专利技术属性】
技术研发人员:程祥苏森张朋飞
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1