当前位置: 首页 > 专利查询>广州大学专利>正文

群智感知环境下真值发现算法的多轮次数据投毒攻击系统技术方案

技术编号:34437303 阅读:20 留言:0更新日期:2022-08-06 16:22
本发明专利技术涉及数据投毒技术领域,且公开了群智感知环境下真值发现算法的多轮次数据投毒攻击系统,TruthFinder公布上一轮的聚合真值利用恶意工人在上一轮提交的数据和Ground Truth计算出奖励值reward、估计状态和观测值三元组(Truth

【技术实现步骤摘要】
群智感知环境下真值发现算法的多轮次数据投毒攻击系统


[0001]本专利技术涉及数据投毒
,具体为群智感知环境下真值发现算法的多轮次数据投毒攻击系统。

技术介绍

[0002]大数据时代,数据质量良莠不齐,人们需要不断从海量数据中挖掘出有效价值信息。而进行大规模的数据收集需要高昂的成本,各大企业机构多采用众包服务来进行数据收集工作,在控制成本的情况下高效率收集数据。群智感知是指通过用户的传感设备来收集各种类型的数据,其本质上仍属于众包服务,每个提交数据的用户都是众包服务中的工人。
[0003]全局信息优化法数据投毒和自举法数据投毒都适用于单次的数据投毒场景,并未考虑多轮次的数据投毒场景,其次,全局信息优化法数据投毒技术都建立在攻击者可以获取到全局信息的假设下展开的,即攻击者可以通过入侵正常工人的设备等手段获取到正常工人的数据、某些先验知识以及真值发现算法的配置。

技术实现思路

[0004](一)解决的技术问题
[0005]针对现有技术的不足,本专利技术提供了群智感知环境下真值发现算法的多轮次数据投毒攻击系统本专利技术用于群智感知环境下,针对真值发现算法的多轮次数据投毒攻击,本专利技术针对现有数据投毒技术的缺点进行了改进,考虑多轮次数据投毒攻击场景,改进了现有的深度强化学习数据投毒模型,充分考虑了数据投毒攻击动作时序上的连续性,实验表明,本专利技术的攻击效果更佳,在发起数据投毒攻击时,能自动设计攻击策略使得攻击的整体收益最大化。本专利技术从攻击的角度出发,考虑了当前存在的数据投毒技术的改进方向,鼓励更多的研究工作朝着多轮次数据投毒攻击场景和连续数据的群智感知任务展开
[0006](二)技术方案
[0007]为实现上述针对真值发现算法的多轮次数据投毒攻击,本专利技术提供如下技术方案:群智感知环境下真值发现算法的多轮次数据投毒攻击系统,包括以下步骤:
[0008]S1、获得观测值三元组
[0009]TruthFinder公布上一轮的聚合真值利用恶意工人在上一轮提交的数据和计算出奖励值reward、估计状态和观测值三元组(Truth
g
,Truth
a
,Truth
f
),reward为t时刻恶意工人执行动作后得到的回报,估计状态用于t+1时刻输入模型做决策。
[0010]S2、估计状态
[0011]将恶意工人在当前时刻的状态state、当前执行的动作action以及、下一时刻恶意工人即将进入的状态next_state和判断当前任务是否结束的标志done组成一条历史经验
(state,action,reward,next_state,done),储存到经验池中,用于训练模型。
[0012]S3、恶意工人动作空间
[0013]将估计状态输入到模型中去,模型输出恶意工人执行不同动作所对应的奖励值reward,获得每个动作的reward后,智能体选择“探索”或“学习”,“探索”时,随机选取一个动作,“学习”时,则选取reward最大的动作。
[0014]S4、生成恶意数据
[0015]确定恶意工人应该执行的动作后,根据动作来生成恶意数据,
[0016]S5、DRQN建模
[0017]到达下一个整点时,将恶意数据提交到TruthFinder中。
[0018]S6、优先经验回放
[0019]将经验池中的历史经验抽取出来做经验回放,训练模型,使得其输出更加精确。
[0020]优选的,所述步骤S1中,观察值为攻击者可以获取到的本地信息,分为别Ground Truth:Truth
g
、攻击者提交的数据Truth
a
和TruthFinder公布出来的上一轮任务中计算出的真值:Truth
f
,Ground Truth为攻击者使用多个设备测得的数据均值,一条观察值为一个三元组(Truth
g
,Truth
a
,Truth
f
)。
[0021]优选的,所述步骤S2中,TruthFinder用权重w来衡量每个工人的可信度,权重越高,该工人所提交的数据会被更多的采纳参与聚合,因此攻击者希望在有效攻击的前提下,尽可能保持高的可信度,由于攻击者无法知道TruthFinder内部给每个工人分配的权重,因此我们采用状态估计向量(evec,avec)来表示攻击者当前所处的形势,evec表示攻击成功或者失败,avec表示攻击向量,即攻击动作。
[0022]优选的,所述步骤S2中,奖励值为攻击者采用某个攻击动作后,得到的收益,设置奖励值是深度强化学习中极为重要的一步,决定了模型学习的方向是否正确,攻击者应该在发起攻击的前提下,尽可能的伪装自己,不被TruthFinder发现,尽可能的保持较高的权重,因此奖励值的设置给予了攻击者部分隐藏奖励,使得攻击者在胜算不大的任务下,提交高质量的数据以提高自己的权重,使自己在下一轮聚合中更多的参与进来,奖励值计算方式为:
[0023]reward=λRdif(Truth
g
,Truth
f
)+(1

λ)Rconc(Truth
a
,Truth
f
)
[0024]其中
[0025]Rdif(Truth
g
,Truth
f
)
[0026]表示Ground Truth Truth
g
和TruthFinder公布的真值Truth
f
之间的欧式距离,距离越大意味着攻击效果越好,Rconc(Truth
a
,Truth
f
)表示恶意工人提交数据Truth
a
后获得的隐藏奖励,对攻击者执行隐藏动作时候,给予适量奖励,通过参数λ来控制这两部分的占比,本专利技术中设置λ=0.5。
[0027]优选的,所述步骤S3中,动作指的是恶意员工生成数据这一行为,一个总是提交远离大多数工人数据的员工很容易暴露身份,TruthFinder可以给其设置一个很低的权重,使得其无法或者尽量少的影响到真值计算过程中,因此在设计攻击策略时,要考虑在攻击成功的概率极低的情况下,让恶意员工选择隐藏身份,提交正常数据,动作空间为(

1,0,1),0
表示提交正常数据,

1和1表示为不同方向的攻击动作,1表示朝着比Ground Truth大的方向攻击,

1表示朝着比Ground Truth小的方向攻击N,α
t
=(δ1,δ2,...,δ
M
)表示恶意工人在时刻的攻击动作集合,δ为单个动作。
[0028]优选的,所述步骤S4中,设置μ=0.25,表示恶意数据偏离Ground Truth的幅度为25%。恶意工人的恶意数据为:δ
m
为攻击动作本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.群智感知环境下真值发现算法的多轮次数据投毒攻击系统,其特征在于,包括以下步骤:S1、获得观测值三元组TruthFinder公布上一轮的聚合真值利用恶意工人在上一轮提交的数据和Ground Truth计算出奖励值reward、估计状态和观测值三元组(Truth
g
,Truth
a
,Truth
f
),reward为t时刻恶意工人执行动作后得到的回报,估计状态用于t+1时刻输入模型做决策;S2、估计状态将恶意工人在当前时刻的状态state、当前执行的动作action以及、下一时刻恶意工人即将进入的状态next_state和判断当前任务是否结束的标志done组成一条历史经验(state,action,reward,next_state,done),储存到经验池中,用于训练模型;S3、恶意工人动作空间将估计状态输入到模型中去,模型输出恶意工人执行不同动作所对应的奖励值reward,获得每个动作的reward后,智能体选择“探索”或“学习”,“探索”时,随机选取一个动作,“学习”时,则选取reward最大的动作;S4、生成恶意数据确定恶意工人应该执行的动作后,根据动作来生成恶意数据,S5、DRQN建模到达下一个整点时,将恶意数据提交到TruthFinder中;S6、优先经验回放将经验池中的历史经验抽取出来做经验回放,训练模型,使得其输出更加精确。2.根据权利要求1所述的群智感知环境下真值发现算法的多轮次数据投毒攻击系统,其特征在于,所述步骤S1中,观察值为攻击者可以获取到的本地信息,分为别Ground Truth:Truth
g
、攻击者提交的数据Truth
a
和TruthFinder公布出来的上一轮任务中计算出的真值:Truth
f
,Ground Truth为攻击者使用多个设备测得的数据均值,一条观察值为一个三元组(Truth
g
,Truth
a
,Truth
f
)。3.根据权利要求1所述的群智感知环境下真值发现算法的多轮次数据投毒攻击系统,其特征在于,所述步骤S2中,TruthFinder用权重w来衡量每个工人的可信度,权重越高,该工人所提交的数据会被更多的采纳参与聚合,因此攻击者希望在有效攻击的前提下,尽可能保持高的可信度,由于攻击者无法知道TruthFinder内部给每个工人分配的权重,因此我们采用状态估计向量(evec,avec)来表示攻击者当前所处的形势,evec表示攻击成功或者失败,avec表示攻击向量,即攻击动作。4.根据权利要求1所述的群智感知环境下真值发现算法的多轮次数据投毒攻击系统,其特征在于,所述步骤S2中,奖励值为攻击者采用某个攻击动作后,得到的收益,设置奖励值是深度强化学习中极为重要的一步,决定了模型学习的方向是否正确,攻击者应该在发起攻击的前提下,尽可能的伪装自己,不被TruthFinder发现,尽可能的保持较高的权重,因
此奖励值的设置给予了攻击者部分隐藏奖励,使得攻击者在胜算不大的任务下,提交高质量的数据以提高自己的权重,使自己在下一轮聚合中更多的参与进来,奖励值计算方式为:reward=λRdif(rruth
g
,Truth
f
)+...

【专利技术属性】
技术研发人员:李默涵张宏妞孙彦斌田志宏顾钊铨韩伟红唐可可李树栋仇晶
申请(专利权)人:广州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1