群智感知环境下真值发现算法的多轮次数据投毒攻击系统技术方案

技术编号：34437303 阅读：20 留言：0更新日期：2022-08-06 16:22

本发明专利技术涉及数据投毒技术领域，且公开了群智感知环境下真值发现算法的多轮次数据投毒攻击系统，TruthFinder公布上一轮的聚合真值利用恶意工人在上一轮提交的数据和Ground Truth计算出奖励值reward、估计状态和观测值三元组(Truth

全部详细技术资料下载

【技术实现步骤摘要】
群智感知环境下真值发现算法的多轮次数据投毒攻击系统

[0001]本专利技术涉及数据投毒
，具体为群智感知环境下真值发现算法的多轮次数据投毒攻击系统。

技术介绍

[0002]大数据时代，数据质量良莠不齐，人们需要不断从海量数据中挖掘出有效价值信息。而进行大规模的数据收集需要高昂的成本，各大企业机构多采用众包服务来进行数据收集工作，在控制成本的情况下高效率收集数据。群智感知是指通过用户的传感设备来收集各种类型的数据，其本质上仍属于众包服务，每个提交数据的用户都是众包服务中的工人。
[0003]全局信息优化法数据投毒和自举法数据投毒都适用于单次的数据投毒场景，并未考虑多轮次的数据投毒场景，其次，全局信息优化法数据投毒技术都建立在攻击者可以获取到全局信息的假设下展开的，即攻击者可以通过入侵正常工人的设备等手段获取到正常工人的数据、某些先验知识以及真值发现算法的配置。

技术实现思路

[0004](一)解决的技术问题
[0005]针对现有技术的不足，本专利技术提供了群智感知环境下真值发现算法的多轮次数据投毒攻击系统本专利技术用于群智感知环境下，针对真值发现算法的多轮次数据投毒攻击，本专利技术针对现有数据投毒技术的缺点进行了改进，考虑多轮次数据投毒攻击场景，改进了现有的深度强化学习数据投毒模型，充分考虑了数据投毒攻击动作时序上的连续性，实验表明，本专利技术的攻击效果更佳，在发起数据投毒攻击时，能自动设计攻击策略使得攻击的整体收益最大化。本专利技术从攻击的角度出发，考虑了当前存在的数据投毒技术的...

【技术保护点】

【技术特征摘要】
1.群智感知环境下真值发现算法的多轮次数据投毒攻击系统，其特征在于，包括以下步骤：S1、获得观测值三元组TruthFinder公布上一轮的聚合真值利用恶意工人在上一轮提交的数据和Ground Truth计算出奖励值reward、估计状态和观测值三元组(Truth
g
，Truth
a
，Truth
f
)，reward为t时刻恶意工人执行动作后得到的回报，估计状态用于t+1时刻输入模型做决策；S2、估计状态将恶意工人在当前时刻的状态state、当前执行的动作action以及、下一时刻恶意工人即将进入的状态next_state和判断当前任务是否结束的标志done组成一条历史经验(state,action,reward,next_state,done)，储存到经验池中，用于训练模型；S3、恶意工人动作空间将估计状态输入到模型中去，模型输出恶意工人执行不同动作所对应的奖励值reward，获得每个动作的reward后，智能体选择“探索”或“学习”，“探索”时，随机选取一个动作，“学习”时，则选取reward最大的动作；S4、生成恶意数据确定恶意工人应该执行的动作后，根据动作来生成恶意数据，S5、DRQN建模到达下一个整点时，将恶意数据提交到TruthFinder中；S6、优先经验回放将经验池中的历史经验抽取出来做经验回放，训练模型，使得其输出更加精确。2.根据权利要求1所述的群智感知环境下真值发现算法的多轮次数据投毒攻击系统，其特征在于，所述步骤S1中，观察值为攻击者可以获取到的本地信息，分为别Ground Truth:Truth
g
、攻击者提交的数据Truth
a
和TruthFinder公布出来的上一轮任务中计算出的真值：Truth
f
，Ground Truth为攻击者使用多个设备测得的数据均值，一条观察值为一个三元组(Truth
g
，Truth
a
，Truth
f
)。3.根据权利要求1所述的群智感知环境下真值发现算法的多轮次数据投毒攻击系统，其特征在于，所述步骤S2中，TruthFinder用权重w来衡量每个工人的可信度，权重越高，该工人所提交的数据会被更多的采纳参与聚合，因此攻击者希望在有效攻击的前提下，尽可能保持高的可信度，由于攻击者无法知道TruthFinder内部给每个工人分配的权重，因此我们采用状态估计向量(evec,avec)来表示攻击者当前所处的形势，evec表示攻击成功或者失败,avec表示攻击向量，即攻击动作。4.根据权利要求1所述的群智感知环境下真值发现算法的多轮次数据投毒攻击系统，其特征在于，所述步骤S2中，奖励值为攻击者采用某个攻击动作后，得到的收益，设置奖励值是深度强化学习中极为重要的一步，决定了模型学习的方向是否正确，攻击者应该在发起攻击的前提下，尽可能的伪装自己，不被TruthFinder发现，尽可能的保持较高的权重，因
此奖励值的设置给予了攻击者部分隐藏奖励，使得攻击者在胜算不大的任务下，提交高质量的数据以提高自己的权重，使自己在下一轮聚合中更多的参与进来，奖励值计算方式为：reward＝λRdif(rruth
g
，Truth
f
)+...

【专利技术属性】
技术研发人员：李默涵，张宏妞，孙彦斌，田志宏，顾钊铨，韩伟红，唐可可，李树栋，仇晶，
申请(专利权)人：广州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人