System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于强化学习的人脸识别联邦学习系统后门攻击方法技术方案_技高网

一种基于强化学习的人脸识别联邦学习系统后门攻击方法技术方案

技术编号:44343785 阅读:5 留言:0更新日期:2025-02-18 20:57
本发明专利技术公开了一种基于强化学习的人脸识别联邦学习系统后门攻击方法,涉及联邦学习安全技术领域。本发明专利技术包括:获取构建强化学习虚拟环境的基础信息;采用马尔科夫链构建用于强化学习的虚拟环境;构建基于深度神经网络的强化模型,并在构建的强化学习虚拟环境中对强化模型进行训练,基于训练好的强化模型得到后门攻击模型;再将该模型置于目标联邦系统的真实环境中进行测试以实现对模型参数的微调,得到用于目标联邦系统的后门攻击模型实例。本发明专利技术解决了现有联邦学习后门攻击存在的适应性不佳,需要大量后门设备以及持久性差的问题;并且可以进一步提升联邦学习系统对后门攻击的防御能力,以及丰富联邦学习系统的后门防御能力的评估方式。

【技术实现步骤摘要】

本专利技术涉及联邦学习安全领域,尤其涉及一种基于强化学习的人脸识别联邦学习系统后门攻击方法


技术介绍

1、近年来,随着人脸识别设备的普遍使用,“刷脸”已经成为了日常生活中必不可少的动作。现阶段的人脸识别设备往往部署在边缘设备上,这些设备的算力和存储能力有限,难以支持较大模型的训练,因此部分人脸识别系统以联邦学习的方式进行训练和部署。

2、联邦学习近年来受到了相当大的关注,并且正在成为一个流行的机器学习框架,它允许客户以分散的方式训练机器学习模型,而无需共享任何私有数据集。随着科技的发展,联邦学习已经成为了一种新兴的机器学习范式,它允许多个参与者共享模型参数,而不是原始数据。这种方法在保护用户隐私的同时,也能够实现跨设备和跨组织的协同学习。现实中的人脸识别联邦系统并不服务于单一用户,而是基于一定的准入机制允许满足条件的客户端根据自身需求选择是否加入联邦系统。

3、在联邦学习框架中,学习任务的数据是在边缘节点本地获取和处理的,只有更新后的模型参数才会传输到中央编排服务器进行聚合。然而,联邦学习的这种分布式特性也使其面临着一系列安全威胁,其中最为严重的就是后门攻击。后门攻击是一种恶意行为,攻击者在模型训练过程中注入恶意代码,使得模型在特定的触发条件下表现异常。这种攻击方式对于联邦学习尤其危险,因为攻击者可以利用后门攻击来窃取其他参与者的信息,或者破坏整个联邦学习系统。联邦学习中的后门攻击背后的主要思想是操纵联邦学习设置中的局部模型来破坏全局模型。在这些攻击中,攻击者试图在一个或多个局部模型中引入触发器,这样全局模型在输入上存在触发器时将具有特定的行为。后门攻击中的触发器可以分为人工触发器和语义触发器两种,人工触发器是指通过人为的方式修改图片内容(例如在图片的指定位置添加标记)来构成后门;语义触发器则是将图片的一些特征作为后门。因而有必要通过对后门攻击方式研究以提升攻击效率和成功率,同时降低被检测到的风险;进而促进联邦学习后门攻击防御手段、后门攻击检测手段等的发展,最终达到提升联邦学习安全性能的目的。

4、现有联邦学习的后门攻击通常只针对特定类型的防御,或者需要相对大量的恶意设备才能有效,并且,它们都不能破坏训练后防御。主要原因是这些攻击是短时的,并且在很大程度上忽略了潜在防御对(长期)攻击性能的影响,现有联邦学习的后门攻击的缺陷不利于联邦学习后门攻击防御领域的发展。


技术实现思路

1、针对现有技术的不足,本专利技术的目的在于提出一种基于强化学习的人脸识别联邦学习系统后门攻击方法,针对现有联邦学习后门攻击存在的适应性不佳,需要大量后门设备以及持久性差的不足而导致联邦学习后门攻击防御领域发展受限的问题。

2、本专利技术为解决上述技术问题,采用的方案是:

3、一种基于强化学习的人脸识别联邦学习系统后门攻击方法,该方法包括以下步骤:

4、步骤1,获取构建强化学习虚拟环境的基础信息以构建强化学习虚拟环境;

5、其中,基础信息包括的信息对象包括人脸识别联邦学习系统的聚合服务器、客户端和人脸识别模型;

6、步骤2,采用马尔科夫链构建用于强化学习的虚拟环境,从而得到一个用于训练强化模型的联邦系统;

7、强化学习虚拟环境包括:状态空间s、动作空间a、状态转移函数p和奖励函数r;

8、其中,状态空间s为一系列观测值和动作值构成的二元组,将联邦系统在每一训练轮次的状态定义为:,其中,t用于标识训练轮次,为人脸识别模型的全局模型参数,为第t轮的采取的控制动作,表征聚合服务器在第t轮采用的恶意设备(也可称为恶意客户端)集;

9、动作空间a为恶意设备的联合动作,,其中,表示第t轮恶意设备k的控制动作,即k为恶意设备标识;

10、状态转移函数p的表征形式为:s×a→p(s),其由正常客户端和恶意客户端的数量、客户端的本地数据集和训练方法、以及客户端数据集的采样率和聚合服务器采用的防御机制共同决定;

11、奖励函数r用于对给定的状态和动作设置对应的奖励;

12、步骤3,构建基于深度神经网络的强化模型,并在构建的强化学习虚拟环境中对强化模型进行训练,基于训练好的强化模型得到后门攻击模型;

13、其中,强化模型的输入为给定的状态,强化模型的输出为当前训练轮次的各恶意设备的控制动作;

14、步骤4,将步骤3得到的后门攻击模型置于目标联邦系统的真实环境中进行测试,根据测试结果对后门攻击模型的模型参数进行微调,得到用于目标联邦系统的后门攻击模型实例。

15、进一步的,本专利技术还包括步骤5:基于微调后的后门攻击模型在目标联邦学习系统中的攻击结果部署目标联邦学习系统的后门攻击防御策略,或基于攻击结果评估目标联邦学习系统后门防御能力。

16、进一步的,步骤1中,聚合服务器、客户端和人脸识别模型的基础信息分别包括:

17、聚合服务器的基础信息包括聚合方法和防御机制;

18、客户端的基础信息包括客户端数量、单次更新选择的客户端的数量以及客户端在本地学习时的超参数;

19、人脸识别模型的基础信息包括用于实现人脸识别的网络模型的模型框架。

20、进一步的,本专利技术中,奖励函数r具体设置为:

21、

22、其中,表示第t轮的奖励值,表示数学期望,表示聚合后的损失函数,表示在考虑了防御策略和聚合方法的第t+1轮更新后的全局模型参数,即聚合后的损失函数是正常客户端和恶意客户端聚合后共同作用的结果,表示防御策略,表示聚合服务器采用的聚合函数,表示损失函数,下标用于标识正常客户端,下标用于标识恶意客户端,表示正常客户端的输入数据,表示正常客户端的标签,表示恶意客户端的输入数据,表示恶意客户端的标签,表示客户端当前接受的从服务器传递过来的全局模型参数(可简称为全局模型),表示第t轮服务器选择到的客户端集合,表示恶意客户端集合。

23、进一步的,步骤3中,对强化模型进行训练时,采用的优化目标函数为:

24、

25、其中,用于表征对应于状态的控制策略函数,表示强化模型选择采取的控制动作,表示在强化学习虚拟环境中模拟的联邦学习回合数,表示未来奖励的贴现因子,定义为单轮联邦学习的后门损失函数,即本专利技术中,基于t回合中所有的后门损失函数的函数值之和得到优化目标函数值,优化目标是使得t回合内总后门损失值最小,这将使得强化方法在学习过程中尽可能地考虑t回合后的攻击效果,从而保证攻击效果的持久性。

26、进一步的,步骤3中,在强化模型的训练过程中,采用单智能体形式或多智能体形式执行一项指定的后门攻击任务,其中,智能体表示用于执行强化模型的设备终端。

27、进一步的,采用单智能体形式执行后门攻击任务时,将每一联邦训练轮次下的单智能体奖励值设置为:,其中,表示强化模型的精度,表示预置的权重,表示后门攻击任务精度。

28、进一步的,可以通过恶意客户端当前获取的全局本文档来自技高网...

【技术保护点】

1.一种基于强化学习的人脸识别联邦学习系统后门攻击方法,其特征在于,包括下列步骤:

2.如权利要求1所述的一种基于强化学习的人脸识别联邦学习系统后门攻击方法,其特征在于,还包括步骤5:基于微调后的后门攻击模型在目标联邦学习系统中的攻击结果部署目标联邦学习系统的后门攻击防御策略,或基于攻击结果评估目标联邦学习系统后门防御能力。

3.如权利要求1或2所述的一种基于强化学习的人脸识别联邦学习系统后门攻击方法,其特征在于,步骤1中,聚合服务器、客户端和人脸识别模型的基础信息分别包括:

4.如权利要求1或2所述的一种基于强化学习的人脸识别联邦学习系统后门攻击方法,其特征在于,奖励函数R具体设置为:

5.如权利要求1或2所述的一种基于强化学习的人脸识别联邦学习系统后门攻击方法,其特征在于,步骤3中,对强化模型进行训练时,采用的优化目标函数为:

6.如权利要求1或2所述的一种基于强化学习的人脸识别联邦学习系统后门攻击方法,其特征在于,步骤3中,在强化模型的训练过程中,采用单智能体形式或多智能体形式执行一项指定的后门攻击任务,其中,智能体表示用于执行强化模型的设备终端。

7.如权利要求6所述的一种基于强化学习的人脸识别联邦学习系统后门攻击方法,其特征在于,采用单智能体形式执行后门攻击任务时,将每一联邦训练轮次下的单智能体奖励值设置为:,其中,表示强化模型的精度,表示预置的权重,表示后门攻击任务精度。

8.如权利要求7所述的一种基于强化学习的人脸识别联邦学习系统后门攻击方法,其特征在于,强化模型的精度通过恶意客户端当前获取的全局模型参数在干净数据集进行测试得到的模型精确度;

9.如权利要求8所述的一种基于强化学习的人脸识别联邦学习系统后门攻击方法,其特征在于,将精度、分别设置为:

10.如权利要求6所述的一种基于强化学习的人脸识别联邦学习系统后门攻击方法,其特征在于,采用多智能体形式执行后门攻击任务时,设置个体奖励函数和团队奖励函数设置,具体为:

...

【技术特征摘要】

1.一种基于强化学习的人脸识别联邦学习系统后门攻击方法,其特征在于,包括下列步骤:

2.如权利要求1所述的一种基于强化学习的人脸识别联邦学习系统后门攻击方法,其特征在于,还包括步骤5:基于微调后的后门攻击模型在目标联邦学习系统中的攻击结果部署目标联邦学习系统的后门攻击防御策略,或基于攻击结果评估目标联邦学习系统后门防御能力。

3.如权利要求1或2所述的一种基于强化学习的人脸识别联邦学习系统后门攻击方法,其特征在于,步骤1中,聚合服务器、客户端和人脸识别模型的基础信息分别包括:

4.如权利要求1或2所述的一种基于强化学习的人脸识别联邦学习系统后门攻击方法,其特征在于,奖励函数r具体设置为:

5.如权利要求1或2所述的一种基于强化学习的人脸识别联邦学习系统后门攻击方法,其特征在于,步骤3中,对强化模型进行训练时,采用的优化目标函数为:

6.如权利要求1或2所述的一种基于强化学习的人脸识别联邦学习系统后门攻击方法,其...

【专利技术属性】
技术研发人员:解修蕊张东阳罗光春杨雨宁陈宇李东珉
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1