System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于工业控制系统的网络安全防御领域,尤其涉及一种基于随机博弈与强化学习的防御策略决策方法及系统。
技术介绍
1、本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
2、在全行业数字化浪潮下,工业控制系统的信息化程度越来越高。一方面,这为行业节省大量的硬件和基础设施成本并显著地提高生产力。另一方面,由于与互联网的连接不断增加,工业控制系统正遭受复杂多变的网络攻击。此外,在网络攻防过程中,对于给定的攻击策略不同的防御策略会产生不同的防御收益。因此,如何为工业控制系统选择最优的防御策略从而获得最佳的防御收益具有广泛的现实意义。
3、近年来,很多针对上述问题的研究都集中在新方法上,如博弈论和强化学习。首先,网络攻击者和防御者之间目标对立以及攻击策略和防御策略相互影响的事实使得网络防御决策过程与博弈论所涉及的基本过程非常契合。此外,随机博弈是博弈论与马尔可夫决策的结合, 能够刻画网络攻防的随机性和动态性。因此,利用随机博弈建立网络攻防模型来指导防御决策逐渐成为一个研究热点。
4、现有的基于随机博弈对工业控制系统进行网络攻防分析的方法普遍采用完全理性假设。完全理性包括追求最大收益、分析推理能力和识别判断能力等多方面的完美性要求,其中任何一方面不完美就属于有限理性;然而实际的网络攻防过程很难达到完全理性的条件,导致现有基于完全理性假设所得的防御策略依然存在实用性低、准确性差和鲁棒性不佳的问题。
技术实现思路
1、为克服上述现
2、为实现上述目的,本专利技术的一个或多个实施例提供了如下技术方案:
3、本专利技术第一方面提供了一种基于随机博弈与强化学习的防御策略决策方法。
4、一种基于随机博弈与强化学习的防御策略决策方法,包括:
5、在有限理性约束下,构建用以分析工业控制系统网络攻防过程的网络攻防博弈模型;
6、利用优先经验回放机制,在ddqn算法的基础上构造per-ddqn算法;
7、将网络攻防博弈模型与per-ddqn算法相结合,作为防御者的学习方法,使防御者在有限理性约束下通过学习,获得各个博弈状态所对应的最优防御策略;
8、其中,所述学习,在网络攻防过程的初始阶段,防御者与攻击者进行大量交互产生训练样本存入经验池,防御者利用优先经验回放机制从经验池中抽取样本进行训练,通过学习逐步寻找到各个博弈状态所对应的最优防御策略。
9、进一步的,所述网络攻防博弈模型是一个六元组,定义为nad-sgm = (n,s,d,r,q,);
10、其中,n代表博弈的参与者,s代表随机博弈的状态空间,d代表防御动作集合,代表防御者采取防御动作后的立即回报;代表防御者采取防御动作后的期望收益;代表防御者的防御策略。
11、进一步的,所述有限理性约束,是在构建的网络攻防博弈模型中,防御者根据选择防御动作的概率来选择防御者的防御策略,网络攻防过程的初始阶段攻防双方采取随机概率选择策略,通过学习找到最优防御策略。
12、进一步的,所述per-ddqn算法,在ddqn算法的基础上加入优先经验回放机制,优先经验回放机制改变样本被抽取的概率,per-ddqn算法中样本m被抽取的概率定义为:
13、
14、其中,代表第m个样本被抽取出来进行学习的概率;代表优先级参数;代表第m个样本的优先级, k代表训练样本的个数。
15、进一步的,所述per-ddqn算法的损失函数为:
16、
17、其中,代表目标q值,代表t时刻智能体在状态采取动作的预测q值,代表重要性采样权重,用于校正样本计算梯度时的误差,具体公式为:
18、
19、其中,n代表经验池容量大小,代表控制校正程度,代表第m个样本被抽取的概率。
20、进一步的,所述将网络攻防博弈模型与per-ddqn算法相结合,具体为:
21、per-ddqn算法的环境采用网络攻防博弈模型的博弈状态进行建模,per-ddqn算法中的智能体对应网络攻防博弈模型的防御者,智能体的行为采用网络攻防博弈模型的防御动作,智能体的立即回报对应网络攻防博弈模型的立即回报,智能体的策略对应网络攻防博弈模型的防御策略。
22、进一步的,所述在有限理性约束下通过学习,具体过程为:
23、识别到攻击时,根据当前状态计算最优防护策略并执行所选的防御动作,将其作为一条经验存入经验池,并赋予比之前经验更高的优先级;
24、当经验池中的样本数到达一个训练批次所要求的样本数量,则根据样本被抽取的概率抽取样本进行学习。
25、本专利技术第二方面提供了一种基于随机博弈与强化学习的防御策略决策系统。
26、一种基于随机博弈与强化学习的防御策略决策系统,包括模型构建模块、算法构造模块和学习决策模块:
27、模型构建模块,被配置为:在有限理性约束下,构建用以分析工业控制系统网络攻防过程的网络攻防博弈模型;
28、算法构造模块,被配置为:利用优先经验回放机制,在ddqn算法的基础上构造per-ddqn算法;
29、学习决策模块,被配置为:将网络攻防博弈模型与per-ddqn算法相结合,作为防御者的学习方法,使防御者在有限理性约束下通过学习,获得各个博弈状态所对应的最优防御策略;
30、其中,所述学习,在网络攻防过程的初始阶段,防御者与攻击者进行大量交互产生训练样本存入经验池,防御者利用优先经验回放机制从经验池中抽取样本进行训练,通过学习逐步寻找到各个博弈状态所对应的最优防御策略。
31、本专利技术第三方面提供了计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如本专利技术第一方面所述的一种基于随机博弈与强化学习的防御策略决策方法中的步骤。
32、本专利技术第四方面提供了电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本专利技术第一方面所述的一种基于随机博弈与强化学习的防御策略决策方法中的步骤。
33、以上一个或多个技术方案存在以下有益效果:
34、本专利技术将强化学习算法与随机博弈模型相结合,在网络攻防过程的初始阶段,基于有限理性约束,防御者与攻击者进行大量交互产生训练样本存入经验池,防御者利用优先经验回放机制从经验池中抽取样本进行训练学习,逐步寻找到各个博弈状态所对应的最优防御策略,克服基于完全理性假设所得的防御策略实用性低的缺点,改进了防御者的学习方法,提升了防御者的学习速度。
35、本专利技术利用优先经验回放机制,在ddqn算法的基础上构造per-ddq本文档来自技高网...
【技术保护点】
1.一种基于随机博弈与强化学习的防御策略决策方法,其特征在于,包括:
2.如权利要求1所述的一种基于随机博弈与强化学习的防御策略决策方法,其特征在于,所述网络攻防博弈模型是一个六元组,定义为NAD-SGM = (N,S,D,R,Q,);
3.如权利要求2所述的一种基于随机博弈与强化学习的防御策略决策方法,其特征在于,所述有限理性约束,是在构建的网络攻防博弈模型中,防御者根据选择防御动作的概率来选择防御者的防御策略,网络攻防过程的初始阶段攻防双方采取随机概率选择策略,通过学习找到最优防御策略。
4.如权利要求1所述的一种基于随机博弈与强化学习的防御策略决策方法,其特征在于,所述PER-DDQN算法,在DDQN算法的基础上加入优先经验回放机制,优先经验回放机制改变样本被抽取的概率,PER-DDQN算法中样本m被抽取的概率定义为:
5.如权利要求1所述的一种基于随机博弈与强化学习的防御策略决策方法,其特征在于,所述PER-DDQN算法的损失函数为:
6.如权利要求1所述的一种基于随机博弈与强化学习的防御策略决策方法,其特征在于
7.如权利要求1所述的一种基于随机博弈与强化学习的防御策略决策方法,其特征在于,所述在有限理性约束下通过学习,具体过程为:
8.一种基于随机博弈与强化学习的防御策略决策系统,其特征在于,包括模型构建模块、算法构造模块和学习决策模块:
9.一种电子设备,其特征是,包括:
10.一种存储介质,其特征是,非暂时性地存储计算机可读指令,其中,当所述非暂时性计算机可读指令由计算机执行时,执行权利要求1-7任一项所述方法的指令。
...【技术特征摘要】
1.一种基于随机博弈与强化学习的防御策略决策方法,其特征在于,包括:
2.如权利要求1所述的一种基于随机博弈与强化学习的防御策略决策方法,其特征在于,所述网络攻防博弈模型是一个六元组,定义为nad-sgm = (n,s,d,r,q,);
3.如权利要求2所述的一种基于随机博弈与强化学习的防御策略决策方法,其特征在于,所述有限理性约束,是在构建的网络攻防博弈模型中,防御者根据选择防御动作的概率来选择防御者的防御策略,网络攻防过程的初始阶段攻防双方采取随机概率选择策略,通过学习找到最优防御策略。
4.如权利要求1所述的一种基于随机博弈与强化学习的防御策略决策方法,其特征在于,所述per-ddqn算法,在ddqn算法的基础上加入优先经验回放机制,优先经验回放机制改变样本被抽取的概率,per-ddqn算法中样本m被抽取的概率定...
【专利技术属性】
技术研发人员:徐丽娟,李新占,周洋,岳义群,赵大伟,
申请(专利权)人:山东省计算中心国家超级计算济南中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。