当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于博弈论的高级可持续攻击检测方法技术

技术编号:34271795 阅读:14 留言:0更新日期:2022-07-24 16:12
本发明专利技术公开了一种基于博弈论的高级可持续攻击检测方法,属于网络安全技术领域。一种基于博弈论的高级可持续攻击检测方法,首先,提出一种子图修剪策略,对原始的IFG信息流图的不重要信息流和节点进行剪枝;其次,通过深度Q网络进行训练,训练期间根据当前Q

An advanced sustainable attack detection method based on Game Theory

【技术实现步骤摘要】
一种基于博弈论的高级可持续攻击检测方法


[0001]本专利技术涉及网络安全
,尤其涉及一种基于博弈论的高级可持续攻击检测方法。

技术介绍

[0002]随着通信网络和移动互联网以及其应用的快速发展,网络基站、移动终端、数据朝着智能化和海量化发展。由于网络规模不断扩大,网络拓扑结构变得越来越复杂,网络流量的动态变化和攻击手段不断升级,使得目前现有的这些检测方法不能满足异常检测的实时性和准确性方面的要求。
[0003]近年来,网络攻击最近被确定为对网络安全的最严重威胁。高级持续性威胁(APT)攻击是已出现的最危险的网络攻击威胁之一。APT 被定义为一种典型的网络威胁类型。它的目标通常是观察系统活动并不断提取极其敏感的数据,而不是对系统或业务造成损害。APT使用复杂和隐蔽的攻击策略来实现对受害者系统的未授权访问,并将特权提升到root权限,如图1所示,APT攻击分为多个阶段,通常情况下第一个阶段是通过钓鱼邮件,然后被APT攻击感染,APT攻击通过静默路径潜入系统进行隐藏,通过不同阶段的游走并获取更高级的权限。然后,当攻击者获得更高权限并访问敏感信息服务器以获取更多关键数据。最后,APT攻击找到对应的信息流路径,获取敏感数据。另一反面,动态信息流跟踪(DIFT)是一种跟踪信息流的工具,它还可以根据环境调整标记策略,常用于跟踪和检测APT信息流。图2 是ATP攻击的多个阶段的示意图。
[0004]目前有两种领先的解决方案。一种主要使用简单的机器学习分类方法。例如,使用机器学习技术进行识别,通过提取特征来分类不同的攻击模式;第二种方法是博弈论,它模拟APT和防御者之间的相互作用并试图找到纳什均衡状态。例如提出了一种博弈论来模拟APT 和基于DIFT的相互作用的检测,但这些模型是非随机的,因为没有考虑误报和漏报的概念。为了解决上述内容所指出问题和不足,本专利技术提出了一种基于博弈论的高级可持续攻击检测方法。

技术实现思路

[0005]本专利技术的目的在于解决现有技术针对APT缺乏特征和难以记录,难以将APT网络流和正常网络流进行分类的问题。
[0006]为了实现上述目的,本专利技术采用了如下技术方案:
[0007]一种基于博弈论的高级可持续攻击检测方法,具体包括以下步骤:
[0008]步骤1、子图修剪:鉴于网络中的数据流绝大多数都与实际攻击无关的系统后台进程(噪声)相关联,提出一种子图修剪策略,对原始的IFG信息流图的不重要信息流和节点进行剪枝;
[0009]步骤2、网络训练:Q

Learning的思想是基于深度强化学习中的值迭代,适用于低维离散动作空间;通过深度Q网络进行训练,训练期间根据当前Q

network和目标Q

network
这两个Q网络不断进行值迭代并更新参数;
[0010]步骤3、DPS策略:基于深度强化学习的Policy Space Response Oracle,提出一种DPS策略,通过收益值的迭代让博弈双方都找到自己的最优策略,达到纳什均衡NE。
[0011]优选地,所述步骤1中提到的子图剪枝策略,具体包括以下内容:
[0012]A1、当原始图IFG中的两个节点有多个方向相同的边时,将它们组合成单个有向边;
[0013]A2、在原始图IFG图中查找度数小于2的所有节点;若节点没有信息流到源点,则证明该节点是孤立的,攻击者无法到达;使用 k

core算法删除这些节点;
[0014]A3、若两个节点具有相同的出度和入度,并且来自和到达同一节点,同时该节点所代表的网络实体类型相同,则这两个点是等价节点,将这两个等价节点合并为一个节点;
[0015]A4、当节点有自环边时,删除该节点。
[0016]优选地,所述步骤2中提到通过深度Q网络进行训练,在训练过程中,使用∈

greed来选择一个动作,代理可以在下一个状态中获得的最高值,具体包括以下内容:
[0017]B1、选择一个概率为∈的随机动作或Q

network获得的最高值动作;
[0018]B2、对环境中的当前状态s采取行动a,代理获得作为奖励r和新状态s

的价值;
[0019]B3、设置一个二元参数d,用于表示本轮游戏是否结束;
[0020]B4、综合B1~B3所述内容,完成网络训练的动作选择,具体计算方程为:
[0021]Q(s

,a

)=R
t+1
+γmax Q(s

,a

)(1

d)
[0022]其中,Q(s

,a

)表示采取了∈

greed策略后的新的Q

network,R
t+1
表示得到的收益,γ是一个折扣因子,反映了未来奖励对当前状态的影响,d表示一个二进制参数,用于判断博弈是否结束。
[0023]优选地,所述步骤2中提到训练期间根据当前Q

network和目标 Q

network这两个Q网络来更新参数,所述参数更新部分,具体为深度Q网络通过使用乱序样本和梯度下降法最小化经验重放部分中的损失函数来提高Q

action网络的性能,所述损失函数具体为:
[0024]Loss=[(R
t+1
+γmax Q(s

,a

)(1

d))

Q(s,a)]2[0025]其中,Loss代表损失函数,Q(s,a)是Q

network,max Q(s

,a

)代表目标Q

network,Q

network和目标Q

network之差尽可能的小是本文提出的要求;γ是一个折扣因子,反映了未来奖励对当前状态的影响,然后双方在对环境中的当前状态s采取行动a后获得作为收益R
t+1
和新状态s

的值;此外,还会有一个二进制参数d来表示本轮博弈是否结束。
[0026]优选地,所述步骤3中提到的DPS策略,具体包括以下内容:
[0027]D1、complete阶段,初始化APT和DIFT的策略集,随机选择法律行动,然后准备一个初始策略配置文件s;
[0028]D2、solve阶段,使用Nash作为元求解器计算整个游戏的配置文件战略;
[0029]D3、expand阶段,使用DQN作为Oracle O为每个代理,然后将新策略移至第一个完成阶段。即代理玩家只保存新策略,新策略对π有更好的回报,将其命名为最佳响应;当PSRO算法的一次迭代结束时,若找到至少一个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于博弈论的高级可持续攻击检测方法,其特征在于,具体包括以下步骤:步骤1、子图修剪:鉴于网络中的数据流绝大多数都与实际攻击无关的系统后台进程(噪声)相关联,提出一种子图修剪策略,对原始的IFG信息流图的不重要信息流和节点进行剪枝;步骤2、网络训练:Q

Learning的思想是基于深度强化学习中的值迭代,适用于低维离散动作空间;通过深度Q网络进行训练,训练期间根据当前Q

network和目标Q

network这两个Q网络不断进行值迭代并更新参数;步骤3、DPS策略:基于深度强化学习的Policy Space Response Oracle,提出一种DPS策略,通过收益值的迭代让博弈双方都找到自己的最优策略,达到纳什均衡NE。2.根据权利要求1所述的一种基于博弈论的高级可持续攻击检测方法,其特征在于,所述步骤1中提到的子图剪枝策略,具体包括以下内容:A1、当原始图IFG中的两个节点有多个方向相同的边时,将它们组合成单个有向边;A2、在原始图IFG图中查找度数小于2的所有节点;若节点没有信息流到源点,则证明该节点是孤立的,攻击者无法到达;使用k

core算法删除这些节点;A3、若两个节点具有相同的出度和入度,并且来自和到达同一节点,同时该节点所代表的网络实体类型相同,则这两个点是等价节点,将这两个等价节点合并为一个节点;A4、当节点有自环边时,删除该节点。3.根据权利要求1所述的一种基于博弈论的高级可持续攻击检测方法,其特征在于,所述步骤2中提到通过深度Q网络进行训练,在训练过程中,使用∈

greed来选择一个动作,代理可以在下一个状态中获得的最高值,具体包括以下内容:B1、选择一个概率为∈的随机动作或Q

network获得的最高值动作;B2、对环境中的当前状态s采取行动a,代理获得作为奖励r和新状态s

的价值;B3、设置一个二元参数d,用于表示本轮游戏是否结束;B4、综合B1~B3所述内容,完成网络训练的动作选择,具体计算方程为:Q(s

,a

)=R
t+1
+γmaxQ(s

,a
′<...

【专利技术属性】
技术研发人员:闫昊郭得科陈胜曲雯毓
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1