一种基于博弈论的高级可持续攻击检测方法技术

技术编号：34271795 阅读：14 留言：0更新日期：2022-07-24 16:12

本发明专利技术公开了一种基于博弈论的高级可持续攻击检测方法，属于网络安全技术领域。一种基于博弈论的高级可持续攻击检测方法，首先，提出一种子图修剪策略，对原始的IFG信息流图的不重要信息流和节点进行剪枝；其次，通过深度Q网络进行训练，训练期间根据当前Q

An advanced sustainable attack detection method based on Game Theory

全部详细技术资料下载

【技术实现步骤摘要】
一种基于博弈论的高级可持续攻击检测方法

[0001]本专利技术涉及网络安全
，尤其涉及一种基于博弈论的高级可持续攻击检测方法。

技术介绍

[0002]随着通信网络和移动互联网以及其应用的快速发展，网络基站、移动终端、数据朝着智能化和海量化发展。由于网络规模不断扩大，网络拓扑结构变得越来越复杂，网络流量的动态变化和攻击手段不断升级，使得目前现有的这些检测方法不能满足异常检测的实时性和准确性方面的要求。
[0003]近年来，网络攻击最近被确定为对网络安全的最严重威胁。高级持续性威胁(APT)攻击是已出现的最危险的网络攻击威胁之一。APT 被定义为一种典型的网络威胁类型。它的目标通常是观察系统活动并不断提取极其敏感的数据，而不是对系统或业务造成损害。APT使用复杂和隐蔽的攻击策略来实现对受害者系统的未授权访问，并将特权提升到root权限，如图1所示，APT攻击分为多个阶段，通常情况下第一个阶段是通过钓鱼邮件，然后被APT攻击感染，APT攻击通过静默路径潜入系统进行隐藏，通过不同阶段的游走并获取更高级的权限。然后，当攻击者获得更高权限并访问敏感信息服务器以获取更多关键数据。最后，APT攻击找到对应的信息流路径，获取敏感数据。另一反面，动态信息流跟踪(DIFT)是一种跟踪信息流的工具，它还可以根据环境调整标记策略，常用于跟踪和检测APT信息流。图2 是ATP攻击的多个阶段的示意图。
[0004]目前有两种领先的解决方案。一种主要使用简单的机器学习分类方法。例如，使用机器学习技术进行识别，通过提取特征来分类...

【技术保护点】

【技术特征摘要】
1.一种基于博弈论的高级可持续攻击检测方法，其特征在于，具体包括以下步骤：步骤1、子图修剪：鉴于网络中的数据流绝大多数都与实际攻击无关的系统后台进程(噪声)相关联，提出一种子图修剪策略，对原始的IFG信息流图的不重要信息流和节点进行剪枝；步骤2、网络训练：Q
‑
Learning的思想是基于深度强化学习中的值迭代，适用于低维离散动作空间；通过深度Q网络进行训练，训练期间根据当前Q
‑
network和目标Q
‑
network这两个Q网络不断进行值迭代并更新参数；步骤3、DPS策略：基于深度强化学习的Policy Space Response Oracle，提出一种DPS策略，通过收益值的迭代让博弈双方都找到自己的最优策略，达到纳什均衡NE。2.根据权利要求1所述的一种基于博弈论的高级可持续攻击检测方法，其特征在于，所述步骤1中提到的子图剪枝策略，具体包括以下内容：A1、当原始图IFG中的两个节点有多个方向相同的边时，将它们组合成单个有向边；A2、在原始图IFG图中查找度数小于2的所有节点；若节点没有信息流到源点，则证明该节点是孤立的，攻击者无法到达；使用k
‑
core算法删除这些节点；A3、若两个节点具有相同的出度和入度，并且来自和到达同一节点，同时该节点所代表的网络实体类型相同，则这两个点是等价节点，将这两个等价节点合并为一个节点；A4、当节点有自环边时，删除该节点。3.根据权利要求1所述的一种基于博弈论的高级可持续攻击检测方法，其特征在于，所述步骤2中提到通过深度Q网络进行训练，在训练过程中，使用∈
‑
greed来选择一个动作，代理可以在下一个状态中获得的最高值，具体包括以下内容：B1、选择一个概率为∈的随机动作或Q
‑
network获得的最高值动作；B2、对环境中的当前状态s采取行动a，代理获得作为奖励r和新状态s
′
的价值；B3、设置一个二元参数d，用于表示本轮游戏是否结束；B4、综合B1～B3所述内容，完成网络训练的动作选择，具体计算方程为：Q(s
′
,a
′
)＝R
t+1
+γmaxQ(s
′
,a
′<...

【专利技术属性】
技术研发人员：闫昊，郭得科，陈胜，曲雯毓，
申请(专利权)人：天津大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人