System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于主动学习的未知僵尸网络节点标签生成系统技术方案_技高网
当前位置: 首页 > 专利查询>广州大学专利>正文

一种基于主动学习的未知僵尸网络节点标签生成系统技术方案

技术编号:43021704 阅读:7 留言:0更新日期:2024-10-18 17:23
本申请涉及信息安全技术领域,本申请提供一种基于主动学习的未知僵尸网络节点标签生成系统,包括:僵尸流量处理模块、伪标签生成模块、伪标签纠正模块和持续更新模块;僵尸流量处理模块用于生成已知流量的IP节点特征;伪标签生成模块用于通过已知流量的IP节点特征训练图神经网络,输出未知流量的IP伪标签;伪标签纠正模块用于利用随机森林和标签传播算法纠正未知流量的IP伪标签,输出未知僵尸网络节点标签。本申请通过更加准确的僵尸主机特征生成系统,以极高准确率指出无法被模型识别的未知僵尸IP,实现了未知僵尸网络节点的标签生成。

【技术实现步骤摘要】

本专利技术属于信息安全,尤其涉及一种基于主动学习的未知僵尸网络节点标签生成系统


技术介绍

1、随着物联网设备的大规模普及,一些安全性极低的设备成为孕育大规模僵尸网络的温床。目前已有大量由大规模僵尸网络直接发动的大范围攻击案例,如美国东海岸停电事件、乌克兰电力公司勒索事件等,对国家安全造成了巨大威胁。发现和摧毁这些僵尸网络成为我国网络安全保障工作的当务之急。

2、现有的僵尸网络检测技术利用僵尸网络流量特征,训练深度学习模型实现僵尸网络检测,或利用已知域名训练僵尸域名分类器,对可能的恶意域名进行封锁。这些方法能够有效利用已知僵尸网络的特征,发现僵尸网络的恶意行为,实现高准确性的僵尸网络检测,已被国内外研究者广泛研究。

3、但现有僵尸网络检测仍存在如下不足:

4、1、主机特征失真:僵尸主机的特征一般由与其相关的流量特征聚合所生成。由于在僵尸网络仿真过程中,大部分数据集使用个别主机作为恶意节点,发送大量僵尸网络流量,因此直接将这些流量聚合起来,作为僵尸主机特征,能够有效保留僵尸网络流量特征。然而,在真实世界中,僵尸主机大部分时间处于潜伏阶段,实际只发送少量僵尸网络流量,保持心态连接或接受控制指令,同时发送大量的正常行为流量。若直接通过聚合相关流量得到主机特征,将使僵尸流量特征被正常流量特征极大稀释,使得到的僵尸主机特征与正常主机特征相差极小,产生严重的主机特征失真,极大影响后续的僵尸主机检测分类任务。2、依赖有监督数据:与大多数基于深度学习模型的检测工作相同,现有的僵尸网络检测方法利用已有的带有明确标签的数据对模型进行训练和测试,获得数据集上良好的僵尸网络检测效果。然而,真实世界中不断产生的流量中存在大量的未被模型学习过的数据,这些数据无法被训练好的模型良好分类,同时也没有标签,无法利用这些数据进一步优化模型,极大限制了已有方法的适用性。3、无法检测未知僵尸网络:由于深度学习模型只针对已知数据进行训练和拟合,当其面临未知数据的分类时,可信度往往不高。同理,根据已知僵尸网络特征制定的规则检测方法也无法适用于未知僵尸网络的检测。而真实世界中,新的僵尸网络变种持续产生,仅对已知僵尸网络进行高精度检测,无法满足实际的僵尸网络检测和威胁防御需求。

5、尽管已有一些工作致力于改进僵尸网络检测技术,但往往无法完全解决上述问题。例如,公开号为cn116800524a的中国专利技术专利根据已知僵尸主机的数据包特征,与待检测僵尸主机的数据包特征进行相似度比对,从而确定待检测主机是否为僵尸主机。该方法假设僵尸主机只产生僵尸流量,并对发送大量僵尸流量的主机检测有效果。而实际上,现实世界的僵尸主机可能产生极少量僵尸流量与大量的正常流量,简单的靠特征拼接或特征池化,会导致正常流量特征被放大,恶意流量特征被稀释,聚合生成的主机特征也会失真,无法产生检测效果。公开号为cn116896478a的中国专利技术专利计算新批次流量数据相对于已有模型的概念漂移程度,计算残差并更新模型,使模型拥有检测动态分布僵尸网络流量数据的能力。该方法使用的概念漂移检测模块需要依靠新批次数据的标签才能完成概念漂移检测功能,而实际上在线到达的新批次流量数据标签是完全缺失的,同类方法的有效性依赖于有监督数据集中流量的标签,无法应用于现实世界中不断产生的未标记流量数据。公开号为cn115473686a的中国专利技术专利利用僵尸感染流量数据,计算每个僵尸节点的扩散感染分数,计算出节点可能的威胁感染范围,进而确定关键控制节点集合。但该方法假设攻击者以绝对最高效的方式设置僵尸节点位置,仅从最优控制结构的角度预测可能的感染能力,并未考虑流量特征与僵尸节点的关联,实际上因为网络环境波动等因素,攻击者并不一定遵循最优控制拓扑,因此该方法预测未知僵尸网络关键节点的能力十分有限。


技术实现思路

1、有鉴于现有技术的上述缺陷,本专利技术提出一种基于主动学习的未知僵尸网络节点标签生成系统,本专利技术设计的技术方案包括:

2、僵尸流量处理模块、伪标签生成模块、伪标签纠正模块和持续更新模块;

3、所述僵尸流量处理模块用于生成已知流量的ip节点特征;

4、所述伪标签生成模块用于通过所述已知流量的ip节点特征训练图神经网络,输出未知流量的ip伪标签;

5、所述伪标签纠正模块用于利用随机森林和标签传播算法纠正所述未知流量的ip伪标签,输出未知僵尸网络节点标签。

6、优选地,所述僵尸流量处理模块包括流量清洗模块、流量交互图生成模块、xgboost模型训练模块和僵尸节点特征聚合模块;

7、所述流量清洗模块用于获取网关中收集的区域网络流量记录,并将非结构化的区域网络流量记录转化为结构化的区域网络流量记录,所述区域网络流量记录包括已知流量和未知流量;

8、所述流量交互图生成模块用于提取所述区域网络流量记录中的网络交互信息和产生交互的ip实体,所述网络交互信息作为图的边,所述ip实体作为图的节点,组合成反映所述区域网络信息的流量交互图;

9、所述xgboost模型训练模块用于通过已知流量训练xgboost模型,所述xgboost模型用于生成流量级别伪标签;

10、所述僵尸节点特征聚合模块用于通过所述流量级别伪标签生成流量权重,根据所述流量权重聚合生成已知流量的ip节点级别特征。

11、优选地,所述聚合生成已知流量的ip节点级别特征公式如下:

12、

13、式中,xu为已知流量的ip节点级别特征,u和v分别为源ip节点和目的ip节点,xuv为边缘特征,wu为通过所述流量级别伪标签生成的流量权重矩阵,为u的邻居集合。

14、优选地,所述伪标签生成模块包括图神经网络加载模块、图神经网络训练模块、未知流量数据加载模块和未知僵尸节点预测模块;

15、所述图神经网络加载模块用于加载图神经网络;

16、所述图神经网络训练模块用于通过已知流量的流量交互图、已知流量的流量交互图的节点特征和已知流量的流量交互图的边特征训练图神经网络;

17、所述未知流量数据加载模块用于加载未知流量;

18、所述未知僵尸节点预测模块用于根据所述xgboost模型预测未知流量的流量级别伪标签,并根据预测的未知流量的流量伪标签生成权重矩阵,计算未知流量数据组成的流量交互图的节点特征,使用训练好的图神经网络预测节点标签生成低置信度伪标签,基于置信度构建可信标签列表。

19、优选地,所述伪标签纠正模块包括随机森林模型加载模块、随机森林模型纠正模块、标签传播模型纠正模块和xgboost模型纠正模块;

20、所述随机森林模型加载模块用于加载随机森林模型,并通过所述可信标签列表中的节点标签和节点特征进行训练;

21、所述随机森林模型纠正模块用于通过训练好的随机森林模型对所述可信标签列表外的未知节点进行预测;

22、所述标签传播模型纠正模块用于将随机森林输出的预测结果输入标签传播模型进行二次纠正;<本文档来自技高网...

【技术保护点】

1.一种基于主动学习的未知僵尸网络节点标签生成系统,其特征在于,所述系统包括:

2.根据权利要求1所述的一种基于主动学习的未知僵尸网络节点标签生成系统,其特征在于,所述僵尸流量处理模块包括:

3.根据权利要求2所述的一种基于主动学习的未知僵尸网络节点标签生成系统,其特征在于,所述聚合生成已知流量的IP节点级别特征公式如下:

4.根据权利要求3所述的一种基于主动学习的未知僵尸网络节点标签生成系统,其特征在于,所述伪标签生成模块包括:

5.根据权利要求4所述的一种基于主动学习的未知僵尸网络节点标签生成系统,其特征在于,所述伪标签纠正模块包括:

6.根据权利要求5所述的一种基于主动学习的未知僵尸网络节点标签生成系统,其特征在于,所述对所述可信标签列表外的未知节点进行预测公式如下:

7.根据权利要求6所述的一种基于主动学习的未知僵尸网络节点标签生成系统,其特征在于,所述系统还包括持续更新模块,所述持续更新模块用于汇聚标签结果,更新僵尸网络检测模型和伪标签纠正模型。

8.根据权利要求7所述的一种基于主动学习的未知僵尸网络节点标签生成系统,其特征在于,所述持续更新模块包括:

...

【技术特征摘要】

1.一种基于主动学习的未知僵尸网络节点标签生成系统,其特征在于,所述系统包括:

2.根据权利要求1所述的一种基于主动学习的未知僵尸网络节点标签生成系统,其特征在于,所述僵尸流量处理模块包括:

3.根据权利要求2所述的一种基于主动学习的未知僵尸网络节点标签生成系统,其特征在于,所述聚合生成已知流量的ip节点级别特征公式如下:

4.根据权利要求3所述的一种基于主动学习的未知僵尸网络节点标签生成系统,其特征在于,所述伪标签生成模块包括:

5.根据权利要求4所述的一种基于主动学习的未知...

【专利技术属性】
技术研发人员:罗熙李凡殷丽华李丹
申请(专利权)人:广州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1