一种基于ELM和深度森林的混合模型异常流量检测系统及方法技术方案

技术编号:35191111 阅读:13 留言:0更新日期:2022-10-12 18:10
本发明专利技术提供了一种基于ELM和深度森林的混合模型异常流量检测系统及方法,系统包括对实时流量进行特征提取、降维,对降维后的流量特征采用基于ELM和深度森林模型的混合检测,该检测方法主要包括利用无线传感器网络中成员节点上部署的ELM算法对流量进行快速检测,在成员节点的上层节点Sink节点使用深度森林模型对成员节点检测出的异常流量进行二次检测,并最终给出异常流量检测结果,最后在管理节点将该条流量数据存入临时数据库,使用原数据集和新数据集参照准确率和AUC等评估指标对深度森林模型调优。本发明专利技术可以完成无线传感器等资源受限节点上的异常流量检测,降低了各个节点异常检测的能耗,同时也能提高异常检测结果的准确率。准确率。准确率。

【技术实现步骤摘要】
一种基于ELM和深度森林的混合模型异常流量检测系统及方法


[0001]本专利技术涉及网络安全检测
,具体但不限于涉及一种基于ELM和深度森林的混合模型异常流量检测系统及方法。

技术介绍

[0002]根据互联网安全威胁报告(简称ISTR),现阶段互联网环境有一些加密劫持犯罪分子通过加密劫持脚本,导致一些设备由于CPU占用率高而无法使用,网络攻击频繁发生,防不甚防,此外随着物联网系统普及,许多无线传感器这种资源受限终端组成的物联网系统因为大规模的使用和长期环境开放,越来越多的成为恶意第三方的攻击目标,有着越来越多的、快速的、低功耗的异常流量检测需求。
[0003]现有的入侵检测通常借助传统机器学习和深度学习算法,将异常检测作为二值分类问题,用正常数据和异常数据建立有监督、半监督或无监督的学习模型,取得了不错的效果,特别是在视觉任务中取得成功的深度学习算法,近年来被国内外相关研究机构大量尝试并应用在异常流量领域。
[0004]深度学习采用训练多个单层非线性网络发现并且刻画问题内部复杂的结构特征,故而能够表达数据的本质特征,具备很强的泛化能力,并且在异常流量检测方向得出的准确性越来越高。但是它也需要越来越大的计算开销,同时具有太多超参数,学习性能严重依赖于仔细的参数调优,训练干扰因素太多,需要大量的训练数据,收敛速度较慢,耗时较长,很难应用于只有小规模训练数据的任务。
[0005]针对上述问题,深度森林有比深度神经网络更少的超参数,对超参数设置也有很强的鲁棒性优势。深度森林是基于不可微模块建立的深度模型,它生成具有逐层处理、模型内特征转换和足够的模型复杂性三种特征的深层森林。在大多数情况下,即使是在不同领域的不同数据中,使用相同的默认设置也能获得优异的性能。
[0006]极限学习机(ELM)具有需要的参数少,所占资源少,训练速度快,学习效率高的优势。ELM是一种单隐层前馈神经网络SLFNs学习算法,有很强的学习能力和逼近复杂非线性函数等优点,求解直接,最终求解过程会变为解一个矩阵的Moore

Penrose广义逆问题,仅需要设定隐层神经元的个数即可开始训练模型。从应用来说,ELM能在保证较高检测率基础上,降低能耗,更适合资源受限的无线传感器网络。

技术实现思路

[0007]针对现有技术中的一个或多个问题,本专利技术提出了一种基于ELM和深度森林的混合模型异常流量检测系统及方法,完成无线传感器等资源受限节点上的异常流量检测,具有较高的检测效率和准确率。
[0008]实现本专利技术目的的技术解决方案为:
[0009]一种基于ELM和深度森林的混合模型异常流量检测方法,其特征在于,包括:
[0010]步骤1:对无线传感器的资源限制节点中的底层成员节点收集的实时流量数据进行数据清洗、特征提取和数据降维;
[0011]步骤2:在无线传感器网络中的不同节点部署极限学习机ELM模型和深度森林模型,进行混合异常流量检测,并输出异常流量检测结果;
[0012]步骤3:无线传感器中的管理节点根据准确率、AUC作为评估指标对更新的数据集进行深度森林模型重训练,其中,AUC为ROC曲线下的面积。
[0013]进一步的,本专利技术的基于ELM和深度森林的混合模型异常流量检测方法,步骤1具体包括:
[0014]S1

1:剔除实时流量数据中存在的非数值NAN和无穷大数值Infinity等脏数据;
[0015]S1

2:对捕捉到的完整网络信息,参照新南威尔士大学堪培拉网络范围实验室公开的面向物联网的僵尸网络数据集(BOT

IOT数据集)选择其中对异常流量检测影响较大的30维数据,以30维特征为基础新增14维新特征,主要为每个源/目标IP总包数量等统计数据;
[0016]S1

3:对处理后的数据进行归一化、标准化操作,形成共计54维特征的预处理后流量数据。
[0017]进一步的,本专利技术的基于ELM和深度森林的混合模型异常流量检测方法,步骤2具体包括:
[0018]步骤2

1:通过无线传感器中的管理节点向成员节点部署ELM模型;
[0019]步骤2

2:通过无线传感器中的管理节点向汇聚节点(sink节点)部署深度森林模型;
[0020]步骤2

3:在成员节点中对降维后的实时流量数据进行ELM快速检测,并根据检测结果对该流量数据添加数据特征,若检测结果是正常流量,则其数据特征标记为正常值并通过,若检测结果是异常流量,则其数据特征标记为异常值;
[0021]步骤2

4:在sink节点中删除异常流量的数据特征标记,再采用深度森林模型对前述异常流量进行二次检测,并根据二次检测结果对该流量数据添加数据特征作为其最终的特征值,并将数据汇总融合到管理节点中。
[0022]进一步的,本专利技术的基于ELM和深度森林的混合模型异常流量检测方法,步骤2

1中部署的ELM模型的预训练过程包括:
[0023]步骤2
‑1‑
1:输入训练样本X
train
,样本大小为[row0,col0],将步骤1中预处理后的BOT

IOT数据集根据8:2比例分为训练集和测试集,X
train
为训练集,row0为训练样本的数量,col0为训练样本的特征维数;隐藏层单元个数为n,n为正整数;
[0024]步骤2
‑1‑
2:初始化ELM模型的权重w和偏差b,w取值范围为[col0,n],b取值范围为[row0,n];
[0025]步骤2
‑1‑
3:根据公式h=g(w
·
X
train
+b)计算ELM模型的非线性映射,其中,g(x)为激活函数,h为ELM模型的非线性映射,X
train
为训练样本,通过求h的逆矩阵H得到隐藏层的输出,H大小为[n,row0];
[0026]步骤2
‑1‑
4:对数据集中的数据标签进行独热编码,并计算得到β=H
·
T,其中数据标签表示该条数据是否为异常流量,T为标签数据独热编码后的值,β表示输出权重,大小为[n,2];。
[0027]步骤2
‑1‑
5:对输入的实时流量数据X
test
计算h1=g(w
·
X
test
+b),h1为测试的实时流量数据在ELM模型的非线性映射,并与β计算得出流量检测结果,计算公式为:result=h1·
β;
[0028]步骤2
‑1‑
6:对所得流量检测结果进行分类,得到异常流量和正常流量;
[0029]步骤2
‑1‑
7:保存训练后的权重w、偏差b和逆矩阵H,作为部署ELM本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于ELM和深度森林的混合模型异常流量检测方法,其特征在于,包括:步骤1:对无线传感器的资源限制节点中的底层成员节点收集的实时流量数据进行数据清洗、特征提取和数据降维;步骤2:在无线传感器网络中的不同节点部署极限学习机ELM模型和深度森林模型,进行混合异常流量检测,并输出异常流量检测结果;步骤3:无线传感器中的管理节点根据准确率、AUC作为评估指标对更新的数据集进行深度森林模型重训练,其中,AUC为ROC曲线下的面积。2.根据权利要求1所述的基于ELM和深度森林的混合模型异常流量检测方法,其特征在于,步骤1具体包括:S1

1:剔除实时流量数据中存在的非数值和无穷大数值等脏数据;S1

2:对捕捉到的完整网络信息,参照BOT

IOT数据集选择其中对异常流量检测影响较大的30维数据,以30维特征为基础新增14维新特征,主要为每个源/目标IP总包数量等统计数据;S1

3:对处理后的数据进行归一化、标准化操作,形成共计54维特征的预处理后流量数据。3.根据权利要求1所述的基于ELM和深度森林的混合模型异常流量检测方法,其特征在于,步骤2具体包括:步骤2

1:通过无线传感器中的管理节点向成员节点部署ELM模型;步骤2

2:通过无线传感器中的管理节点向汇聚节点部署深度森林模型;步骤2

3:在成员节点中对降维后的实时流量数据进行ELM快速检测,并根据检测结果对该流量数据添加数据特征,若检测结果是正常流量,则其数据特征标记为正常值并通过,若检测结果是异常流量,则其数据特征标记为异常值;步骤2

4:在汇聚节点中删除异常流量的数据特征标记,再采用深度森林模型对前述异常流量进行二次检测,并根据二次检测结果对该流量数据添加数据特征作为其最终的特征值,并将数据汇总融合到管理节点中。4.根据权利要求3所述的基于ELM和深度森林的混合模型异常流量检测方法,其特征在于,步骤2

1中部署的ELM模型的预训练过程包括:步骤2
‑1‑
1:输入训练样本X
train
,样本大小为[row0,col0],将步骤1中预处理后的BOT

IOT数据集根据8:2比例分为训练集和测试集,X
train
为训练集,row0为训练样本的数量,col0为训练样本的特征维数;隐藏层单元个数为n,n为正整数;步骤2
‑1‑
2:初始化ELM模型的权重w和偏差b,w取值范围为[col0,n],b取值范围为[row0,n];步骤2
‑1‑
3:根据公式h=g(w
·
X
train
+b)计算ELM模型的非线性映射,其中,g(x)为激活函数,h为ELM模型的非线性映射,X
train
为训练样本,通过求h的逆矩阵H得到隐藏层的输出,H大小为[n,row0];步骤2
‑1‑
4:对数据集中的数据标签进行独热编码,并计算得到β=H
·
T,其中数据标签表示该条数据是否为异常流量,T为标签数据独热编码后的值,β表示输出权重,大小为[n,2];步骤2
‑1‑
5:对输入的实时流量数据X
test
计算h1=g(w
·
X
test
+b),h1为测试的实时流量数
据在ELM模型的非线性...

【专利技术属性】
技术研发人员:王攀羊亚红
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1