本发明专利技术公开了一种基于改进XGBoost算法的数据中台入侵分类检测方法,涉及数据中台入侵分类检测技术领域。该基于改进XGBoost算法的数据中台入侵分类检测方法包括XGB
【技术实现步骤摘要】
一种基于改进XGBoost算法的数据中台入侵分类检测方法
[0001]本专利技术涉及数据中台入侵分类检测
,具体为一种基于改进XGBoost算法的数据中台入侵分类检测方法。
技术介绍
[0002]信息技术的发展导致了网络攻击的增加,早期的网络攻击主要出于对技术的好奇。然而近年来,网络攻击数量呈爆炸式增长,给社会的稳定发展造成了巨大的经济损失,设计高效的入侵检测系统已经成为网络安全的首要目标。
[0003]目前网络高速发展,网络数据量庞大、数据维度高,会使入侵检测异常困难。通常采用特征选择的方法减少数据冗余,降低时间资源开销。较为流行的特征选择方法有过滤式、封装式和嵌入式三种。过滤式方法适合大数据量的数据集,虽然速度快但是模型精度不够,比较容易过拟合。而采用封装式算法,选择的特征虽然足够精确,但是在计算方面训练成本极高。而嵌入式方法能兼顾前两种方法的优点,但是特征子集的评价机制较难把握。而通过混合不同的特征选择方法来结合其优点成为目前特征选择算法的研究重点。混合过滤式和封装式的特征选择方法,在较短的时间内得到较小的特征集可以达到相同或更好的整体预测精度,但是针对少数类的预测准确率较低,作为已知攻击的最小变体构建的。另一方面,基于异常的检测技术的优势在于其检测先前未见的入侵事件的潜力。然而,基于异常的系统中的误报率通常高于基于签名的系统,现有的大多数解决方案都集中在基于签名的技术上。这些技术遭受高误差率和计算成本的增加。此外,现有的IDS设计有严格的规则,它们很容易出现误报和漏报。这些高误检率使得在实际的大规模系统中安装IDS变得具有挑战性。
[0004]近年来,网络入侵检测领域的研究主要集中在浅层机器学习技术上,如K
‑
近邻算法、SVM、朴素贝叶斯、随机森林、决策树和人工神经网络等。浅层学习算法的应用提高了检测精度。另一方面,这些方法需要领域专家知识来从数据中识别有用的模式。计算成本昂贵,也容易出错。深度学习的最新研究,在诸如语音识别和图像处理等均得到了应用。深度学习是机器学习算法的子集,可以克服浅层学习算法的一些限制。深度学习专注于更快的网络异常检测以及更深入的网络数据分析。与浅层学习技术的性能相比,其分层特征学习显示出更好的结果。在DNN上,特征的数量增加,这可能导致训练数据的过拟合。鉴于此,我们提出了一种基于改进XGBoost算法的数据中台入侵分类检测方法。
技术实现思路
[0005](一)解决的技术问题针对现有技术的不足,本专利技术提供了一种基于改进XGBoost算法的数据中台入侵分类检测方法,解决了上述
技术介绍
中提出的问题。
[0006](二)技术方案为实现以上目的,本专利技术通过以下技术方案予以实现:一种基于改进XGBoost算法
的数据中台入侵分类检测方法,该基于改进XGBoost算法的数据中台入侵分类检测方法包括XGB
‑
DNN模型设计以及算法,所述XGB
‑
DNN模型设计包括以下步骤:S1、输入:NSL
‑
KDD数据集;S2、输出:NSL
‑
KDD数据集使用特定的类标签分类为正常或攻击。
[0007]所述XGB
‑
DNN模型算法包括以下步骤:步骤1、对输入的NSL
‑
KDD数据集进行数据清洗;步骤2、使用最小
‑
最大技术对NSL
‑
KDD进行归一化;步骤3、应用XGBoost特征重要性评分进行特征选择;步骤4、使用步骤2中选择的特征及构建深度神经网络分类器;步骤5、训练DNN分类器;步骤6、使用Adam优化器优化在步骤4和步骤5中构造的DNN分类器;步骤7、使用交叉盐泽和功能评估设计的XGB
‑
DNN分类器模型。
[0008]优选的,所述XGB
‑
DNN模型是由XGBoost和DNN所构成的组合模型。
[0009]优选的,所述步骤6中引入Adam模型作为单目标回归任务的学习,单目标模型因为精度和损失函数问题会更多关注数据特征的深度挖掘,不会因为多目标的Label之间存在时序关系而忽略特征本身。
[0010]优选的,所述XGBoost获取交叉特征:输入层会将数据分为5折输入到XGBoost模型中进行一次分类检测,然后通过交叉预测的方式对每个样本进行预测,进而获取到每一个样本在XGBoost中的所有叶子节点。
[0011]优选的,所述XGB
‑
DNN模型算法步骤2中利用归一化对数据进行预处理。
[0012]优选的,所述XGB
‑
DNN模型算法步骤3中对数据进行特征选择以克服高维问题,利用XGBoost算法对特征重要性进行分类,剔除不需要的特征。
[0013]优选的,所述XGB
‑
DNN模型算法步骤5中构造并训练DNN分类器。
[0014]优选的,所述XGB
‑
DNN模型算法步骤7中利用DNN对网络入侵进行分类。
[0015]优选的,所述利用XGBoost学习到的从数据到目标的交叉特征,,就是一份经过深度挖掘后的丰富特征信息,可在组合模型中降低 DNN单模型的学习阈值,以此来更适用于该场景下的预测任务。
[0016](三)有益效果本专利技术提供了一种基于改进XGBoost算法的数据中台入侵分类检测方法。具备以下有益效果:该基于改进XGBoost算法的数据中台入侵分类检测方法,使用XGBoost算法进行特征选择。XGBoost算法是采用分步前向加性模型,只不过在每次迭代中生成弱学习器后不再需要计算一个系数,算法通过优化结构化损失函数,通过加入正则项的损失函数,起到降低过拟合的风险,来实现弱学习器的生成。XGBoost算法没有采用搜索算法,而是直接利用了损失函数的一阶导数和二阶导数值,并通过预排序、加权分位数等技术来大大提高算法的性能。
附图说明
[0017]图1为本专利技术方法流程图结构示意图;
图2为本专利技术方法流程图结构示意图;图3为本专利技术改进后的XGBoost模型混淆矩阵比较(每一个数字表示两者之间的关联度)结构示意图;图4为本专利技术不同学习率与准确度之间关系(Irate为学习率)结构示意图;图5为本专利技术神经网络层次结构结构示意图;图6为本专利技术分类器模型流程图结构示意图。
具体实施方式
[0018]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0019]请参阅图1
‑
图6,本专利技术提供一种技术方案:一种基于改进XGBoost算法的数据中台入侵分类检测方法,该基于改进XGBoost算法的数据中台入侵分类检测方法包括XGB
‑
DNN模型设计以及算法,所述XGB
‑本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于改进XGBoost算法的数据中台入侵分类检测方法,其特征在于:该基于改进XGBoost算法的数据中台入侵分类检测方法包括XGB
‑
DNN模型设计以及算法,所述XGB
‑
DNN模型设计包括以下步骤:S1、输入:NSL
‑
KDD数据集;S2、输出:NSL
‑
KDD数据集使用特定的类标签分类为正常或攻击;所述XGB
‑
DNN模型算法包括以下步骤:步骤1、对输入的NSL
‑
KDD数据集进行数据清洗;步骤2、使用最小
‑
最大技术对NSL
‑
KDD进行归一化;步骤3、应用XGBoost特征重要性评分进行特征选择;步骤4、使用步骤2中选择的特征及构建深度神经网络分类器;步骤5、训练DNN分类器;步骤6、使用Adam优化器优化在步骤4和步骤5中构造的DNN分类器;步骤7、使用交叉盐泽和功能评估设计的XGB
‑
DNN分类器模型。2.根据权利要求1所述的一种基于改进XGBoost算法的数据中台入侵分类检测方法,其特征在于:所述XGB
‑
DNN模型是由XGBoost和DNN所构成的组合模型。3.根据权利要求1所述的一种基于改进XGBoost算法的数据中台入侵分类检测方法,其特征在于:所述步骤6中引入Adam模型作为单目标回归任务的学习,单目标模型因为精度和损失函数问题会更多关注数据特征的深度挖掘,不会因为多目标的Label之间存...
【专利技术属性】
技术研发人员:傅敏杰,李思纤,
申请(专利权)人:国网上海市电力公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。