一种基于改进的Stacking策略的钓鱼网站检测方法技术

技术编号：30155455 阅读：73 留言：0更新日期：2021-09-25 15:06

本发明专利技术公开了一种基于改进的Stacking策略的钓鱼网站检测方法，针对目前大多数钓鱼网站检测技术准确率低、计算资源消耗大和检测不及时等问题，通过将多个分类表现优异的基学习器通过Stacking策略集成为一个高性能模型，并且把该Stacking算法第一级的输入特征与预测结果同时作为第二级的输入特征，充分发挥各模型精度高、速度快等优势，从而进一步提高模型性能。实验结果表明，与传统的机器学习钓鱼网站检测技术相比，在10万级数据集上此集成学习算法在多个指标上都表现出更好的性能，其精确率达到了97.82％，F1值达到97.54％，可以有效的检测钓鱼网站。的检测钓鱼网站。的检测钓鱼网站。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于改进的Stacking策略的钓鱼网站检测方法

[0001]本专利技术涉及网络安全监测领域，更具体地说，它涉及一种基于改进的Stacking策略的钓鱼网站检测方法。

技术介绍

[0002]钓鱼网站通过伪装将其包装成正常合法的网站，诱导用户输入自己的账户密码等隐私信息，对用户的隐私和财产构成了很大威胁。为应对日益增长的网络钓鱼以及其愈发复杂的网络钓鱼技术，需要继续深入对钓鱼网站检测的研究。
[0003]钓鱼网站检测最常用的技术是使用黑白名单，但是这种方法无法检测未列入黑名单的钓鱼网站，具有一定的滞后性。

技术实现思路

[0004]为解决上述技术问题，本专利技术提供一种基于改进的Stacking策略的钓鱼网站检测方法，从公开的钓鱼检测网站Alexa和Phishtank获取的数据集，设计了一种基于改进的Stacking策略的钓鱼网站检测集成学习算法。具体来说，我们从数据集中提取网站的URL特征，仅处理当前页面信息，而不依赖第三方服务，理论上可以获得最优的检测速度。通过Stacking策略将DF、GBDT、XGBoost和LightGBM模型高效融合，从而获得更优的检测效果。
[0005]本专利技术的上述技术目的是通过以下技术方案得以实现的：
[0006]一种基于改进的Stacking策略的钓鱼网站检测方法，包括以下步骤：
[0007]S1：选定至少两个基础分类器，将其分为一级学习器和二级学习器；
[0008]S2：提取已知网站的URL特征，并作筛选，将筛选出来的...

【技术保护点】

【技术特征摘要】
1.一种基于改进的Stacking策略的钓鱼网站检测方法，其特征在于，包括以下步骤：S1：选定至少两个基础分类器，将其分为一级学习器和二级学习器；S2：提取已知网站的URL特征，并作筛选，将筛选出来的URL特征作为一级学习器的输入特征；S3：对提取URL特征的网站制作标签，标签为是否为钓鱼网站，制作的标签与其网站的输入特征，作为一个数据集；S4：重复S2和S3步骤，对多个网站URL特征进行提取筛选，得到包含多个数据集的原始数据集；S5：将S4得到的原始数据集输入至一级学习器中，一级学习器输出多个初级特征；S6：使用一级学习器的输出的初级特征、S2中提取的网站的URL特征和对应网站的标签作为二级学习器的输入特征，构成一个新的数据集；S7：将S6得到的新的数据集输入至二级学习器中，对二级学习器进行训练；S8：将需要测试的未知网站的URL特征依次经过一级学习器和二级学习器进行检测，得到检测结果。2.根据权利要求1所述的基于改进的Stacking策略的钓鱼网站检测方法，其特征在于，所述S1过程中，使用DF、XGBoost、LightGBM三个基础分类器作为...

【专利技术属性】
技术研发人员：周杭霞，胡强，刘倩，
申请(专利权)人：中国计量大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人