一种网页分类方法、系统及一种网页分类设备技术方案

技术编号:17970583 阅读:33 留言:0更新日期:2018-05-16 11:25
本发明专利技术公开了一种网页分类方法包括:获取待分类网页的N维当前特征;其中,N为正整数;将所述N维当前特征输入训练完成的stacking模型中进行特征扩展,得到所述待分类网页的N+n维特征;其中,所述stacking模型为p个基础分类模型经q层堆叠的模型,n为p与q的乘积,n、p、q均为正整数;根据所述N+n维特征利用分类算法得到所述待分类网页的分类结果。本发明专利技术公开的网页分类方法,利用stacking模型对待分类网页的N维当前特征进行扩展,在不依赖与搜索引擎或第三方服务的前提下提高了网页分类的准确性。本发明专利技术还公开了一种网页分类系统及一种网页分类设备和一种计算机可读存储介质,同样能实现上述技术效果。

【技术实现步骤摘要】
一种网页分类方法、系统及一种网页分类设备
本专利技术涉及网络安全
,更具体地说,涉及一种网页分类方法、系统及一种网页分类设备和一种计算机可读存储介质。
技术介绍
网络钓鱼是一种网络欺诈行为,指不法分子利用各种手段,仿冒真实网站的URL地址以及页面内容,以此来骗取用户的重要账号、银行或信用卡账号、密码等隐私信息。不法分子通常会把钓鱼网站的页面设计得与真实网站界面完全一致,诱使访问者提交账号和密码。近年来,不少研究者针对反网络钓鱼问题设计了实际的解决方案。这些解决方案主要有以下几个方面:(1)基于黑名单和白名单的方法;(2)从网页中提取出文本、图像或者URL的特征,利用搜索引擎来帮助检测钓鱼网站;(3)利用钓鱼网页和知名网页的视觉相似性来检测钓鱼网站;(4)利用网页的DNS异常信息来发现钓鱼网站;(5)在HTML中提取出文本、图像或者特殊的URL特征后通过启发式算法或者机器学习算法检测钓鱼网站。上述方法中,基于黑白名单的方法需要不断的人为维护名单;利用搜索引擎的方法经常受限于搜索引擎的性能,不能做到实时检测;基于视觉相似性的方法比较容易受目标识别准确率的影响;利用网页DNS的方法需要第三方服务来提供DNS信息,开发成本较大。因此,如何在不依赖与搜索引擎或第三方服务的前提下提高网页分类的准确性是本领域技术人员需要解决的问题。
技术实现思路
本专利技术的目的在于提供一种网页分类方法、系统及一种网页分类设备和一种计算机可读存储介质,在不依赖与搜索引擎或第三方服务的前提下提高了网页分类的准确性。为实现上述目的,本专利技术实施例提供了一种网页分类方法,包括:获取待分类网页的N维当前特征;其中,N为正整数;将所述N维当前特征输入训练完成的stacking模型中进行特征扩展,得到所述待分类网页的N+n维特征;其中,所述stacking模型为p个基础分类模型经q层堆叠的模型,n为p与q的乘积,n、p、q均为正整数;根据所述N+n维特征利用分类算法得到所述待分类网页的分类结果。其中,将所述N维当前特征输入训练完成的stacking模型中进行特征扩展,得到所述待分类网页的N+n维特征,包括:S1:获取训练集,并将所述训练集划分为m份训练样本;其中,所述训练集中的每一个网页包括N维特征;S2:选取一份所述训练样本训练所述基础分类模型,利用训练完成的基础分类模型预测所述待分类网页,直至所述m份训练样本全部选取完成,得到m个中间预测结果,并通过对所述m个中间预测结果进行投票表决得到一维增加特征;S3:重复S2,直至所有的所述基础分类模型全部训练完成得到p维增加特征,并将所述p维增加特征与所述待分类网页的当前特征合并,作为所述待分类网页的当前特征;S4:重复S2-S3,直至完成所述stacking模型的q层堆叠,得到所述待分类网页的N+n维特征。其中,若p=3,则所述基础分类模型包括GBDT分类模型、XGBoost分类模型和lightGBM分类模型。其中,获取待分类网页的N维特征之后,还包括:利用Z-score方法对所述N维特征进行标准化处理。其中,所述分类算法包括GBDT算法。其中,所述N维当前特征包括所述待分类网页的URL特征和HTML特征,所述URL特征包括顶级域名个数和相似知名品牌,所述HTML特征包括空锚链接个数、标题品牌与所述URL中品牌是否一致、所述HTML中出现次数最多品牌与所述URL中品牌是否一致、内外部资源个数和Word2vec特征。为实现上述目的,本专利技术实施例提供了一种网页分类系统,包括:获取模块,用于获取待分类网页的N维当前特征;其中,N为正整数;扩展模块,用于将所述N维当前特征输入训练完成的stacking模型中进行特征扩展,得到所述待分类网页的N+n维特征;其中,所述stacking模型为p个基础分类模型经q层堆叠的模型,n为p与q的乘积,n、p、q均为正整数;分类模块,用于根据所述N+n维特征利用分类算法得到所述待分类网页的分类结果。其中,所述扩展模块包括:划分单元,用于获取训练集,并将所述训练集划分为m份训练样本;其中,所述训练集中的每一个网页包括N维特征;预测单元,用于选取一份所述训练样本训练所述基础分类模型,利用训练完成的基础分类模型预测所述待分类网页,直至所述m份训练样本全部选取完成,得到m个中间预测结果,并通过对所述m个中间预测结果进行投票表决得到一维增加特征,重复启动所述预测单元的工作流程,直至所有的所述基础分类模型全部训练完成得到p维增加特征,启动合并单元的工作流程;所述合并单元,用于将所述p维增加特征与所述待分类网页的初始特征合并,作为所述待分类网页的初始特征,启动所述预测单元的工作流程,直至完成所述stacking模型的q层堆叠,得到所述待分类网页的N+n维特征。为实现上述目的,本专利技术实施例提供了一种网页分类设备,包括:存储器,用于存储网页分类程序;处理器,用于执行所述网页分类程序时实现如上述网页分类方法的步骤。为实现上述目的,本专利技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有网页分类程序,所述网页分类程序被处理器执行时实现如上述网页分类方法。通过以上方案可知,本专利技术实施例提供的一种网页分类方法包括:获取待分类网页的N维当前特征;其中,N为正整数;将所述N维当前特征输入训练完成的stacking模型中进行特征扩展,得到所述待分类网页的N+n维特征;其中,所述stacking模型为p个基础分类模型经q层堆叠的模型,n为p与q的乘积,n、p、q均为正整数;根据所述N+n维特征利用分类算法得到所述待分类网页的分类结果。本专利技术实施例提供的网页分类方法,利用stacking模型对待分类网页的N维当前特征进行扩展,在不依赖与搜索引擎或第三方服务的前提下提高了网页分类的准确性。本专利技术还公开了一种网页分类系统及一种网页分类设备和一种计算机可读存储介质,同样能实现上述技术效果。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例公开的一种网页分类方法的流程图;图2为本专利技术实施例公开的另一种网页分类方法的流程图;图3为本专利技术实施例公开的另一种网页分类方法Stacking模型中特征扩展的流程图;图4为本专利技术实施例公开的一种网页分类系统的结构图;图5为本专利技术实施例公开的一种网页分类设备的结构图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例公开了一种网页分类方法,在不依赖与搜索引擎或第三方服务的前提下提高了网页分类的准确性。参见图1,本专利技术实施例公开的一种网页分类方法的流程图,如图1所示,包括:S101:获取待分类网页的N维当前特征;其中,N为正整数;本专利技术实施例提供的网页分类方法可应用于钓鱼网站的检测,在具体实施中,所述N本文档来自技高网...
一种网页分类方法、系统及一种网页分类设备

【技术保护点】
一种网页分类方法,其特征在于,包括:获取待分类网页的N维当前特征;其中,N为正整数;将所述N维当前特征输入训练完成的stacking模型中进行特征扩展,得到所述待分类网页的N+n维特征;其中,所述stacking模型为p个基础分类模型经q层堆叠的模型,n为p与q的乘积,n、p、q均为正整数;根据所述N+n维特征利用分类算法得到所述待分类网页的分类结果。

【技术特征摘要】
1.一种网页分类方法,其特征在于,包括:获取待分类网页的N维当前特征;其中,N为正整数;将所述N维当前特征输入训练完成的stacking模型中进行特征扩展,得到所述待分类网页的N+n维特征;其中,所述stacking模型为p个基础分类模型经q层堆叠的模型,n为p与q的乘积,n、p、q均为正整数;根据所述N+n维特征利用分类算法得到所述待分类网页的分类结果。2.根据权利要求1所述网页分类方法,其特征在于,将所述N维当前特征输入训练完成的stacking模型中进行特征扩展,得到所述待分类网页的N+n维特征,包括:S1:获取训练集,并将所述训练集划分为m份训练样本;其中,所述训练集中的每一个网页包括N维特征;S2:选取一份所述训练样本训练所述基础分类模型,利用训练完成的基础分类模型预测所述待分类网页,直至所述m份训练样本全部选取完成,得到m个中间预测结果,并通过对所述m个中间预测结果进行投票表决得到一维增加特征;S3:重复S2,直至所有的所述基础分类模型全部训练完成得到p维增加特征,并将所述p维增加特征与所述待分类网页的当前特征合并,作为所述待分类网页的当前特征;S4:重复S2-S3,直至完成所述stacking模型的q层堆叠,得到所述待分类网页的N+n维特征。3.根据权利要求2所述网页分类方法,其特征在于,若p=3,则所述基础分类模型包括GBDT分类模型、XGBoost分类模型和lightGBM分类模型。4.根据权利要求1所述网页分类方法,其特征在于,获取待分类网页的N维特征之后,还包括:利用Z-score方法对所述N维特征进行标准化处理。5.根据权利要求1所述网页分类方法,其特征在于,所述分类算法包括GBDT算法。6.根据权利要求1-5任一项所述网页分类方法,其特征在于,所述N维当前特征包括所述待分类网页的URL特征和HTML特征,所述URL特征包括顶级域名个数和相似...

【专利技术属性】
技术研发人员:刘文印黎宇坤陈旭袁华平杨振国
申请(专利权)人:广东工业大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1