一种基于预取的钓鱼网页检测方法技术

技术编号：3918949 阅读：354 留言：0更新日期：2012-04-11 18:40

基于预取的钓鱼网页检测方法涉及网站信息获取、拓扑特征的提取、分类，主要解决了钓鱼网页检测能力问题。该方法以用户界面模块１为界面、总控模块２为中心，调度分类器模块３、特征提取模块４和网页预取模块５。其中分类器模块首先需要从训练集训练，并采用增量更新的方式，保证该分类器保持对新的钓鱼网页的检测能力。特征提取模块主要提取所预取的网站拓扑结构特征，该特征将被保存在训练集数据库中，同时传递给分类器模块。网页预取模块根据总控模块的指令抓取给定网址一定数量的网页，并保存到网页数据库中。本发明专利技术提出基于预取的钓鱼检测方法，在精度、召回率上都有了很大提高。

全部详细技术资料下载

【技术实现步骤摘要】

【技术保护点】
一种基于预取的钓鱼网页检测方法，其特征在于在钓鱼网页检测过程中通过爬虫预取一定数量的网页，在此基础上提取网站拓扑特征，以此作为钓鱼网页检测的依据，分类器采用增量学习方法，保证了分类器的及时更新，具体实现步骤为：步骤１）网络爬虫获取初始训练集的过程：使用网络爬虫采集ｍ个正规网站即非钓鱼网站的数据，其中ｍ＞＝２００，并抽取出特征量组织成实例数据；使用网络爬虫采集ｎ个钓鱼网站的数据，其中ｍ＞＝２００，并抽取出特征量组织成实例数据，步骤２）训练集的标定过程：将所有钓鱼网站实例数据中分类属性全部填写为“ｔｒｕｅ”，表示钓鱼网站；将所有正规网站实例数据中分类属性全部填写为“ｆａｌｓｅ”，表示非钓鱼网站，步骤３）网站拓扑特征的提取过程：包括拓扑结构构造，提取１５种数值特征，●网页数量当前网站经过分析页面的数量；●外网链接入数量因特网上别的网站页面指向当前分析页面的链接数量，这个可以通过Ｇｏｏｇｌｅ提供的搜索功能获取；●链接向外网数量当前被分析网站页面中指向非本网站页面的链接数量；●内部链接数量当前被分析网站页面指向本网站页面的链接数量；●页面平均图片数量记录下当前页面中图片数量；●页面平均ｃｓｓ文件...

【技术特征摘要】

【专利技术属性】
技术研发人员：张卫丰，贡亮，周国强，张迎周，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：84[中国|南京]

全部详细技术资料下载我是这个专利的主人