【技术实现步骤摘要】
【技术保护点】
一种基于预取的钓鱼网页检测方法,其特征在于在钓鱼网页检测过程中通过爬虫预取一定数量的网页,在此基础上提取网站拓扑特征,以此作为钓鱼网页检测的依据,分类器采用增量学习方法,保证了分类器的及时更新,具体实现步骤为:步骤1)网络爬虫获取初始训练集的过程:使用网络爬虫采集m个正规网站即非钓鱼网站的数据,其中m>=200,并抽取出特征量组织成实例数据;使用网络爬虫采集n个钓鱼网站的数据,其中m>=200,并抽取出特征量组织成实例数据,步骤2)训练集的标定过程:将所有钓鱼网站实例数据中分类属性全部填写为“true”,表示钓鱼网站;将所有正规网站实例数据中分类属性全部填写为“false”,表示非钓鱼网站,步骤3)网站拓扑特征的提取过程:包括拓扑结构构造,提取15种数值特征,●网页数量当前网站经过分析页面的数量;●外网链接入数量因特网上别的网站页面指向当前分析页面的链接数量,这个可以通过Google提供的搜索功能获取;●链接向外网数量当前被分析网站页面中指向非本网站页面的链接数量;●内部链接数量当前被分析网站页面指向本网站页面的链接数量;●页面平均图片数量记录下当前页面中图片数量;●页面平均css文件 ...
【技术特征摘要】
【专利技术属性】
技术研发人员:张卫丰,贡亮,周国强,张迎周,
申请(专利权)人:南京邮电大学,
类型:发明
国别省市:84[中国|南京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。