【技术实现步骤摘要】
本专利技术涉及网络安全,具体涉及一种用于识别钓鱼网站页面的方法和装置。
技术介绍
在网络安全领域,典型的反钓鱼系统包括钓鱼数据收集系统(即蜘蛛系统)、钓鱼识别系统、钓鱼数据查杀引擎及钓鱼防杀客户端四部分组成,其中钓鱼数据收集系统负责从海量的互联网数据中进行筛选并下载疑似钓鱼页面,是一个反钓鱼系统的起点,能否快速、全面的发现新的钓鱼数据决定着一个反钓鱼系统质量的优劣。现有的钓鱼数据收集系统(蜘蛛系统)从一些种子页面开始进行抓取,通过对新发 现的页面做链接分析,从中获取新的URL (Uniform Resource Locator,统一资源定位符),然后对URL进行下载,将下载后的内容提交给钓鱼识别系统,钓鱼识别系统对已下载的内容抽取链接,加入待抓取队列,并且如此循环进行。现有的钓鱼数据收集系统在下载过程中主要下载静态页面内容,少数系统可以分析一些简单的动态页面内容。而钓鱼页面数据不同于普通的网页数据,钓鱼页面的作者通常会使用各种方法来防止被反钓鱼系统的爬虫抓取到,例如会使用iframe元素、设置cookie、设置页面定时刷新、和/或收集爬虫IP变换域名等静态或动态的客户端或服务端检测方法,来屏蔽或欺骗蜘蛛的抓取。而且,钓鱼页面通常变化时效性很强,有些在被反钓鱼系统查杀后的几个小时之内就会发生变种,速度非常之快。对于这些特点,传统意义上的蜘蛛系统已经显得力不从心。另外,由于钓鱼数据的易变性,传统意义上的蜘蛛系统在发现和抓取这一整套环节中都严重滞后,因为钓鱼网站制作者通常掌握大量的网站域名,一个钓鱼网站在新生成后,可能只会欺骗一部分用户,然后就会隐匿起来,再换 ...
【技术保护点】
一种用于识别钓鱼网站页面的方法(100),包括:收集潜在钓鱼网站页面的网址并且对于潜在钓鱼网站页面进行分析(S101);根据分析结果和预先定义的反钓鱼数据库,调整所述潜在钓鱼网站页面在静态抓取队列中的排序(S103);按照排序对所述静态抓取队列中的所述潜在钓鱼网站页面进行静态抓取(S105);将静态抓取失败的潜在钓鱼网站页面提交至动态抓取队列并进行动态抓取(S107);以及基于所述预先定义的反钓鱼数据库,根据静态抓取和动态抓取获得的数据识别钓鱼网站页面(S109)。
【技术特征摘要】
1.一种用于识别钓鱼网站页面的方法(100),包括 收集潜在钓鱼网站页面的网址并且对于潜在钓鱼网站页面进行分析(SlOl); 根据分析结果和预先定义的反钓鱼数据库,调整所述潜在钓鱼网站页面在静态抓取队列中的排序(S103); 按照排序对所述静态抓取队列中的所述潜在钓鱼网站页面进行静态抓取(S105); 将静态抓取失败的潜在钓鱼网站页面提交至动态抓取队列并进行动态抓取(S107);以及 基于所述预先定义的反钓鱼数据库,根据静态抓取和动态抓取获得的数据识别钓鱼网站页面(S109)。2.如权利要求I所述的方法,其中所述预先定义的反钓鱼数据库包括钓鱼网站页面的特征信息以及用于确定是否动态抓取潜在钓鱼网站页面的分类信息,所述钓鱼网站页面的特征信息包括IP数据、域名、注册信息、内嵌链接、META标签信息、标题信息、关键词、文档对象模型DOM结构。3.如权利要求2所述的方法,还包括在所述收集潜在钓鱼网站页面的网址并且对于潜在钓鱼网站页面进行分析(SlOl)的步骤之后,在所述根据分析结果和预先定义的反钓鱼数据库调整所述潜在钓鱼网站页面在静态抓取队列中的排序(S103)的步骤之前, 根据分析结果和预先定义的反钓鱼数据库,将符合所述预先定义的反钓鱼数据库中的所述分类信息的潜在钓鱼网站页面提交至动态抓取队列(S102)。4.如权利要求2所述的方法,其中所述分析结果包括潜在钓鱼网站页面的页面浏览量PV数据、独立访客量UV数据、以及所述特征信息和所述分类信息。5.如权利要求I至4中的任一项所述的方法,还包括 提取所识别出的钓鱼网站页面的特征信息以及分类信息(SllO);以及 将所述特征信息以及分类信息添加到所述预先定义的反钓鱼数据库(SI 11)。6.如权利要求I至4中的任一项所述的方法,其中所述根据分析结果和预先定义的反钓鱼数据库调整所述潜在钓鱼网站页面在静态抓取队列中的排序(S103)的步骤包括将具有以下特征的潜在钓鱼网站页面在静态抓取队列中的排序提前 (1)在预先定义的时间点后收集到其信息的潜在钓鱼网站页面;和/或 (2)页面浏览量PV数据和/或独立访客量UV数据大于预先定义的第一阈值的潜在钓鱼网站页面;和/或 (3)与所述预先定义的反钓鱼数据库中的钓鱼网站页面的特征信息匹配程度大于预先定义的第二阈值的潜在钓鱼网站页面。7.如权利要求I至4中的任一项所述的方法,其中所述基于所述预先定义的反钓鱼数据库、根据静态抓取和动态抓取获得的数据识别钓鱼网站页面(S109)的步骤包括 将静态抓取和动态抓取获得的数据中的潜在钓鱼网站页面的特征信息与所述预先定义的反钓鱼数据库中的特征信息进行比较(S109a);以及 根据比较结果识别钓鱼网站页面(S109b)。8.如权利要求7所述的方法,其中所述根据比较结果识别钓鱼网站页面(S109b)的步骤包括 根据比较结果中潜在钓鱼网站页面的特征信息与所述预先定义的反钓鱼数据库中的特征信息的匹配情况,确定所述潜在钓鱼网站页面的类别(S109bl);以及 在比较结果中潜在钓鱼网站页面的特征信息与所述预先定义的反钓鱼数据库中所述类别的特征信息的匹配程度大于用于所述类别的阈值的情况下,将所述潜在钓鱼网站页面识别为钓鱼网站页面(S 109b2 )。9.如权利要求I至4中的任一项所述的方法,其中所述静态抓取队列存储用于静态抓取的潜在钓鱼网站页面,所述动态抓取队列存储用于动态抓取的潜在钓鱼网站页面。10.一种用...
【专利技术属性】
技术研发人员:李晓波,刘起,
申请(专利权)人:北京奇虎科技有限公司,奇智软件北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。