当前位置: 首页 > 专利查询>湘潭大学专利>正文

一种网络爬虫识别方法技术

技术编号:27886711 阅读:22 留言:0更新日期:2021-03-31 01:51
本发明专利技术公开了一种网络爬虫识别方法,本方法的步骤包括:S1、设置黑名单,将已知的爬虫请求对应的源IP地址记录在黑名单中;S2、对接收到的请求的源IP地址进行判断,如果在黑名单中,则将该请求识别为网络爬虫,并执行步骤S5;S3、统计请求次数,计算请求频率,如果平均每分钟内请求次数大于60次,则将该请求识别为网络爬虫,将该请求的源IP加入黑名单,并执行步骤S5;S4、对接收到的请求的URL链接进行判断,如果为特殊设置的URL则将该请求识别为网络爬虫,并将该请求的源IP加入黑名单;S5、结束识别。本方法通过预设黑名单和对接收到的请求进行多次识别判断,能够有效的提高爬虫识别的效率和正确率。

【技术实现步骤摘要】
一种网络爬虫识别方法
本专利技术涉及网络安全
,尤其涉及一种网络爬虫识别方法。
技术介绍
爬虫技术的更新换代为搜索引擎提供了很好的技术支持,但是很多不友好的爬虫并不遵循通用的reboots协议,未经过平台允许擅自索引平台数据,不仅有可能泄露用户隐私信息,也会造成平台的服务器压力增大。为了防范这种恶意爬虫,防爬虫技术应运而生。采用User-Agent的方法,通过WEB访问日志或抓包获取部分网络爬虫的请求特征,如User-Agent及其他HTTP请求头信息,设置相应的拦截规则,拦截网络爬虫的请求。但是,User-Agent及HTTP请求头信息都可以自定义,通过随机化这些值,就可绕过设置的网络爬虫拦截规则,防护效果并不理想。使用其他形式的验证码进行人机识别时,由于网络爬虫不能直接输入正确的验证码,所以网络爬虫不能对网站内容进行抓取,但对正常访问的用户体验不好,需要频繁的输入验证码。
技术实现思路
本专利技术针对网络爬虫识别的问题,克服现有技术存在的不足,提出一种网络爬虫识别方法,本方法通过预设黑名单和对接收到的请求进行多次识别判断,能够有效的提高爬虫识别的效率和正确率。本专利技术采用的技术方案如下。一种网络爬虫识别方法,其包括如下步骤。S1、设置黑名单,将已知的爬虫请求对应的源IP地址记录在黑名单中。S2、对接收到的请求的源IP地址进行判断,如果在黑名单中,则将该请求识别为网络爬虫,并执行步骤S5。S3、统计请求次数,计算请求频率,如果平均每分钟内请求次数大于60次,则将该请求识别为网络爬虫,将该请求的源IP加入黑名单,并执行步骤S5。S4、对接收到的请求的URL链接进行判断,如果为特殊设置的URL则将该请求识别为网络爬虫,并将该请求的源IP加入黑名单。S5、结束识别。进一步地,将IP地址记录在黑名单中的有效时间为6小时,IP地址记录在黑名单中6小时后将自动删除该IP地址。进一步地,所述步骤S2中,进行判断需要将接收到的请求的源IP地址与黑名单中全部的IP地址进行比对。进一步地,所述步骤S3中,计算请求频率的规则为用10分钟内请求的总次数除以10,计算出平均每分钟内请求的次数。进一步地,所述步骤S4中,特殊设置的URL的格式为:<ahref=“URL_LINK”></a>。本专利技术的有益效果是:通过预设黑名单,减少不必要的识别步骤,提高识别效率。另外对接收到的请求进行多次识别判断,能够有效的提高爬虫识别的正确率。附图说明图1为实施例中的一种网络爬虫识别方法的流程图。具体实施方式为使本专利技术的上述特征和优点能更明显易懂,下文特举实施例,并配合图1作详细说明如下。图1是本实施例提出的一种网络爬虫识别方法的流程图,包括如下步骤。S1、设置黑名单,将已知的爬虫请求对应的源IP地址记录在黑名单中。并且将IP地址记录在黑名单中的有效时间为6小时,IP地址记录在黑名单中6小时后将自动删除该IP地址。S2、对接收到的请求的源IP地址进行判断,如果在黑名单中,则将该请求识别为网络爬虫,并执行步骤S5。在S2中,进行判断需要将接收到的请求的源IP地址与黑名单中全部的IP地址进行比对。S3、统计请求次数,计算请求频率,如果平均每分钟内请求次数大于60次,则将该请求识别为网络爬虫,将该请求的源IP加入黑名单,并执行步骤S5。计算请求频率的规则为用10分钟内请求的总次数除以10,计算出平均每分钟内请求的次数。例如统计得到10分钟内总共请求了800次,可以用800除以10,得出平均每分钟内请求了80次。S4、对接收到的请求的URL链接进行判断,如果为特殊设置的URL则将该请求识别为网络爬虫,并将该请求的源IP加入黑名单。特殊设置的URL的格式为:<ahref=“URL_LINK”></a>。S5、结束识别。以上所述,仅是本专利技术的较佳实施例而已,并非对本专利技术作任何形式上的限制,虽然本专利技术已以较佳实施例揭露如上,然而并非用以限定本专利技术,任何熟悉本专业的技术人员,在不脱离本专利技术技术方案范围内,当可利用上述揭示的
技术实现思路
作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本专利技术技术方案的内容,依据本专利技术的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本专利技术技术方案的范围内。本文档来自技高网
...

【技术保护点】
1.一种网络爬虫识别方法,其特征在于,步骤包括:/nS1、设置黑名单,将已知的爬虫请求对应的源IP地址记录在黑名单中;/nS2、对接收到的请求的源IP地址进行判断,如果在黑名单中,则将该请求识别为网络爬虫,并执行步骤S5;/nS3、统计请求次数,计算请求频率,如果平均每分钟内请求次数大于60次,则将该请求识别为网络爬虫,将该请求的源IP加入黑名单,并执行步骤S5;/nS4、对接收到的请求的URL链接进行判断,如果为特殊设置的URL则将该请求识别为网络爬虫,并将该请求的源IP加入黑名单;/nS5、结束识别。/n

【技术特征摘要】
1.一种网络爬虫识别方法,其特征在于,步骤包括:
S1、设置黑名单,将已知的爬虫请求对应的源IP地址记录在黑名单中;
S2、对接收到的请求的源IP地址进行判断,如果在黑名单中,则将该请求识别为网络爬虫,并执行步骤S5;
S3、统计请求次数,计算请求频率,如果平均每分钟内请求次数大于60次,则将该请求识别为网络爬虫,将该请求的源IP加入黑名单,并执行步骤S5;
S4、对接收到的请求的URL链接进行判断,如果为特殊设置的URL则将该请求识别为网络爬虫,并将该请求的源IP加入黑名单;
S5、结束识别。

【专利技术属性】
技术研发人员:李茜阮沐阳刘慧斯张桂福
申请(专利权)人:湘潭大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1