【技术实现步骤摘要】
一种网络爬虫识别方法
本专利技术涉及网络安全
,尤其涉及一种网络爬虫识别方法。
技术介绍
爬虫技术的更新换代为搜索引擎提供了很好的技术支持,但是很多不友好的爬虫并不遵循通用的reboots协议,未经过平台允许擅自索引平台数据,不仅有可能泄露用户隐私信息,也会造成平台的服务器压力增大。为了防范这种恶意爬虫,防爬虫技术应运而生。采用User-Agent的方法,通过WEB访问日志或抓包获取部分网络爬虫的请求特征,如User-Agent及其他HTTP请求头信息,设置相应的拦截规则,拦截网络爬虫的请求。但是,User-Agent及HTTP请求头信息都可以自定义,通过随机化这些值,就可绕过设置的网络爬虫拦截规则,防护效果并不理想。使用其他形式的验证码进行人机识别时,由于网络爬虫不能直接输入正确的验证码,所以网络爬虫不能对网站内容进行抓取,但对正常访问的用户体验不好,需要频繁的输入验证码。
技术实现思路
本专利技术针对网络爬虫识别的问题,克服现有技术存在的不足,提出一种网络爬虫识别方法,本方法通过预设黑名单和对接收到的请求进行多次识别判断,能够有效的提高爬虫识别的效率和正确率。本专利技术采用的技术方案如下。一种网络爬虫识别方法,其包括如下步骤。S1、设置黑名单,将已知的爬虫请求对应的源IP地址记录在黑名单中。S2、对接收到的请求的源IP地址进行判断,如果在黑名单中,则将该请求识别为网络爬虫,并执行步骤S5。S3、统计请求次数,计算请求频率,如果平均每 ...
【技术保护点】
1.一种网络爬虫识别方法,其特征在于,步骤包括:/nS1、设置黑名单,将已知的爬虫请求对应的源IP地址记录在黑名单中;/nS2、对接收到的请求的源IP地址进行判断,如果在黑名单中,则将该请求识别为网络爬虫,并执行步骤S5;/nS3、统计请求次数,计算请求频率,如果平均每分钟内请求次数大于60次,则将该请求识别为网络爬虫,将该请求的源IP加入黑名单,并执行步骤S5;/nS4、对接收到的请求的URL链接进行判断,如果为特殊设置的URL则将该请求识别为网络爬虫,并将该请求的源IP加入黑名单;/nS5、结束识别。/n
【技术特征摘要】 【专利技术属性】
1.一种网络爬虫识别方法,其特征在于,步骤包括:
S1、设置黑名单,将已知的爬虫请求对应的源IP地址记录在黑名单中;
S2、对接收到的请求的源IP地址进行判断,如果在黑名单中,则将该请求识别为网络爬虫,并执行步骤S5;
S3、统计请求次数,计算请求频率,如果平均每分钟内请求次数大于60次,则将该请求识别为网络爬虫,将该请求的源IP加入黑名单,并执行步骤S5;
S4、对接收到的请求的URL链接进行判断,如果为特殊设置的URL则将该请求识别为网络爬虫,并将该请求的源IP加入黑名单;
S5、结束识别。
技术研发人员:李茜,阮沐阳,刘慧斯,张桂福,
申请(专利权)人:湘潭大学,
类型:发明
国别省市:湖南;43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。