一种网络爬虫识别方法技术

技术编号：27886711 阅读：22 留言：0更新日期：2021-03-31 01:51

本发明专利技术公开了一种网络爬虫识别方法，本方法的步骤包括：S1、设置黑名单，将已知的爬虫请求对应的源IP地址记录在黑名单中；S2、对接收到的请求的源IP地址进行判断，如果在黑名单中，则将该请求识别为网络爬虫，并执行步骤S5；S3、统计请求次数，计算请求频率，如果平均每分钟内请求次数大于60次，则将该请求识别为网络爬虫，将该请求的源IP加入黑名单，并执行步骤S5；S4、对接收到的请求的URL链接进行判断，如果为特殊设置的URL则将该请求识别为网络爬虫，并将该请求的源IP加入黑名单；S5、结束识别。本方法通过预设黑名单和对接收到的请求进行多次识别判断，能够有效的提高爬虫识别的效率和正确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种网络爬虫识别方法
本专利技术涉及网络安全
，尤其涉及一种网络爬虫识别方法。
技术介绍
爬虫技术的更新换代为搜索引擎提供了很好的技术支持，但是很多不友好的爬虫并不遵循通用的reboots协议，未经过平台允许擅自索引平台数据，不仅有可能泄露用户隐私信息，也会造成平台的服务器压力增大。为了防范这种恶意爬虫，防爬虫技术应运而生。采用User-Agent的方法，通过WEB访问日志或抓包获取部分网络爬虫的请求特征，如User-Agent及其他HTTP请求头信息，设置相应的拦截规则，拦截网络爬虫的请求。但是，User-Agent及HTTP请求头信息都可以自定义，通过随机化这些值，就可绕过设置的网络爬虫拦截规则，防护效果并不理想。使用其他形式的验证码进行人机识别时，由于网络爬虫不能直接输入正确的验证码，所以网络爬虫不能对网站内容进行抓取，但对正常访问的用户体验不好，需要频繁的输入验证码。
技术实现思路
本专利技术针对网络爬虫识别的问题，克服现有技术存在的不足，提出一种网络爬虫识别方法，本方法通过预设黑名单和对接收到的请求进行多次识别判断，能够有效的提高爬虫识别的效率和正确率。本专利技术采用的技术方案如下。一种网络爬虫识别方法，其包括如下步骤。S1、设置黑名单，将已知的爬虫请求对应的源IP地址记录在黑名单中。S2、对接收到的请求的源IP地址进行判断，如果在黑名单中，则将该请求识别为网络爬虫，并执行步骤S5。S3、统计请求次数，计算请求频率，如果平均每...

【技术保护点】
1.一种网络爬虫识别方法，其特征在于，步骤包括：/nS1、设置黑名单，将已知的爬虫请求对应的源IP地址记录在黑名单中；/nS2、对接收到的请求的源IP地址进行判断，如果在黑名单中，则将该请求识别为网络爬虫，并执行步骤S5；/nS3、统计请求次数，计算请求频率，如果平均每分钟内请求次数大于60次，则将该请求识别为网络爬虫，将该请求的源IP加入黑名单，并执行步骤S5；/nS4、对接收到的请求的URL链接进行判断，如果为特殊设置的URL则将该请求识别为网络爬虫，并将该请求的源IP加入黑名单；/nS5、结束识别。/n

【技术特征摘要】
1.一种网络爬虫识别方法，其特征在于，步骤包括：
S1、设置黑名单，将已知的爬虫请求对应的源IP地址记录在黑名单中；
S2、对接收到的请求的源IP地址进行判断，如果在黑名单中，则将该请求识别为网络爬虫，并执行步骤S5；
S3、统计请求次数，计算请求频率，如果平均每分钟内请求次数大于60次，则将该请求识别为网络爬虫，将该请求的源IP加入黑名单，并执行步骤S5；
S4、对接收到的请求的URL链接进行判断，如果为特殊设置的URL则将该请求识别为网络爬虫，并将该请求的源IP加入黑名单；
S5、结束识别。

【专利技术属性】
技术研发人员：李茜，阮沐阳，刘慧斯，张桂福，
申请(专利权)人：湘潭大学，
类型：发明
国别省市：湖南;43

全部详细技术资料下载我是这个专利的主人