一种应用于网络爬虫的动态流量控制方法技术

技术编号：15334506 阅读：107 留言：0更新日期：2017-05-16 21:43

本发明专利技术涉及网络爬虫的动态流量控制机制，旨在提供一种应用于网络爬虫的动态流量控制方法。该种应用于网络爬虫的动态流量控制方法包括步骤：爬虫程序接收到请求包的响应时，计算本次传输的往返时延R，然后每隔TIME_INTERVAL时间统计该时间间隔内RTT估计器

全部详细技术资料下载

【技术实现步骤摘要】
一种应用于网络爬虫的动态流量控制方法
本专利技术是关于网络爬虫的动态流量控制机制领域，特别涉及一种应用于网络爬虫的动态流量控制方法。
技术介绍
随着互联网技术的快速发展，互联网已经成为大量信息的载体，为了高效提取和利用互联网上的信息，网络爬虫技术应运而生。网络爬虫是一种以固定规则自动抓取网页信息的程序或脚本。网络爬虫通常以一个或多个URL开始，然后获取初始网页上的URL。在爬行网页的过程中，爬虫会不断地获取当前页面的URL并将这些URL加入队列。爬虫定期检查该队列，如果该队列不为空，则爬行队列中的URL。爬虫会在满足一定的停止条件后自动停止。由于网络爬虫会不断获取当前爬行网页中的URL并加入列队继续爬行，这会导致爬虫在短时间内向站点发送大量请求，从而导致网络和服务器负载迅速增高，使得请求响应的往返时间显著变大，严重时可能会导致网络或服务器崩溃。网络爬虫发送的是http请求包，其工作在网络层次结构中的应用层，同时用户只能在客户端对爬虫的发包行为进行约束，从而减少服务端的压力。现有技术中，还没有实现在客户端的用于缓解服务端压力的应用层流量控制方法。一方面，流量控制以实现在服务端为主，专利2011103622224便是实现在服务端的应用层流量控制，通过黑名单的方法将爬虫请求包进行过滤，然而该方法局限于服务端，爬虫的实现者基本上没有操作服务器的权限，因而该方法难以被爬虫实现者所采用，并且过滤了爬虫请求包也会对爬虫抓取数据的完整性产生很大的影响。另一方面，流量控制一般实现在更底层，比如传输层。著名的滑动窗口机制就是实现在传输层上的流量控制方法，通过限制发送窗口的大小...
一种应用于网络爬虫的动态流量控制方法

【技术保护点】
一种应用于网络爬虫的动态流量控制方法，用于对爬虫程序进行流量控制，其特征在于，所述应用于网络爬虫的动态流量控制方法具体包括下述步骤：(1)爬虫程序接收到请求包的响应时，计算本次传输的往返时延R；再用该往返时延R更新RTT估计器

【技术特征摘要】
1.一种应用于网络爬虫的动态流量控制方法，用于对爬虫程序进行流量控制，其特征在于，所述应用于网络爬虫的动态流量控制方法具体包括下述步骤：(1)爬虫程序接收到请求包的响应时，计算本次传输的往返时延R；再用该往返时延R更新RTT估计器RTT估计器的计算式如下：其中，α是平滑因子，R是实际测量的往返时延；然后每隔TIME_INTERVAL时间统计该时间间隔内RTT估计器的最小值和最大值具体更新方式为：区间开始时重置区间内更新和反映当前爬虫程序对网络或服务器的负载大小，这两个值用于作为动态流量控制的判断参数；(2)再将该往返时延R与RTT统计参数对比，并根据对比结果调整爬虫程序当前的最大并发连接数MaxRequestCount，用于控制爬虫程序的每秒发包数，具体为：当往返时...

【专利技术属性】
技术研发人员：范渊，陈高翔，陈刚，黄进，
申请(专利权)人：杭州安恒信息技术有限公司，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人