【技术实现步骤摘要】
一种基于关键词检索的网络爬虫调度方法及系统
本专利技术涉及网络爬虫相关
,特别是一种基于关键词检索的网络爬虫调度方法及系统。
技术介绍
基于关键词检索的网络爬虫是获取关键词信息的基础,但是由于信息的更新会导致网络爬虫的重复抓取或抓不全等情况的发生。特别是目标网站信息变更非常频繁的情况,比如新浪微博等微博类网站,百度等搜索类网站。对于热门关键词,由于信息更新很快,导致网络爬虫很难抓全这些数据;而对于冷门的关键词,由于信息更新比较慢,会导致信息的重复抓取。现有的做法是给关键词设置不同的热度,然后根据关键词热度对关键词进行抓取,热度大的关键词抓取的更加频繁。然而,现有的做法存在如下缺陷:(1)需要知道每个关键词的热度,然后根据热度来设置抓取频率。(2)在首次请求的过程中会涉及很多二次下载链接地址的请求,现有方案并没有对此进行区分。
技术实现思路
基于此,有必要针对现有技术通过设置关键词热度来设置抓取频率,需要预先确定关键词热度,从而导致抓取频率不准确的技术问题,提供一种基于关键词检索的网络爬虫调度方法及系统。一种基于关键词检索的网络爬虫调度方法,包括:步骤11,抓取节点向调度端发送任务请求命令;步骤12,调度端接收到抓取节点发送的任务请求命令;步骤13,调度端从保存二次下载链接地址的优先桶获取二次下载链接地址生成任务并加入任务列表,如果已达到任务列表的允许加入优先桶数量,则执行步骤16,否则执行步骤14,所述二次下载链接地址为所述抓取节点根据任务列表中的任务进行抓取得到抓取页面,从抓取页面中分析得到需要进行二次下载的链接地址;步骤14,调度端从保存关键词多页码 ...
【技术保护点】
【技术特征摘要】
1.一种基于关键词检索的网络爬虫调度方法,其特征在于,包括:步骤(11),抓取节点向调度端发送任务请求命令;步骤(12),调度端接收到抓取节点发送的任务请求命令;步骤(13),调度端从保存二次下载链接地址的优先桶获取二次下载链接地址生成任务并加入任务列表,如果已达到任务列表的允许加入优先桶数量,则执行步骤(16),否则执行步骤(14),所述二次下载链接地址为所述抓取节点根据任务列表中的任务进行抓取得到抓取页面,从抓取页面中分析得到需要进行二次下载的链接地址;步骤(14),调度端从保存关键词多页码链接地址的动态桶获取关键词链接地址,并根据与关键词链接地址对应的页码数量衍生出所述页码数量的衍生链接地址,根据所述页码数量的衍生链接地址生成所述页码数量的任务并加入任务列表,如果已达到任务列表的允许加入动态桶数量,则执行步骤(16),否则执行步骤(15),所述关键词链接地址为在目标网站中根据所述关键词所生成的搜索结果页面的链接地址,且动态桶中的关键词链接地址对应的搜索结果页面包括大于或等于预设页码数量阈值的页码数量,所述页码数量阈值大于或等于2;步骤(15),调度端从保存关键词链接地址的基本桶获取关键词链接地址生成任务并加入任务列表,如果已达到任务列表的允许加入基本桶数量,则执行步骤(16),所述关键词链接地址为在目标网站中根据所述关键词所生成的搜索结果页面的链接地址,且基本桶中的关键词链接地址对应的搜索结果页面包括小于预设页码数量阈值的页码数量;步骤(16),调度端向抓取节点返回任务列表,所述抓取节点根据所接收到的任务列表执行任务列表中的任务。2.根据权利要求1所述的基于关键词检索的网络爬虫调度方法,其特征在于,所述步骤(13)具体包括:从保存二次下载链接地址的优先桶获取二次下载链接地址生成任务并加入任务列表,并从优先桶中删除已生成任务的二次下载链接地址,如果已达到任务列表的允许加入优先桶数量,则执行步骤(16),否则如果优先桶中还保存有二次下载链接地址,则执行步骤(13),如果优先桶中所有的二次下载链接地址均已删除,则执行步骤(14)。3.根据权利要求1所述的基于关键词检索的网络爬虫调度方法,其特征在于,所述步骤(14)具体包括:从保存关键词链接地址的动态桶获取未调度的关键词链接地址,并根据与关键词链接地址对应的页码数量衍生出所述页码数量的衍生链接地址,根据所述页码数量的衍生链接地址生成所述页码数量的任务并加入任务列表,并设置已生成任务的关键词链接地址的状态为已调度,如果已达到任务列表的允许加入动态桶数量,则执行步骤(16),并设置动态桶中所有的关键词链接地址的状态为未调度,否则如果动态桶中还保存有未调度的关键词链接地址,则执行步骤(14),如果动态桶中未保存有未调度的关键词链接地址,则执行步骤(15)。4.根据权利要求1所述的基于关键词检索的网络爬虫调度方法,其特征在于,所述基本桶包括活动桶和挂起桶,所述步骤(15)具体包括,从保存关键词链接地址的活动桶获取调度时间最前的关键词链接地址生成任务并加入任务列表,并将已生成任务的关键词链接地址的调度时间增加预设的调度时间增加量后移动到挂起桶,如果已达到任务列表的允许加入基本桶数量,则执行步骤(16),否则如果活动桶中还保存有关键词链接地址,则执行步骤(15),如果活动桶中未保存关键词链接地址,则执行步骤(16)。5.根据权利要求1所述的基于关键词检索的网络爬虫调度方法,其特征在于,还包括:抓取节点根据任务列表中的任务进行抓取得到抓取页面,对所述抓取页面进行分析得到包括二次下载链接地址、信息详情或页码数量的分析数据,将分析数据发送到调度端;调度端接收到分析数据:如果分析数据为二次下载链接地址,则将二次下载链接地址放入优先桶;如果分析数据为信息详情,则将信息详情放入数据桶;如果分析数据为页码数量,则在动态桶和基本桶中调整与所述页码数量对应的关键词链接地址。6.根据权利要求5所述的基于关键词检索的网络爬虫调度方法,其特征在于,调度端在动态桶和基本桶中调整与所述页码数量对应的关键词链接地址具体包括:设置当前接收到的页码数量为新页码数量,设置上一次同一关键词链接地址接收到的页码数量为旧页码数量;如果旧页码数量与新页码数量不一致,则:如果旧页码数量大于或等于所述页码数量阈值,且新页码数量大于或等于所述页码数量阈值,则修改对应的关键词链接地址对应的页码数量为新页码数量;如果旧页码数量大于或等于所述页码数量阈值,且新页码数量小于所述页码数量阈值,则将对应的关键词链接地址移动到基本桶;如果旧页码数量小于所述页码数量阈值,且新页码数量大于或等于所述页码数量阈值,则将对应的关键词链接地址移动到动态桶。7.根据权利要求4所述的基于关键词检索的网络爬虫调度方法,其特征在于:抓取节点根据任务列表中的任务进行抓取得到抓取页面,对所述抓取页面进行分析得到包括二次下载链接地址、信息详情或页码数量的分析数据,将分析数据发送到调度端;调度端接收到分析数据:如果分析数据为二次下载链接地址,则将二次下载链接地址放入优先桶;如果分析数据为信息详情,则将信息详情放入数据桶;如果分析数据为页码数量,则设置当前接收到的页码数量为新页码数量,设置上一次同一关键词链接地址接收到的页码数量为旧页码数量,且如果旧页码数量与新页码数量不一致,则:如果旧页码数量大于或等于所述页码数量阈值,且新页码数量大于或等于所述页码数量阈值,则修改对应的关键词链接地址对应的页码数量为新页码数量;如果旧页码数量大于或等于所述页码数量阈值,且新页码数量小于所述页码数量阈值,则将对应的关键词链接地址移动到活动桶;如果旧页码数量小于所述页码数量阈值,且新页码数量大于或等于所述页码数量阈值,则将对应的关键词链接地址移动到动态桶;如果旧页码数量小于所述页码数量阈值,且新页码数量小于所述页码数量阈值,则对挂起桶进行检索,将挂起桶中调度时间到达当前时间的关键词链接地址移动到活动桶。8.根据权利要求1所述的基于关键词检索的网络爬虫调度方法,其特征在于,所述允许加入动态桶数量大于允许加入基本桶数量。9.一种基于关键词检索的网络爬虫调度系统,其特征在于,包括:调度端以及与调度端通讯的至少一个抓取节点;所述调度端包括:任务请求命令接收模块,用于接收到抓...
【专利技术属性】
技术研发人员:邓姿,
申请(专利权)人:北京京东尚科信息技术有限公司,北京京东世纪贸易有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。