【技术实现步骤摘要】
本申请涉及计算机
,尤其涉及一种网页抓取方法及装置。
技术介绍
现有技术中,大部分的网页抓取系统(如Heritrix、Lucene等开源系统)一般都采用分布式的抓取方式进行网页抓取,即在分布式抓取服务器集群环境下,根据用户输入的种子URL以及配置的URL抓取规则,采用抓取服务器执行网页抓取任务的方式进行大规模的网页抓取。一般情况下,针对不同的网页抓取需求,用户需要配置不同的URL抓取规则从而形成不同任务类型的网页抓取任务。然而,上述网页抓取方式存在的缺陷在于:所有的网页抓取任务直接共享分布式抓取服务器集群的抓取资源(抓取资源为硬件资源和/或网络资源),即,不同任务类型的网页抓取任务不能同时进行,只能排队依序进行。由于上述缺陷的存在,现有的网页抓取系统的网页抓取效率普遍偏低。
技术实现思路
本申请实施例提供一种网页抓取方法,用以解决现有技术中网页抓取效率偏低的问题。本申请实施例提供一种网页抓取装置,用以解决现有技术中网页抓取效率偏低的问题。本申请实施例提供一种网页抓取方法,包括:确定不同任务类型的可以执行的网页抓取任务;分别为不同任务类型的可以执行的网页抓取任务分配抓取资源;利用分配的抓取资源,执行所述可以执行的网页抓取任务。本申请实施例提供一种网页抓取装置,包括:确定模块,用于确定不同任务类型的可以执行的网页抓取任务;分配模块,用于分别为不同任务类型的可以执行的网页抓取任务分配抓取资源;抓取模块,用于利用分配的抓取资源,执行所述可以执行的网页抓取任务。在本申请实施例中,由于不同类型的网页抓取任务能够分配到各自的抓取资源,使得抓取服务器的硬件资源及配置于 ...
【技术保护点】
一种网页抓取方法,其特征在于,包括:确定不同任务类型的可以执行的网页抓取任务;分别为不同任务类型的可以执行的网页抓取任务分配抓取资源;利用分配的抓取资源,执行所述可以执行的网页抓取任务。
【技术特征摘要】
1.一种网页抓取方法,其特征在于,包括:确定不同任务类型的可以执行的网页抓取任务;分别为不同任务类型的可以执行的网页抓取任务分配抓取资源;利用分配的抓取资源,执行所述可以执行的网页抓取任务。2.如权利要求1所述的方法,其特征在于:所述任务类型由网页抓取任务的抓取规则决定。3.如权利要求2所述的方法,其特征在于,所述抓取规则由网页抓取深度及网页抓取频次决定。4.如权利要求3所述的方法,其特征在于,所述抓取规则包括:网页抓取频次为一次性抓取,网页抓取深度为一层;网页抓取频次为一次性抓取,网页抓取深度为二层;网页抓取频次为周期性抓取,网页抓取深度为一层;网页抓取频次为周期性抓取,网页抓取深度为二层。5.如权利要求4所述的方法,其特征在于,所述网页抓取深度为二层时,所述抓取规则还包括配置第二层网页抓取时网页提取的Xpath表达式。6.如权利要求4所述的方法,其特征在于,所述网页抓取频次为周期性抓取时,所述抓取规则还包括需要配置网页抓取的抓取周期。7.如权利要求1所述的方法,其特征在于,所述确定不同任务类型的可以执行的网页抓取任务,具体包括:轮询不同任务类型的各个网页抓取任务的运行状态;根据网页抓取任务的运行状态,标识出不同任务类型的可以执行的网页抓取任务。8.如权利要求7所述的方法,其特征在于,所述运行状态包括:待运行、运行中、运行结束。9.如权利要求1所述的方法,其特征在于,所述分别为不同任务类型的可以执行的网页抓取任务分配抓取资源,具体包括:分别为不同任务类型的可以执行的网页抓取任务分配互不冲突的抓取资源。10.如权利要求1所述的方法,其特征在于,所述抓取资源包括网页抓取服务器处理器创建的线程及配置于网页抓取服务器上的IP地址。11.如权利要求10所述的方法,其特征在于,所述分别为不同任务类型的可以执行的网页抓取任务分配抓取资源,具体包括:分别为不同类型的可以执行的网页抓取任务分配由不同网页抓取服务器处理器创建的线程。12.如权利要求11所述的方法,其特征在于,所述分别为不同任务类型的可以执行的网页抓取任务分配抓取资源,还包括:分配IP地址给对应的网页抓取服务器创建的线程来使用。13.如权利要求1所述的方法,其特征在于,利用分配到的抓取资源,执行所述可以执行的网页抓取任务,具体包括:调用超文本传输协议访问可以执行的网页抓取任务内的URL并获取URL对应的网页。14.如权利要求13所述的方法,其特征在于,所述方法还包括:将每个已完成的网页抓取任务内的部分URL对应的网页压缩为相应的子压缩文件;将压缩得到的所有分散的子压缩文件合成为一总压缩文件;保存总压缩文件至一台服务器上以供...
【专利技术属性】
技术研发人员:王林青,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛;KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。