本发明专利技术提供一种网络爬虫的动态管理方法,首先获取采集任务控制指令,所述采集任务控制指令中携带有用户控制的数据采集任务的标识;然后获取与所述标识相应的Java插件,所述Java插件由用于执行数据采集任务的网络爬虫封装而成;最后根据所述采集任务控制指令控制OSGi动态管理框架对所述Java插件执行加载、启用、暂停、恢复、停用、卸载中的至少一项操作,实现对网络爬虫的动态管理。相较于现有技术,本发明专利技术具有较高的通用性、灵活性、扩展性和扩展性,可以有效保证在新建、修改任务时不会影响平台运行及其他采集插件的正常工作。
【技术实现步骤摘要】
本专利技术涉及人机对话
,具体涉及一种网络爬虫的动态管理方法、一种网络爬虫的动态管理装置和一种网络爬虫的动态管理系统。
技术介绍
互联网包含的信息非常丰富,按其所蕴含信息的深度,互联网可以划分为表层网络和深网。所谓表层网络,是指可以通过统一资源定位符(UniformResourceLocator,简称URL)直接访问的页面的集合,所谓深网,又称为看不见的网页,是指通过搜索引擎由于技术原因无法检索到的那部分信息,深网相比于表层网络包含了更多的信息。网络爬虫是一种按照一定的规则,自动地抓取互联网信息的程序或者脚本。随着搜索引擎技术的发展,网络爬虫已经成了很普及的网络搜索技术。现有的网络爬虫技术,尤其是对于深网的网络爬虫,通常是采用分布式平台来共同、长时的执行大量的数据采集任务,当有新的采集任务或需要修改当前某一项采集任务时时,需要结束或暂停当前整个分布式平台的采集任务,牵一发而动全身,灵活性和扩展性较差。
技术实现思路
针对现有技术中的缺陷,本专利技术提供一种网络爬虫的动态管理方法、装置及系统,以解决现有采用分布式平台来共同、长时的执行大量的数据采集任务,当有新的采集任务或需要修改当前某一项采集任务时时,需要结束或暂停当前整个分布式平台的采集任务,牵一发而动全身,灵活性和扩展性较差的问题。第一方面,本专利技术提供的一种网络爬虫的动态管理方法,包括:获取采集任务控制指令,所述采集任务控制指令中携带有用户控制的数据采集任务的标识;获取与所述标识相应的Java插件,所述Java插件由用于执行数据采集任务的网络爬虫封装而成;根据所述采集任务控制指令控制OSGi动态管理框架对所述Java插件执行加载、启用、暂停、恢复、停用、卸载中的至少一项操作,实现对网络爬虫的动态管理。可选的,每个所述Java插件封装有一个网络爬虫,每个所述网络爬虫用于执行一项数据采集任务。可选的,所述根据所述采集任务控制指令控制OSGi动态管理框架对所述Java插件执行加载、启用、暂停、恢复、停用、卸载中的至少一项操作,包括:在所述采集任务控制指令为采集任务新建指令时,控制所述OSGi动态管理框架加载所述Java插件。可选的,所述根据所述采集任务控制指令控制OSGi动态管理框架对所述Java插件执行加载、启用、暂停、恢复、停用、卸载中的至少一项操作,包括:在所述采集任务控制指令为采集任务启动指令时,控制所述OSGi动态管理框架启用所述Java插件。可选的,所述根据所述采集任务控制指令控制OSGi动态管理框架对所述Java插件执行加载、启用、暂停、恢复、停用、卸载中的至少一项操作,包括:在所述采集任务控制指令为采集任务暂停指令时,控制所述OSGi动态管理框架暂停所述Java插件。可选的,所述根据所述采集任务控制指令控制OSGi动态管理框架对所述Java插件执行加载、启用、暂停、恢复、停用、卸载中的至少一项操作,包括:在所述采集任务控制指令为继续执行已暂停任务的采集任务恢复指令时,控制所述OSGi动态管理框架恢复所述Java插件。可选的,所述根据所述采集任务控制指令控制OSGi动态管理框架对所述Java插件执行加载、启用、暂停、恢复、停用、卸载中的至少一项操作,包括:在所述采集任务控制指令为采集任务停止指令时,控制所述OSGi动态管理框架停用所述Java插件。可选的,所述根据所述采集任务控制指令控制OSGi动态管理框架对所述Java插件执行加载、启用、暂停、恢复、停用、卸载中的至少一项操作,包括:在所述采集任务控制指令为采集任务删除指令时,控制所述OSGi动态管理框架卸载所述Java插件。可选的,所述根据所述采集任务控制指令控制OSGi动态管理框架对所述Java插件执行加载、启用、暂停、恢复、停用、卸载中的至少一项操作,包括:在所述采集任务控制指令为使用新数据采集任务更新旧数据采集任务的采集任务更新指令时,控制所述OSGi动态管理框架卸载与所述旧数据采集任务对应的Java插件,以及加载与所述新数据采集任务对应的Java插件。可选的,所述OSGi动态管理框架部署于Java虚拟机上,所述网络爬虫为深网网络爬虫。第二方面,本专利技术提供的一种网络爬虫的动态管理装置,包括:控制指令获取模块,用于获取采集任务控制指令,所述采集任务控制指令中携带有用户控制的数据采集任务的标识;插件获取模块,用于获取与所述标识相应的Java插件,所述Java插件由用于执行数据采集任务的网络爬虫封装而成;插件部署模块,用于根据所述采集任务控制指令控制OSGi动态管理框架对所述Java插件执行加载、启用、暂停、恢复、停用、卸载中的至少一项操作,实现对网络爬虫的动态管理。可选的,每个所述Java插件封装有一个网络爬虫,每个所述网络爬虫用于执行一项数据采集任务。可选的,所述插件部署模块,包括:任务新建单元,用于在所述采集任务控制指令为采集任务新建指令时,控制所述OSGi动态管理框架加载所述Java插件。可选的,所述插件部署模块,包括:任务启动单元,用于在所述采集任务控制指令为采集任务启动指令时,控制所述OSGi动态管理框架启用所述Java插件。可选的,所述插件部署模块,包括:任务暂停单元,用于在所述采集任务控制指令为采集任务暂停指令时,控制所述OSGi动态管理框架暂停所述Java插件。可选的,所述插件部署模块,包括:任务恢复单元,用于在所述采集任务控制指令为继续执行已暂停任务的采集任务恢复指令时,控制所述OSGi动态管理框架恢复所述Java插件。可选的,所述插件部署模块,包括:任务停止单元,用于在所述采集任务控制指令为采集任务停止指令时,控制所述OSGi动态管理框架停用所述Java插件。可选的,所述插件部署模块,包括:任务删除单元,用于在所述采集任务控制指令为采集任务删除指令时,控制所述OSGi动态管理框架卸载所述Java插件。可选的,所述插件部署模块,包括:任务更新单元,用于在所述采集任务控制指令为使用新数据采集任务更新旧数据采集任务的采集任务更新指令时,控制所述OSGi动态管理框架卸载与所述旧数据采集任务对应的Java插件,以及加载与所述新数据采集任务对应的Java插件。可选的,所述OSGi动态管理框架部署于Java虚拟机上,所述网络爬虫为深网网络爬虫。第三方面,本专利技术提供的一种网络爬虫的动态管理系统,包括:Java虚拟机、OSGi动态管理框架、由用于执行数据采集任务的网络爬虫封装而成的Java插件;所述OSGi动态管理框架部署于所述Java虚拟机上;所述OSGi动态管理框架通过对所述Java插件执行加载、启用、暂停、恢复、停用、卸载中的至少一项操作,实现对网络爬虫的动态管理。由上述技术方案可知,本专利技术提供的一种网络爬虫的动态管理方法,首先获取采集任务控制指令,所述采集任务控制指令中携带有用户控制的数据采集任务的标识;然后获取与所述标识相应的Java插件,所述Java插件由用于执行数据采集任务的网络爬虫封装而成;最后根据所述采集任务控制指令控制OSGi动态管理框架对所述Java插件执行加载、启用、暂停、恢复、停用、卸载中的至少一项操作,实现对网络爬虫的动态管理。本专利技术通过将网络爬虫封装为Java插件,进而通过控制OSGi动态管理框架加载、启用、暂停、恢复、停用、卸载相应的Java本文档来自技高网...
【技术保护点】
一种网络爬虫的动态管理方法,其特征在于,包括:获取采集任务控制指令,所述采集任务控制指令中携带有用户控制的数据采集任务的标识;获取与所述标识相应的Java插件,所述Java插件由用于执行数据采集任务的网络爬虫封装而成;根据所述采集任务控制指令控制OSGi动态管理框架对所述Java插件执行加载、启用、暂停、恢复、停用、卸载中的至少一项操作,实现对网络爬虫的动态管理。
【技术特征摘要】
1.一种网络爬虫的动态管理方法,其特征在于,包括:获取采集任务控制指令,所述采集任务控制指令中携带有用户控制的数据采集任务的标识;获取与所述标识相应的Java插件,所述Java插件由用于执行数据采集任务的网络爬虫封装而成;根据所述采集任务控制指令控制OSGi动态管理框架对所述Java插件执行加载、启用、暂停、恢复、停用、卸载中的至少一项操作,实现对网络爬虫的动态管理。2.根据权利要求1所述的网络爬虫的动态管理方法,其特征在于,每个所述Java插件封装有一个网络爬虫,每个所述网络爬虫用于执行一项数据采集任务。3.根据权利要求1所述的网络爬虫的动态管理方法,其特征在于,所述根据所述采集任务控制指令控制OSGi动态管理框架对所述Java插件执行加载、启用、暂停、恢复、停用、卸载中的至少一项操作,包括:在所述采集任务控制指令为采集任务新建指令时,控制所述OSGi动态管理框架加载所述Java插件。4.根据权利要求1所述的网络爬虫的动态管理方法,其特征在于,所述根据所述采集任务控制指令控制OSGi动态管理框架对所述Java插件执行加载、启用、暂停、恢复、停用、卸载中的至少一项操作,包括:在所述采集任务控制指令为采集任务启动指令时,控制所述OSGi动态管理框架启用所述Java插件。5.根据权利要求1所述的网络爬虫的动态管理方法,其特征在于,所述根据所述采集任务控制指令控制OSGi动态管理框架对所述Java插件执行加载、启用、暂停、恢复、停用、卸载中的至少一项操作,包括:在所述采集任务控制指令为采集任务暂停指令时,控制所述OSGi动态管理框架暂停所述Java插件。6.根据权利要求1所述的网络爬虫的动态管理方法,其特征在于,所述根据所述采集任务控制指令控制OSGi动态管理框架对所述Java插件...
【专利技术属性】
技术研发人员:张军,贾西贝,
申请(专利权)人:深圳市华傲数据技术有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。