本发明专利技术提供了分布式网站IPv6支持度检测调度方法。该分布式网站IPv6支持度检测调度方法包括以下步骤:S1、构建分布式爬虫服务器,所述分布式爬虫服务器包括爬虫服务器、任务调度服务器、任务分配服务器和数据库;S2、网站检测任务下发,所述任务分配服务器将所需要检测的网站检测任务发送至所述数据库内;S3、任务调动,所述任务调度服务器向所述数据库获取待检测的网站链接,然后,所述任务调度服务器为所述爬虫服务器提供需要执行的任务;S4、任务执行,分布式网站IPv6支持度检测调度方法能够降低反扒问题,提升检测准确度,提升了爬取效率,能够基于负载、CPU核心数计算并行任务数,避免低配置服务器压力过高,高配置服务器过于空闲。闲。闲。
【技术实现步骤摘要】
分布式网站IPv6支持度检测调度方法
[0001]本专利技术涉及互联网爬虫的
,特别是分布式网站IPv6支持度检测调度方法。
技术介绍
[0002]目前国家正在推行IPv6代际升迁,前提是需要获取网站IPv6支持度,需要获取网站一级链接、二级链接、三级链接IPv6支持情况,获取这些指标后,才能督促相关企业进行整改;
[0003]首先,获取网站一、二、三级链接支持情况,需要通过爬虫访问网站一、二、三级链接;
[0004]现有技术中通过一台爬虫服务器器请求一个被检测的网站一级链接,获取网站的二级链接,再一个一个下钻请求三级链接,最后把结果上报到数据库;
[0005]这种做法虽然能够简单获取到网站一、二、三级链接支持情况,但存在如下问题;
[0006]1、单台服务器器处理不了大量任务;2、单台服务器器,单个ip请求次数、频率太高,容易被识别为爬虫,触发反扒,导致检测结果不准确或者检测不了。
[0007]因此迫切地需要重新设计一种新的分布式网站IPv6支持度检测调度方法以解决上述问题。
技术实现思路
[0008]本专利技术提供了分布式网站IPv6支持度检测调度方法,以解决上述
技术介绍
中提出的技术问题。
[0009]本专利技术提供了分布式网站IPv6支持度检测调度方法,该分布式网站IPv6支持度检测调度方法包括以下步骤:S1、构建分布式爬虫服务器,所述分布式爬虫服务器包括爬虫服务器、任务调度服务器、任务分配服务器和数据库;S2、网站检测任务下发,所述任务分配服务器将所需要检测的网站检测任务发送至所述数据库内;S3、任务调动,所述任务调度服务器向所述数据库获取待检测的网站链接,然后,所述任务调度服务器为所述爬虫服务器提供需要执行的任务;S4、任务执行,所述爬虫服务在收到所述调度服务器发送至待执行任务时,所述爬虫服务对待执行任务进行执行动作。
[0010]可选地,所述爬虫服务器由多台服务器组成,以提高所述爬虫服务器的任务执行效率以及降低反扒风险。
[0011]可选地,多个所述爬虫服务器工作模式为相互独立工作,从而保证多个所述爬虫服务器并行获取待执行的任务。
[0012]可选地,在所述步骤S3中,爬虫服务器在单位时间内向所述调度服务器发出请求信号,所述请求信号为待执行的任务。
[0013]可选地,所述单位时间具体为30S。
[0014]可选地,所述步骤S3中任务调动的具体步骤为:
[0015]S31、所述任务调动服务器向所述数据库获取数据;
[0016]S32、所述爬虫服务器向所述任务调动服务器请求分配任务;
[0017]S33、所述任务调动服务器从所述数据库中获取的数据中提取至少一个任务,然后组成一批任务;
[0018]S34、所述任务调动服务器将形成的一批任务发送至所述爬虫服务器执行。
[0019]可选地,在所述步骤S34中,若所述爬虫服务器执行的任务链接为一级链接或二级链接时,所述爬虫服务器会将获取到的下级链接传输回至所述任务调动服务器内,所述任务调动服务器将传回至所述任务调动服务器的下级链接转发至所述数据库,所述数据库对下级链接进行保存。
[0020]可选地,在所述步骤S33中,所述任务调动服务器提取单个任务时,所述任务调动服务器对所述数据库内的单个待检测网站链接仅提取一个任务,以避免同一个所述爬虫服务器同时执行同个网站的多个任务。
[0021]可选地,所述爬虫服务器的CPU核心数为2
‑
48核心。
[0022]可选地,所述爬虫服务器在执行任务时根据自身负载大小,产生服务器当前负载值,通过所述服务器当前负载值能够计算得出所述爬虫服务器同时可并行的任务,且计算公式为:(1
‑
爬虫服务器当前负载值)*CPU核心数*2。
[0023]本专利技术的有益效果如下:
[0024]该分布式网站IPv6支持度检测调度方法包括以下步骤:S1、构建分布式爬虫服务器,所述分布式爬虫服务器包括爬虫服务器、任务调度服务器、任务分配服务器和数据库;S2、网站检测任务下发,所述任务分配服务器将所需要检测的网站检测任务发送至所述数据库内;S3、任务调动,所述任务调度服务器向所述数据库获取待检测的网站链接,然后,所述任务调度服务器为所述爬虫服务器提供需要执行的任务;S4、任务执行,所述爬虫服务在收到所述调度服务器发送至待执行任务时,所述爬虫服务对待执行任务进行执行动作,其中,本专利技术的分布式网站IPv6支持度检测调度方法能够降低反扒问题,提升检测准确度;同时爬虫服务器分布式爬取,大大提升了爬取效率,并且,能够基于负载、CPU核心数计算并行任务数,充分利用了服务器资源,避免低配置服务器压力过高,高配置服务器过于空闲,从而提高了对任务的处理效率。
附图说明
[0025]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0026]图1是本专利技术提供的分布式网站IPv6支持度检测调度方法的流程图。
具体实施方式
[0027]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。可以理解的是,此处所描述的具体实施例仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结
构。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0028]在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本专利技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
[0029]请参阅图1,本专利技术的分布式网站IPv6支持度检测调度方法包括以下步骤:S1、构建分布式爬虫服务器,所述分布式爬虫服务器包括爬虫服务器、任务调度服务器、任务分配服务器和数据库;S2、网站检测任务下发,所述任务分配服务器将所需要检测的网站检测任务发送至所述数据库内;S3、任务调动,所述任务调度服务器向所述数据库获取待检测的网站链接,然后,所述任务调度服务器为所述爬虫服务器提供需要执行的任务;S4、任务执行,所述爬虫服务在收到所述调度服务器发送至待执行任务时,所述爬虫服务对待执行任务进行执行动作。
[0030]其中,所述爬虫服务器由多台服务器组成,以提高所述爬虫服务器的任务执行效率以及降低反扒风险,进一步地,多个所述爬虫服务器工作模式为相互独立工作,从而保证多个所述爬虫服务器并行获取待执行的任务。
[0031]在本实施例中,在所述步骤S3中,爬虫服务器在单位时间内向本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种分布式网站IPv6支持度检测调度方法,其特征在于,包括以下步骤:S1、构建分布式爬虫服务器,所述分布式爬虫服务器包括爬虫服务器、任务调度服务器、任务分配服务器和数据库;S2、网站检测任务下发,所述任务分配服务器将所需要检测的网站检测任务发送至所述数据库内;S3、任务调动,所述任务调度服务器向所述数据库获取待检测的网站链接,然后,所述任务调度服务器为所述爬虫服务器提供需要执行的任务;S4、任务执行,所述爬虫服务在收到所述调度服务器发送至待执行任务时,所述爬虫服务对待执行任务进行执行动作。2.根据权利要求1所述的分布式网站IPv6支持度检测调度方法,其特征在于,所述爬虫服务器由多台服务器组成,以提高所述爬虫服务器的任务执行效率以及降低反扒风险。3.根据权利要求2所述的分布式网站IPv6支持度检测调度方法,其特征在于,多个所述爬虫服务器工作模式为相互独立工作,从而保证多个所述爬虫服务器并行获取待执行的任务。4.根据权利要求1所述的分布式网站IPv6支持度检测调度方法,其特征在于,在所述步骤S3中,爬虫服务器在单位时间内向所述调度服务器发出请求信号,所述请求信号为待执行的任务。5.根据权利要求4所述的分布式网站IPv6支持度检测调度方法,其特征在于,所述单位时间具体为30S。6.根据权利要求1所述的分布式网站IPv6支持度检测调度方法,其特征在于,所述步骤S3中任务调动的具体步骤为:S31、所述任务调动服务器向所述数据库获取数据;...
【专利技术属性】
技术研发人员:杨守军,王林,李号,刘宇来,孙宇豪,
申请(专利权)人:北京连星科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。