The invention discloses a method, a device and a system for detecting an empty shell website. Among them, the method includes: extracting a plurality of sites to be detected; call from the collection site detection conditions in one or more shell site testing conditions, and the use of one or more of the conditions to determine whether any shell site detecting whether a site is empty; the output of test results for the shell website web site. The invention solves the technical problems that the prior art has the advantages that the scheme of detecting and clearing the empty shell sites by manual resolution is easy to be missed, and the accuracy rate of the detection results of the shell sites is low.
【技术实现步骤摘要】
本专利技术涉及计算机领域,具体而言,涉及一种检测空壳网站的方法、装置及系统。
技术介绍
空壳网站是指在工业和信息化备案系统中,网站的主办者的历史备案信息含有主体信息和网站信息,但没有接入信息(即网站只有备案号,但由于网站实际使用空间IP地址变更,网站主办者并没有在新的接入服务商办理备案信息转接入)。例如,阿里云作为一个网站的接入服务商,网站“website”的主办者通过阿里云备案系统向工信部提交了备案申请,并获取了工信部下发的网站的备案号,正常情况下,网站“website”的网站数据会存放在阿里云提供的虚拟空间中,但是,网站“website”的主办者私自选择变更的接入服务商的IP地址,即网站“website”的主办者私自变更了接入服务商,同时,网站“website”的主办者也没有在新的接入服务商办理备案信息转接入,在阿里云的备案系统以及工信部的系统中记载的备案信息中,网站“website”的接入商仍为阿里云,实际上网站“website”并没有使用阿里云的任何产品,那么,网站“website”对于接入服务商阿里云来讲,则是一个空壳网站。在现有的空壳网站的检测技术中,往往采取人工去识别空壳网站,即根据接入商的客服人员的经验去发现空壳网站,再对空壳网站进行清理。需要说明的是,上述人工检测空壳网站后出现如下问题:(1)在通过接入商的备案系统备案的网站数量超过一定数量的情况下,人工检测空壳网站容易漏检、导致空壳网站检测结果准确率低。(2)人工检测空壳网站耗费的周期长,效率低,不能满足需求。针对上述现有技术采用人工分辨的方式来检测并清理空壳网站的方案容易漏检,导致空 ...
【技术保护点】
一种检测空壳网站的方法,其特征在于,包括:步骤A,提取待检测的多个网站;步骤B,从网站检测条件集合中调用一个或多个空壳网站检测条件,并使用所述一个或多个空壳网站检测条件来判定任意一个网站是否为空壳网站;步骤C,输出检测结果为所述空壳网站的网站。
【技术特征摘要】
1.一种检测空壳网站的方法,其特征在于,包括:步骤A,提取待检测的多个网站;步骤B,从网站检测条件集合中调用一个或多个空壳网站检测条件,并使用所述一个或多个空壳网站检测条件来判定任意一个网站是否为空壳网站;步骤C,输出检测结果为所述空壳网站的网站。2.根据权利要求1所述的方法,其特征在于,按照预定的调用规则调用所述网站检测条件集合中的空壳网站检测条件,其中,所述预定的调用规则包括如下任意一个或多个规则:调用顺序、调用数量和调用类型。3.根据权利要求1所述的方法,其特征在于,在所述多个空壳网站检测条件中的任意一个空壳网站检测条件判定所述多个网站中的第一网站是所述空壳网站之后,使用所述多个空壳网站检测条件中的其他空壳网站条件来判定所述第一网站是否为所述空壳网站,在所有空壳网站检测条件都判定所述第一网站是所述空壳网站的情况下,确定所述第一网站为所述空壳网站,否则,在所述任意一个空壳网站检测条件判定所述第一网站不是所述空壳网站的情况下,确定所述第一网站为合法网站。4.根据权利要求1至3中任意一项所述的方法,其特征在于,所述空壳网站检测条件包括如下任意一种或多种类型:所述任意一个网站是否在白名单中、是否备案中或备案变更中、在预定时间内是否存在访问记录、是否被注册以及解析结果是否存在报备信息。5.根据权利要求4所述的方法,其特征在于,当所述空壳网站检测条件为检测所述任意一个网站是否在白名单中时,使用所述空壳网站检测条件来判定任意一个网站是否为空壳网站的步骤包括:读取所述任意一个网站的网站信息;判断所述任意一个网站的网站信息是否与所述白名单中保存的网站信息相匹配;在匹配成功的情况下,确定所述任意一个网站为合法网站。6.根据权利要求4所述的方法,其特征在于,当所述空壳网站检测条件为检测所述
\t任意一个网站在预定时间内是否存在访问记录时,使用所述空壳网站检测条件来判定任意一个网站是否为空壳网站的步骤包括:获取所述多个网站在服务器中记录的域名的访问日志;根据所述任意一个网站的域名在所述访问日志中查询是否在所述预定时间内记录有访问记录;如果在所述预定时间内记录有所述访问记录,确定所述任意一个网站为合法网站。7.根据权利要求4所述的方法,其特征在于,当所述空壳网站检测条件为检测所述任意一个网站为备案中或备案变更中时,使用所述空壳网站检测条件来判定任意一个网站是否为空壳网站的步骤包括:读取所述任意一个网站的网站信息,其中,所述网站信息包括:所述任意一个网站的域名的备案状态;判断所述任意一个网站的域名的备案状态是否为备案中或备案变更中;在所述任意一个网站的域名的备案状态为所述备案中或所述备案变更中的情况下,确定所述任意一个网站为合法网站。8.根据权利要求4所述的方法,其特征在于,当所述空壳网站检测条件为所述任意一个网站是否被注册以及解析结果是否存在报备信息,使用所述空壳网站检测条件来判定任意一个网站是否为空壳网站的步骤包括:读取所述任意一个网站的网站信息;在注册信息表中查询是否存在与所述任意一个网站的网站信息相匹配的信息;在匹配成功的情况下,根据所述任意一个网站解析的结果是否存在报备信息来确定所述任意一个网站的类型。9.根据权利要求8所述的方法,其特征在于,根据任意一个网站解析的结果是否存在报备信息来确定所述任意一个网站的类型包括:在所述任意一个网站的IP地址与接入商服务器已经记录的IP地址相同的情况下,确定所述任意一个网站为合法网站;在所述任意一个网站的IP地址与所述接入商服务器已经记录的IP地址都不相同的情况下,确定所述任意一个网站为所述空壳网站。10.根据权利要求1所述的方法,其特征在于,在提取待检测的多个网站之后,所述方法还包括:通过启动至少n个数据分发线程将所述多个网站的网站信息依次写入数据队列中;通过启动至少m个检测线程从所述数据队列中依次读取所述多个网站的网站信息;其中,m和n根据预先设定的检测总时间进行自动调整,m大于等于n,且m和n为自然数。11.根据权利要求1所述的方法,其特征在于,每个网站的网站信息还包括所述每个网站的主办者的终端地址,其中,在输出检测结果为所述空壳网站的网站之后,所述方法还包括:向被确定为所述空壳网站的主办者的终端地址发送告警信息,其中,所述告警信息至少包括所述空壳网站的域名。12.根据权利要求1所述的方法,其特征在于,在向被确定为所述空壳网站的主办者的终端地址发送告警信息之后,所述方法还包括:在预设时长到达之后,重复执行所述步骤A至步骤C,获取再次被确定为所述空壳网站的网站;将所述再次被确定为空壳网站的网站记录为待清理网站;将所述待清理网站的域名发送至目标服务器。13.一种检测空壳网站的装置,其特征在于,包括:提取单元,用于提取待检测的多个网站;调用单元,用于从网站检测条件集合中调用一个或多个空壳网站检测条件,...
【专利技术属性】
技术研发人员:戚宏伟,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛;KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。