本发明专利技术公开了一种检测推广URL有效性和安全性的方法和装置,包括:获取待检测的推广URL;将每个推广URL下发给爬虫程序,由爬虫程序通过访问收到的推广URL,获得推广URL的有效性的检测结果;以及,对于每个待检测的推广URL,查询缓存中是否存在该推广URL;如果不存在则通过调用安全检测接口,对该推广URL进行安全检测,获得该推广URL的安全性检测结果,如果安全性检测结果表示该推广URL非恶意,则将该推广URL保存到缓存中;如果存在则直接确定该推广URL为非恶意。本方案能够快速、准确地获知推广URL的有效性和安全性检测结果,并且对于已检测出为非恶意的推广URL,无需重复调用第三方安全检测接口进行检测,大大减轻了安全检测服务器的负荷,大幅提高检测效率。
【技术实现步骤摘要】
本专利技术涉及互联网
,具体涉及一种检测推广URL有效性和安全性的方法和装置。
技术介绍
随着互联网技术的不断发展,互联网用户日益增多,形成巨大的推广受众,越来越多的具有推广需求的推广方希望通过互联网进行推广和宣传,以提高推广效率。通常情况下,推广方通过URL链接的方式将推广内容发布给浏览者,该URL表征了一个具体的推广内容在互联网上的地址,被称作“推广URL”,当浏览者点击推广URL时,对应的目标推广内容将显示在浏览器上,并且根据目标推广内容的类型进行打开和运行,实现了向浏览者推送推广内容的方案。然而,当推广URL中包含的目标推广内容的信息发生异常,如信息过期或信息删除等情况时,将导致浏览者无法访问该推广URL,即该推广URL失效,成为失效的推广URL。此外,如果推广URL被植入恶意代码或被挂载木马,成为恶意的推广URL,浏览者在访问该推广URL时,这些恶意程序会侵入浏览者的计算机系统使之感染恶意代码或计算机病毒。大量的失效的推广URL和恶意的推广URL在白白占用互联网资源的同时,不仅无法满足推广方的推广需求、无法满足浏览者对推广内容的浏览需求,还对浏览者的信息安全造成极大的威胁;因此,对推广URL有效性和安全性的检测至关重要。目前,在发布的推广URL中,有相当一部分推广URL尤其是人工维护的推广URL,只通过人工来检测推广URL的有效性和安全性,该检测方案效率较低且检测结果误差较大。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种检测推广URL有效性和安全性的方法和装置。依据本专利技术的一个方面,提供了一种检测推广URL有效性和安全性的方法,该方法包括:获取待检测的推广URL;将每个待检测的推广URL下发给爬虫程序,由爬虫程序通过访问收到的推广URL,获得推广URL的有效性的检测结果;以及,对于每个待检测的推广URL,查询缓存中是否存在该推广URL;如果不存在则通过调用安全检测服务器的安全检测接口,对该推广URL进行安全检测,获得该推广URL的安全性检测结果,如果安全性检测结果表示该推广URL非恶意,则将该推广URL保存到缓存中;如果存在则直接确定该推广URL为非恶意。可选地,所述将该推广URL保存到缓存中包括:将该推广URL以布隆过滤器的数据结构形式保存到缓存中。可选地,所述将每个待检测的推广URL下发给爬虫程序包括:按照预设策略从检测服务器集群中选择一个检测服务器,将该推广URL发送给该选择的检测服务器;检测服务器将收到的推广URL下发给爬虫调度器;爬虫调度器将收到的推广URL下发给相应的爬虫程序;在所述获得推广URL的有效性的检测结果之后,该方法进一步包括:爬虫程序将获得的推广URL有效性的检测结果返回给相应的爬虫调度器,再由爬虫调度器返回给相应的检测服务器。可选地,所述检测服务器集群中包括多个检测服务器组,每个检测服务器组中包括多个检测服务器;则所述按照预设策略从检测服务器集群中选择一个检测服务器包括:根据该推广URL的域名的哈希值从检测服务器集群中选择一个检测服务器组,从选择的该检测服务器组中选择一个检测服务器。可选地,所述从选择的该检测服务器组中选择一个检测服务器包括:向该检测服务器组中的各检测服务器发送Ping请求,获得各检测服务器的当前响应时间,选择当前响应时间最短的检测服务器。可选地,所述从选择的该检测服务器组中选择一个检测服务器包括:向该检测服务器组中的各检测服务器发送Ping请求,获得各检测服务器的当前响应时间;将当前响应时间最短的检测服务器与前一次检测所述推广URL时选择的检测服务器的当前响应时间进行比较,如果二者差距超过预设范围,则选择当前响应时间最短的检测服务器;如果二者差距未超过预设范围,则沿用前一次检测所述推广URL时选择的检测服务器。可选地,所述方法进一步包括:所述选择的该检测服务器组中的各检测服务器同步保存爬虫调度器返回的推广URL有效性的检测结果。可选地,所述检测服务器将收到的推广URL下发给爬虫调度器包括:检测服务器将收到的推广URL分发到与该推广URL的IP地址属于同一地区的爬虫调度器上。依据本专利技术的另一个方面,提供了一种检测推广URL有效性和安全性的装置,该装置包括:获取单元,适于获取待检测的推广URL;有效性检测单元,适于将每个待检测的推广URL下发给爬虫程序,由爬虫程序通过访问收到的推广URL,获得推广URL的有效性的检测结果;安全性检测单元,适于对于每个待检测的推广URL,查询缓存中是否存在该推广URL;如果不存在则通过调用安全检测服务器的安全检测接口,对该推广URL进行安全检测,获得该推广URL的安全性检测结果,如果安全性检测结果表示该推广URL非恶意,则将该推广URL保存到缓存中;如果存在则直接确定该推广URL为非恶意。可选地,所述安全性检测单元,适于将该推广URL以布隆过滤器的数据结构形式保存到缓存中。可选地,所述有效性检测单元,适于按照预设策略从检测服务器集群中选择一个检测服务器,将该推广URL发送给该选择的检测服务器;利用检测服务器将收到的推广URL下发给爬虫调度器;利用爬虫调度器将收到的推广URL下发给相应的爬虫程序;所述有效性检测单元,进一步适于利用爬虫程序将获得的推广URL有效性的检测结果返回给相应的爬虫调度器,再由爬虫调度器返回给相应的检测服务器。可选地,所述检测服务器集群中包括多个检测服务器组,每个检测服务器组中包括多个检测服务器;所述有效性检测单元,适于根据该推广URL的域名的哈希值从检测服务器集群中选择一个检测服务器组,从选择的该检测服务器组中选择一个检测服务器。可选地,所述有效性检测单元,适于向该检测服务器组中的各检测服务器发送Ping请求,获得各检测服务器的当前响应时间,选择当前响应时间最短的检测服务器。可选地,所述有效性检测单元,适于向该检测服务器组中的各检测服务器发送Ping请求,获得各检测服务器的当前响应时间;将当前响应时间最短的检测服务器与前一次检测所述推广URL时选择的检测服务器的当前响应时间进行比较,如果二者差距超过预设范围,则选择当前响应时间最短的检测服务器;如果二者差距未超过预设范围,则沿用前一次检测所述推广URL时选择的检测服务器。可选地,所述有效性检测单元,进一步适于在检测服务器接收到爬虫调度器返回的推广URL有效性的检测结果时,将该推广URL有效性的检测结果在该检测服务器所属的检测服务器组中进行广播,使得同一检测服务器组中的各检测服务器均保存该推广URL有效性的检测结果。可选地,所述有效性检测单元,适于利用检测服务器将收到的推广URL分发到与该推广URL的IP地址属于同一地区的爬虫调度器上。由上述可知,在通过推广URL推送推广内容的场景中,需要对推广URL的有效性和安全性进行高效、准确地检测,以保证推送的有效性;本专利技术提供的技术方案对于待检测的推广URL,一方面,将待检测的推广URL下发给爬虫程序,通过爬虫程序访问推广URL的方式检测推广URL的有效性;另一方面,建立在缓存中保存已检测安全性且安全性检测结果为非恶意的推广URL的机制,通过先在缓存中查找待检测的推广URL,若不存在再调用安全检测服务器的安全检测接口的方式检测推本文档来自技高网...
【技术保护点】
一种检测推广URL有效性和安全性的方法,其中,该方法包括:获取待检测的推广URL;将每个待检测的推广URL下发给爬虫程序,由爬虫程序通过访问收到的推广URL,获得推广URL的有效性的检测结果;以及,对于每个待检测的推广URL,查询缓存中是否存在该推广URL;如果不存在则通过调用安全检测服务器的安全检测接口,对该推广URL进行安全检测,获得该推广URL的安全性检测结果,如果安全性检测结果表示该推广URL非恶意,则将该推广URL保存到缓存中;如果存在则直接确定该推广URL为非恶意。
【技术特征摘要】
1.一种检测推广URL有效性和安全性的方法,其中,该方法包括:获取待检测的推广URL;将每个待检测的推广URL下发给爬虫程序,由爬虫程序通过访问收到的推广URL,获得推广URL的有效性的检测结果;以及,对于每个待检测的推广URL,查询缓存中是否存在该推广URL;如果不存在则通过调用安全检测服务器的安全检测接口,对该推广URL进行安全检测,获得该推广URL的安全性检测结果,如果安全性检测结果表示该推广URL非恶意,则将该推广URL保存到缓存中;如果存在则直接确定该推广URL为非恶意。2.如权利要求1所述的方法,其中,所述将该URL保存到缓存中包括:将该推广URL以布隆过滤器的数据结构形式保存到缓存中。3.如权利要求1所述的方法,其中,所述将每个待检测的推广URL下发给爬虫程序包括:按照预设策略从检测服务器集群中选择一个检测服务器,将该推广URL发送给该选择的检测服务器;检测服务器将收到的推广URL下发给爬虫调度器;爬虫调度器将收到的推广URL下发给相应的爬虫程序;在所述获得推广URL的有效性的检测结果之后,该方法进一步包括:爬虫程序将获得的推广URL的有效性的检测结果返回给相应的爬虫调度器,再由爬虫调度器返回给相应的检测服务器。4.如权利要求3所述的方法,其中,所述检测服务器集群中包括多个检测服务器组,每个检测服务器组中包括多个检测服务器;则所述按照预设策略从检测服务器集群中选择一个检测服务器包括:根据该推广URL的域名的哈希值从检测服务器集群中选择一个检测服务器组,从选择的该检测服务器组中选择一个检测服务器。5.如权利要求4所述的方法,其中,所述从选择的该检测服务器组中选择一个检测服务器包括:向该检测服务器组中的各检测服务器发送Ping请求,获得各检测服务器的当前响应时...
【专利技术属性】
技术研发人员:潘青,
申请(专利权)人:北京奇虎科技有限公司,奇智软件北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。