一种防抓取方法、装置、电子设备及存储介质制造方法及图纸

技术编号:29584965 阅读:21 留言:0更新日期:2021-08-06 19:43
本发明专利技术提供了一种防爬取方法、装置、电子设备及存储介质。该方法包括:在流量层接收到页面访问请求后,响应于页面访问请求未命中流量层预设的第一拦截策略且未命中流量层存储的第一拦截列表,将页面访问请求发送至业务层;在业务层接收到页面访问请求后,响应于页面访问请求命中业务层预设的第二拦截策略,基于页面访问请求,更新第一拦截列表,以使与页面访问请求来源相同的页面访问请求能够命中第一拦截列表。如此,使得流量层的拦截率提高,减少了数据被盗用的情况,并且减少了进入业务层的页面访问请求,从而减少了对业务层的性能损耗,避免了因爬取数据消耗的流量太多导致提供业务服务的机器的负载过高而无法使用的情况,从而提高了稳定性。

【技术实现步骤摘要】
一种防抓取方法、装置、电子设备及存储介质
本专利技术涉及计算机
,尤其涉及一种防抓取方法、装置、电子设备及存储介质。
技术介绍
随着互联网技术的发展,目前,已经可以通过互联网实现各种业务服务。业务服务所提供的网页上,会展示许多的数据供用户浏览,但是,可能会存在一些非正常的浏览行为,以此来爬取页面上的数据,导致数据盗用,且爬取数据消耗的流量太多可能会直接导致提供业务服务的机器的负载过高而无法使用。
技术实现思路
本专利技术实施例提供一种防抓取方法、装置、电子设备及存储介质,以解决相关技术中的问题。本专利技术的目的是通过以下技术方案实现的:第一方面,本专利技术实施例提供一种防爬取方法,应用于服务器,服务器包括流量层和业务层,该方法包括:在流量层接收到页面访问请求后,响应于页面访问请求未命中流量层预设的第一拦截策略且未命中流量层存储的第一拦截列表,将页面访问请求发送至业务层;在业务层接收到页面访问请求后,响应于页面访问请求命中业务层预设的第二拦截策略,基于页面访问请求,更新第一拦截列表,以使与页面访问请求来源相同的页面访问请求能够命中第一拦截列表。在一种可能的实施方式中,页面访问请求中携带至少一种来源标识,第一拦截列表包括与来源标识的种类对应的子拦截列表,与来源标识的种类对应的子拦截列表包括需要拦截的来源标识;基于页面访问请求,更新第一拦截列表,包括:将页面访问请求携带的每种来源标识,添加至该来源标识所属种类对应的子拦截列表中,以更新第一拦截列表。在一种可能的实施方式中,该方法还包括:响应于页面访问请求携带的任意一种来源标识命中所属种类对应的子拦截列表,确定页面访问请求命中第一拦截列表。在一种可能的实施方式中,页面访问请求中携带至少一种来源标识,第二拦截策略包括与来源标识的种类对应的子拦截策略;该方法还包括:响应于页面访问请求携带的任意一种来源标识命中所属种类对应的子拦截策略,确定页面访问请求命中第二拦截策略。在一种可能的实施方式中,与来源标识的种类对应的子拦截策略,包括以下至少一项策略:拦截来源标识对应的访问目标列表页的频次大于或者等于第一阈值的页面访问请求;拦截来源标识对应的变换筛选词的频次大于或者等于第二阈值的页面访问请求;拦截来源标识对应的变换城市的频次大于或者等于第三阈值的页面访问请求;拦截来源标识对应的访问过期数据的频次大于或者等于第四阈值的页面访问请求。在一种可能的实施方式中,还包括:响应于页面访问请求携带的来源标识命中所属种类对应的子拦截策略所包括的任意一项策略,确定该来源标识命中所属种类对应的子拦截策略。在一种可能的实施方式中,基于页面访问请求,更新第一拦截列表,包括:基于页面访问请求,更新业务层存储的第二拦截列表;定期将第二拦截列表同步到第一拦截列表,以更新第一拦截列表。在一种可能的实施方式中,第一拦截列表为目标业务的拦截列表,该方法还包括:将第一拦截列表同步到目标业务之外的其它业务的拦截列表中。第二方面,本专利技术实施例提供一种防爬取装置,应用于服务器,该服务器包括流量层和业务层,该装置包括:第一拦截模块,用于在流量层接收到页面访问请求后,响应于页面访问请求未命中流量层预设的第一拦截策略且未命中流量层存储的第一拦截列表,将页面访问请求发送至业务层;第二拦截模块,用于在业务层接收到页面访问请求后,响应于页面访问请求命中业务层预设的第二拦截策略,基于页面访问请求,更新第一拦截列表,以使与页面访问请求来源相同的页面访问请求能够命中第一拦截列表。在一种可能的实施方式中,页面访问请求中携带至少一种来源标识,第一拦截列表包括与来源标识的种类对应的子拦截列表,与来源标识的种类对应的子拦截列表包括需要拦截的来源标识;第二拦截模块,具体用于:将页面访问请求携带的每种来源标识,添加至该来源标识所属种类对应的子拦截列表中,以更新第一拦截列表。在一种可能的实施方式中,第二拦截模块,还用于:响应于页面访问请求携带的任意一种来源标识命中所属种类对应的子拦截列表,确定页面访问请求命中第一拦截列表。在一种可能的实施方式中,页面访问请求中携带至少一种来源标识,第二拦截策略包括与来源标识的种类对应的子拦截策略;第二拦截模块,还用于:响应于页面访问请求携带的任意一种来源标识命中所属种类对应的子拦截策略,确定页面访问请求命中第二拦截策略。在一种可能的实施方式中,与来源标识的种类对应的子拦截策略,包括以下至少一项策略:拦截来源标识对应的访问目标列表页的频次大于或者等于第一阈值的页面访问请求;拦截来源标识对应的变换筛选词的频次大于或者等于第二阈值的页面访问请求;拦截来源标识对应的变换城市的频次大于或者等于第三阈值的页面访问请求;拦截来源标识对应的访问过期数据的频次大于或者等于第四阈值的页面访问请求。在一种可能的实施方式中,第二拦截模块,还用于:响应于页面访问请求携带的来源标识命中所属种类对应的子拦截策略所包括的任意一项策略,确定该来源标识命中所属种类对应的子拦截策略。在一种可能的实施方式中,第二拦截模块,具体用于:基于页面访问请求,更新业务层存储的第二拦截列表;定期将第二拦截列表同步到第一拦截列表,以更新第一拦截列表。在一种可能的实施方式中,第一拦截列表为目标业务的拦截列表,该装置还包括:发送模块,用于将第一拦截列表同步到目标业务之外的其它业务的拦截列表中。第三方面,本专利技术实施例提供一种电子设备,包括:处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被处理器执行时实现如以上第一方面中任一的防抓取方法的步骤。第四方面,本专利技术实施例提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面中任一的防抓取方法的步骤。上述技术方案中的优点或有益效果至少包括:由于在流量层不仅预设有自身的第一拦截策略还存储有第一拦截列表,在业务层预设有自身的第二拦截策略,对在流量层既未命中第一拦截策略也未命中第二拦截列表的页面访问请求,如果在业务层命中第二拦截策略,可以基于该页面访问请求,更新流量层的第一拦截列表,以使后续与该页面访问请求来源相同的页面访问请求能够命中第一拦截列表,也就是说,流量层的第一拦截列表来自业务层的第二拦截策略,如此,在流量层,联合了流量层自身的第一拦截策略和业务层的第二拦截策略,使得流量层的拦截率大大提高,减少了数据被盗用的情况,并且减少了进入业务层的页面访问请求,从而减少了对业务层的性能损耗,避免了因爬取数据消耗的流量太多导致提供业务服务的机器的负载过高而无法使用的情况,从而提高了稳定性。上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征本文档来自技高网...

【技术保护点】
1.一种防爬取方法,其特征在于,应用于服务器,所述服务器包括流量层和业务层,所述方法包括:/n在所述流量层接收到页面访问请求后,响应于所述页面访问请求未命中所述流量层预设的第一拦截策略且未命中所述流量层存储的第一拦截列表,将所述页面访问请求发送至所述业务层;/n在所述业务层接收到所述页面访问请求后,响应于所述页面访问请求命中所述业务层预设的第二拦截策略,基于所述页面访问请求,更新所述第一拦截列表,以使与所述页面访问请求来源相同的页面访问请求能够命中所述第一拦截列表。/n

【技术特征摘要】
1.一种防爬取方法,其特征在于,应用于服务器,所述服务器包括流量层和业务层,所述方法包括:
在所述流量层接收到页面访问请求后,响应于所述页面访问请求未命中所述流量层预设的第一拦截策略且未命中所述流量层存储的第一拦截列表,将所述页面访问请求发送至所述业务层;
在所述业务层接收到所述页面访问请求后,响应于所述页面访问请求命中所述业务层预设的第二拦截策略,基于所述页面访问请求,更新所述第一拦截列表,以使与所述页面访问请求来源相同的页面访问请求能够命中所述第一拦截列表。


2.根据权利要求1所述的方法,其特征在于,所述页面访问请求中携带至少一种来源标识,所述第一拦截列表包括与来源标识的种类对应的子拦截列表,所述与来源标识的种类对应的子拦截列表包括需要拦截的来源标识;
所述基于所述页面访问请求,更新所述第一拦截列表,包括:
将所述页面访问请求携带的每种来源标识,添加至该来源标识所属种类对应的子拦截列表中,以更新所述第一拦截列表。


3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
响应于所述页面访问请求携带的任意一种来源标识命中所属种类对应的子拦截列表,确定所述页面访问请求命中所述第一拦截列表。


4.根据权利要求1所述的方法,其特征在于,所述页面访问请求中携带至少一种来源标识,所述第二拦截策略包括与来源标识的种类对应的子拦截策略;
所述方法还包括:
响应于所述页面访问请求携带的任意一种来源标识命中所属种类对应的子拦截策略,确定所述页面访问请求命中所述第二拦截策略。


5.根据权利要求4所述的方法,其特征在于,与来源标识的种类对应的子拦截策略,包括以下至少一项策略:
拦截来源标识对应的访问目标列表页的频次大于或者等于第一阈值的页面访问请求;
拦截来源标识对应的变换筛选词的频次大于或者等于第二阈值的页面访问请求;
拦截来源标识对应的变换城市的频次大于或者等于第三阈值的页面访问请求;
拦截来源标识对应的访问过期数据的频次大于或者等于第四阈值的页面访问请求。


6.根据权利要求5所述的方法,其特征在于,还包括:
响应于所述页面访问请求携带的来源标识命中所属种类对应的子拦截策略所包括的任意一项策略,确定该来源标识命中所属种类对应的子拦截策略。


7.根据权利要求1所述的方法,其特征在于,所述基于所述页面访问请求,更新所述第一拦截列表,包括:
基于所述页面访问请求,更新所述业务层存储的第二拦截列表;
定期将所述第二拦截列表同步到所述第一拦截列表,以更新所述第一拦截列表。


8.根据权利要求1至7任一项所述的方法,其特征在于,所述第一拦截列表为目标业务的拦截列表,所述方法还包括:
将所述第一拦截列表同步到所述目标业务之外的其它业务的拦截列表中。


9.一种防爬取装置,其特征在于,应用于服务器,所述服务器包括流量层和业务层,所述装置包括:
第一拦截模块,用于在所述流量层接收到页面访问请求后,响应于所述页面访问请求未命中所述流量层预设的第一拦截策略且未命中所述...

【专利技术属性】
技术研发人员:果海涛罗港
申请(专利权)人:北京城市网邻信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1