【技术实现步骤摘要】
一种防抓取方法、装置、电子设备及存储介质
本专利技术涉及计算机
,尤其涉及一种防抓取方法、装置、电子设备及存储介质。
技术介绍
随着互联网技术的发展,目前,已经可以通过互联网实现各种业务服务。业务服务所提供的网页上,会展示许多的数据供用户浏览,但是,可能会存在一些非正常的浏览行为,以此来爬取页面上的数据,导致数据盗用,且爬取数据消耗的流量太多可能会直接导致提供业务服务的机器的负载过高而无法使用。
技术实现思路
本专利技术实施例提供一种防抓取方法、装置、电子设备及存储介质,以解决相关技术中的问题。本专利技术的目的是通过以下技术方案实现的:第一方面,本专利技术实施例提供一种防爬取方法,应用于服务器,服务器包括流量层和业务层,该方法包括:在流量层接收到页面访问请求后,响应于页面访问请求未命中流量层预设的第一拦截策略且未命中流量层存储的第一拦截列表,将页面访问请求发送至业务层;在业务层接收到页面访问请求后,响应于页面访问请求命中业务层预设的第二拦截策略,基于页面访问请求,更新第一拦截列表,以使与页面访问请求来源相同的页面访问请求能够命中第一拦截列表。在一种可能的实施方式中,页面访问请求中携带至少一种来源标识,第一拦截列表包括与来源标识的种类对应的子拦截列表,与来源标识的种类对应的子拦截列表包括需要拦截的来源标识;基于页面访问请求,更新第一拦截列表,包括:将页面访问请求携带的每种来源标识,添加至该来源标识所属种类对应的子拦截列表中,以更新第一拦截 ...
【技术保护点】
1.一种防爬取方法,其特征在于,应用于服务器,所述服务器包括流量层和业务层,所述方法包括:/n在所述流量层接收到页面访问请求后,响应于所述页面访问请求未命中所述流量层预设的第一拦截策略且未命中所述流量层存储的第一拦截列表,将所述页面访问请求发送至所述业务层;/n在所述业务层接收到所述页面访问请求后,响应于所述页面访问请求命中所述业务层预设的第二拦截策略,基于所述页面访问请求,更新所述第一拦截列表,以使与所述页面访问请求来源相同的页面访问请求能够命中所述第一拦截列表。/n
【技术特征摘要】
1.一种防爬取方法,其特征在于,应用于服务器,所述服务器包括流量层和业务层,所述方法包括:
在所述流量层接收到页面访问请求后,响应于所述页面访问请求未命中所述流量层预设的第一拦截策略且未命中所述流量层存储的第一拦截列表,将所述页面访问请求发送至所述业务层;
在所述业务层接收到所述页面访问请求后,响应于所述页面访问请求命中所述业务层预设的第二拦截策略,基于所述页面访问请求,更新所述第一拦截列表,以使与所述页面访问请求来源相同的页面访问请求能够命中所述第一拦截列表。
2.根据权利要求1所述的方法,其特征在于,所述页面访问请求中携带至少一种来源标识,所述第一拦截列表包括与来源标识的种类对应的子拦截列表,所述与来源标识的种类对应的子拦截列表包括需要拦截的来源标识;
所述基于所述页面访问请求,更新所述第一拦截列表,包括:
将所述页面访问请求携带的每种来源标识,添加至该来源标识所属种类对应的子拦截列表中,以更新所述第一拦截列表。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
响应于所述页面访问请求携带的任意一种来源标识命中所属种类对应的子拦截列表,确定所述页面访问请求命中所述第一拦截列表。
4.根据权利要求1所述的方法,其特征在于,所述页面访问请求中携带至少一种来源标识,所述第二拦截策略包括与来源标识的种类对应的子拦截策略;
所述方法还包括:
响应于所述页面访问请求携带的任意一种来源标识命中所属种类对应的子拦截策略,确定所述页面访问请求命中所述第二拦截策略。
5.根据权利要求4所述的方法,其特征在于,与来源标识的种类对应的子拦截策略,包括以下至少一项策略:
拦截来源标识对应的访问目标列表页的频次大于或者等于第一阈值的页面访问请求;
拦截来源标识对应的变换筛选词的频次大于或者等于第二阈值的页面访问请求;
拦截来源标识对应的变换城市的频次大于或者等于第三阈值的页面访问请求;
拦截来源标识对应的访问过期数据的频次大于或者等于第四阈值的页面访问请求。
6.根据权利要求5所述的方法,其特征在于,还包括:
响应于所述页面访问请求携带的来源标识命中所属种类对应的子拦截策略所包括的任意一项策略,确定该来源标识命中所属种类对应的子拦截策略。
7.根据权利要求1所述的方法,其特征在于,所述基于所述页面访问请求,更新所述第一拦截列表,包括:
基于所述页面访问请求,更新所述业务层存储的第二拦截列表;
定期将所述第二拦截列表同步到所述第一拦截列表,以更新所述第一拦截列表。
8.根据权利要求1至7任一项所述的方法,其特征在于,所述第一拦截列表为目标业务的拦截列表,所述方法还包括:
将所述第一拦截列表同步到所述目标业务之外的其它业务的拦截列表中。
9.一种防爬取装置,其特征在于,应用于服务器,所述服务器包括流量层和业务层,所述装置包括:
第一拦截模块,用于在所述流量层接收到页面访问请求后,响应于所述页面访问请求未命中所述流量层预设的第一拦截策略且未命中所述...
【专利技术属性】
技术研发人员:果海涛,罗港,
申请(专利权)人:北京城市网邻信息技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。