System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 网页反爬虫方法、装置、设备、存储介质及产品制造方法及图纸_技高网

网页反爬虫方法、装置、设备、存储介质及产品制造方法及图纸

技术编号:41824368 阅读:2 留言:0更新日期:2024-06-24 20:37
本申请提供一种网页反爬虫方法、装置、设备、存储介质及产品,涉及信息安全领域。该方法包括:通过向前端服务器发起第一页面请求,从而获取首屏HTML片段并对其渲染得到首屏页面内容,再向后端服务器发起第二页面请求,基于与所述后端服务器的交互获取非首屏HTML片段,渲染所述非首屏HTML片段得到非首屏页面内容,将所述首屏页面内容和所述非首屏页面内容进行拼接。本申请在前后端同构渲染过程中,前端服务器只返回首屏HTML片段而不返回完整HTML,浏览器向后端服务器进行页面其他HTML片段的请求,从而前端服务器只保留有首屏数据,能有效防止爬虫从前端服务器爬取数据,从根源上保障了网站的数据的安全。

【技术实现步骤摘要】

本申请涉及信息安全领域,尤其涉及一种网页反爬虫方法、装置、设备、存储介质及产品


技术介绍

1、在数字化信息时代,数据安全显得尤其重要,网站的数据如果保护不善,可能会被爬虫将数据盗取而造成数据泄露,也间接造成资产损失。一些用户访问量大的页面为了提升首屏性能,通常采用前后端同构渲染的方式来对首屏进行渲染,也即服务端渲染和客户端渲染相结合,对于这些前后端同构渲染的网页来说,其前端服务器由于没有参数校验,网页爬虫获取到前后端同构渲染页面的统一资源定位系统(uniform resource locator,url)后,直接访问该页面,服务端会把完整的超文本标记语言(hyper text markuplanguage,html)内容返回给爬虫,爬虫可以从html中分析并提取出它需要的信息。并且,如果某个网站能够被轻易爬取到有价值的内容,竞争对手会对这个网站更加感兴趣从而招致更多爬虫,使网站服务器压力剧增间接导致生产成本成倍上升,甚至把服务器资源耗尽导致网页不能正常访问。

2、目前网页反爬虫的手段包括高频反爬,服务端通过识别某个ip或者携带某段固定cookie等是否高频访问来鉴别这个ip是否是爬虫,如果访问达到一定频率则禁止该ip访问,但无法阻止爬虫第一次进入页面就获取到页面内容数据。

3、另一种常用的网页反爬虫技术是在网页中插入识别用户行为的代码,通过识别该网页在某个ip上获取到页面之后是否有页面滚动点击等操作行为来鉴别该用户是否是爬虫,如果获取到网页后没操作有任何操作该网页的行为,则认为此用户可能是爬虫,可以让该用户输入验证码后才允许其继续解除对该用户的限制。但这种方式仍然无法阻止爬虫第一次进入页面就获取到页面内容数据,并且,对于一些无需交互的网页难以适用。


技术实现思路

1、本申请提供一种网页反爬虫方法、装置、设备、存储介质及产品,用以解决对于采用前后端同构渲染方式的页面,爬虫容易在获取url后,直接从服务端获取完整的html内容,从而导致数据泄露的技术问题。

2、第一方面,本申请提供一种网页反爬虫方法,应用于浏览器,包括:

3、响应于用户指令,向前端服务器发起第一页面请求,所述第一页面请求包括网页地址和浏览器视口尺寸;

4、从所述前端服务器获取首屏html片段,渲染所述首屏html片段得到首屏页面内容,所述首屏html片段为从所述网页地址中获得的适用于所述浏览器视口尺寸的页面html片段;

5、向后端服务器发起第二页面请求,所述第二页面请求包括所述网页地址和所述首屏html片段;

6、基于与所述后端服务器的交互获取非首屏html片段,渲染所述非首屏html片段得到非首屏页面内容,将所述首屏页面内容和所述非首屏页面内容进行拼接。

7、第二方面,本申请提供一种网页反爬虫方法,应用于前端服务器,包括:

8、响应于浏览器的第一页面请求,所述第一页面请求包括网页地址和浏览器视口尺寸,将所述第一页面请求发送至后端服务器;

9、从所述后端服务器获得首屏数据,所述首屏数据为从所述网页地址中获取适用于所述浏览器视口尺寸的页面数据,基于所述页面数据拼接生成首屏html片段;

10、将所述首屏html片段反馈至浏览器。

11、第三方面,本申请提供一种网页反爬虫方法,应用于后端服务器,包括:

12、响应于前端服务器的第一页面请求,所述第一页面请求包括网页地址和浏览器视口尺寸,从所述网页地址中获取适用于所述浏览器视口尺寸的页面数据作为首屏数据,将所述首屏数据返回至所述前端服务器;

13、响应于浏览器的第二页面请求,所述第二页面请求包括所述网页地址和所述首屏html片段,从所述网页地址获取除所述首屏html片段之外的页面html片段作为非首屏html片段,将所述非首屏html片段返回至所述浏览器。

14、第四方面,本申请提供一种网页反爬虫装置,应用于浏览器,包括:

15、前端请求模块,用于响应于用户指令,向前端服务器发起第一页面请求,所述第一页面请求包括网页地址和浏览器视口尺寸;

16、首屏渲染模块,用于从所述前端服务器获取首屏html片段,对所述首屏html片段进行渲染,展示首屏页面内容,所述首屏html片段为从所述网页地址中获得的适用于所述浏览器视口尺寸的页面html片段;

17、后端请求模块,用于向后端服务器发起第二页面请求,所述第二页面请求包括所述网页地址和所述首屏html片段;

18、非首屏渲染模块,基于与所述后端服务器的交互获取非首屏html片段,渲染所述非首屏html片段得到非首屏页面内容,将所述首屏页面内容和所述非首屏页面内容进行拼接。

19、第五方面,本申请提供一种网页反爬虫装置,应用于前端服务器,包括:

20、第一页面请求转发模块,用于响应于浏览器的第一页面请求,所述第一页面请求包括网页地址和浏览器视口尺寸,将所述第一页面请求发送至后端服务器;

21、html拼接模块,用于从所述后端服务器获得首屏数据,所述首屏数据为从所述网页地址中获取适用于所述浏览器视口尺寸的页面数据,基于所述页面数据拼接生成首屏html片段;

22、反馈模块,用于将所述首屏html片段反馈至浏览器。

23、第六方面,本申请提供一种网页反爬虫装置,应用于后端服务器,包括:

24、第一页面请求处理模块,用于响应于前端服务器的第一页面请求,所述第一页面请求包括网页地址和浏览器视口尺寸,从所述网页地址中获取适用于所述浏览器视口尺寸的页面数据作为首屏数据,将所述首屏数据返回至所述前端服务器;

25、第二页面请求处理模块,用于响应于浏览器的第二页面请求,所述第二页面请求包括所述网页地址和所述首屏html片段,从所述网页地址获取除所述首屏html片段之外的页面html片段作为非首屏html片段,将所述非首屏html片段返回至所述浏览器。

26、第七方面,本申请提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机执行指令,所述处理器执行所述计算机执行指令时实现上述第一方面中任一项所述的网页反爬虫方法。

27、第八方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面中任一项所述的网页反爬虫方法。

28、第九方面,本申请提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面任一项所述的网页反爬虫方法。

29、本申请提供的网页反爬虫方法、装置、设备、存储介质及产品,通过向前端服务器发起第一页面请求,从而获取首屏html片段并对其渲染得到首屏页面内容,再向后端服务器发起第二页面请求,基于与所述后端服务器的交互获取非首屏html片段,渲染所述非首屏html片段得到非首屏页面内容本文档来自技高网...

【技术保护点】

1.一种网页反爬虫方法,其特征在于,该方法应用于浏览器,包括:

2.根据权利要求1所述的方法,其特征在于,所述基于与所述后端服务器的交互获取非首屏HTML片段,包括:

3.根据权利要求2所述的方法,其特征在于,所述非首屏HTML片段中设置有布尔值,所述布尔值的真值和假值用于表示所述非首屏HTML片段是否渲染,所述布尔值默认为假值;

4.根据权利要求3所述的方法,其特征在于,所述渲染所述非首屏HTML片段得到非首屏页面内容,包括:

5.根据权利要求1所述的方法,其特征在于,所述对所述首屏HTML片段进行渲染之后,还包括:

6.一种网页反爬虫方法,其特征在于,该方法应用于前端服务器,包括:

7.根据权利要求6所述的方法,其特征在于,所述基于所述页面数据拼接生成首屏HTML片段,包括:

8.一种网页反爬虫方法,其特征在于,该方法应用于后端服务器,包括:

9.根据权利要求8所述的方法,其特征在于,在所述从所述网页地址获取除所述首屏HTML片段之外的页面HTML片段作为首屏HTML片段之前,还包括:

10.一种网页反爬虫装置,该装置应用于浏览器,包括:

11.一种网页反爬虫装置,该装置应用于前端服务器,包括:

12.一种网页反爬虫装置,该装置应用于后端服务器,包括:

13.一种电子设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;

14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至9任一项所述的方法。

15.一种计算机程序产品,其特征在于,包括计算机程序,该计算机程序被处理器执行时实现权利要求1-9中任一项所述的方法。

...

【技术特征摘要】

1.一种网页反爬虫方法,其特征在于,该方法应用于浏览器,包括:

2.根据权利要求1所述的方法,其特征在于,所述基于与所述后端服务器的交互获取非首屏html片段,包括:

3.根据权利要求2所述的方法,其特征在于,所述非首屏html片段中设置有布尔值,所述布尔值的真值和假值用于表示所述非首屏html片段是否渲染,所述布尔值默认为假值;

4.根据权利要求3所述的方法,其特征在于,所述渲染所述非首屏html片段得到非首屏页面内容,包括:

5.根据权利要求1所述的方法,其特征在于,所述对所述首屏html片段进行渲染之后,还包括:

6.一种网页反爬虫方法,其特征在于,该方法应用于前端服务器,包括:

7.根据权利要求6所述的方法,其特征在于,所述基于所述页面数据拼接生成首屏html片段,包括:

8.一种网页反爬虫方法,其特征...

【专利技术属性】
技术研发人员:赵成冬成玉龙马啸风
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1