网页数据的爬取方法、装置、网页登录方法及装置制造方法及图纸

技术编号:23705024 阅读:27 留言:0更新日期:2020-04-08 11:12
本发明专利技术公开了一种网页数据的爬取方法、装置、网页登录方法及装置,涉及网络技术领域,主要目的在于解决对此类网站中网页数据进行爬取的过程中存在极易失败的问题。本发明专利技术的方法包括:接收到爬取请求时,获取身份凭证信息,其中,所述身份凭证信息是根据用户登录网页时的用户名和密码生成的;通过所述身份凭证信息,对所述网页进行登录;当登录所述网页后,爬取所述网页中的网页数据。本发明专利技术适用于对通过爬虫对网站中的数据进行爬取。

Crawling method, device, login method and device of web page data

【技术实现步骤摘要】
网页数据的爬取方法、装置、网页登录方法及装置
本专利技术涉及网络
,尤其涉及一种网页数据的爬取方法及装置、以及,网页登录方法及装置。
技术介绍
随着网名的逐步增多,网络中不同网站的访问量也逐步增多。通常,为了更为全面的获取到网站中数据,很多用户都喜欢通过网络爬虫来对网站中的数据进行爬取。其中,爬虫,通常被称为网络爬虫、网页蜘蛛或网络机器人。它是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。目前,有很多网站设置有用户身份的验证机制,需要用户通过账号及密码进行登录,当爬虫对此类网站中的网页数据进行爬取时,爬虫一般需要账号名称及密码来模仿用户的登录行为,并在每次爬取网页数据时模拟一次账号登录行为。然而,在实际应用中,在对此类需要用户登录账号的网站中的网页数据进行爬取时,现有的爬虫爬取方式在爬取此网站的过程中需要在每一次爬取时进行一次账号的登录操作,这样就导致爬虫在爬取此类网站中的网页数据时,存在账号多次重复登录的行为,而基于网站安全机制,当网站检测出某账号出现多次重复登录的现象时,会限制或禁止该账号的访问行为,继而导致现有的网页数据的爬取方式在对设置有账号名称及密码的验证的网站进行爬取时,易出现被限制或禁止访问的问题,从而导致爬虫爬取此类网站内的网页数据的过程中极易出现爬取失败的问题。
技术实现思路
鉴于上述问题,本专利技术提供一种网页数据的爬取方法及装置,主要目的在于对设置有用户账号验证机制的网站进行爬取时,实现网页数据的爬取功能,解决对此类网站中网页数据进行爬取的过程中存在极易失败的问题。为解决上述技术问题,第一方面,本专利技术提供了一种网页登录方法,该方法包括:接收到网页登录请求时,获取身份凭证信息,所述身份凭证信息根据用户登录网页时的用户名和密码生成;通过所述身份凭证信息,登录所述网页。可选的,所述通过所述身份凭证信息,登录所述网页包括:获取所述网页的登录阈值,所述登录阈值为所述网页允许同一身份凭证信息同时登录的数量;根据所述登录阈值,确定登录请求的数量;根据所述登录请求的数量对应的登录请求,登录所述网页。可选的,所述获取身份凭证信息包括:监控目标浏览器中的操作行为;当监测到所述目标浏览器中存在网页登录行为时,从所述操作行为对应的操作数据中获取所述身份凭证信息。第二方面,本专利技术实施例还提供了一种网页登录装置,包括:获取单元,用于接收到网页登录请求时,获取身份凭证信息,所述身份凭证信息根据用户登录网页时的用户名和密码生成;登录单元,用于通过所述身份凭证信息,登录所述网页。可选的,所述登录单元包括:获取模块,用于获取所述网页的登录阈值,所述登录阈值为所述网页允许同一身份凭证信息同时登录的数量;确定模块,用于根据所述登录阈值,确定登录请求的数量;登录模块,用于根据所述登录请求的数量,登录所述网页。可选的,所述获取单元包括:监控模块,用于监控目标浏览器中的操作行为;获取模块,用于当监测到所述目标浏览器中存在网页登录行为时,从所述操作行为对应的操作数据中获取所述身份凭证信息。第三方面,本专利技术实施例还提供了一种网页数据爬取方法,包括:接收到爬取请求时,获取身份凭证信息,其中,所述身份凭证信息是根据用户登录网页时的用户名和密码生成的;通过所述身份凭证信息,对所述网页进行登录;当登录所述网页后,爬取所述网页中的网页数据。可选的,所述通过所述身份凭证信息,对所述网页进行登录包括:将所述身份凭证信息发送至用于登录所述网页的目标爬虫;所述目标爬虫根据所述身份凭证信息,对所述网页进行登录操作。可选的,在所述将所述身份凭证信息发送至用于登录所述网页的目标爬虫之前,所述方法还包括:获取所述网页的登录阈值,所述登录阈值为所述网页允许的同一身份凭证信息同时登录的数量;根据所述登录阈值,确定爬取请求的数量;所述目标爬虫根据所述身份凭证信息,对所述网页进行登录操作,包括:所述目标爬虫根据所述爬取请求的数量对应的爬取请求,登录所述网页。可选的,所述当登录所述网页后,爬取所述网页中的网页数据包括:根据所述身份凭证信息保持所述爬虫的登录状态,并爬取所述网页中的网页数据。可选的,所述将所述身份凭证信息发送至用于登录所述网页的目标爬虫包括:将所述身份凭证信息发送至分配服务器中,所述分配服务器中包含每一个爬虫的地址信息;当所述分配服务器接收到所述身份凭证信息后,将根据所述地址信息将所述身份凭证信息发送至用于登录所述网页的目标爬虫。可选的,所述获取身份凭证信息包括:监控目标浏览器中的操作行为;当监测到所述目标浏览器中存在网页登录行为时,从所述操作行为对应的操作数据中获取所述身份凭证信息。第四方面,本专利技术还提供了一种网页数据的爬取装置,该装置包括:获取单元,用于接收到爬取请求时,获取身份凭证信息,其中,所述身份凭证信息是根据用户登录网页时的用户名和密码生成的;登录单元,用于通过所述身份凭证信息,对所述网页进行登录;爬取单元,用于当登录所述网页后,爬取所述网页中的网页数据。可选的,所述登录单元包括:发送模块,用于将所述身份凭证信息发送至用于登录所述网页的目标爬虫;登录模块,用于所述目标爬虫根据所述身份凭证信息,对所述网页进行登录操作。可选的,所述登录单元还包括:获取模块,用于获取所述网页的登录阈值,所述登录阈值为所述网页允许的同一身份凭证信息同时登录的数量;确定模块,用于根据所述登录阈值,确定爬取请求的数量;所述登录模块,具体用于所述目标爬虫根据所述爬取请求的数量对应的爬取请求,登录所述网页。可选的,所述爬取单元,具体用于根据所述身份凭证信息保持所述爬虫的登录状态,并爬取所述网页中的网页数据。可选的,所述发送模块包括:第一发送子模块,用于将所述身份凭证信息发送至分配服务器中,所述分配服务器中包含每一个爬虫的地址信息;第二发送子模块,用于当所述分配服务器接收到所述身份凭证信息后,将根据所述地址信息将所述身份凭证信息发送至用于登录所述网页的目标爬虫。可选的,所述获取单元包括:监控模块,用于监控目标浏览器中的操作行为;获取模块,用于当监测到所述目标浏览器中存在网页登录行为时,从所述操作行为对应的操作数据中获取所述身份凭证信息。为了实现上述目的,根据本专利技术的第五方面,提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如上述第一方面所述的网页登录方法,或者,执行如上述第三方面网页数据的爬取方法。为了实现上述目的,根据本专利技术的第六方面,提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行如上述第一方面所述的网页登录方法,或者,执行如上述第三方面网页本文档来自技高网...

【技术保护点】
1.一种网页登录方法,其特征在于,包括:/n接收到网页登录请求时,获取身份凭证信息,所述身份凭证信息根据用户登录网页时的用户名和密码生成;/n通过所述身份凭证信息,登录所述网页。/n

【技术特征摘要】
1.一种网页登录方法,其特征在于,包括:
接收到网页登录请求时,获取身份凭证信息,所述身份凭证信息根据用户登录网页时的用户名和密码生成;
通过所述身份凭证信息,登录所述网页。


2.根据权利要求1所述的方法,其特征在于,所述通过所述身份凭证信息,登录所述网页包括:
获取所述网页的登录阈值,所述登录阈值为所述网页允许同一身份凭证信息同时登录的数量;
根据所述登录阈值,确定登录请求的数量;
根据所述登录请求的数量对应的登录请求,登录所述网页。


3.根据权利要求1或2所述的方法,其特征在于,所述获取身份凭证信息包括:
监控目标浏览器中的操作行为;
当监测到所述目标浏览器中存在网页登录行为时,从所述操作行为对应的操作数据中获取所述身份凭证信息。


4.一种网页数据爬取方法,其特征在于,包括:
接收到爬取请求时,获取身份凭证信息,其中,所述身份凭证信息是根据用户登录网页时的用户名和密码生成的;
通过所述身份凭证信息,对所述网页进行登录;
当登录所述网页后,爬取所述网页中的网页数据。


5.根据权利要求4所述的方法,其特征在于,所述通过所述身份凭证信息,对所述网页进行登录包括:
将所述身份凭证信息发送至用于登录所述网页的目标爬虫;
所述目标爬虫根据所述身份凭证信息,对所述网页进行登录操作。


6.根据权利要求5所述的方法,其特征在于,在所述将所述身份凭证信息发送至用于登录所述网页的目标爬虫之前,所述方法还包括:
获取所述网页的登录阈值,所述登录阈值为所述网页允许的同一身份凭证信息同时登录的数量;
根据所述登录阈值,确定爬取请求的数量;
所述目标爬虫根据所述身份凭证信息,对所述网页进行登录操作,包括:
所述目标爬虫根据所述爬取请求的数量对应的爬取请求,登录所述网页。


7.根据权利要求6所述的方法...

【专利技术属性】
技术研发人员:满悦
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1