爬虫登录目标网站的实现方法及系统技术方案

技术编号:16783593 阅读:22 留言:0更新日期:2017-12-13 02:11
本发明专利技术属于数据处理技术领域,提供了一种爬虫登录目标网站的实现方法及系统。该方法包括:在目标网站的浏览器处于打开状态时,调用浏览器对应的加密功能,加载至目标网站的浏览器,执行浏览器所加载的加密功能,对待加密数据进行加密,形成加密结果,将加密结果作为访问参数,发送至目标网站的服务器。本发明专利技术爬虫登录目标网站的实现方法及系统,能够模拟客户端与目标网站服务器的通信过程,实现目标网站的加密方式。

【技术实现步骤摘要】
爬虫登录目标网站的实现方法及系统
本专利技术涉及数据处理
,具体涉及一种爬虫登录目标网站的实现方法及系统。
技术介绍
目前,爬虫技术能够爬取用户在第三方网站的数据。例如,P2P借贷需要评价借款人的信用,降低借贷风险。各个借贷类软件均有自己的信用评估模型。软件需要获取用户数据,用来进行信用评估。用户在第三方网站的消费行为、信用数据,可以作为P2P借贷软件的信用评价指标。又例如,在网站登录中,为了保护用户隐私,通常会对用户输入信息进行加密传输,一般是在浏览器中运行JS文件来完成加密。并且,在加密时,Java程序和JS文件有时是共通的,但当目标网站进行自定义加密时,Java加密程序将失效。此时,只能模拟目标网站的JS文件加密。但是,深网爬虫技术的难点在于登录目标网站。现有技术中存在一种数据爬取的解决方案,具体为:打开目标网站的浏览器,通过爬虫软件在浏览器上模拟用户的登录行为,通过目标网站的登录验证,从而获取用户在目标网站上的数据。但是,上述技术方案存在如下问题:第一,浏览器运行会占用大量内存,且系统开销大。第二,当同时登录的用户较多时,会造成系统崩溃。现有技术中还存在另一种数据爬取的解决方案,具体为:模拟客户端,通过模拟客户端与目标网站服务器进行通信,实现登录。因为模拟客户端不需要像浏览器那样获取脚本、进行渲染,因此,其内存占用小,系统开销小。但是,第二个该方案的难点在于,需要获知目标网站的浏览器与服务器的通信过程,特别是浏览器的数据加密方式。如何模拟客户端与目标网站服务器的通信过程,实现目标网站的加密方式,是本领域技术人员亟需解决的问题。
技术实现思路
针对现有技术中的缺陷,本专利技术提供爬虫登录目标网站的实现方法及系统,能够模拟客户端与目标网站服务器的通信过程,实现目标网站的加密方式。第一方面,本专利技术提供一种爬虫登录目标网站的实现方法,该方法包括:在目标网站的浏览器处于打开状态时,调用浏览器对应的加密功能,加载至目标网站的浏览器;执行浏览器所加载的加密功能,对待加密数据进行加密,形成加密结果;将加密结果作为访问参数,发送至目标网站的服务器。进一步地,对待加密数据进行加密之前,该方法还包括:浏览器通过WebSocket对象接收待加密数据;执行浏览器所加载的加密功能,对待加密数据进行加密,形成加密结果,具体包括:执行浏览器所加载的加密功能,对WebSocket对象所接收的待加密数据进行加密,形成加密结果。进一步地,服务器保持目标网站的浏览器处于打开状态时,配置浏览器的WebSocket通信网址;采用Java工具调用浏览器对应的加密功能,加载至目标网站的浏览器;Java工具获取待加密数据;按照浏览器的WebSocket通信网址,Java工具依次通过Session类和WebSocket对象传输至浏览器;执行浏览器所加载的加密功能,对浏览器的WebSocket对象所接收的待加密数据进行加密,形成加密结果,并回传至Java工具;Java工具将加密结果作为访问参数,发送至目标网站的服务器。进一步地,Java工具将加密结果作为访问参数,发送至目标网站的服务器,具体包括:Java工具通过预定组件模拟目标网站的登陆请求,将加密结果作为访问参数,发送至目标网站的服务器。基于上述任意爬虫登录目标网站的实现方法实施例,进一步地,发送至目标网站的服务器之后,该方法还包括:目标网站的服务器对加密结果进行解密;目标网站的服务器将解密后的数据与数据库中的数据进行比对,确认解密后的数据是否正确。第二方面,本专利技术提供一种爬虫登录目标网站的实现系统,该系统包括服务器,服务器具体包括加密功能调用模块、数据加密模块和数据传输模块,加密功能调用模块用于在目标网站的浏览器处于打开状态时,调用浏览器对应的加密功能,加载至目标网站的浏览器;数据加密模块用于执行浏览器所加载的加密功能,对待加密数据进行加密,形成加密结果;数据传输模块将加密结果作为访问参数,发送至目标网站的服务器。进一步地,数据加密模块还用于:使浏览器通过WebSocket对象接收待加密数据;数据加密模块在执行浏览器所加载的加密功能,对待加密数据进行加密,形成加密结果时,具体用于:执行浏览器所加载的加密功能,对WebSocket对象所接收的待加密数据进行加密,形成加密结果。进一步地,加密功能调用模块具体包括通信网址配置子模块和功能加载子模块,通信网址配置子模块用于服务器保持目标网站的浏览器处于打开状态时,配置浏览器的WebSocket通信网址;功能加载子模块用于采用Java工具调用浏览器对应的加密功能,加载至目标网站的浏览器。该系统还包括数据获取模块,具体用于:使Java工具获取待加密数据;按照浏览器的WebSocket通信网址,Java工具依次通过Session类和WebSocket对象传输至浏览器。数据加密模块具体用于:执行浏览器所加载的加密功能,对浏览器的WebSocket对象所接收的待加密数据进行加密,形成加密结果,并回传至Java工具。数据传输模块具体用于:使Java工具将加密结果作为访问参数,发送至目标网站的服务器。进一步地,数据传输模块在使Java工具将加密结果作为访问参数,发送至目标网站的服务器时,具体用于:使Java工具通过预定组件模拟目标网站的登陆请求,将加密结果作为访问参数,发送至目标网站的服务器。基于上述任意爬虫登录目标网站的实现系统实施例,进一步地,该系统还包括:目标网站的服务器,用于对加密结果进行解密;将解密后的数据与数据库中的数据进行比对,确认解密后的数据是否正确。由上述技术方案可知,本实施例提供的爬虫登录目标网站的实现方法及系统,通过调用浏览器所对应的加密功能,并加载至相应的目标网站浏览器,浏览器仅进行加密,不会占用过多的系统内存,也不会增大系统资源开销,又能够实现对数据的加密功能,将加密结果发送至目标网站的服务器。因此,本实施例爬虫登录目标网站的实现方法及系统,能够模拟客户端与目标网站服务器的通信过程,实现目标网站的加密方式。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。图1示出了本专利技术所提供的一种爬虫登录目标网站的实现方法的方法流程图;图2示出了本专利技术所提供的一种爬虫登录目标网站的实现系统的结构框图。具体实施方式下面将结合附图对本专利技术技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本专利技术的技术方案,因此只是作为示例,而不能以此来限制本专利技术的保护范围。需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本专利技术所属领域技术人员所理解的通常意义。第一方面,本专利技术实施例所提供的一种爬虫登录目标网站的实现方法,结合图1,该方法包括:步骤S1,在目标网站的浏览器处于打开状态时,调用浏览器对应的加密功能,如JS文件,加载至目标网站的浏览器。步骤S2,执行浏览器所加载的加密功能,对待加密数据进行加密,形成加密结果。步骤S3,将加密结果作为访问参数,发送至目标网站的服务器。由上述技术方案可知,本实施例提供的爬虫登录目标网站的实现方法,通过调用浏览器所对本文档来自技高网...
爬虫登录目标网站的实现方法及系统

【技术保护点】
一种爬虫登录目标网站的实现方法,其特征在于,包括:在目标网站的浏览器处于打开状态时,调用所述浏览器对应的加密功能,加载至目标网站的浏览器;执行所述浏览器所加载的加密功能,对待加密数据进行加密,形成加密结果;将所述加密结果作为访问参数,发送至目标网站的服务器。

【技术特征摘要】
1.一种爬虫登录目标网站的实现方法,其特征在于,包括:在目标网站的浏览器处于打开状态时,调用所述浏览器对应的加密功能,加载至目标网站的浏览器;执行所述浏览器所加载的加密功能,对待加密数据进行加密,形成加密结果;将所述加密结果作为访问参数,发送至目标网站的服务器。2.根据权利要求1所述爬虫登录目标网站的实现方法,其特征在于,对待加密数据进行加密之前,该方法还包括:所述浏览器通过WebSocket对象接收待加密数据;执行所述浏览器所加载的加密功能,对待加密数据进行加密,形成加密结果,具体包括:执行所述浏览器所加载的加密功能,对WebSocket对象所接收的待加密数据进行加密,形成所述加密结果。3.根据权利要求2所述爬虫登录目标网站的实现方法,其特征在于,服务器保持目标网站的浏览器处于打开状态时,配置浏览器的WebSocket通信网址;采用Java工具调用所述浏览器对应的加密功能,加载至目标网站的浏览器;所述Java工具获取待加密数据;按照所述浏览器的WebSocket通信网址,所述Java工具依次通过Session类和WebSocket对象传输至所述浏览器;执行所述浏览器所加载的加密功能,对所述浏览器的WebSocket对象所接收的待加密数据进行加密,形成加密结果,并回传至所述Java工具;所述Java工具将所述加密结果作为访问参数,发送至目标网站的服务器。4.根据权利要求3所述爬虫登录目标网站的实现方法,其特征在于,所述Java工具将所述加密结果作为访问参数,发送至目标网站的服务器,具体包括:所述Java工具通过预定组件模拟所述目标网站的登陆请求,将所述加密结果作为访问参数,发送至目标网站的服务器。5.根据权利要求1所述爬虫登录目标网站的实现方法,其特征在于,发送至目标网站的服务器之后,该方法还包括:目标网站的服务器对所述加密结果进行解密;所述目标网站的服务器将解密后的数据与数据库中的数据进行比对,确认解密后的数据是否正确。6.一种爬虫登录目标网站的实现系统,其特征在于,包括:服务器,所述服务器,包括:加密功能调用模块:用于在目标网站的浏览器...

【专利技术属性】
技术研发人员:颜龙武贾西贝
申请(专利权)人:深圳市华傲数据技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1