数据抓取方法和装置制造方法及图纸

技术编号:15542077 阅读:201 留言:0更新日期:2017-06-05 11:11
本发明专利技术提供一种数据抓取方法和装置,其中,该方法包括:从预先设定的正常运行的各抓取结点中确定一个分发结点;通过分发节点接收各发送终端发送的各数据抓取请求,数据抓取请求中包括url、发送端地址;通过分发结点将各数据抓取请求分发给各抓取结点;通过各抓取结点根据url抓取数据抓取请求所请求的数据,并通过各抓取结点将数据发送给与发送端地址对应的发送终端。从各抓取结点中确定分发结点,不需要专门设置一个接收并分发各数据抓取请求的管理结点,从而一旦该分发结点无法正常运行,还可以从各抓取结点中确定另外一个分发结点,数据抓取的过程依然可以正常运行,不影响数据抓取的过程;保证了数据抓取工作的正常运行。

Data grabbing method and apparatus

The invention provides a data capture method and device, wherein, the method comprises: determining a distribution node from the node capture preset in normal operation; through the data capture node receives the request sent by the sending terminal, including URL, the sender address data capture request through the distribution of each node; data capture request distribution to each node of each node by grasping grasping; according to the URL data capture request capture the requested data, and through the sending terminal node capture data will be sent to the sender address. Determine the distribution node from the capture node, do not need to set up a special reception and distribute the data management node capture request, and once the distribution node can not run normally, can also identify another distribution node from the node in the process of data capture, capture can still run normally, does not affect the process of data capture to ensure the normal operation; data capture work.

【技术实现步骤摘要】
数据抓取方法和装置
本专利技术涉及互联网
,尤其涉及一种数据抓取方法和装置。
技术介绍
随着互联网技术的不断发展,通过搜索引擎搜索数据的数据获取方式已经成成为数据抓取的重要过程。现有技术中,数据抓取平台中设置了管理结点和抓取结点,管理结点和抓取结点可以是虚拟的模块,也可以是终端设备。发送终端在搜索引擎上进行设置,从而发送出数据抓取请求;数据抓取平台的管理结点接收到各发送终端发出的各数据抓取请求,然后管理结点再将这些数据抓取请求发送给各个抓取结点,各抓取结点在抓取了数据之后,将所有的数据通过管理结点返回给各发送终端。然而现有技术中,数据抓取平台上设置了一个专门接收并分发各数据抓取请求的管理结点,所有的数据抓取请求只能通过这一个管理结点而下发给各个抓取结点,一旦管理结点无法正常运行,那么所有的数据抓取请求便无法下发给各个抓取结点,导致数据抓取无法进行,进而发送终端无法接收到需要抓取的数据。
技术实现思路
本专利技术提供一种数据抓取方法和装置,用以解决现有技术中所有的数据抓取请求只能通过这一个管理结点而下发给各个抓取结点,一旦管理结点无法正常运行,那么所有的数据抓取请求便无法下发给各个抓取结点,导致数据抓取无法进行,进而发送终端无法接收到需要抓取的数据的问题。本专利技术的一方面是提供一种数据抓取方法,包括:从预先设定的正常运行的各抓取结点中确定一个分发结点;通过所述分发节点接收各发送终端发送的各数据抓取请求,所述数据抓取请求中包括统一资源定位符(UniformResoureLocator,简称url)、发送端地址;通过所述分发结点将所述各数据抓取请求分发给各所述抓取结点;通过各抓取结点根据所述url抓取所述数据抓取请求所请求的数据,并通过各抓取结点将所述数据发送给与所述发送端地址对应的发送终端。如上所述的方法中,所述从预先设定的正常运行的各抓取结点中确定一个分发结点,包括:确定各抓取结点中正常运行的抓取结点;从正常运行的抓取结点中,随机的确定一个所述分发结点。如上所述的方法中,所述数据抓取请求中还包括:抓取时间;相应的,所述通过所述分发结点将所述各数据抓取请求分发给各所述抓取结点,包括:确定所述抓取结点的负载信息,所述负载信息表征所述抓取结点当前执行的数据抓取请求的个数;根据所述负载信息,确定所述抓取结点是否满足所述抓取时间;若满足,则通过所述分发结点将所述数据抓取请求发送给所述抓取结点。如上所述的方法中,所述通过所述分发结点将所述各数据抓取请求分发给各所述抓取结点,包括:通过所述分发结点将所述各数据抓取请求,均匀的插入到各所述抓取结点的数据抓取请求队列中。如上所述的方法中,所述通过各抓取结点根据所述url抓取所述数据抓取请求所请求的数据,包括:提取所述url中的域名;通过各抓取结点根据所述域名抓取所述数据抓取请求所请求的数据。本专利技术的另一方面是提供一种数据抓取装置,包括:确定模块,用于从预先设定的正常运行的各抓取结点中确定一个分发结点;接收模块,用于通过所述分发节点接收各发送终端发送的各数据抓取请求,所述数据抓取请求中包括url、发送端地址;分发模块,用于通过所述分发结点将所述各数据抓取请求分发给各所述抓取结点;发送模块,用于通过各抓取结点根据所述url抓取所述数据抓取请求所请求的数据,并通过各抓取结点将所述数据发送给与所述发送端地址对应的发送终端。如上所述的装置中,所述确定模块,包括:确定子模块,用于确定各抓取结点中正常运行的抓取结点;选择子模块,用于从正常运行的抓取结点中,随机的确定一个所述分发结点。如上所述的装置中,所述数据抓取请求中还包括:抓取时间;相应的,所述分发模块,具体用于:确定所述抓取结点的负载信息,所述负载信息表征所述抓取结点当前执行的数据抓取请求的个数;根据所述负载信息,确定所述抓取结点是否满足所述抓取时间;若满足,则通过所述分发结点将所述数据抓取请求发送给所述抓取结点。如上所述的装置中,所述分发模块,具体用于:通过所述分发结点将所述各数据抓取请求,均匀的插入到各所述抓取结点的数据抓取请求队列中。如上所述的装置中,所述发送模块在用于通过各抓取结点根据所述url抓取所述数据抓取请求所请求的数据时,具体用于:提取所述url中的域名;通过各抓取结点根据所述域名抓取所述数据抓取请求所请求的数据。本专利技术从预先设定的正常运行的各抓取结点中确定一个分发结点;通过分发节点接收各发送终端发送的各数据抓取请求,数据抓取请求中包括url、发送端地址;通过分发结点将各数据抓取请求分发给各抓取结点;通过各抓取结点根据url抓取数据抓取请求所请求的数据,并通过各抓取结点将数据发送给与发送端地址对应的发送终端。从各抓取结点中确定分发结点,该分发结点用于接收各发送终端发送的各数据抓取请求,并将各数据抓取请求分发给各抓取结点,不需要专门设置一个接收并分发各数据抓取请求的管理结点,从而一旦该分发结点无法正常运行,还可以从各抓取结点中确定另外一个分发结点,数据抓取的过程依然可以正常运行,不影响数据抓取的过程;保证了数据抓取工作的正常运行。附图说明图1为本专利技术实施例一提供的数据抓取方法的流程图;图2为本专利技术实施例二提供的数据抓取方法的流程图;图3为本专利技术实施例三提供的数据抓取装置的结构示意图;图4为本专利技术实施例四提供的数据抓取装置的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1为本专利技术实施例一提供的数据抓取方法的流程图,如图1所示,本实施例的方法包括:步骤101、从预先设定的正常运行的各抓取结点中确定一个分发结点。在本实施例中,具体的,从抓取数据的系统中可以正常运行的各抓取结点中,确定出一个分发节点,这个分发节点是各抓取结点中的一个,也可以执行数据抓取的工作。步骤102、通过分发节点接收各发送终端发送的各数据抓取请求,数据抓取请求中包括url、发送端地址。在本实施例中,具体的,各发送终端发起数据抓取请求,步骤101中确定的分发节点接收各发送终端发送的各数据抓取请求。在每个数据抓取请求中包括了url和发送端地址。步骤103、通过分发结点将各数据抓取请求分发给各抓取结点。在本实施例中,具体的,分发节点将各个数据抓取请求分发给各抓取结点,并且分发节点也会将部分数据抓取请求发给自身。步骤104、通过各抓取结点根据url抓取数据抓取请求所请求的数据,并通过各抓取结点将数据发送给与发送端地址对应的发送终端。在本实施例中,具体的,各抓取结点中设置了多个抓取队列,各抓取队列按照时间进行排序;各抓取结点接收到数据抓取请求之后,根据数据抓取请求所要求的时间将数据抓取请求插入到各抓取队列中,或者,各抓取结点按照请求的解析情况将数据抓取请求插入到各抓取队列中。例如,抓取任务队列设置了三级队列,第一级为外围队列,抓取结点在接收到数据抓取请求之后,马上将其插入到外围队列中;第二级称之为host队列,这级队列存储的都是dns还未解出的数据抓取请求本文档来自技高网...
数据抓取方法和装置

【技术保护点】
一种数据抓取方法,其特征在于,包括:从预先设定的正常运行的各抓取结点中确定一个分发结点;通过所述分发节点接收各发送终端发送的各数据抓取请求,所述数据抓取请求中包括统一资源定位符url、发送端地址;通过所述分发结点将所述各数据抓取请求分发给各所述抓取结点;通过各抓取结点根据所述url抓取所述数据抓取请求所请求的数据,并通过各抓取结点将所述数据发送给与所述发送端地址对应的发送终端。

【技术特征摘要】
1.一种数据抓取方法,其特征在于,包括:从预先设定的正常运行的各抓取结点中确定一个分发结点;通过所述分发节点接收各发送终端发送的各数据抓取请求,所述数据抓取请求中包括统一资源定位符url、发送端地址;通过所述分发结点将所述各数据抓取请求分发给各所述抓取结点;通过各抓取结点根据所述url抓取所述数据抓取请求所请求的数据,并通过各抓取结点将所述数据发送给与所述发送端地址对应的发送终端。2.根据权利要求1所述的方法,其特征在于,所述从预先设定的正常运行的各抓取结点中确定一个分发结点,包括:确定各抓取结点中正常运行的抓取结点;从正常运行的抓取结点中,随机的确定一个所述分发结点。3.根据权利要求1所述的方法,其特征在于,所述数据抓取请求中还包括:抓取时间;相应的,所述通过所述分发结点将所述各数据抓取请求分发给各所述抓取结点,包括:确定所述抓取结点的负载信息,所述负载信息表征所述抓取结点当前执行的数据抓取请求的个数;根据所述负载信息,确定所述抓取结点是否满足所述抓取时间;若满足,则通过所述分发结点将所述数据抓取请求发送给所述抓取结点。4.根据权利要求1所述的方法,其特征在于,所述通过所述分发结点将所述各数据抓取请求分发给各所述抓取结点,包括:通过所述分发结点将所述各数据抓取请求,均匀的插入到各所述抓取结点的数据抓取请求队列中。5.根据权利要求1-4任一项所述的方法,其特征在于,所述通过各抓取结点根据所述url抓取所述数据抓取请求所请求的数据,包括:提取所述url中的域名;通过各抓取结点根据所述域名抓取所述数据抓取请求...

【专利技术属性】
技术研发人员:颜勇于晓明杨建武
申请(专利权)人:北大方正集团有限公司北京大学北京北大方正电子有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1