The invention provides a data capture method and device, wherein, the method comprises: determining a distribution node from the node capture preset in normal operation; through the data capture node receives the request sent by the sending terminal, including URL, the sender address data capture request through the distribution of each node; data capture request distribution to each node of each node by grasping grasping; according to the URL data capture request capture the requested data, and through the sending terminal node capture data will be sent to the sender address. Determine the distribution node from the capture node, do not need to set up a special reception and distribute the data management node capture request, and once the distribution node can not run normally, can also identify another distribution node from the node in the process of data capture, capture can still run normally, does not affect the process of data capture to ensure the normal operation; data capture work.
【技术实现步骤摘要】
数据抓取方法和装置
本专利技术涉及互联网
,尤其涉及一种数据抓取方法和装置。
技术介绍
随着互联网技术的不断发展,通过搜索引擎搜索数据的数据获取方式已经成成为数据抓取的重要过程。现有技术中,数据抓取平台中设置了管理结点和抓取结点,管理结点和抓取结点可以是虚拟的模块,也可以是终端设备。发送终端在搜索引擎上进行设置,从而发送出数据抓取请求;数据抓取平台的管理结点接收到各发送终端发出的各数据抓取请求,然后管理结点再将这些数据抓取请求发送给各个抓取结点,各抓取结点在抓取了数据之后,将所有的数据通过管理结点返回给各发送终端。然而现有技术中,数据抓取平台上设置了一个专门接收并分发各数据抓取请求的管理结点,所有的数据抓取请求只能通过这一个管理结点而下发给各个抓取结点,一旦管理结点无法正常运行,那么所有的数据抓取请求便无法下发给各个抓取结点,导致数据抓取无法进行,进而发送终端无法接收到需要抓取的数据。
技术实现思路
本专利技术提供一种数据抓取方法和装置,用以解决现有技术中所有的数据抓取请求只能通过这一个管理结点而下发给各个抓取结点,一旦管理结点无法正常运行,那么所有的数据抓取请求便无法下发给各个抓取结点,导致数据抓取无法进行,进而发送终端无法接收到需要抓取的数据的问题。本专利技术的一方面是提供一种数据抓取方法,包括:从预先设定的正常运行的各抓取结点中确定一个分发结点;通过所述分发节点接收各发送终端发送的各数据抓取请求,所述数据抓取请求中包括统一资源定位符(UniformResoureLocator,简称url)、发送端地址;通过所述分发结点将所述各数据抓取请求分发给各所 ...
【技术保护点】
一种数据抓取方法,其特征在于,包括:从预先设定的正常运行的各抓取结点中确定一个分发结点;通过所述分发节点接收各发送终端发送的各数据抓取请求,所述数据抓取请求中包括统一资源定位符url、发送端地址;通过所述分发结点将所述各数据抓取请求分发给各所述抓取结点;通过各抓取结点根据所述url抓取所述数据抓取请求所请求的数据,并通过各抓取结点将所述数据发送给与所述发送端地址对应的发送终端。
【技术特征摘要】
1.一种数据抓取方法,其特征在于,包括:从预先设定的正常运行的各抓取结点中确定一个分发结点;通过所述分发节点接收各发送终端发送的各数据抓取请求,所述数据抓取请求中包括统一资源定位符url、发送端地址;通过所述分发结点将所述各数据抓取请求分发给各所述抓取结点;通过各抓取结点根据所述url抓取所述数据抓取请求所请求的数据,并通过各抓取结点将所述数据发送给与所述发送端地址对应的发送终端。2.根据权利要求1所述的方法,其特征在于,所述从预先设定的正常运行的各抓取结点中确定一个分发结点,包括:确定各抓取结点中正常运行的抓取结点;从正常运行的抓取结点中,随机的确定一个所述分发结点。3.根据权利要求1所述的方法,其特征在于,所述数据抓取请求中还包括:抓取时间;相应的,所述通过所述分发结点将所述各数据抓取请求分发给各所述抓取结点,包括:确定所述抓取结点的负载信息,所述负载信息表征所述抓取结点当前执行的数据抓取请求的个数;根据所述负载信息,确定所述抓取结点是否满足所述抓取时间;若满足,则通过所述分发结点将所述数据抓取请求发送给所述抓取结点。4.根据权利要求1所述的方法,其特征在于,所述通过所述分发结点将所述各数据抓取请求分发给各所述抓取结点,包括:通过所述分发结点将所述各数据抓取请求,均匀的插入到各所述抓取结点的数据抓取请求队列中。5.根据权利要求1-4任一项所述的方法,其特征在于,所述通过各抓取结点根据所述url抓取所述数据抓取请求所请求的数据,包括:提取所述url中的域名;通过各抓取结点根据所述域名抓取所述数据抓取请求...
【专利技术属性】
技术研发人员:颜勇,于晓明,杨建武,
申请(专利权)人:北大方正集团有限公司,北京大学,北京北大方正电子有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。