一种用于多次验证交互的数据抓取方法、装置和电子设备制造方法及图纸

技术编号:29757931 阅读:9 留言:0更新日期:2021-08-20 21:11
本发明专利技术涉及计算机技术领域,具体涉及一种用于多次验证交互的数据抓取方法、装置和电子设备,包括:构建分布式数据抓取网络,所述分布式数据抓取网络包括中心数据调度节点及多个数据抓取子节点;基于用户操作授权实时获取经验证的用户数据抓取任务信息;所述中心数据调度节点根据所述数据抓取子节点反馈的任务负载信息选择确定任务执行子节点,并将所述用户数据抓取任务信息发送至任务消息队列;所述任务执行子节点根据任务消息队列中所述用户数据抓取任务信息利用所述中心数据调度节点实时获取多次验证信息以执行数据抓取任务。本发明专利技术分布式部署及异步机制,提高了系统并发量及失败转移机制稳定性,降低断线、丢包现象,提高数据抓取的处理效率。

【技术实现步骤摘要】
一种用于多次验证交互的数据抓取方法、装置和电子设备
本专利技术涉及计算机
,尤其涉及一种用于多次验证交互的数据抓取方法、装置和电子设备。
技术介绍
现有技术中,爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,爬虫是目前所有公司获取外部数据最常用和最重要的手段,对于业务内数据能够起到很好的补充作用。在互联网信息化时代,很多网站出现了各种身份验证,而用户的个人信息,一般属于不公开的,在需要抓取特定授权网站信息时,使用传统的网络爬虫技术,却显的很无力,各种的网络爬虫性能差,对于特定类型数据抓取并不适用,如需通过短信、邮件、电话回访等的二次授权或多次授权验证查询指定文件数据的平台;因而实时交互式网络爬虫孕育而生。在高并发的实时交互式爬虫网络往往效率很低,因为交互过程中需要多次信息通信,长时间的保持连接,很容易出现断线、丢包的现象,造成系统的不稳定性及长时间占用系统资源并降低了爬虫的效率,因此保证高并发高可用的分布式处理机制很有必要。
技术实现思路
本专利技术提供了一种用于多次验证交互的数据抓取方法、装置和电子设备,用以提高数据的抓取效率,提高了系统并发量及失败转移机制的稳定性,同时降低断线、丢包现象以及提高数据抓取的处理效率。本说明书实施例提供一种用于多次验证交互的数据抓取方法,包括:构建分布式数据抓取网络,所述分布式数据抓取网络包括中心数据调度节点及多个数据抓取子节点;基于用户操作授权实时获取经验证的用户数据抓取任务信息;所述中心数据调度节点根据所述数据抓取子节点反馈的任务负载信息选择确定任务执行子节点,并将所述用户数据抓取任务信息发送至任务消息队列;所述任务执行子节点根据任务消息队列中所述用户数据抓取任务信息利用所述中心数据调度节点实时获取多次验证信息以执行数据抓取任务。优选的,所述构建分布式数据抓取网络,包括:于所述数据抓取服务器配置所述中心数据调度节点及所述多个数据抓取子节点;对所述中心数据调度节点及所述多个数据抓取子节点配置相应的处理能力。优选的,所述基于用户操作授权实时获取经验证的用户数据抓取任务信息,包括:实时获取用户提交的数据抓取任务请求信息;对所述数据抓取任务请求信息进行授权验证;当所述数据抓取任务请求信息授权验证成功,则获取经验证的用户数据抓取任务信息。优选的,所述中心数据调度节点根据所述用户数据抓取子节点反馈的任务负载信息选择确定任务执行子节点,包括:所述中心数据调度节点获取所述数据抓取子节点反馈的任务负载信息;所述中心数据调度节点根据所述数据抓取子节点反馈的任务负载信息对所述数据抓取子节点进行筛选,得到任务执行子节点。优选的,所述中心数据调度节点根据所述数据抓取子节点反馈的任务负载信息对所述数据抓取子节点进行筛选,包括:对低于预设任务阈值的所述数据抓取子节点进行筛选;根据所述数据抓取子节点相应的处理能力对所述数据抓取子节点进行筛选。优选的,所述任务执行子节点根据任务消息队列中所述用户数据抓取任务信息利用所述中心数据调度节点实时获取多次验证信息以执行数据抓取任务,包括:所述中心数据调度节点根据所述数据抓取任务的优先级将所述消息队列中所述数据抓取任务下发至所述任务执行子节点;通过所述中心数据调度节点实时获取多次验证信息,确认执行数据抓取任务;通过所述任务执行子节点执行所述数据抓取任务,获得所述数据抓取任务的执行结果。优选的,获得所述数据抓取任务的执行结果,包括:推送所述数据抓取任务的执行结果至结果消息队列中;提取所述结果消息队列中的所述数据抓取任务的执行结果信息返回给用户。优选的,所述推送所述数据抓取任务的执行结果至结果消息队列中,包括:响应于所述数据抓取任务执行结束,执行将所述数据抓取的结果信息推送到所述结果消息队列;响应于所述数据抓取任务执行需用户继续授权,执行将所述需用户授权的信息推送到所述结果消息队列;响应于所述数据抓取任务执行出错,执行将所述出错信息推送到所述结果消息队列。优选的,所述提取所述结果消息队列中的所述数据抓取任务的执行结果信息返回给用户包括:响应于所述数据抓取任务执行需用户继续授权执行提取所述结果消息队列中的需用户授权的信息返回给用户、和/或响应于所述数据抓取任务执行出错执行提取所述结果消息队列中的出错信息返回给用户、和/或响应于所述数据抓取任务执行结束执行提取所述结果消息队列中的所述数据抓取的执行结果信息返回给所述用户。优选的,所述用户接收到所述出错信息后,选择出错的所述数据抓取任务进行重新执行,并将所述数据抓取任务再次加入所述任务消息队列中。本说明书实施例还提供一种用于多次验证交互的数据抓取装置,其特征在于,包括:网络构建模块,构建分布式数据抓取网络,所述分布式数据抓取网络包括中心数据调度节点及多个数据抓取子节点;信息获取模块,基于用户操作授权实时获取经验证的用户数据抓取任务信息;节点确认模块,所述中心数据调度节点根据所述数据抓取子节点反馈的任务负载信息选择确定任务执行子节点,并将所述用户数据抓取任务信息发送至任务消息队列;任务执行模块,所述任务执行子节点根据任务消息队列中所述用户数据抓取任务信息利用所述中心数据调度节点实时获取多次验证信息以执行数据抓取任务。优选的,所述构建分布式数据抓取网络,包括:于所述数据抓取服务器配置所述中心数据调度节点及所述多个数据抓取子节点;对所述中心数据调度节点及所述多个数据抓取子节点配置相应的处理能力。优选的,所述基于用户操作授权实时获取经验证的用户数据抓取任务信息,包括:实时获取用户提交的数据抓取任务请求信息;对所述数据抓取任务请求信息进行授权验证;当所述数据抓取任务请求信息授权验证成功,则获取经验证的用户数据抓取任务信息。优选的,所述中心数据调度节点根据所述用户数据抓取子节点反馈的任务负载信息选择确定任务执行子节点,包括:所述中心数据调度节点获取所述数据抓取子节点反馈的任务负载信息;所述中心数据调度节点根据所述数据抓取子节点反馈的任务负载信息对所述数据抓取子节点进行筛选,得到任务执行子节点。优选的,所述中心数据调度节点根据所述数据抓取子节点反馈的任务负载信息对所述数据抓取子节点进行筛选,包括:对低于预设任务阈值的所述数据抓取子节点进行筛选;根据所述数据抓取子节点相应的处理能力对所述数据抓取子节点进行筛选。优选的,所述任务执行子节点根据任务消息队列中所述用户数据抓取任务信息利用所述中心数据调度节点实时获取多次验证信息以执行数据抓取任务,包括:所述中心数据调度节点根据所述数据抓取任务的优先级将所述消息队列中所述数据抓取任务下发至所述任务执行子节点;通过所述中心数据调度节点实时获取多次验证信息,确认执行数据抓取任务;通本文档来自技高网...

【技术保护点】
1.一种用于多次验证交互的数据抓取方法,其特征在于:/n构建分布式数据抓取网络,所述分布式数据抓取网络包括中心数据调度节点及多个数据抓取子节点;/n基于用户操作授权实时获取经验证的用户数据抓取任务信息;/n所述中心数据调度节点根据所述数据抓取子节点反馈的任务负载信息选择确定任务执行子节点,并将所述用户数据抓取任务信息发送至任务消息队列;/n所述任务执行子节点根据任务消息队列中所述用户数据抓取任务信息利用所述中心数据调度节点实时获取多次验证信息以执行数据抓取任务。/n

【技术特征摘要】
1.一种用于多次验证交互的数据抓取方法,其特征在于:
构建分布式数据抓取网络,所述分布式数据抓取网络包括中心数据调度节点及多个数据抓取子节点;
基于用户操作授权实时获取经验证的用户数据抓取任务信息;
所述中心数据调度节点根据所述数据抓取子节点反馈的任务负载信息选择确定任务执行子节点,并将所述用户数据抓取任务信息发送至任务消息队列;
所述任务执行子节点根据任务消息队列中所述用户数据抓取任务信息利用所述中心数据调度节点实时获取多次验证信息以执行数据抓取任务。


2.如权利要求1所述的一种用于多次验证交互的数据抓取方法,其特征在于,所述构建分布式数据抓取网络,包括:
于所述数据抓取服务器配置所述中心数据调度节点及所述多个数据抓取子节点;
对所述中心数据调度节点及所述多个数据抓取子节点配置相应的处理能力。


3.如权利要求1-2中任一项所述的一种用于多次验证交互的数据抓取方法,其特征在于,所述基于用户操作授权实时获取经验证的用户数据抓取任务信息,包括:
实时获取用户提交的数据抓取任务请求信息;
对所述数据抓取任务请求信息进行授权验证;
当所述数据抓取任务请求信息授权验证成功,则获取经验证的用户数据抓取任务信息。


4.如权利要求1-3中任一项所述的一种用于多次验证交互的数据抓取方法,其特征在于,所述中心数据调度节点根据所述用户数据抓取子节点反馈的任务负载信息选择确定任务执行子节点,包括:
所述中心数据调度节点获取所述数据抓取子节点反馈的任务负载信息;
所述中心数据调度节点根据所述数据抓取子节点反馈的任务负载信息对所述数据抓取子节点进行筛选,得到任务执行子节点。


5.如权利要求1-4中任一项所述的一种用于多次验证交互的数据抓取方法,其特征在于,所述中心数据调度节点根据所述数据抓取子节点反馈的任务负载信息对所述数据抓取子节点进行筛选,包括:
对低于预设任务阈值的所述数据抓取子节点进行筛选;
根据所述数据抓取子节点相应的处理能力对所述数据抓取子节点进行筛选。


6.如权利要求1-5中任一项所述的一种用于多次验证交互的数据抓取方法,其特征在于,所述任务执行子节点根据任务消息队列中所述用户数据抓取任务信息利用所述中心数据调度节点实时获取多次验证信息以执行数据抓取任务,包括:
所述中心数据调度节点根据所述数据抓取任务的优先级将所述消息队列中所述数据抓取任务下发至所述任务执行子节点;
通过所述中心数据调度节点实时获取多次验证信息,确认执行数据抓取任务;
通过所述任务执行子节点执行所述数据抓取任务,获得所述数据抓取任务的执行结果。<...

【专利技术属性】
技术研发人员:刘斯吏
申请(专利权)人:上海淇玥信息技术有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1