The invention discloses a distributed Internet fast data acquisition system, including seed site settings node, link collection layer, real-time queue, download and analysis layer, web data storage layer five layer; seed setting node for site settings are stored data sources the parameters and extraction rules; hyperlinks for collection layer the data source list of hyperlinks to Web page request and hyperlink extraction of target pages; real-time queue is used to access the hyperlink extraction rules acquisition layer extraction URL hyperlink and its corresponding and has visited URL hyperlink; Web page download and analysis layer for real-time queue requests and parse unvisited hyperlinks and URL format specific data extraction; data storage layer for storing web page download and analysis layer format extraction target data. The invention adopts the distributed layered cooperation method to collect data, and can meet the requirement of system application with large data collection quantity, multiple data sources and high real-time requirement.
【技术实现步骤摘要】
一种分布式互联网数据快速采集系统及采集方法
本专利技术属于互联网大数据的采集
,具体涉及一种分布式互联网数据快速采集系统及采集方法。
技术介绍
互联网的飞速发展将社会带入数据高度发达且公开的信息时代,大数据时代已然来临。数据对于企业经营、政府决策及社会动态分析等具有极其重要的作用,而如何大规模、快速采集数据成为技术焦点,但从现有技术方案来看,数据采集方法有待改进。传统的互联网数据采集主要以网络爬虫为主要工具,以结构化或半结构化文本数据为对象进行数据收集。网络爬虫是按照一定规则自动游走爬取互联网文本网页的程序或者脚本。文本数据大多嵌套于网页程序代码中。数据采集的实时性直接决定数据的有效及时性,数据的快速采集成为重中之重。
技术实现思路
有鉴于此,本专利技术针对数据采集量大、数据来源多和实时性低的问题,提供了一种分布式互联网数据快速采集系统及采集方法。为了解决上述技术问题,本专利技术公开了一种分布式互联网数据快速采集系统,包括种子网站设置节点,超链接采集层,实时队列,网页下载与解析层,网页数据存储层五个层;其中种子网站设置节点用于设置存储数据源的各项参数及抽取规则等,为单一节点;其中超链接采集层用于对数据源的超链接列表网页进行请求并提取目标网页的超链接;其中实时队列用于存取超链接采集层提取的URL超链接、该超链接对应的抽取规则及已访问过的URL超链接;其中网页下载与解析层用于请求并解析实时队列中未访问过的URL超链接并格式化提取特定数据;其中网页数据存储层用于存储网页下载与解析层格式化抽取的目标数据。与现有技术相比,本专利技术可以获得包括以下技术效果:1)本 ...
【技术保护点】
一种分布式互联网数据快速采集系统,其特征在于,包括种子网站设置节点,超链接采集层,实时队列,网页下载与解析层,网页数据存储层五个层;所述种子网站设置节点用于设置存储数据源的各项参数及抽取规则等,为单一节点;所述超链接采集层用于对数据源的超链接列表网页进行请求并提取目标网页的超链接;所述实时队列用于存取超链接采集层提取的URL超链接、该超链接对应的抽取规则及已访问过的URL超链接;所述网页下载与解析层用于请求并解析实时队列中未访问过的URL超链接并格式化提取特定数据;所述网页数据存储层用于存储网页下载与解析层格式化抽取的目标数据。
【技术特征摘要】
1.一种分布式互联网数据快速采集系统,其特征在于,包括种子网站设置节点,超链接采集层,实时队列,网页下载与解析层,网页数据存储层五个层;所述种子网站设置节点用于设置存储数据源的各项参数及抽取规则等,为单一节点;所述超链接采集层用于对数据源的超链接列表网页进行请求并提取目标网页的超链接;所述实时队列用于存取超链接采集层提取的URL超链接、该超链接对应的抽取规则及已访问过的URL超链接;所述网页下载与解析层用于请求并解析实时队列中未访问过的URL超链接并格式化提取特定数据;所述网页数据存储层用于存储网页下载与解析层格式化抽取的目标数据。2.如权利要求1所述的分布式互联网数据快速采集系统,其特征在于,所述种子网站设置节点使用的是关系型数据库。3.如权利要求1所述的分布式互联网数据快速采集系统,其特征在于,所述超链接采集层由单个或者若干网络爬虫节点构成,这些网络爬虫彼此物理隔离、逻辑协作完成目标网页的超链接提取工作,根据数据源的规模可横向扩展;超链接采集层是分布式多节点的,单个节点的运行是定时的,该层节点将采集的超链接整合对应的抽取规则存入实时队列。4.如权利要求1所述的分布式互联网数据快速采集系统,其特征在于,所述实时队列是独立部署的,未访问过的超链接是实时存取的,已访问的超链接是持久存储的。5.如权利要求1所述的分布式互联网数据快速采集系统,其特征在于,所述网页下载与解析层由多个网络爬虫节点组成,节点间彼此独立工作,主要负责目标数据的结构化信息提取工作,根据超链接采集层提取的超链接规模可横向扩展;每个节点包括一套基于HTML文档树的信息结构化抽取方法与一套通用正文信息抽取方法,对于网页正文部分的抽取可切换使用;网页下载与解析层是分布式多节点的,可横向扩展的,单个节点的运行是实时的,节点读取实时队列中的超链接后进行过滤、解析、格式化抽取目标数据并存储操作。6.如权利要求1所述的分布式互联网数据快速采集系统,其特征在于,所述网页数据存储层采用的是开源大数据存储数据库,多节点可扩展的。7.一种基于分布式网络数据快速采集方法,基于权利要求1~6任一所述的分布式网络数据快速采集系统,其特征在于,具体步骤如下:步骤1,种子网站设置节点设置所有种子URL、抽取规则、网站编码等信息;步骤2,超链接采集层中的节点定时读取数据源信息并采集数据源特定列表页的URL,格式化后并同对应的结构化抽取规则存入实时队列;步骤3,网页下载与解析层中的节点实时读取实时队列中的网页超...
【专利技术属性】
技术研发人员:张晖,杨春明,李晓伟,李波,赵旭剑,
申请(专利权)人:西南科技大学,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。