一种分布式互联网数据快速采集系统及采集方法技术方案

技术编号:15447607 阅读:105 留言:0更新日期:2017-05-29 21:39
本发明专利技术公开了一种分布式互联网数据快速采集系统,包括种子网站设置节点,超链接采集层,实时队列,网页下载与解析层,网页数据存储层五个层;种子网站设置节点用于设置存储数据源的各项参数及抽取规则;超链接采集层用于对数据源的超链接列表网页进行请求并提取目标网页的超链接;实时队列用于存取超链接采集层提取的URL超链接及其对应的抽取规则及已访问过的URL超链接;网页下载与解析层用于请求并解析实时队列中未访问过的URL超链接并格式化提取特定数据;网页数据存储层用于存储网页下载与解析层格式化抽取的目标数据。本发明专利技术采用分布式分层协作方式进行数据采集,能够应对数据采集量大、数据来源多、实时性要求高的系统应用需求。

Distributed Internet data quick collection system and collecting method

The invention discloses a distributed Internet fast data acquisition system, including seed site settings node, link collection layer, real-time queue, download and analysis layer, web data storage layer five layer; seed setting node for site settings are stored data sources the parameters and extraction rules; hyperlinks for collection layer the data source list of hyperlinks to Web page request and hyperlink extraction of target pages; real-time queue is used to access the hyperlink extraction rules acquisition layer extraction URL hyperlink and its corresponding and has visited URL hyperlink; Web page download and analysis layer for real-time queue requests and parse unvisited hyperlinks and URL format specific data extraction; data storage layer for storing web page download and analysis layer format extraction target data. The invention adopts the distributed layered cooperation method to collect data, and can meet the requirement of system application with large data collection quantity, multiple data sources and high real-time requirement.

【技术实现步骤摘要】
一种分布式互联网数据快速采集系统及采集方法
本专利技术属于互联网大数据的采集
,具体涉及一种分布式互联网数据快速采集系统及采集方法。
技术介绍
互联网的飞速发展将社会带入数据高度发达且公开的信息时代,大数据时代已然来临。数据对于企业经营、政府决策及社会动态分析等具有极其重要的作用,而如何大规模、快速采集数据成为技术焦点,但从现有技术方案来看,数据采集方法有待改进。传统的互联网数据采集主要以网络爬虫为主要工具,以结构化或半结构化文本数据为对象进行数据收集。网络爬虫是按照一定规则自动游走爬取互联网文本网页的程序或者脚本。文本数据大多嵌套于网页程序代码中。数据采集的实时性直接决定数据的有效及时性,数据的快速采集成为重中之重。
技术实现思路
有鉴于此,本专利技术针对数据采集量大、数据来源多和实时性低的问题,提供了一种分布式互联网数据快速采集系统及采集方法。为了解决上述技术问题,本专利技术公开了一种分布式互联网数据快速采集系统,包括种子网站设置节点,超链接采集层,实时队列,网页下载与解析层,网页数据存储层五个层;其中种子网站设置节点用于设置存储数据源的各项参数及抽取规则等,为单一节点;其中超链接采集层用于对数据源的超链接列表网页进行请求并提取目标网页的超链接;其中实时队列用于存取超链接采集层提取的URL超链接、该超链接对应的抽取规则及已访问过的URL超链接;其中网页下载与解析层用于请求并解析实时队列中未访问过的URL超链接并格式化提取特定数据;其中网页数据存储层用于存储网页下载与解析层格式化抽取的目标数据。与现有技术相比,本专利技术可以获得包括以下技术效果:1)本专利技术采集系统采用瀑布模式运行,实时性高,可扩展性强,面对数据来源多、数据采集量大的系统要求具有较强的应对能力。2)本专利技术采用分布式分层协作的采集方式进行数据采集,能够应对数据来源多、数据采集量大、实时性高的系统要求,同时具有较高的可扩展性、可定制性的特点。数据抽取包括结构化精确抽取方案与通用正文抽取(只针对正文部分)两套抽取方案,提取数据有较高的完整性。当然,实施本专利技术的任一产品并不一定需要同时达到以上所述的所有技术效果。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本专利技术的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是本专利技术分布式互联网数据快速采集系统的结构图;图2是本专利技术分布式互联网数据快速采集方法的流程图。具体实施方式以下将配合实施例来详细说明本专利技术的实施方式,藉此对本专利技术如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。本专利技术一种分布式互联网数据快速采集系统,如图1所示,包括种子网站设置节点,超链接采集层,实时队列,网页下载与解析层,网页数据存储层五个层,其中种子网站设置节点用于设置存储数据源的各项参数及抽取规则等,为单一节点;种子网站设置节点使用的是关系型数据库。其中超链接采集层用于对数据源的超链接列表网页进行请求并提取目标网页的超链接;超链接采集层由单个或者若干网络爬虫节点构成,这些网络爬虫彼此物理隔离、逻辑协作完成目标网页的超链接提取工作,根据数据源的规模可横向扩展。超链接采集层是分布式多节点的,可横向扩展的,单个节点的运行是定时的,该层节点将采集的超链接整合对应的抽取规则存入实时队列。其中实时队列用于存取超链接采集层提取的URL超链接、该超链接对应的抽取规则及已访问过的URL超链接;实时队列是爬取操作节点协同合作的核心组件。该层具有很高的实时性,能够实现数据的实时存入、取出,具有持久化存储的能力,同时也对已采集的URL超链接起到过滤作用。实时队列是独立部署的,未访问过的超链接是实时存取的,已访问的超链接是持久存储的。其中网页下载与解析层用于请求并解析实时队列中未访问过的URL超链接并格式化提取特定数据。网页下载与解析层类似超链接采集层由多个网络爬虫节点组成,节点间彼此独立工作,主要负责目标数据的结构化信息提取工作,根据超链接采集层提取的超链接规模可横向扩展。每个节点包括一套基于HTML文档树的信息结构化抽取方法与一套通用正文信息抽取方法,对于网页正文部分的抽取可切换使用。网页下载与解析层是分布式多节点的,可横向扩展的,单个节点的运行是实时的,节点读取实时队列中的超链接后进行过滤、解析、格式化抽取目标数据并存储操作。其中网页数据存储层用于存储网页下载与解析层格式化抽取的目标数据。网页数据存储层采用开源大数据存储数据库实现,为多节点存储,对于存储网页文档数据具有很强的存储能力,存储量大,读取性能优良,可动态扩展节点数量。一种基于分布式网络数据快速采集方法,基于上述分布式网络数据快速采集系统,如图2所示,具体步骤如下:步骤1,种子网站设置节点设置所有种子URL、抽取规则、网站编码等信息;用户通过web系统添加所有需要采集的目标网站,这些目标网站中包含用户感兴趣的多个目标版块如教育、民生等,然后进行如下设置:第一步,设置的网站信息包括当前网站的域名、名称、类型、页面编码、该网站通用目标URL过滤正则表达式以及通用信息抽取规则(包括作者、发布时间、正文等),该网站当前设置的信息适用于该网站下所有采集版块;如表1所示:表1网站设置表第二步,设置网站的版块信息,包括版块的名称、种子URL,若版块的域名、目标URL过滤正则表达式及信息抽取规则与该网站的通用设置不同,则在对应的位置个性化设置该处信息。如网站设置的域名为http://newssc.org/,而版块的域名为http://edu.newssc.org/。若当前版块的某些信息与网站通用设置相同,则不必对该版块进行重复设置。如表2针对表1中的“网站1”设置其下属版块:表2表1中的“网站1”版块设置表步骤2,超链接采集层中的节点定时读取数据源信息并采集数据源特定列表页的URL,格式化后并同对应的结构化抽取规则存入实时队列;超链接采集层中的节点定时读取步骤1设置的网站及版块信息,以版块为基本单位进行格式化处理,对于每一个采集版块该过程详细描述为:第一步,继承当前版块所属网站的所有信息;第二步,若域名、URL过滤正则表达、页面信息抽取规则(包括作者、发布时间、正文等)版块进行了设置,该版块将使用自身个性化设置替代从网站设置中继承来的相应设置信息,如表3所示:表3版块格式化第三步,请求版块种子URL页面,使用当前版块的URL过滤正则表达式提取目标网页的URL集合(每个版块采集得到一个URL集合);第四步,以当前的每个URL集合中的单个元素为目标URL,使用当前版块设置的域名拼接完整的目标URL(因为在页面中目标URL可能以’/abc.html’或者‘./abc.html’方式存在,需拼接为完整的‘http://cul.china.com.cn/abc.html’形式)结合对应第二步中设置好的版块信息形成新的多元组,如:通过版块1的种子URL(即S1)采集得到URL集合:SET_1:(link_1,link_2,link_3………..link_m)则存入队列的多元组为:<link_1,版块1,网站1,GBK,1,规则1,规则2,规则3,(通用)规则4><link_2,版块1,网站1,GBK,1,规则1,本文档来自技高网...
一种分布式互联网数据快速采集系统及采集方法

【技术保护点】
一种分布式互联网数据快速采集系统,其特征在于,包括种子网站设置节点,超链接采集层,实时队列,网页下载与解析层,网页数据存储层五个层;所述种子网站设置节点用于设置存储数据源的各项参数及抽取规则等,为单一节点;所述超链接采集层用于对数据源的超链接列表网页进行请求并提取目标网页的超链接;所述实时队列用于存取超链接采集层提取的URL超链接、该超链接对应的抽取规则及已访问过的URL超链接;所述网页下载与解析层用于请求并解析实时队列中未访问过的URL超链接并格式化提取特定数据;所述网页数据存储层用于存储网页下载与解析层格式化抽取的目标数据。

【技术特征摘要】
1.一种分布式互联网数据快速采集系统,其特征在于,包括种子网站设置节点,超链接采集层,实时队列,网页下载与解析层,网页数据存储层五个层;所述种子网站设置节点用于设置存储数据源的各项参数及抽取规则等,为单一节点;所述超链接采集层用于对数据源的超链接列表网页进行请求并提取目标网页的超链接;所述实时队列用于存取超链接采集层提取的URL超链接、该超链接对应的抽取规则及已访问过的URL超链接;所述网页下载与解析层用于请求并解析实时队列中未访问过的URL超链接并格式化提取特定数据;所述网页数据存储层用于存储网页下载与解析层格式化抽取的目标数据。2.如权利要求1所述的分布式互联网数据快速采集系统,其特征在于,所述种子网站设置节点使用的是关系型数据库。3.如权利要求1所述的分布式互联网数据快速采集系统,其特征在于,所述超链接采集层由单个或者若干网络爬虫节点构成,这些网络爬虫彼此物理隔离、逻辑协作完成目标网页的超链接提取工作,根据数据源的规模可横向扩展;超链接采集层是分布式多节点的,单个节点的运行是定时的,该层节点将采集的超链接整合对应的抽取规则存入实时队列。4.如权利要求1所述的分布式互联网数据快速采集系统,其特征在于,所述实时队列是独立部署的,未访问过的超链接是实时存取的,已访问的超链接是持久存储的。5.如权利要求1所述的分布式互联网数据快速采集系统,其特征在于,所述网页下载与解析层由多个网络爬虫节点组成,节点间彼此独立工作,主要负责目标数据的结构化信息提取工作,根据超链接采集层提取的超链接规模可横向扩展;每个节点包括一套基于HTML文档树的信息结构化抽取方法与一套通用正文信息抽取方法,对于网页正文部分的抽取可切换使用;网页下载与解析层是分布式多节点的,可横向扩展的,单个节点的运行是实时的,节点读取实时队列中的超链接后进行过滤、解析、格式化抽取目标数据并存储操作。6.如权利要求1所述的分布式互联网数据快速采集系统,其特征在于,所述网页数据存储层采用的是开源大数据存储数据库,多节点可扩展的。7.一种基于分布式网络数据快速采集方法,基于权利要求1~6任一所述的分布式网络数据快速采集系统,其特征在于,具体步骤如下:步骤1,种子网站设置节点设置所有种子URL、抽取规则、网站编码等信息;步骤2,超链接采集层中的节点定时读取数据源信息并采集数据源特定列表页的URL,格式化后并同对应的结构化抽取规则存入实时队列;步骤3,网页下载与解析层中的节点实时读取实时队列中的网页超...

【专利技术属性】
技术研发人员:张晖杨春明李晓伟李波赵旭剑
申请(专利权)人:西南科技大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1