大规模网络数据的多信息来源采集方法和系统技术方案

技术编号:21273598 阅读:42 留言:0更新日期:2019-06-06 08:01
本发明专利技术涉及一种大规模网络数据的多信息来源采集方法,包括:获取多种传媒上的网络数据所在的信源;生成采集任务,启动并初始化采集节点上的采集器;将该采集任务的参数配置信息加载至该采集器;以该采集器获取该信源的目标信息内容链接,并建立链接队列;以该采集器依次采集该链接队列中对应的目标信息内容为结构化数据;将该结构化数据进行持久化操作,并进行输出。本发明专利技术提出的方法可以感知信息来源的变化,能够定点定主题的获取信息来源的网络数据,并且具有泛化能力,采集能力与传媒种类无关。

【技术实现步骤摘要】
大规模网络数据的多信息来源采集方法和系统
本专利技术属于数据感知与获取领域,特别涉及一种面向网络空间的大规模数据感知中的数据采集技术中的核心采集器架构。
技术介绍
随着互联网的逐步发展,网络已经成为了最大的数据来源。人们无论是科研应用还是学术研究,都需要大量的数据作为支撑,帮助后续的需求。长久以来人们都在关注于互联网数据采集任务。从最初的开源采集技术框架如Heritrix到支持分布式的集成了索引构建功能的nutch再到后来的更加开放的,可定制的轻量框架scrapy。这些采集技术都关注于如何高效的获取互联网数据,但是这些获取过程中都是开放式的采集,或者基于域名的垂直采集。这些采集技术需要给定种子页面链接,首先获取种子页面然后从中抽取链接,进行采集,对于新采到的页面,也要抽取其中的链接,然后将链接加入到待采集队列中。直到符合要求的链接被采集完或者链接到达了制定的最大深度。除了上述的开放式的采集外,还有一种常见的采集方式是定制化的采集,即针对某个或某种特定网站进行定制化开发,分析网站链接情况,然后根据其页面以及网络特征构建数据抽取方法。现有的开放式的采集方法可以保证数据的完整性,但是不可避免的是,采集过程中,所有在当前采集页面中出现的链接都会被采集到。首先,这些连接中往往包含着大量的广告页面。其次,虽然网络数据的链接十分重要,但是,人们往往更关注于数据的内容,而这种开放式的采集,往往会采集到大的数据列表页面或者信息聚合页面,这种页面的采集,对于应用而言是一种冗余。这些采下来的冗余数据,广告数据是对采集资源的一种浪费,同时也增加了后续处理的难度。并且在应用中,人们对于数据的需求时明确的,或有主题要求的,即人们会根据数据应用时的情况来确定需要使用的数据的主题特征,然而开放式的采集即使对于采集域进行限制,对于链接进行规则化的要求依然是不能够保证对于无用主题的采集。而这些数据,即使是干净的数据,对于后续应用而言,依然是冗余的。此外,开放式的采集,由于其采集过程是动态扩散式的,这也导致了对于数据感知的难度。即当对数据存在长期需求时,开放式的采集往往需要遍历所有采集需求内的节点才能确保对于数据增加或数据更新感知的完整性与准确性。而定制化的采集方式可以大量的避免冗余数据,和广告数据。但是这种定制也意味着泛化能力的不足。互联网中的数据往往可以按照其发布和交互形式分为新闻,论坛,博客等不同的信息来源,每个信息来源都有其特定的格式,如新闻数据源,其数据包含了新闻正文,新闻作者,新闻题目,新闻评论等数据,每个新闻页都有着其所属分类。同样的论坛也划分为板块,论坛的数据包含了论坛主贴,论坛回帖等内容。针对每个信息来源,甚至每个网站的定制性开发采集器必然导致了采集器不能够被复用。这是对于开发的一种浪费。
技术实现思路
针对上述问题,本专利技术提出一种大规模网络数据的多信息来源采集方法,包括:获取多种传媒上的网络数据所在的信源;生成采集任务,启动并初始化采集节点上的采集器;将该采集任务的参数配置信息加载至该采集器;以该采集器获取该信源的目标信息内容链接,并建立链接队列;以该采集器依次采集该链接队列中对应的目标信息内容为结构化数据;将该结构化数据进行持久化操作,并进行输出。本专利技术所述的多信息来源采集方法,其中该采集器采用Board-Article采集结构,该目标信息内容链接展示在Board页中,该目标信息内容展示在Article页中。本专利技术所述的多信息来源采集方法,其中该参数配置信息包括:该目标信息内容的信源、该目标信息内容链接所在Board页的URL、该目标信息内容抽取的范围要求、对该信源的采集和抽取深度、该结构化数据的持久化操作要求、该结构化数据的去重操作要求和该目标信息内容所在Article页的期望数量。本专利技术所述的多信息来源采集方法,其中该传媒包括论坛、微博、微信、新闻APP、网站;该采集器包括论坛采集器、微博采集器、微信采集器、新闻采集器、网站采集器。本专利技术还提出一种大规模网络数据的多信息来源采集系统,包括:信源配置模块,用于获取多种传媒上的网络数据所在的信源;调度模块,用于生成采集任务,启动并初始化采集节点上的采集器;任务加载模块,用于将该采集任务的参数配置信息加载至该采集器;第一采集模块,用于以该采集器获取该信源的目标信息内容链接,并建立链接队列;第二采集模块,用于以该采集器依次采集该链接队列中对应的目标信息内容为结构化数据;数据输出模块,用于将该结构化数据进行持久化操作,并进行输出。本专利技术所述的多信息来源采集系统,其中该采集器采用Board-Article采集结构,其中该目标信息内容链接展示在Board页中,该目标信息内容展示在Article页中。本专利技术所述的多信息来源采集系统,其中该参数配置信息包括:该目标信息内容的信源、该目标信息内容链接所在Board页的URL、该目标信息内容抽取的范围要求、对该信源的采集和抽取深度、该结构化数据的持久化操作要求、该结构化数据的去重操作要求和该目标信息内容所在Article页的期望数量。本专利技术所述的多信息来源采集系统,其中该传媒包括论坛、微博、微信、新闻APP、网站;该采集器包括论坛采集器、微博采集器、微信采集器、新闻采集器、网站采集器。本专利技术还提出一种计算机可读存储介质,存储有计算机可执行指令,该计算机可执行指令用于执行上述的大规模网络数据的多信息来源采集方法。本专利技术还提出一种数据处理设备,包括上述的计算机可读介质,该数据处理装置调取并执行该计算机可读介质中的计算机可执行指令,进行大规模网络数据的多信息来源采集。附图说明图1是本专利技术的一种大规模网络数据的感知与获取系统的系统架构图。图2是本专利技术的一种大规模网络数据的感知与获取方法的数据流示意图。图3是本专利技术的数据感知与获取方法的信源管理与配置步骤数据流示意图。图4是本专利技术的数据感知与获取方法的调度步骤数据流示意图。图5是本专利技术的数据感知与获取方法的采集步骤数据流示意图。图6是本专利技术的数据感知与获取方法的监控与统计步骤数据流示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图,对本专利技术提出的大规模网络数据的感知与获取方法和系统进一步详细说明。应当理解,此处所描述的具体实施方法仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术的说明书中包括以下术语:“信息来源”,指互联网信息的来源;“传媒-信簇-信源”架构,“传媒”指网络空间中的不同信息传播媒体如新闻、论坛、博客、新闻APP、微博、微信、社交类网站等媒体;“信簇”指一种传媒的一个具体网络数据的集合,例如新闻类网站中的新浪新闻网站;“信源”,指网络空间中信息聚合的最小单位,例如新浪新闻网站中的国内频道;“Board-Article”架构,Board页,指网络空间中专门用于展示具体信息内容链接的页面,Article页,指用于展示具体信息内容的页面;“WebMap”,是用于描述网络空间中信息来源之间的复杂关系的映射,例如链接互指关系、主题相关关系、好友关系等。图1是本专利技术的一种大规模网络数据的感知与获取系统的系统架构图。如图1所示,本专利技术的大规模网络数据的感知与获取系统,按照功能逻辑划分为四个子平台,信源管理与配置子平台、调度子平台、采集子平台和监控与统计子平台。其中本文档来自技高网
...

【技术保护点】
1.一种大规模网络数据的多信息来源采集方法,其特征在于,包括:获取多种传媒上的网络数据所在的信源;生成采集任务,启动并初始化采集节点上的采集器;将该采集任务的参数配置信息加载至该采集器;以该采集器获取该信源的目标信息内容链接,并建立链接队列;以该采集器依次采集该链接队列中对应的目标信息内容为结构化数据;将该结构化数据进行持久化操作,并进行输出。

【技术特征摘要】
1.一种大规模网络数据的多信息来源采集方法,其特征在于,包括:获取多种传媒上的网络数据所在的信源;生成采集任务,启动并初始化采集节点上的采集器;将该采集任务的参数配置信息加载至该采集器;以该采集器获取该信源的目标信息内容链接,并建立链接队列;以该采集器依次采集该链接队列中对应的目标信息内容为结构化数据;将该结构化数据进行持久化操作,并进行输出。2.如权利要求1所述的多信息来源采集方法,其特征在于,该采集器采用Board-Article采集结构,其中该目标信息内容链接展示在Board页中,该目标信息内容展示在Article页中。3.如权利要求2所述的多信息来源采集方法,其特征在于,该参数配置信息包括:该目标信息内容的信源、该目标信息内容链接所在Board页的URL、该目标信息内容抽取的范围要求、对该信源的采集和抽取深度、该结构化数据的持久化操作要求、该结构化数据的去重操作要求和该目标信息内容所在Article页的期望数量。4.如权利要求1所述的多信息来源采集方法,其特征在于,该传媒包括论坛、微博、微信、新闻APP、网站;该采集器包括论坛采集器、微博采集器、微信采集器、新闻采集器、网站采集器。5.一种大规模网络数据的多信息来源采集系统,其特征在于,包括:信源配置模块,用于获取多种传媒上的网络数据所在的信源;调度模块,用于生成采集任务,启动并初始化采集节点上的采集器;任务加载模块,用于将该采集...

【专利技术属性】
技术研发人员:史存会程学旗孟剑俞晓明郭岩贺广福周秀花余智华刘悦
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1