本发明专利技术公开了一种分布式的实时新闻信息采集系统,系统构架为中央服务器、若干子采集结点和数据库服务器,每个子采集结点负责采集新闻页面,并都通过TCP/IP协议与中央服务器进行通信,将采集的新闻页面转发给中央服务器,由中央服务器把所有下载的新闻页面存储入数据库服务器中。该系统能克服现有技术的缺陷,主要针对新闻数据量大,更新速度快以及具有很高重复性的特点,进行高效、稳定的采集,而且成本低、易于部署。
【技术实现步骤摘要】
本专利技术涉及信息采集
,具体涉及一种分布式的可针对互联网上新闻信息 进行实时发现与采集的系统。
技术介绍
信息采集领域经常从两个方面来研究采集器的设计一是信息采集器的系统构 架与拓扑结构;二是采集器下载网络资源的方式及任务的分配策略。目前信息采集器的系 统构架主要分集中式和分布式两种,但对于采集系统构架的专门研究却不多。集中式的采 集器主要应用在智能代理等小系统上,其对性能的要求不高。而分布式的采集器在大型搜 索引擎上应用的最多,性能要求较高。分布式主要目的是进行负载的平衡,即将多个采集器 同时运行,按IP地址、域名、地理位置等对互联网资源进行划分并下载网页。从本质上看, 分布式的采集器多个集中式采集器的划区域运行,并对多个集中式采集器进行协作管理。 另外就是采集器以何种方式和何种策略进行资源搜索。对此,目前国内外学者从理论和实 践应用上做了许多研究工作。采集器搜索网络资源的方式上主要有两种一是用元搜索引 擎从基本搜索引擎中获得资源清单,然后根据资源清单采集资源二是设计相对独立的搜 索器,根据搜索需求设计采集策略并进行资源分析采集。前者的搜索器结构较简单,主要包 括向基本搜索引擎提交查询指令并接收资源清单的连接模块、以及下载资源的下载模块。 后者则需要有采集策略控制模块、主题搜索智能代理模块等。在搜索策略上采用元搜索方式的搜索器直接从基本搜索引擎中获得资源清单,而 后只做简单的筛选工作(如去除广告链接、重复链接和死链接等)便进行资源的采集。其 优点是不需要对资源做内容分析和链接结构分析,同时采集的速度相对较快,使资源数据 库能较快的达到一定规模;缺点是采集的规模、质量、更新周期决定于所依靠的基本搜索 引擎,同时不能对专业资源进行有目的的深度采集。独立设计的搜索器的搜索策略则相对 复杂,主要是基于内容相似度或基于Web结构评价的方式获得未采集的链接估算价值,并 根据价值的大小选取优先采集的队列。集中式采集的工作原理是给定的一组初始种子链接(URL)集合,通过采集器主 体程序多线程抓取对应的页面后,对URL对应的html页面进行分析,页面内容提取模块将 页面中有用的信息获保存到本地数据库中,链接分析模块将html页面中的的链接提取出 来,并经过链接过滤器后,添加到待下载链接库中。下载程序持续下载待下载链接库的链接 (URL),直到满足一定的条件时,采集过程结束。采集器在抓取网页数据时,可以将Web上的 网页集合看成是一个有向图,从给定的起始URL开始,沿着网页中的链接,按照一定的策略 进行。目前常用的采集策略有以下几种(1)深度优先算法该算法是指网络采集器会从选 定的一个超链接开始,按照一条线路,一个一个链接访问下去,直到达到这条线路的叶子节 点,即不包含任何超链接的HTML文件,处理完这条线路之后再转入下一个起始页,继续访 问新的起始页面所包含的链接中的一条,直到到达叶子节点。这个方法有个优点是采集器 在设计的时候比较容易。(2)广度优先算法广度优先算法是指采集器优先抓取起始网页中包含链接的所有网页,然后再选择其中的一个链接网页,继续抓取在这个网页中链接的所 有网页。这种搜索方法是实现通用网络爬虫的最佳方法,因为它的特点是易于实现,并且能 够避免陷进一个无穷尽的深层分支中去,可以让采集器并行工作,从而提高运行效率。(3) 启发式搜索算法源于人工智能,即先通过在线获得的领域知识评价待访问链接的价值,借 以推断信息资源的分布情况,然后按一定的原则选择价值最大的链接进行下一步的搜索, 找到到达目标节点的最佳路径,删除不好节点,保留那些好的节点,该算法主要用于主题信 息采集器的设计中。分布式信息采集器的工作方式随着互联网上Web信息的爆炸性增长,网络信息 采集系统的速度越来越不能满足实际应用的需要。即使大型的信息采集系统对Web的覆盖 率也只有30 — 40%,刷新一遍已经采集的页面常常需要数周到几个月的时间。解决这一问 题的直接办法是升级信息采集器的硬件,采用处理能力更强的计算机系统,然而这种方法 的扩展性有限,性价比也不高。因而人们找了一个更好的选择,用分布式方式来进行网页信 息采集。分布式网络采集系统要比集中式网络采集系统有更高的性能,是今后大规模网络 采集器发展的一个重要方向。分布式网络信息采集器是由多个集中式网络采集器构成的。分布式系统中的每个 节点都可以看作一个集中式网络采集器。分布式采集器与集中式采集器的工作原理基本相 同,但前者需要各个节点协作完成网页的抓取,从而使得分布式采集的效率远远高于集中 式采集。分布式采集的系统结构有多种,工作方式也各不相同。对于典型的分布式采集系 统,它的每个节点不仅从web页面获得URL,同时也从其它节点接收URL。然后节点对URL 对应的网页进行解析,并将不属于自己爬行范围的URL转发给其它节点。目前,分布式网络 采集系统已经有了不少应用,例如现在著名的Google和Alta Vista搜索引擎所采用的网 络采集系统。但由于商业机密等因素的影响,较详细的介绍分布式网络采集系统的文章并 不多,并且基于Web信息采集的分布式理论也还不完善,仍然有待研究。目前,较著名的分 布式米集系统有 Google Crawler、Mercator、Internet Archive Crawler、UbiCrawler 等, 国内的有北大天网的W^ebGather系统。Google的分布式采集系统由四台机器组成,其中一台机器是中央主机,其它三台 机器只负责爬行网页,并且只与中央主机通信。中央主机从一个文件里读取URL,并把它们 分发给其它机器的Crawler进程。爬虫采用异步1/0同时从300个网站上获取数据。所有 的Crawler将下载来的页面压缩并存放在磁盘上。然后Indexer进程从这些HTML页面中 将URL提取出来,并存放在另一个磁盘文件中。URLResolver进程读取这个存放链接的文 件,将其中的相对链接转化为绝对链接,然后存入一个文件供中央主机读取。不足之处在于 如果中央主机失效,则整个系统都会停止工作,而且中央主机的URL分发模块常常成为整 个系统的瓶颈。Mercator是Alta Vista搜索引擎的网络采集系统,它完全由JAVA写成。Mercator 的可扩展性非常好,可以通过增减或替换模块来实现不同的功能。Mercator采用的数据结 构可以使无论爬行的规模有多大,只占用有限的内存,数据结构的大部分都在硬盘中存放。 并且Mercator只存放URL的checksum值,这样可以节省大量的内存和磁盘空间。Mercator 为最近访问URL建立了缓存,该缓存的命中率达到85%。在提高系统性能方面,Mercator 系统做了非常多的工作,比如重写JAVA核心库,建立缓存,采用高速硬盘系统。4Internet Archive采集系统采用多个机器共同搜集网页。每个Crawler进程负 责搜集64个Web站点的网页。Crawler从起始URL集合中读取,采用异步I/O并行爬取网 页。网页下载后,提取出超链接。如果超链接属于本Crawler负责搜集的Web站点,则加入 未访问URL集合,否则存储到交叉URL文件中。批处理模块定期分配这些交叉URL文件本文档来自技高网...
【技术保护点】
一种分布式的实时新闻信息采集系统,系统构架为中央服务器、若干子采集结点和数据库服务器,每个子采集结点负责采集新闻页面,并都通过TCP/IP协议与中央服务器进行通信,将采集的新闻页面转发给中央服务器,由中央服务器把所有下载的新闻页面存储入数据库服务器中,其特征在于,包括以下模块:URL处理模块:主要功能负责给待采集的URL排序,并向协议处理模块分配URL;协议处理模块:主要功能是通过各种Web协议来完成新闻数据的采集;重复内容检测模块:主要功能是根据系统能够的需要,从简单的段落匹配到复杂的文本相似度计算来减小重复采集;URL提取模块:主要功能是对于采集到并经过重复内容检测的新闻页面进行页面类型判别,并进行必要的转换;Meta信息获取模块:主要功能是将所获取的新闻页面中提取出来URL的好坏给出一个度量,将度量结果传输到URL处理器中用于排序;语义信息解析模块:主要功能是对文本内容建立简单的索引;数据库:主要功能是将经过重复内容检测后的页面数据、提取出来的Meta信息、主题和摘要都要存入数据库,以备其他应用使用。
【技术特征摘要】
【专利技术属性】
技术研发人员:章毅,彭德中,张蕾,吕建成,张海仙,徐小伟,
申请(专利权)人:四川大学,
类型:发明
国别省市:90[]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。