一种分布式的实时新闻信息采集系统技术方案

技术编号：5458992 阅读：345 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种分布式的实时新闻信息采集系统，系统构架为中央服务器、若干子采集结点和数据库服务器，每个子采集结点负责采集新闻页面，并都通过ＴＣＰ／ＩＰ协议与中央服务器进行通信，将采集的新闻页面转发给中央服务器，由中央服务器把所有下载的新闻页面存储入数据库服务器中。该系统能克服现有技术的缺陷，主要针对新闻数据量大，更新速度快以及具有很高重复性的特点，进行高效、稳定的采集，而且成本低、易于部署。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信息采集
，具体涉及一种分布式的可针对互联网上新闻信息进行实时发现与采集的系统。
技术介绍
信息采集领域经常从两个方面来研究采集器的设计一是信息采集器的系统构架与拓扑结构；二是采集器下载网络资源的方式及任务的分配策略。目前信息采集器的系统构架主要分集中式和分布式两种，但对于采集系统构架的专门研究却不多。集中式的采集器主要应用在智能代理等小系统上，其对性能的要求不高。而分布式的采集器在大型搜索引擎上应用的最多，性能要求较高。分布式主要目的是进行负载的平衡，即将多个采集器同时运行，按IP地址、域名、地理位置等对互联网资源进行划分并下载网页。从本质上看，分布式的采集器多个集中式采集器的划区域运行，并对多个集中式采集器进行协作管理。另外就是采集器以何种方式和何种策略进行资源搜索。对此，目前国内外学者从理论和实践应用上做了许多研究工作。采集器搜索网络资源的方式上主要有两种一是用元搜索引擎从基本搜索引擎中获得资源清单，然后根据资源清单采集资源二是设计相对独立的搜索器，根据搜索需求设计采集策略并进行资源分析采集。前者的搜索器结构较简单，主要包括向基本搜索引擎提交查询指令并接收资源清单的连接模块、以及下载资源的下载模块。后者则需要有采集策略控制模块、主题搜索智能代理模块等。在搜索策略上采用元搜索方式的搜索器直接从基本搜索引擎中获得资源清单，而后只做简单的筛选工作(如去除广告链接、重复链接和死链接等)便进行资源的采集。其优点是不需要对资源做内容分析和链接结构分析，同时采集的速度相对较快，使资源数据库能较快的达到一定规模；...

【技术保护点】
一种分布式的实时新闻信息采集系统，系统构架为中央服务器、若干子采集结点和数据库服务器，每个子采集结点负责采集新闻页面，并都通过ＴＣＰ／ＩＰ协议与中央服务器进行通信，将采集的新闻页面转发给中央服务器，由中央服务器把所有下载的新闻页面存储入数据库服务器中，其特征在于，包括以下模块：ＵＲＬ处理模块：主要功能负责给待采集的ＵＲＬ排序，并向协议处理模块分配ＵＲＬ；协议处理模块：主要功能是通过各种Ｗｅｂ协议来完成新闻数据的采集；重复内容检测模块：主要功能是根据系统能够的需要，从简单的段落匹配到复杂的文本相似度计算来减小重复采集；ＵＲＬ提取模块：主要功能是对于采集到并经过重复内容检测的新闻页面进行页面类型判别，并进行必要的转换；Ｍｅｔａ信息获取模块：主要功能是将所获取的新闻页面中提取出来ＵＲＬ的好坏给出一个度量，将度量结果传输到ＵＲＬ处理器中用于排序；语义信息解析模块：主要功能是对文本内容建立简单的索引；数据库：主要功能是将经过重复内容检测后的页面数据、提取出来的Ｍｅｔａ信息、主题和摘要都要存入数据库，以备其他应用使用。

【技术特征摘要】

【专利技术属性】
技术研发人员：章毅，彭德中，张蕾，吕建成，张海仙，徐小伟，
申请(专利权)人：四川大学，
类型：发明
国别省市：90[]

全部详细技术资料下载我是这个专利的主人