一种基于Nutch的Web信息提取方法和系统技术方案

技术编号：11300526 阅读：149 留言：0更新日期：2015-04-15 18:00

本发明专利技术公开了一种基于Nutch的Web信息提取系统，包括信息提取模块、存储模块、索引模块和检索模块；所述信息提取模块通过Nutch框架从互联网中抓取网页数据，解析数据；所述存储模块用于存储过滤掉网页数据的网页提取文件;所述索引模块用于将Nutch采集的网页信息传递给Solr建立索引；所述检索模块使用Solr响应用户查询请求并把查询结果以XML页面形式显示给用户。提高了信息提取的响应和运行速度、稳定性及可扩展性，减少程序占用过多的存储空间，为用户能够及时地获得有效信息提供保证。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种基于 Nutch 的 Web 信息提取系统，包括信息提取模块、存储模块、索引模块和检索模块；所述信息提取模块通过 Nutch 框架从互联网中抓取网页数据，解析数据；所述存储模块用于存储过滤掉网页数据的网页提取文件 ; 所述索引模块用于将 Nutch 采集的网页信息传递给 Solr 建立索引；所述检索模块使用 Solr 响应用户查询请求并把查询结果以 XML 页面形式显示给用户。提高了信息提取的响应和运行速度、稳定性及可扩展性，减少程序占用过多的存储空间，为用户能够及时地获得有效信息提供保证。【专利说明】_种基于Nutch的Web信息提取方法和系统
本专利技术涉及计算机Web信息检索领域，尤其涉及一种基于Nutch的Web信息提取方法和系统。
技术介绍
随着网络信息技术的迅猛发展，计算机软件程序提供的服务功能日益完善，使得各个计算机软件附带的信息数据急剧膨胀。网页已经成为互联网上最重要的信息资源。然而网页上的信息包含了大量与网页主题信息无关的内容，使得页面的主要信息经常被隐藏在无关的内容和结构中，限制了 Web信息的可利用性，并且Web上的大数据正呈指数级形式飞速增长，使得Web成为全球最大的数据集合，因此基于大规模Web的信息提取一直是国内外学者研宄的热点，也是必须要解决的一大难题。然而传统的信息提取方式往往主要针对单一节点或在提取算法的改进方面，数据库存取方式往往采用传统的关系型数据库进行处理，这对提高Web信息提取的效率作用较小，不能满足当前大规模海量Web数据提取...

【技术保护点】
一种基于Nutch的Web信息提取系统，其特征在于，包括信息提取模块、存储模块、索引模块和检索模块；所述信息提取模块通过Nutch框架从互联网中抓取网页数据，解析数据；所述存储模块，用于存储网页搜寻条件和过滤掉网页数据的网页提取文件；所述索引模块用于将Nutch采集的网页信息传递给Solr建立索引；所述检索模块用于使用Solr响应用户查询请求，并把查询结果以XML页面显示于用户界面。

【技术特征摘要】

【专利技术属性】
技术研发人员：施佺，徐露，丁卫泽，程显毅，丁卫平，李冬冬，孙鸿艳，
申请(专利权)人：南通大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人