一种基于html网页的数据抽取系统技术方案

技术编号：9171034 阅读：380 留言：0更新日期：2013-09-19 19:37

本发明专利技术属于计算机网络技术领域，具体为一种基于html网页的数据抽取系统。其由xml解析器，html引擎以及数据管理器三个模块组成。本发明专利技术的优点在于：只需要在xml文件中描述html网页中哪些节点信息需要抓取，以及xml中其他一些配置信息，就可以快速的抓取所需要的数据，其方法简单、快捷。

全部详细技术资料下载

【技术实现步骤摘要】

【技术保护点】
一种基于html网页的数据抽取系统，其特征在于：其由xml解析器，html引擎以及数据管理器三个模块组成；其中：所述xml解析器模块负责解析sysconfig.xml文件，得到系统初始化参数、页面的url地址和目标节点的描述信息；所述html引擎模块首先验证sysconfig.xml文件配置信息的有效性，如果有效则继续执行，否则提示用户检查xml文件配置信息；xml文件配置通过验证之后，根据配置信息中的页面链接地址，获取该页面的html文档，然后再调用html解析器来解析html文档，根据sysconfig.xml中配置的目标节点选择器描述信息，获得html中目标元素，从而获得该元素的数据；所述数据管理模块主要是负责数据的持久化工作，根据用户在sysconfig.xml中配置的数据保存方式，选择相应的数据管理器来完成数据的持久化工作；所述系统进行数据抽取的工作流程如下：首先，html引擎模块根据xml解析器模块获得的html页面url地址，通过http?get请求获取目标网页文档；接着xml解析器模块根据xml文件中的配置目标节点选择器，描述具有相同html页面结构的目标节点；再经过我...

【技术特征摘要】

【专利技术属性】
技术研发人员：王新，陈功锁，权恒星，
申请(专利权)人：复旦大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人