一种基于http协议的网页信息提取方法及装置制造方法及图纸

技术编号：10433984 阅读：180 留言：0更新日期：2014-09-17 11:42

本发明专利技术涉及一种基于http协议的网页信息提取方法及装置，所述方法包括：模板生成步骤：根据要提取信息的目标页面，定制相应的页面解析模板，并在页面解析模板中预定义目标字段和校验规则；网页地址解析步骤：解析目标页面的网页地址，获取目标页面的HTML源文件；信息提取步骤：读取并解析目标页面的HTML源文件，在目标页面的HTML源文件中提取与页面解析模板预定义的目标字段相匹配的页面信息；信息校验步骤：根据预定义的校验规则，校验提取出的页面信息是否符合要求；信息保存步骤：保存经信息校验后的页面信息。本发明专利技术通过开放的http协议，对网络中的页面信息进行有效数据过滤采集、归集，并对不同的目标页面进行模板定制，实现特定信息的提取。

全部详细技术资料下载

【技术实现步骤摘要】
—种基于http协议的网页信息提取方法及装置
本专利技术涉及网络技术中的信息爬取及解析领域，特别是涉及一种基于http协议的网页信息提取方法及装置。
技术介绍
Web2.0时代是信息大爆炸的时代，海量的数据信息充斥在工作和生活的方方面面，因此基于数据的分析和潜在价值的挖掘需求也日益迫切起来。然而，在实际中，因数据拥有方对数据的管控非常严格，很多有价值的数据信息是不能够很方便的被采集和提取出的。在这样的背景下，数据重要性凸显，数据可获得性却不高，甚至于受到限制。因此，如何基于数据的互联网特性，对所关心的目标数据进行采集、提取和加以利用已成为一个急待解决的问题。
技术实现思路
本专利技术所要解决的技术问题是提供一种基于http协议的信息提取方法及装置，用于解决现有技术中目标信息不易获取的技术问题。本专利技术解决上述技术问题的技术方案如下:一种基于http协议的网页信息提取方法，包括: 模板生成步骤:根据要提取信息的目标页面，定制相应的页面解析模板，并在页面解析模板中预定义目标字段和校验规则；网页地址解析步骤:解析目标页面的网页地址，获取目标页面的HTML源文件；信息提取步骤:读取并解析目标页面的HTML源文件，在目标页面的HTML源文件中提取与页面解析模板预定义的目标字段相匹配的页面信息；信息校验步骤:根据预定义的校验规则，校验提取出的页面信息是否符合要求；信息保存步骤:保存经信息校验后的页面信息。在上述技术方案的基础上，本专利技术还可以做如下改进。进一步，所述信息提取步骤中以块方式提取出匹配到的页...

【技术保护点】
一种基于http协议的网页信息提取方法，其特征在于，包括：模板生成步骤：根据要提取信息的目标页面，定制相应的页面解析模板，并在页面解析模板中预定义目标字段和校验规则；网页地址解析步骤：解析目标页面的网页地址，获取目标页面的HTML源文件；信息提取步骤：读取并解析目标页面的HTML源文件，在目标页面的HTML源文件中提取与页面解析模板预定义的目标字段相匹配的页面信息；信息校验步骤：根据预定义的校验规则，校验提取出的页面信息是否符合要求；信息保存步骤：保存经信息校验后的页面信息。

【技术特征摘要】
1.一种基于http协议的网页信息提取方法，其特征在于，包括: 模板生成步骤:根据要提取信息的目标页面，定制相应的页面解析模板，并在页面解析模板中预定义目标字段和校验规则；网页地址解析步骤:解析目标页面的网页地址，获取目标页面的HTML源文件；信息提取步骤:读取并解析目标页面的HTML源文件，在目标页面的HTML源文件中提取与页面解析模板预定义的目标字段相匹配的页面信息；信息校验步骤:根据预定义的校验规则，校验提取出的页面信息是否符合要求；信息保存步骤:保存经信息校验后的页面信息。2.根据权利要求1所述的网页信息提取方法，其特征在于，所述信息提取步骤中以块方式提取出匹配到的页面信息。3.根据权利要求1所述的网页信息提取方法，其特征在于，定制的页面解析模板为XML文件，且该XML文件中包括预定义的节点信息、目标字段信息和校验规则信息。4.根据权利要求1所述的网页信息提取方法，其特征在于，预定义的校验规则为正则表达式。5.根据权利要求1所述的网页信息提取方法，其特征在于，采用SAX技术读取并解析目标页面...

【专利技术属性】
技术研发人员：马春新，董磊，
申请(专利权)人：北京思特奇信息技术股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人