提取网页正文内容的方法和系统技术方案

技术编号:8594040 阅读:204 留言:0更新日期:2013-04-18 07:14
本发明专利技术提供一种提取网页正文内容的方法和系统,其方法包括步骤:获取html源文件,并将该html源文件转化为字符流;剔除所述字符流中的无效标签;将剩余的标签转化为标签树,并将该标签树转换成标签队列;对所述队列标签中的各标签进行处理获得有效标签集;将所述有效标签集转化成文本,返回为正文。本发明专利技术具有很高的通用性,覆盖面广,即使网页结果复杂,含有多种干扰信息,也能有效的提取网页的正文部分,针对性强,同时定制性开发少,可维护性强。

【技术实现步骤摘要】

本专利技术涉及互联网信息处理领域,特别是涉及一种提取网页正文内容的方法和系统
技术介绍
随着互联网的迅速发展,互联网上的信息量以几何级数倍增。人们需要在海量的信息库中查找自己需要的信息,并且可能需要对获得的信息进行进一步的加工和分析。但是很多原始内容为了方便用户浏览而加入的导航链接、出于商业利益而加入的广告链接、版权信息以及相关主题阅读推荐链接等。这些信息掺杂在网页中,影响了用户对主题内容的浏览。如何从包含大量噪音内容的网页中将正文信息准确、完整地提取出来成为了研究课题。目前常用的方案有如下两种第一种方式是米用RSS (简易信息聚合,也叫聚合内容,是一种描述和同步网站内容的格式)种子文件作为信息源。由于RSS种子文件通常是按照标准的RSS规范编写的,通过简单的XML解析技术即可分离出需要的标题、发布时间、正文内容等信息,例如,RSS阅读器都米用这一方式。第二种方式是直接采用某些特定的网站的WEB页面作为信息源,根据WEB页面的编码特点开发专有的解析器来获取需要的信息。目前使用的大部分新闻阅读客户端都采用这一方式。然而,对于第一种方式,由于很多网站并没有提供RSS种子,且很多网站即使提供了 RSS种子,但为了不影响其网站的流量,种子文件中通常只包含导读内容。这就导致很多信息被排除在可选择范围之外,也可能导致用户获得的信息不完整。对于第二种方式,这会带来大量的定制性开发,同时较为硬性的排版识别要求会因为目标网站排版的不断变化而带来许多维护性开发。而这些定制性和维护性的开发带来工作量的攀升导致它只能覆盖有限的主流网站,同样会导致许多信息被排除在可选范围之外。因此,目前对于网页主要内容进行提取需要解决的问题是覆盖面窄、可维护性差。
技术实现思路
本专利技术的目的在于提供一种提取网页正文内容的方法和系统,其覆盖面广、可维护性强。本专利技术的目的通过如下技术方案实现一种提取网页正文内容的方法,包括如下步骤获取html源文件,并将该html源文件转化为字符流;剔除所述字符流中的无效标签;将剩余的标签转化为标签树,并将该标签树转换成标签队列;对所述队列标签中的各标签进行标签处理直到队列为空,获得有效标签集;将有效标签集转化成文本,返回为正文。一种提取网页正文内容的系统,包括获取模块,用于获取html源文件,并将该html源文件转化为字符流;过滤模块,用于剔除所述字符流中的无效标签;标签树生成模块,用于将剩余的标签转化为标签树,并将该标签树转换成标签队列;遍历标签队列模块,用于对所述队列标签中的各标签进行标签处理直到队列为空,获得有效标签集;正文确定模块,用于将有效标签集转化成文本,返回为正文。依据上述本专利技术的方案,其是在获取html源文件,并将该html源文件转化为字符流后,剔除该字符流中的无效标签,再将剩余的标签转化为标签树,并将该标签树转换成标签队列,对所述队列标签中的各标签进行标签处理获得有效标签集,将有效标签集转化成文本,返回为正文,由于在整个处理过程中,仅仅是从html标签层面处理html源文件,而未借助其他层面的信息,具有很高的通用性,覆盖面广,即使网页结果复杂,含有多种干扰信息,也能有效的提取网页的正文部分,针对性强,同时定制性开发少,可维护性强。附图说明图1为本专利技术提取网页正文内容的方法实施例的流程示意图;图2为本专利技术提取网页正文内容的系统实施例的结构示意图;图3为应用本专利技术提取网页正文内容前的原始网页;图4为应用本专利技术提取网页正文内容的结果示意图。具体实施例方式下面结合实施例及附图对本专利技术作进一步阐述,但本专利技术的实现方式不限于此。参见图1所示,为本专利技术的提取网页正文内容的方法实施例的流程示意图。如图1所示,该实施例中的提取网页正文内容的方法包括如下步骤步骤SlOl :获取html源文件,并将该html源文件转化为字符流,进入步骤S102 ;步骤S102 :剔除所述字符流中的无效标签,进入步骤S103 ;步骤S103 :将剩余的标签转化为标签树,并将该标签树转换成标签队列,进入步骤 S104 ;步骤S104 :对所述队列标签中的各标签进行标签处理获得有效标签集,进入步骤S105 ;步骤S105 :根据所述有效标签集获得文本,返回为正文。据此,依据本实施例的方案,其是在获取html源文件,并将该html源文件转化为字符流后,剔除所述字符流中的无效标签,再将剩余的标签转化为标签树,并将该标签树转换成标签队列,对所述队列标签中的各标签进行标签处理直到队列为空,获得有效标签集,将有效标签集转化成文本,返回为正文,由于本专利技术针对所要抽取的网页正文是从html标签层面进行处理,从标签名称和标签属性上判断标签的功能,能够实现文本实体的自动处理功能,具有很高的通用性,覆盖面广,即使网页结构复杂,含有多种干扰信息,也能有效的提取网页的正文部分,针对性强,同时定制性开发少,可维护性强。下面详细描述上述各个步骤。首先,在步骤SlOl中,获取html源文件可以采用现有的方式,在此不予赘述,上述字符流可以是将UTF-8编码的字符流,UTF-8字符集能存储绝大多数网页的正文编码,同一的编码有利于后续字符流处理程序,但也不限于UTF-8编码这种编码方式。接着,在步骤S102中,剔除无效标签可以包括去除噪声标记过程,这可以加快后续进程,进而提高提取网页正文的效率,包括删除注释、脚本以及“head”标签中的内容等噪声标记,这些噪声标记是存在于html源文件中,对于网页正文内容提取不但没有帮助作用,反而会对正文提取造成干扰的噪声标记块,例如,用户开发者对于网页源代码进行注释的注释块(〈! —.* —>),或者用于辅助功能的脚本块(< (no) script. * < /(no) script)等。在其中一个实施例中, 剔除无效标签还可以包括剔除所述字符流中的第一标签和第二标签过程;所述第一标签主要是用于对文本的显示方式做微幅调整的标签,如改变字体、颜色、字号、粗细等等,由于它们的存在与否不改变页面的布局,一般这些标签不影响网页分块,对提取网页正文内容无帮助,所以一般先将这类标签去除,第一标签一般包括A、ABBR、 ACRONYM、 AREA、 B、 BASE、 BASEFONT、 BDO、BIG、Hmr、 πι /7、 OE、幌、τ '、 r^ 、 μ、爾、H、 、 ffi、 κ、 κ、Η6、 I、 INS、 KBD;/、” LABLE、 SMALL、” STRIKE、 STRONG、 SUB ,〃 slp〃、〃 q〃、〃 s〃、〃 mp、〃 讀〃、〃 mo、〃 mxr、〃 imm、〃 u〃、〃 π〃、〃 var〃、0:SMARTTAGTYPE;所述第二标签包括未对网页布局起帮助作用且从属于其他标签的标签,这类标签是指从属于其他类别的标签,由于它们一般不单独出现,对网页布局的影响体现在其所从属的主标签中,所以为了加快后续的进程,也可以将这类标签在删除无效标签的过程中就进行删除,第二标签一般包括FRAME、 INPUT、 ISINDEX、 LEGEND、UM、 M\P、 IVETA、 CPnCN、(PKKIP、 PAM、 TD、 TH、 IR、 ΚΣΤ、 ITILE。再接着,在步骤S103中将剩余的标本文档来自技高网
...

【技术保护点】
一种提取网页正文内容的方法,其特征在于,包括如下步骤:获取html源文件,并将该html源文件转化为字符流;剔除所述字符流中的无效标签;将剩余的标签转化为标签树,并将该标签树转换成标签队列;对所述队列标签中的各标签进行处理获得有效标签集;将所述有效标签集转化成文本,返回为正文。

【技术特征摘要】
2012.11.01 CN 201210431251.61.一种提取网页正文内容的方法,其特征在于,包括如下步骤获取html源文件,并将该html源文件转化为字符流;剔除所述字符流中的无效标签;将剩余的标签转化为标签树,并将该标签树转换成标签队列;对所述队列标签中的各标签进行处理获得有效标签集;将所述有效标签集转化成文本,返回为正文。2.根据权利要求1所述的提取网页正文内容的方法,其特征在于,所述剔除所述字符流中的无效标签包括步骤剔除所述字符流中的第一标签和第二标签,所述第一标签包括用于对文本的显示方式做微幅调整的标签,所述第二标签包括未对网页布局起作用且附属于其他标签的标签。3.根据权利要求1所述的提取网页正文内容的方法,其特征在于,所述对所述队列标签中的各标签进行处理获得有效标签集包括步骤遍历所述队列标签中的各标签,若所述队列标签中的标签为第三标签或第四标签,则直接将所述第三标签或第四标签保存到有效标签集,若所述队列标签中的标签为第五标签,则根据所述第五标签对应文本的长度将该第五标签保存到有效标签集或者合并到对应的父标签,若所述队列标签中的标签为所述第三标签、第四标签和第五标签外的其它标签, 则直接合并到对应的父标签后重新插入所述标签队列中。4.根据权利要求3所述的提取网页正文内容的方法,其特征在于,所述对所述队列标签中的各标签进行处理获得有效标签集还包括步骤接收定制指令,该定制指令为添加指令;根据所述添加指令添加与该添加指令相对应的标签到所述有效标签集中。5.根据权利要求1所述的提取网页正文内容的方法,其特征在于,在所述对所述队列标签中的各标签进行处理获得有效标签集后,所述将有效标签集转化成文本,返回为正文步骤前还包括步骤接收定制指令,该定制指令为删除指令;根据...

【专利技术属性】
技术研发人员:王海山
申请(专利权)人:广州汇讯营销咨询有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1