提取网页正文内容的方法和系统技术方案

技术编号：8594040 阅读：213 留言：0更新日期：2013-04-18 07:14

本发明专利技术提供一种提取网页正文内容的方法和系统，其方法包括步骤：获取html源文件，并将该html源文件转化为字符流；剔除所述字符流中的无效标签；将剩余的标签转化为标签树，并将该标签树转换成标签队列；对所述队列标签中的各标签进行处理获得有效标签集；将所述有效标签集转化成文本，返回为正文。本发明专利技术具有很高的通用性，覆盖面广，即使网页结果复杂，含有多种干扰信息，也能有效的提取网页的正文部分，针对性强，同时定制性开发少，可维护性强。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及互联网信息处理领域，特别是涉及一种提取网页正文内容的方法和系统。
技术介绍
随着互联网的迅速发展，互联网上的信息量以几何级数倍增。人们需要在海量的信息库中查找自己需要的信息，并且可能需要对获得的信息进行进一步的加工和分析。但是很多原始内容为了方便用户浏览而加入的导航链接、出于商业利益而加入的广告链接、版权信息以及相关主题阅读推荐链接等。这些信息掺杂在网页中，影响了用户对主题内容的浏览。如何从包含大量噪音内容的网页中将正文信息准确、完整地提取出来成为了研究课题。目前常用的方案有如下两种第一种方式是米用RSS (简易信息聚合,也叫聚合内容,是一种描述和同步网站内容的格式)种子文件作为信息源。由于RSS种子文件通常是按照标准的RSS规范编写的，通过简单的XML解析技术即可分离出需要的标题、发布时间、正文内容等信息，例如，RSS阅读器都米用这一方式。第二种方式是直接采用某些特定的网站的WEB页面作为信息源，根据WEB页面的编码特点开发专有的解析器来获取需要的信息。目前使用的大部分新闻阅读客户端都采用这一方式。然而，对于第一种方式，由于很多网站并没有提供RSS种子，且很多网站即使提供了 RSS种子，但为了不影响其网站的流量，种子文件中通常只包含导读内容。这就导致很多信息被排除在可选择范围之外，也可能导致用户获得的信息不完整。对于第二种方式，这会带来大量的定制性开发，同时较为硬性的排版识别要求会因为目标网站排版的不断变化而带来许多维护性开发。而这些定制性和维护性的开发带来工作量的攀升导致它只能覆盖有限的主流网站，同样会导致许多信息被排除在可选范围之外。...

【技术保护点】
一种提取网页正文内容的方法，其特征在于，包括如下步骤：获取html源文件，并将该html源文件转化为字符流；剔除所述字符流中的无效标签；将剩余的标签转化为标签树，并将该标签树转换成标签队列；对所述队列标签中的各标签进行处理获得有效标签集；将所述有效标签集转化成文本，返回为正文。

【技术特征摘要】
2012.11.01 CN 201210431251.61.一种提取网页正文内容的方法，其特征在于，包括如下步骤获取html源文件，并将该html源文件转化为字符流；剔除所述字符流中的无效标签；将剩余的标签转化为标签树，并将该标签树转换成标签队列；对所述队列标签中的各标签进行处理获得有效标签集；将所述有效标签集转化成文本，返回为正文。2.根据权利要求1所述的提取网页正文内容的方法，其特征在于，所述剔除所述字符流中的无效标签包括步骤剔除所述字符流中的第一标签和第二标签，所述第一标签包括用于对文本的显示方式做微幅调整的标签，所述第二标签包括未对网页布局起作用且附属于其他标签的标签。3.根据权利要求1所述的提取网页正文内容的方法，其特征在于，所述对所述队列标签中的各标签进行处理获得有效标签集包括步骤遍历所述队列标签中的各标签，若所述队列标签中的标签为第三标签或第四标签，则直接将所述第三标签或第四标签保存到有效标签集，若所述队列标签中的标签为第五标签，则根据所述第五标签对应文本的长度将该第五标签保存到有效标签集或者合并到对应的父标签，若所述队列标签中的标签为所述第三标签、第四标签和第五标签外的其它标签，则直接合并到对应的父标签后重新插入所述标签队列中。4.根据权利要求3所述的提取网页正文内容的方法，其特征在于，所述对所述队列标签中的各标签进行处理获得有效标签集还包括步骤接收定制指令，该定制指令为添加指令；根据所述添加指令添加与该添加指令相对应的标签到所述有效标签集中。5.根据权利要求1所述的提取网页正文内容的方法，其特征在于，在所述对所述队列标签中的各标签进行处理获得有效标签集后，所述将有效标签集转化成文本，返回为正文步骤前还包括步骤接收定制指令，该定制指令为删除指令；根据...

【专利技术属性】
技术研发人员：王海山，
申请(专利权)人：广州汇讯营销咨询有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人