一种网页正文提取比对方法技术

技术编号：14875769 阅读：98 留言：0更新日期：2017-03-23 23:21

本发明专利技术公开了一种网页正文提取对比方法，包括以下步骤：步骤A：基于对于网页特定标签，判断网页是否为正文页；步骤B：对平行网页的识别。所述步骤A进一步包括以下子步骤：步骤一：网页预处理，构造HTML树；步骤二：对HTML树剪枝；步骤三：获取网页主题；步骤四：提取分块内的字符串内容；步骤五：计算主题S和一个块内内容y的距离；步骤六：比较编辑距离L和max(p，q)。本发明专利技术网页正文提取比对方法具有以下优点：能提取正文较短的网页，内容的长短并不会影响选择的正确性。因为无论正文长短都会参与计算，都不会被忽略。对处理＜table＞嵌套的复杂的网页可以保证每一个＜table＞标签都能得到一致的处理。

全部详细技术资料下载

【技术实现步骤摘要】
方法领域本专利技术涉及计算机网络技术方法，特别涉及一种网页正文提取比对方法。背景方法网页正文提取方法有很多，其中有专门针对评论网页或者新闻网页的方法，但是本专利技术所讨论的是针对大部分通用网页的正文提取方法。总的说来，目前主要的网页正文提取方法有以下几个方向：基于DOM的网页正文提取方法、基于统计的网页正文提取方法、基于分块的网页正文提取方法及其他网页正文提取方法。文档对象模型(DocumentObjectModel，DOM)是W3C所制定的标准接口规范。因为DOM节点是基于树的层次结构来组织的，因此在建立了树结构之后，就可以将原本对网页的操作转化为通过对树的操作。虽然按照W3C组织所制定的标准，网页结构均可以对应地转换成DOM树的形式，但实际上许多网页并没有遵循该标准。因此在DOM方法使用时通常都需要预处理模块，将网页最终抽象为一棵DOM树。一、基于DOM的网页正文提取方法基于DOM的网页正文提取方法是一种基于DOM的网页内容提取方法，其最初目的是完善PDA应用，移除广告内容。DOM方法先将网页内容抽象为对应的对象，转换为节点的形式；然后用父子关系将各节点组织起来，最终形成一棵树型结构。在互联网中来自同一网站的网页结构大部分都是相同的，例如Yahoo新闻网页<body>标签都是由<iframe>和<div>两个标签组成的，因此可以把这类网页模板聚为一类。聚类相似的DOM树需要计算相似度，计算两棵简单的DOM树相似度的步骤是：第一步判断两棵树的根节点是否相同，若不相同就返回0；若相同，则继续比较两棵树的叶子节点。第二步比较...
一种网页正文提取比对方法

【技术保护点】
一种网页正文提取对比方法，其特征在于，包括以下步骤：步骤A：基于对于网页特定标签，判断网页是否为正文页；步骤B：对平行网页的识别；步骤C：对中文网页，设定中文标点的个数阈值；通过所述中文标点的个数阈值来判断网页<p>标签中文字：如果其中中文标点的个数大于设定的阈值，则将其加入正文内。

【技术特征摘要】
1.一种网页正文提取对比方法，其特征在于，包括以下步骤：步骤A：基于对于网页特定标签，判断网页是否为正文页；步骤B：对平行网页的识别；步骤C：对中文网页，设定中文标点的个数阈值；通过所述中文标点的个数阈值来判断网页<p>标签中文字：如果其中中文标点的个数大于设定的阈值，则将其加入正文内。2.根据权利要求1所述网页正文提取对比方法，其特征在于，所述步骤A进一步包括以下子步骤：步骤一：网页预处理，构造HTML树；步骤二：对HTML树剪枝；步骤三：获取网页主题；步骤四：提取分块内的字符串内容；步骤五：计算主题S和一个块内内容y的距离；步骤六：比较编辑距离L和max(p，q)。3.根据权利要求1或2所述网页正文提取对比方法，其特征在于，所述步骤二进一步包括以下子步骤：按照<table>标签进行分块，将不包含文本和链接信息的叶子节点去掉。4.根据权利要求1～3中任一项所述网页正文提取对比方法，其特征在于，所述步骤五进一步包括：对中文进行分词，使用的Levenshtein距离如式(2)和式(3)所示：5.根据权利要求1～4中任一项所述网页正文提取对比方法，其特征在于，所述步骤B进一步包括：特征信息提取子步骤和支持向量机分类子步骤；所述特征信息提取子步骤进一步包括：建立特征信息：特征信息包括网页HTML标签结构信息和基于内容的文本长度信息、文本句数信息和数字序列信息；将HTML标签按其在网页布局、显示、链接功能特征划分为结...

【专利技术属性】
技术研发人员：孙燕群，
申请(专利权)人：孙燕群，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人