当前位置: 首页 > 专利查询>孙燕群专利>正文

一种网页正文提取比对方法技术

技术编号:14875769 阅读:88 留言:0更新日期:2017-03-23 23:21
本发明专利技术公开了一种网页正文提取对比方法,包括以下步骤:步骤A:基于对于网页特定标签,判断网页是否为正文页;步骤B:对平行网页的识别。所述步骤A进一步包括以下子步骤:步骤一:网页预处理,构造HTML树;步骤二:对HTML树剪枝;步骤三:获取网页主题;步骤四:提取分块内的字符串内容;步骤五:计算主题S和一个块内内容y的距离;步骤六:比较编辑距离L和max(p,q)。本发明专利技术网页正文提取比对方法具有以下优点:能提取正文较短的网页,内容的长短并不会影响选择的正确性。因为无论正文长短都会参与计算,都不会被忽略。对处理<table>嵌套的复杂的网页可以保证每一个<table>标签都能得到一致的处理。

【技术实现步骤摘要】
方法领域本专利技术涉及计算机网络技术方法,特别涉及一种网页正文提取比对方法。背景方法网页正文提取方法有很多,其中有专门针对评论网页或者新闻网页的方法,但是本专利技术所讨论的是针对大部分通用网页的正文提取方法。总的说来,目前主要的网页正文提取方法有以下几个方向:基于DOM的网页正文提取方法、基于统计的网页正文提取方法、基于分块的网页正文提取方法及其他网页正文提取方法。文档对象模型(DocumentObjectModel,DOM)是W3C所制定的标准接口规范。因为DOM节点是基于树的层次结构来组织的,因此在建立了树结构之后,就可以将原本对网页的操作转化为通过对树的操作。虽然按照W3C组织所制定的标准,网页结构均可以对应地转换成DOM树的形式,但实际上许多网页并没有遵循该标准。因此在DOM方法使用时通常都需要预处理模块,将网页最终抽象为一棵DOM树。一、基于DOM的网页正文提取方法基于DOM的网页正文提取方法是一种基于DOM的网页内容提取方法,其最初目的是完善PDA应用,移除广告内容。DOM方法先将网页内容抽象为对应的对象,转换为节点的形式;然后用父子关系将各节点组织起来,最终形成一棵树型结构。在互联网中来自同一网站的网页结构大部分都是相同的,例如Yahoo新闻网页<body>标签都是由<iframe>和<div>两个标签组成的,因此可以把这类网页模板聚为一类。聚类相似的DOM树需要计算相似度,计算两棵简单的DOM树相似度的步骤是:第一步判断两棵树的根节点是否相同,若不相同就返回0;若相同,则继续比较两棵树的叶子节点。第二步比较两棵DOM树的叶子节点的名称和属性,返回两棵DOM树中相同节点的数目。二、基于统计的网页正文提取方法基于统计的方法主要用于提取新闻类网页的正文。该方法的原理是网页正文信息只能位于网页中的<table>标签节点。方法的基本步骤是:第一步去除页面的噪声,根据网页标签将网页对应表示成一棵树;第二步处理每个<table>节点,去除节点内的HTML标签,然后得到不含任何标签的字符串;第三步比较每个节点的字符数量,通常选取字符数量最大的节点为网页正文。该方法优点是利用了新闻网页的特性,通用性好,实现简单,也不需要针对不同的网页构建不同的模板,不需要样本学习,时间复杂度低。但是缺点是该算法只适用于网页中所有正文信息都被放在一个<table>节点中的情况,对于有多个<table>正文的网页,效果并不好。由于现在微博、轻博客等的兴起,越来越多的复杂格式和短文本网页被产生,这种方法的局限性更加明显。现有方法中网页正文提取比对效果表:总的说来,目前在网页正文提取和网页相似性计算的相关算法都还停留在主要针对传统互联网网页阶段,无论是网页正文提取还是网页相似性研究,对移动互联网网页内容的新特点并没有认真考量,主要表现在以下几个缺点:(1)移动互联网的网页结构越来越复杂,涉及的新兴方法也越来越多,传统的2.2节所介绍的网页正文提取算法的局限性越来越明显。(2)由于短文本网页内容太多,部分2.3节介绍的文本相似性研究算法的理论基础不再存在,算法准确率降低,已经不能适应大规模数据使用的需求。
技术实现思路
本专利技术所要解决的方法问题在于,提供了一种本基于主题相似分块的网页正文提取及比对方法,结果表明本专利技术方法在准确率上取得较大提升。为解决上述方法问题,本专利技术提供了一种网页正文提取对比方法,包括以下步骤:步骤A:基于对于网页特定标签,判断网页是否为正文页;步骤B:对平行网页的识别。步骤C:对中文网页,正文部分往往包括中文标点,而标题中是不包含或包含很少的中文标点,通过设置一个阈值,即中文标点的个数,来判断网页<p>标签中文字,如果其中中文标点的个数大于给定的阈值,则可以将其加入正文内,然后获得多个连续的<P>标签(p标签之间可以有1个或2个其它标签)的文本,通过以上的判定,加入到正文中。所述步骤A可以进一步包括以下子步骤:步骤一:网页预处理,构造HTML树;步骤二:对HTML树剪枝;步骤三:获取网页主题;步骤四:提取分块内的字符串内容;步骤五:计算主题S和一个块内内容y的距离;步骤六:比较编辑距离L和max(p,q)。所述步骤二还可以进一步包括以下子步骤:按照<table>标签进行分块,将不包含文本和链接信息的叶子节点去掉。所述步骤五可以进一步包括:对中文进行分词,使用的Levenshtein距离如式(2)和式(3)所示:所述步骤B可以进一步包括:特征信息提取子步骤和支持向量机分类子步骤;所述特征信息提取子步骤进一步包括:建立特征信息:特征信息包括网页HTML标签结构信息和基于内容的文本长度信息、文本句数信息和数字序列信息;将HTML标签按其在网页布局、显示、链接功能特征划分为结构标签、格式标签和无关标签三类标签:结构标签:blockquote、body、dir、div、dt、h、head、hr、li、menu、p、q、toWe、tbody、td、tfoot、th、thead、tr、ul;格式标签:abbr、acronym、b、big、center、cite、code、dfh、em、font、i、pre、s、small、span、strike、strong、style、sub、sup、tt、u;无关标签:applet、base、basefont、bdo、br、button、del、kbd、link、meta、samp、script、var、a、fieldset、form、input、isindex、label、legend;计算结构对称性时删去。采用改进的编辑距离计算分类的HTML标签序列的相似度:编辑距离为两个字符串之间,由一个字符串转变成另一个字符串所需的最少编辑操作次数;编辑操作包括一个字符替换成另一个字符、插入一个字符和删除一个字符;根据标签的分类特性,改进的编辑距离定义为:一个字符串的不同类型标签通过删除、插入和替换转换成另一个字符串不同类型标签最少操作代价。为解决上述技术问题,本专利技术还提供了一种网页正文提取对比系统,包括以下模块:模块A:用于基于对于网页特定标签,判断网页是否为正文页;模块B:用于对平行网页的识别。所述模块A可以进一步包括以下子模块:预处理子模块:用于对网页预处理,构造HTML树;剪枝子模块:用于对HTML树剪枝;获取主题子模块:用于获取网页主题;提取分块子模块:用于提取分块内的字符串内容;计算距离子模块:用于计算主题S和一个块内内容y的距离;比较距离子模块:用于比较编辑距离L和max(p,q)。所述剪枝子模块可以进一步用于:按照<table>标签进行分块,将不包含文本和链接信息的叶子节点去掉。所述计算距离子模块可以进一步用于:对中文进行分词,使用的Levenshtein距离如式(2)和式(3)所示:所述模块B可以进一步包括以下子模块:特征信息提取子模块和支持向量机分类子模块;所述特征信息提取子模块用于:建立特征信息:特征信息包括网页HTML标签结构信息和基于内容的文本长度信息、文本句数信息和数字序列信息;将HTML标签按其在网页布局、显示、链接功能特征划分为结本文档来自技高网
...
一种网页正文提取比对方法

【技术保护点】
一种网页正文提取对比方法,其特征在于,包括以下步骤:步骤A:基于对于网页特定标签,判断网页是否为正文页;步骤B:对平行网页的识别;步骤C:对中文网页,设定中文标点的个数阈值;通过所述中文标点的个数阈值来判断网页<p>标签中文字:如果其中中文标点的个数大于设定的阈值,则将其加入正文内。

【技术特征摘要】
1.一种网页正文提取对比方法,其特征在于,包括以下步骤:步骤A:基于对于网页特定标签,判断网页是否为正文页;步骤B:对平行网页的识别;步骤C:对中文网页,设定中文标点的个数阈值;通过所述中文标点的个数阈值来判断网页<p>标签中文字:如果其中中文标点的个数大于设定的阈值,则将其加入正文内。2.根据权利要求1所述网页正文提取对比方法,其特征在于,所述步骤A进一步包括以下子步骤:步骤一:网页预处理,构造HTML树;步骤二:对HTML树剪枝;步骤三:获取网页主题;步骤四:提取分块内的字符串内容;步骤五:计算主题S和一个块内内容y的距离;步骤六:比较编辑距离L和max(p,q)。3.根据权利要求1或2所述网页正文提取对比方法,其特征在于,所述步骤二进一步包括以下子步骤:按照<table>标签进行分块,将不包含文本和链接信息的叶子节点去掉。4.根据权利要求1~3中任一项所述网页正文提取对比方法,其特征在于,所述步骤五进一步包括:对中文进行分词,使用的Levenshtein距离如式(2)和式(3)所示:5.根据权利要求1~4中任一项所述网页正文提取对比方法,其特征在于,所述步骤B进一步包括:特征信息提取子步骤和支持向量机分类子步骤;所述特征信息提取子步骤进一步包括:建立特征信息:特征信息包括网页HTML标签结构信息和基于内容的文本长度信息、文本句数信息和数字序列信息;将HTML标签按其在网页布局、显示、链接功能特征划分为结...

【专利技术属性】
技术研发人员:孙燕群
申请(专利权)人:孙燕群
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1