网页正文的识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号：30438061 阅读：32 留言：0更新日期：2021-10-24 17:41

本申请公开了一种网页正文的识别方法、装置、电子设备及存储介质，其中方法包括：获取待分析网页文本，待分析网页文本包括字符行和空白行，单个空白行和多个连续排列的空白行视作间隔，间隔对应的空白行数量表示该间隔的长度；根据待分析网页文本的所有间隔计算得到一参考间隔长度；利用参考间隔长度过滤待分析网页文本的所有间隔，以保留长度大于参考间隔长度的间隔；穷举搜索任意两行之间对应的字符数和过滤后的所有间隔，并根据各搜索区域对应的字符数和过滤后的所有间隔确定网页正文。本申请具有较高识别准确率，还能适用于多种类型的网页。网页。网页。

全部详细技术资料下载

【技术实现步骤摘要】
网页正文的识别方法、装置、电子设备及存储介质

[0001]本申请涉及网页设计
，尤其涉及网页正文的识别方法、装置、电子设备及存储介质。

技术介绍

[0002]对于一个网页，核心内容通常是网页的正文。现在大多数网页不仅包含正文，还包括标签、广告、网页链接、插件等内容，然而要快速获取网页的核心内容则需要将网页正文之外的内容剔除，同时提取到的正文内容的质量则直接影响浏览者可获取的信息。
[0003]目前，网页正文的识别方法主要采取解析网页HTML(HyperText Markup Language，超文本标记语言)源码的方法。通过网页HTML源码，并基于一定的设定规则提取网页正文，例如字符数最多，区域分界。但是每个网页的设计均不都一样，导致该方法错误率较高、不能自适应多种类型网页。

技术实现思路

[0004]本申请的目的是为解决上述技术问题的不足而提供一种网页正文的识别方法、装置、电子设备及存储介质，不仅具有较高识别准确率，还能适用于多种类型的网页。
[0005]为了实现上述目的，本申请公开了一种网页正文的识别方法，其包括：
[0006]获取待分析网页文本，所述待分析网页文本包括字符行和空白行，单个空白行和多个连续排列的空白行视作间隔，所述间隔对应的空白行数量表示该所述间隔的长度；
[0007]根据所述待分析网页文本的所有间隔计算得到一参考间隔长度；
[0008]利用所述参考间隔长度过滤所述待分析网页文本的所有间隔，以保留长度大于所述参考间隔长度的所述间隔；r/>[0009]穷举搜索任意两行之间对应的字符数和过滤后的所有间隔，并根据各搜索区域对应的字符数和过滤后的所有间隔确定网页正文。
[0010]可选地，所述参考间隔长度为所述待分析网页文本的所有间隔的平均间隔长度。
[0011]可选地，所述根据各搜索区域对应的字符数和过滤后的所有间隔确定网页正文，包括：
[0012]计算各搜索区域对应的字符数与参考值的比值得到各搜索区域对应的字符密度；
[0013]提取最大所述字符密度对应的搜索区域作为网页正文；
[0014]所述参考值根据各搜索区域过滤后的所有间隔得到，各搜索区域过滤后的间隔数为零时，所述参考值为最小。
[0015]可选地，所述参考值为各搜索区域过滤后的所有间隔的长度之和。
[0016]为了实现上述目的，本申请还公开一种网页正文的识别装置，其包括：
[0017]获取模块，所述获取模块用于获取待分析网页文本，所述待分析网页文本包括字符行和空白行，单个空白行和多个连续排列的空白行视作间隔，所述间隔对应的空白行数量表示该所述间隔的长度；
[0018]计算模块，所述计算模块用于根据所述待分析网页文本的所有间隔计算得到一参考间隔长度；
[0019]过滤模块，所述过滤模块用于利用所述参考间隔长度过滤所述待分析网页文本的所有间隔，以保留长度大于所述参考间隔长度的所述间隔；
[0020]搜索及确定模块，所述搜索及确定模块用于穷举搜索任意两行之间对应的字符数和过滤后的所有间隔，并根据各搜索区域对应的字符数和过滤后的所有间隔确定网页正文。
[0021]可选地，所述参考间隔长度为所述待分析网页文本的所有间隔的平均间隔长度。
[0022]可选地，所述根据各搜索区域对应的字符数和过滤后的所有间隔确定网页正文，包括：
[0023]计算各搜索区域对应的字符数与参考值的比值得到各搜索区域对应的字符密度；
[0024]提取最大所述字符密度对应的搜索区域作为网页正文；
[0025]所述参考值根据各搜索区域过滤后的所有间隔得到，各搜索区域过滤后的间隔数为零时，所述参考值为最小。
[0026]可选地，所述参考值为各搜索区域过滤后的所有间隔的长度之和。
[0027]为了实现上述目的，本申请还公开一种电子设备，其包括：
[0028]处理器；
[0029]存储器，其中存储有所述处理器的可执行指令；
[0030]其中，所述处理器配置为经由执行所述可执行指令来执行如上所述的网页正文的识别方法。
[0031]为了实现上述目的，本申请还公开一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上所述的网页正文的识别方法。
[0032]本申请根据待分析网页文本的所有间隔计算得到参考间隔长度，并利用参考间隔长度过滤所有间隔，对于具有两个分界间隔的网页文本而言，网页正文如果存在内部间隔，一般情况下，能够被完全或者很大程度上被过滤掉，进而能够消灭或者缩小段落之间的间隙，使得网页正文的文字部分更加集中，而网页正文起始位置和结尾位置的分界间隔由于长度较大，基本上会得以保留。因此，利用各搜索区域对应的字符数和过滤后的所有间隔容易确定网页正文，而且有利于提高识别准确率，还能适用于多种类型的网页。
附图说明
[0033]图1为本申请实施例网页正文的识别方法的流程示意图。
[0034]图2为本申请实施例网页正文的识别装置的示意框图。
[0035]图3为本申请实施例电子设备的示意框图。
具体实施方式
[0036]为详细说明本申请的
技术实现思路
、结构特征、实现原理及所实现目的及效果，以下结合实施方式并配合附图详予说明。
[0037]请参阅图1，本申请公开了一种网页正文的识别方法，其包括：
[0038]101、获取待分析网页文本，待分析网页文本包括字符行和空白行，单个空白行和
多个连续排列的空白行视作间隔，间隔对应的空白行数量表示该间隔的长度。
[0039]具体地，上述获取待分析网页文本，包括：
[0040]获取网页源码；
[0041]剔除网页源码的网页标签；
[0042]得到待分析网页文本。
[0043]通常来说，网页标签主要是HTML标签，HTML标签用于网页的开发，主要是用于提供标记，并不带来实际内容，而且HTML标签占用网页文本中的部分行数。因此，将网页源码中的网页标签删除，有利于减少与网页正文无关的信息，并且能够减少后续需识别的信息量，提高识别效率。
[0044]当然，“待分析网页文本”并不局限于上述生成方式。只要是根据“待分析网页文本”能够执行本申请网页正文的识别方法即可。
[0045]具体地，空白行是指没有字符的行数，字符行是指含有字符的行数。其中，网页文本通常具有多个间隔，间隔实际上是对应着单个或多个空白行，对于单个空白行对应的间隔，该间隔长度为一个空白行。而对于多个连续排列的空白行对应的间隔，该间隔长度为该间隔对应的空白行数量，例如三个连续排列的空白行对应的间隔，该间隔长度为三个空白行。
[0046]102、根据待分析网页文本的所有间隔计算得到一参考间隔长度。
[0047]其中，设置参考间隔长度主要是依据参考间隔长度将所有间隔进行筛选。而本专利技术对“参考间隔长度”的计算方式不作限定。比如，其可本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种网页正文的识别方法，其特征在于，包括：获取待分析网页文本，所述待分析网页文本包括字符行和空白行，单个空白行和多个连续排列的空白行视作间隔，所述间隔对应的空白行数量表示该所述间隔的长度；根据所述待分析网页文本的所有间隔计算得到一参考间隔长度；利用所述参考间隔长度过滤所述待分析网页文本的所有间隔，以保留长度大于所述参考间隔长度的所述间隔；穷举搜索任意两行之间对应的字符数和过滤后的所有间隔，并根据各搜索区域对应的字符数和过滤后的所有间隔确定网页正文。2.如权利要求1所述的网页正文的识别方法，其特征在于，所述参考间隔长度为所述待分析网页文本的所有间隔的平均间隔长度。3.如权利要求1所述的网页正文的识别方法，其特征在于，所述根据各搜索区域对应的字符数和过滤后的所有间隔确定网页正文，包括：计算各搜索区域对应的字符数与参考值的比值得到各搜索区域对应的字符密度；提取最大所述字符密度对应的搜索区域作为网页正文；所述参考值根据各搜索区域过滤后的所有间隔得到，各搜索区域过滤后的间隔数为零时，所述参考值为最小。4.如权利要求3所述的网页正文的识别方法，其特征在于，所述参考值为各搜索区域过滤后的所有间隔的长度之和。5.一种网页正文的识别装置，其特征在于，包括：获取模块，所述获取模块用于获取待分析网页文本，所述待分析网页文本包括字符行和空白行，单个空白行和多个连续排列的空白行视作间隔，所述间隔对应的空白行数量表示该所述间隔的长度；计算模块，所述计算模块用于根据所述待分析网页...

【专利技术属性】
技术研发人员：余良，
申请(专利权)人：东莞市盟大塑化科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人