一种改进的基于行块分布函数的网页正文提取方法技术

技术编号：34973006 阅读：19 留言：0更新日期：2022-09-21 14:13

本发明专利技术提出了一种改进的基于行块分布函数的网页正文提取方法，该方法包括获取网页Html源码并进行预处理、提取网页title后找出正文区域、构建行块分布函数、分析行块分布函数得到提取结果。具体步骤如下：获取待提取网页url链接的Html并进行预处理，去除无关标签的同时获取网页title标签，对Html按行分割，根据每行与title的相关度和标点个数，找到正文存在区域；对正文区域内的每一行，合并周围K行形成行块，计算每个行块的长度，构建行块分布函数；根据行块分布函数值找出每块正文文本的起始和终止行号，合并Html对应行号区间内的文本，得到初步提取结果；最后对初步结果进行后处理，过滤可能存在的噪声，就得到最终正文提取结果。取结果。取结果。

全部详细技术资料下载

【技术实现步骤摘要】
一种改进的基于行块分布函数的网页正文提取方法

[0001]本专利技术属于网页正文提取领域，具体是一种改进的基于行块分布函数的网页正文提取方法。

技术介绍

[0002]网页中除了正文内容等有用信息外，通常还包含一些与主题无关的噪声信息，如导航、广告链接、版权信息等，这些噪声信息会降低网页的可用性。网页正文提取是指从带有噪声信息的原始网页中根据一定的规则提取出正文部分，从而过滤各种无关信息，得到该网页的主体信息，能大大提高网页的有效性和网页信息提取的准确性，广泛应用于信息检索、搜索引擎、舆情分析等领域。
[0003]网页正文提取目前主要有基于视觉特征、基于模板、基于文档对象模型、基于机器学习、基于行块分布函数等五种方法。基于视觉特征的方法比较依赖网页的可视化信息，对页面的框架结构要求较高；基于模板的方法需要针对每个网站建模，工作量大，且网站改版后需要重新建模，缺乏通用性；基于文档对象模型的方法容易受Html编写不规范的影响，且每次建立和遍历DOM树需要花费较多时间；基于机器学习的方法需要标注大量网页样本用于训练模型，过程繁琐，而且特征如何选取对结果影响较大。
[0004]基于行块分布函数的方法较前四种方法而言，算法流程更为简单且算法复杂度低，其大致过程是将Html去除标签，只保留文本和空白行，以每行及上下K行作为一个行块，计算每个行块的长度，描绘出行块分布函数，找出骤升和骤降点，其中的内容便为正文。该方法在定位骤升和骤降行块位置时，只根据行块内容长度来划分正文和非正文，对一些网页而言准确率尚可，但在网页正...

【技术保护点】

【技术特征摘要】
1.一种改进的基于行块分布函数的网页正文提取方法，其特征在于，使用BeautifulSoup库解析Html获取网页title，根据与title的相关度和标点符号个数找到正文存在区域的起始和终止行号，根据最后两行的父标签是否一致删除末尾可能存在的噪声信息，所述方法包括：读取输入的待提取网页url链接，使用requests库获取该url对应的Html源码，对Html进行预处理，采用正则匹配将与正文无关的噪声信息去除，保留文本和空白行信息；使用BeautifulSoup库解析原Html，获取网页title标签里的内容，去除标点符号和网站名，作为下一步计算最长公共子序列(LCS)的依据；对预处理后的Html以行为单位进行分割，从第一行开始，计算当前行与title的LCS，找到正文存在区域的起始行号，同理，从最后一行往前遍历，计算当前行与title的LCS以及该行的标点符号个数，找到正文区域的终止行号；在正文存在区域内，以当前行及向下两行为一个行块，计算该行块内非空白字符个数，以行块号为横轴、行块长度为纵轴构建行块分布函数，分析行块分布函数，初步定位出正文所在位置；对初步提取结果的最后两行，采用Beauti...

【专利技术属性】
技术研发人员：陈嘉锴，戴宪华，
申请(专利权)人：中山大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人