本申请实施例提供了一种网页信息提取方法、装置、电子设备及存储介质。所述方法包括:获取用户访问的所有网页;根据所述所有网页的页面更新时间和页面出入端口信息对所述所有网页进行过滤处理,得到过滤后的网页;根据所述过滤后的网页对应的网页指向关系,构建网页排版树;从所述网页排版树中提取目标网页标签的目标网页信息。本申请实施例可以提高网页筛选准确度,且可以有效提取网页内的重要信息。且可以有效提取网页内的重要信息。且可以有效提取网页内的重要信息。
【技术实现步骤摘要】
网页信息提取方法、装置、电子设备及存储介质
[0001]本申请涉及网页信息处理
,特别是涉及一种网页信息提取方法、装置、电子设备及存储介质。
技术介绍
[0002]随着科学技术的不断发展,网络技术的应用范围越来越广泛。随着社会信息化不断进展,通过互联网分享数据量也不断增加,在庞大的分享数据集中筛选并提取出所需要的重要信息是一个难题。因此,关键网页的获取和页面内重要信息的抽取是目前亟待解决的问题。
技术实现思路
[0003]本申请实施例所要解决的技术问题是提供一种网页信息提取方法、装置、电子设备及存储介质,以有效的过滤无用网页提高网页筛选准确度,通过建立网页排版树可以有效提取网页内的重要信息。
[0004]第一方面,本申请实施例提供了一种网页信息提取方法,包括:
[0005]获取用户访问的所有网页;
[0006]根据所述所有网页的页面更新时间和页面出入端口信息对所述所有网页进行过滤处理,得到过滤后的网页;
[0007]根据所述过滤后的网页对应的网页指向关系,构建网页排版树;
[0008]从所述网页排版树中提取目标网页标签的目标网页信息。
[0009]可选地,所述获取用户访问的所有网页,包括:
[0010]基于网络爬虫技术抓取所述用户访问的URL集合;
[0011]根据所述URL集合中的URL,确定所述用户访问的所有网页。
[0012]可选地,在所述根据所述URL集合中的URL,确定所述用户访问的所有网页之后,还包括:
[0013]根据所述URL集合中URL的跳转信息,确定所述所有网页之间的网页指向关系;
[0014]根据所述所有网页和所述网页指向关系,构建网页指向关系数据集。
[0015]可选地,所述根据所述所有网页的页面更新时间和页面出入端口信息对所述所有网页进行过滤处理,得到过滤后的网页,包括:
[0016]调用T
‑
HITS算法根据所述所有网页的页面更新时间和页面出入端口的端口数量,确定所述所有网页对应的网页权重;
[0017]根据所述所有网页的页面排版信息和URL调用信息,对所述所有网页进行评分,得到所述所有网页的网页评分值;
[0018]根据所述网页权重和所述网页评分值,计算得到所述所有网页的网页权重分数;
[0019]根据所述网页权重分数对所述所有网页进行过滤处理,得到过滤后的网页。
[0020]可选地,所述根据所述网页权重分数对所述所有网页进行过滤处理,得到过滤后
的网页,包括:
[0021]获取所述所有网页中网页权重分数大于权重分数阈值的网页,并将网页权重分数大于权重分数阈值的网页作为所述过滤后的网页。
[0022]可选地,所述根据所述过滤后的网页对应的网页指向关系,构建网页排版树,包括:
[0023]根据所述网页权重分数由大到小的顺序,依次对所述过滤后的网页的网页代码进行解析,得到所述过滤后的网页中每个网页对应的DOM节点树;
[0024]根据所述网页指向关系、所述DOM节点树和预置网页拆分维度,构建所述过滤后的网页对应的网页排版树。
[0025]可选地,所述根据所述网页指向关系、所述DOM节点树和预置网页拆分维度,构建所述过滤后的网页对应的网页排版树,包括:
[0026]按照所述网页指向关系,构建以所述过滤后的网页为父节点的初始网页排版树;
[0027]根据所述DOM节点树和所述预置网页拆分维度,提取所述过滤后的网页内的目标网页特征信息;
[0028]根据所述目标网页特征信息,构建所述父节点的子节点,以得到所述网页排版树。
[0029]第二方面,本申请实施例提供了一种网页信息提取装置,包括:
[0030]所有网页获取模块,用于获取用户访问的所有网页;
[0031]过滤网页获取模块,用于根据所述所有网页的页面更新时间和页面出入端口信息对所述所有网页进行过滤处理,得到过滤后的网页;
[0032]网页排版树构建模块,用于根据所述过滤后的网页对应的网页指向关系,构建网页排版树;
[0033]目标网页信息提取模块,用于从所述网页排版树中提取目标网页标签的目标网页信息。
[0034]可选地,所述所有网页获取模块包括:
[0035]URL集合抓取单元,用于基于网络爬虫技术抓取所述用户访问的URL集合;
[0036]所有网页获取单元,用于根据所述URL集合中的URL,确定所述用户访问的所有网页。
[0037]可选地,所述装置还包括:
[0038]网页指向关系确定模块,用于根据所述URL集合中URL的跳转信息,确定所述所有网页之间的网页指向关系;
[0039]指向数据集构建模块,用于根据所述所有网页和所述网页指向关系,构建网页指向关系数据集。
[0040]可选地,所述过滤网页获取模块包括:
[0041]网页权重确定单元,用于调用T
‑
HITS算法根据所述所有网页的页面更新时间和页面出入端口的端口数量,确定所述所有网页对应的网页权重;
[0042]网页评分值获取单元,用于根据所述所有网页的页面排版信息和URL调用信息,对所述所有网页进行评分,得到所述所有网页的网页评分值;
[0043]网页权重分数计算单元,用于根据所述网页权重和所述网页评分值,计算得到所述所有网页的网页权重分数;
[0044]过滤网页获取单元,用于根据所述网页权重分数对所述所有网页进行过滤处理,得到过滤后的网页。
[0045]可选地,所述过滤网页获取单元包括:
[0046]过滤网页获取子单元,用于获取所述所有网页中网页权重分数大于权重分数阈值的网页,并将网页权重分数大于权重分数阈值的网页作为所述过滤后的网页。
[0047]可选地,所述网页排版树构建模块包括:
[0048]DOM节点树获取单元,用于根据所述网页权重分数由大到小的顺序,依次对所述过滤后的网页的网页代码进行解析,得到所述过滤后的网页中每个网页对应的DOM节点树;
[0049]网页排版树构建单元,用于根据所述网页指向关系、所述DOM节点树和预置网页拆分维度,构建所述过滤后的网页对应的网页排版树。
[0050]可选地,所述网页排版树构建单元包括:
[0051]初始排版树构建子单元,用于按照所述网页指向关系,构建以所述过滤后的网页为父节点的初始网页排版树;
[0052]目标网页特征提取子单元,用于根据所述DOM节点树和所述预置网页拆分维度,提取所述过滤后的网页内的目标网页特征信息;
[0053]网页排版树构建子单元,用于根据所述目标网页特征信息,构建所述父节点的子节点,以得到所述网页排版树。
[0054]第三方面,本申请实施例提供了一种电子设备,包括:
[0055]处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种网页信息提取方法,其特征在于,包括:获取用户访问的所有网页;根据所述所有网页的页面更新时间和页面出入端口信息对所述所有网页进行过滤处理,得到过滤后的网页;根据所述过滤后的网页对应的网页指向关系,构建网页排版树;从所述网页排版树中提取目标网页标签的目标网页信息。2.根据权利要求1所述的方法,其特征在于,所述获取用户访问的所有网页,包括:基于网络爬虫技术抓取所述用户访问的URL集合;根据所述URL集合中的URL,确定所述用户访问的所有网页。3.根据权利要求2所述的方法,其特征在于,在所述根据所述URL集合中的URL,确定所述用户访问的所有网页之后,还包括:根据所述URL集合中URL的跳转信息,确定所述所有网页之间的网页指向关系;根据所述所有网页和所述网页指向关系,构建网页指向关系数据集。4.根据权利要求1所述的方法,其特征在于,所述根据所述所有网页的页面更新时间和页面出入端口信息对所述所有网页进行过滤处理,得到过滤后的网页,包括:调用T
‑
HITS算法根据所述所有网页的页面更新时间和页面出入端口的端口数量,确定所述所有网页对应的网页权重;根据所述所有网页的页面排版信息和URL调用信息,对所述所有网页进行评分,得到所述所有网页的网页评分值;根据所述网页权重和所述网页评分值,计算得到所述所有网页的网页权重分数;根据所述网页权重分数对所述所有网页进行过滤处理,得到过滤后的网页。5.根据权利要求4所述的方法,其特征在于,所述根据所述网页权重分数对所述所有网页进行过滤处理,得到过滤后的网页,包括:获取所述所有网页中网页权重分数大于权重分数阈值的网页,并将网页权重分数大于权重分数阈值的网页作为所述过滤后...
【专利技术属性】
技术研发人员:玄勇,赵轶新,蒋艳军,孙科,
申请(专利权)人:中国电信股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。