网页信息提取方法、装置、电子设备及存储介质制造方法及图纸

技术编号：35512470 阅读：22 留言：0更新日期：2022-11-09 14:27

本申请实施例提供了一种网页信息提取方法、装置、电子设备及存储介质。所述方法包括：获取用户访问的所有网页；根据所述所有网页的页面更新时间和页面出入端口信息对所述所有网页进行过滤处理，得到过滤后的网页；根据所述过滤后的网页对应的网页指向关系，构建网页排版树；从所述网页排版树中提取目标网页标签的目标网页信息。本申请实施例可以提高网页筛选准确度，且可以有效提取网页内的重要信息。且可以有效提取网页内的重要信息。且可以有效提取网页内的重要信息。

全部详细技术资料下载

【技术实现步骤摘要】
网页信息提取方法、装置、电子设备及存储介质

[0001]本申请涉及网页信息处理
，特别是涉及一种网页信息提取方法、装置、电子设备及存储介质。

技术介绍

[0002]随着科学技术的不断发展，网络技术的应用范围越来越广泛。随着社会信息化不断进展，通过互联网分享数据量也不断增加，在庞大的分享数据集中筛选并提取出所需要的重要信息是一个难题。因此，关键网页的获取和页面内重要信息的抽取是目前亟待解决的问题。

技术实现思路

[0003]本申请实施例所要解决的技术问题是提供一种网页信息提取方法、装置、电子设备及存储介质，以有效的过滤无用网页提高网页筛选准确度，通过建立网页排版树可以有效提取网页内的重要信息。
[0004]第一方面，本申请实施例提供了一种网页信息提取方法，包括：
[0005]获取用户访问的所有网页；
[0006]根据所述所有网页的页面更新时间和页面出入端口信息对所述所有网页进行过滤处理，得到过滤后的网页；
[0007]根据所述过滤后的网页对应的网页指向关系，构建网页排版树；
[0008]从所述网页排版树中提取目标网页标签的目标网页信息。
[0009]可选地，所述获取用户访问的所有网页，包括：
[0010]基于网络爬虫技术抓取所述用户访问的URL集合；
[0011]根据所述URL集合中的URL，确定所述用户访问的所有网页。
[0012]可选地，在所述根据所述URL集合中的URL，确定所述用户访问的所有网页之后，还包括：
...

【技术保护点】

【技术特征摘要】
1.一种网页信息提取方法，其特征在于，包括：获取用户访问的所有网页；根据所述所有网页的页面更新时间和页面出入端口信息对所述所有网页进行过滤处理，得到过滤后的网页；根据所述过滤后的网页对应的网页指向关系，构建网页排版树；从所述网页排版树中提取目标网页标签的目标网页信息。2.根据权利要求1所述的方法，其特征在于，所述获取用户访问的所有网页，包括：基于网络爬虫技术抓取所述用户访问的URL集合；根据所述URL集合中的URL，确定所述用户访问的所有网页。3.根据权利要求2所述的方法，其特征在于，在所述根据所述URL集合中的URL，确定所述用户访问的所有网页之后，还包括：根据所述URL集合中URL的跳转信息，确定所述所有网页之间的网页指向关系；根据所述所有网页和所述网页指向关系，构建网页指向关系数据集。4.根据权利要求1所述的方法，其特征在于，所述根据所述所有网页的页面更新时间和页面出入端口信息对所述所有网页进行过滤处理，得到过滤后的网页，包括：调用T
‑
HITS算法根据所述所有网页的页面更新时间和页面出入端口的端口数量，确定所述所有网页对应的网页权重；根据所述所有网页的页面排版信息和URL调用信息，对所述所有网页进行评分，得到所述所有网页的网页评分值；根据所述网页权重和所述网页评分值，计算得到所述所有网页的网页权重分数；根据所述网页权重分数对所述所有网页进行过滤处理，得到过滤后的网页。5.根据权利要求4所述的方法，其特征在于，所述根据所述网页权重分数对所述所有网页进行过滤处理，得到过滤后的网页，包括：获取所述所有网页中网页权重分数大于权重分数阈值的网页，并将网页权重分数大于权重分数阈值的网页作为所述过滤后...

【专利技术属性】
技术研发人员：玄勇，赵轶新，蒋艳军，孙科，
申请(专利权)人：中国电信股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人