网页结构化信息提取方法、装置、电子设备及存储介质制造方法及图纸

技术编号：27193592 阅读：20 留言：0更新日期：2021-01-31 11:41

本发明专利技术提供一种网页结构化信息提取方法、装置、电子设备及存储介质，其中，该方法包括：缓存移动互联网中的数据，存储为各Kafka数据；对每一Kafka数据进行http解析，获取网页中的URL和正文信息，根据预设的信元规则，提取URL和正文信息中的网页结构化信息。本发明专利技术提供的网页结构化信息提取方法、装置、电子设备及存储介质，通过对移动互联网中的数据进行解析，获取网页中的URL数据和正文信息，根据预设的信元规则，提取URL数据和正文信息中的网页结构化信息，能提高网页结构化信息的提取效率，能更有效地提取移动互联网网页中的结构化信息。息。息。

全部详细技术资料下载

【技术实现步骤摘要】
网页结构化信息提取方法、装置、电子设备及存储介质

[0001]本专利技术涉及计算机
，尤其涉及一种网页结构化信息提取方法、装置、电子设备及存储介质。

技术介绍

[0002]移动互联网中，基于移动终端上安装的应用程序(App，Application)与该应用程序的服务器，通常基于网页形式的数据进行交互。网页中的信息，分为结构化、半结构化和非结构化三种，其中结构化信息对人们最为有用，例如：商户网页中的地址电话信息，商品页面中的商品名称和价格，小说网页中的作者，更新时间，字数等信息。
[0003]当前对移动APP的识别方法主要包括以下两种：人工识别和DPI(深度包检测)技术。人工识别的方法，是使用数据包分析工具，获取网页结构化信息，提取APP特征，此方法识别率高，但是需要大量的人力。DPI方法基于应用层的流量检测和控制技术，获取整个应用程序的内容，此种方式能识别APP，但是无法提取APP的有效特征。
[0004]综上，现有技术存在获取网页结构化信息的效率低的不足。

技术实现思路

[0005]本专利技术提供一种网页结构化信息提取方法、装置、电子设备及存储介质，用以解决现有技术中获取网页结构化信息的效率低的缺陷，实现自动化提取网页结构化信息。
[0006]本专利技术提供一种网页结构化信息提取方法，包括：
[0007]缓存移动互联网中的数据，存储为各Kafka数据；
[0008]对每一所述Kafka数据进行http解析，获取网页中的URL数据和正文信息，根据预设的信元...

【技术保护点】

【技术特征摘要】
1.一种网页结构化信息提取方法，其特征在于，包括：缓存移动互联网中的数据，存储为各Kafka数据；对每一所述Kafka数据进行http解析，获取网页中的URL数据和正文信息，根据预设的信元规则，提取所述URL数据和正文信息中的网页结构化信息。2.根据权利要求1所述的网页结构化信息提取方法，其特征在于，所述对每一所述Kafka数据进行http解析，获取网页中的URL数据和正文信息，根据预设的信元规则，提取所述URL数据和正文信息中的网页结构化信息之后，还包括：基于预设的时间周期，对当前时间周期内提取出的网页结构化信息进行统计。3.根据权利要求1所述的网页结构化信息提取方法，其特征在于，所述根据预设的信元规则，提取所述URL数据和正文信息中的网页结构化信息的具体步骤包括：若根据垃圾数据规则判断获知所述URL数据和正文信息不为垃圾数据，则根据预设的信元规则，提取所述URL数据中的网页结构化信息和所述正文信息中的网页结构化信息。4.根据权利要求3所述的网页结构化信息提取方法，其特征在于，根据预设的信元规则，提取所述URL数据中的网页结构化信息的具体步骤包括：若判断获知所述URL数据为标准结构，则根据预设的URL信元规则提取所述URL数据中的信元，作为所述URL数据中的网页结构化信息。5.根据权利要求3所述的网页结构化信息提取方法，其特征在于，根据预设的...

【专利技术属性】
技术研发人员：严雄伟，
申请(专利权)人：武汉虹旭信息技术有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人