网页结构化信息提取方法、装置、电子设备及存储介质制造方法及图纸

技术编号:27193592 阅读:18 留言:0更新日期:2021-01-31 11:41
本发明专利技术提供一种网页结构化信息提取方法、装置、电子设备及存储介质,其中,该方法包括:缓存移动互联网中的数据,存储为各Kafka数据;对每一Kafka数据进行http解析,获取网页中的URL和正文信息,根据预设的信元规则,提取URL和正文信息中的网页结构化信息。本发明专利技术提供的网页结构化信息提取方法、装置、电子设备及存储介质,通过对移动互联网中的数据进行解析,获取网页中的URL数据和正文信息,根据预设的信元规则,提取URL数据和正文信息中的网页结构化信息,能提高网页结构化信息的提取效率,能更有效地提取移动互联网网页中的结构化信息。息。息。

【技术实现步骤摘要】
网页结构化信息提取方法、装置、电子设备及存储介质


[0001]本专利技术涉及计算机
,尤其涉及一种网页结构化信息提取方法、装置、电子设备及存储介质。

技术介绍

[0002]移动互联网中,基于移动终端上安装的应用程序(App,Application)与该应用程序的服务器,通常基于网页形式的数据进行交互。网页中的信息,分为结构化、半结构化和非结构化三种,其中结构化信息对人们最为有用,例如:商户网页中的地址电话信息,商品页面中的商品名称和价格,小说网页中的作者,更新时间,字数等信息。
[0003]当前对移动APP的识别方法主要包括以下两种:人工识别和DPI(深度包检测)技术。人工识别的方法,是使用数据包分析工具,获取网页结构化信息,提取APP特征,此方法识别率高,但是需要大量的人力。DPI方法基于应用层的流量检测和控制技术,获取整个应用程序的内容,此种方式能识别APP,但是无法提取APP的有效特征。
[0004]综上,现有技术存在获取网页结构化信息的效率低的不足。

技术实现思路

[0005]本专利技术提供一种网页结构化信息提取方法、装置、电子设备及存储介质,用以解决现有技术中获取网页结构化信息的效率低的缺陷,实现自动化提取网页结构化信息。
[0006]本专利技术提供一种网页结构化信息提取方法,包括:
[0007]缓存移动互联网中的数据,存储为各Kafka数据;
[0008]对每一所述Kafka数据进行http解析,获取网页中的URL数据和正文信息,根据预设的信元规则,提取所述URL数据和正文信息中的网页结构化信息。
[0009]根据本专利技术提供的一种网页结构化信息提取方法,所述对每一所述Kafka数据进行http解析,获取网页中的URL数据和正文信息,根据预设的信元规则,提取所述URL数据和正文信息中的网页结构化信息之后,还包括:
[0010]基于预设的时间周期,对当前时间周期内提取出的网页结构化信息进行统计。
[0011]根据本专利技术提供的一种网页结构化信息提取方法,所述根据预设的信元规则,提取所述URL数据和正文信息中的网页结构化信息的具体步骤包括:
[0012]若根据垃圾数据规则判断获知所述URL数据和正文信息不为垃圾数据,则根据预设的信元规则,提取所述URL数据中的网页结构化信息和所述正文信息中的网页结构化信息。
[0013]根据本专利技术提供的一种网页结构化信息提取方法,根据预设的信元规则,提取所述URL数据中的网页结构化信息的具体步骤包括:
[0014]若判断获知所述URL数据为标准结构,则根据预设的URL信元规则提取所述URL数据中的信元,作为所述URL数据中的网页结构化信息。
[0015]根据本专利技术提供的一种网页结构化信息提取方法,根据预设的信元规则,提取所
述正文信息中的网页结构化信息的具体步骤包括:
[0016]若判断获知所述正文信息为标准结构,则根据预设的http正文信元规则提取所述正文信息中的信元,作为所述正文信息中的网页结构化信息。
[0017]根据本专利技术提供的一种网页结构化信息提取方法,所述基于预设的时间周期,对当前时间周期内提取出的网页结构化信息进行统计之后,还包括:
[0018]对当前时间周期内提取出的网页结构化信息进行去重。
[0019]根据本专利技术提供的一种网页结构化信息提取方法,所述对当前时间周期内提取出的网页结构化信息进行去重,还包括:
[0020]对已提取出的网页结构化信息进行去重。
[0021]本专利技术还提供一种网页结构化信息提取装置,包括:
[0022]Kafka模块,用于缓存移动互联网中的数据,存储为各Kafka数据;
[0023]信元提取模块,用于对每一所述Kafka数据进行http解析,获取网页中的URL和正文信息,根据预设的信元规则,提取所述URL和正文信息中的网页结构化信息。
[0024]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述网页结构化信息提取方法的步骤。
[0025]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述网页结构化信息提取方法的步骤。
[0026]本专利技术提供的网页结构化信息提取方法、装置、电子设备及存储介质,通过对移动互联网中的数据进行解析,获取网页中的URL数据和正文信息,根据预设的信元规则,提取URL数据和正文信息中的网页结构化信息,能提高网页结构化信息的提取效率,能更有效地提取移动互联网网页中的结构化信息。进一步地,通过解析规则的Kafka消息文本,能够提取网页中绝大多数文本中的结构化数据,从而能获取更多的有效特征,能更准确地识别移动APP。
附图说明
[0027]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0028]图1是本专利技术提供的一种网页结构化信息提取方法的流程示意图;
[0029]图2是本专利技术提供的一种网页结构化信息提取方法中信元处理步骤的流程示意图;
[0030]图3是本专利技术提供的一种网页结构化信息提取方法中统计分析步骤的流程示意图;
[0031]图4是本专利技术提供的一种网页结构化信息提取装置的结构示意图;
[0032]图5是本专利技术提供的一种网页结构化信息提取装置的结构示意图;
[0033]图6是本专利技术提供的一种电子设备的结构示意图。
具体实施方式
[0034]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0035]在本专利技术实施例的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术实施例和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术实施例的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
[0036]为了克服现有技术的上述问题,本专利技术实施例提供一种网页结构化信息提取方法、装置、电子设备及存储介质,其专利技术构思是,通过解析规则的消息文本,能够提取绝大多数文本中的结构化数据,从而获取更多的有效特征,通过自动化的提取,提取的效率更高,可以大大减少人力本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网页结构化信息提取方法,其特征在于,包括:缓存移动互联网中的数据,存储为各Kafka数据;对每一所述Kafka数据进行http解析,获取网页中的URL数据和正文信息,根据预设的信元规则,提取所述URL数据和正文信息中的网页结构化信息。2.根据权利要求1所述的网页结构化信息提取方法,其特征在于,所述对每一所述Kafka数据进行http解析,获取网页中的URL数据和正文信息,根据预设的信元规则,提取所述URL数据和正文信息中的网页结构化信息之后,还包括:基于预设的时间周期,对当前时间周期内提取出的网页结构化信息进行统计。3.根据权利要求1所述的网页结构化信息提取方法,其特征在于,所述根据预设的信元规则,提取所述URL数据和正文信息中的网页结构化信息的具体步骤包括:若根据垃圾数据规则判断获知所述URL数据和正文信息不为垃圾数据,则根据预设的信元规则,提取所述URL数据中的网页结构化信息和所述正文信息中的网页结构化信息。4.根据权利要求3所述的网页结构化信息提取方法,其特征在于,根据预设的信元规则,提取所述URL数据中的网页结构化信息的具体步骤包括:若判断获知所述URL数据为标准结构,则根据预设的URL信元规则提取所述URL数据中的信元,作为所述URL数据中的网页结构化信息。5.根据权利要求3所述的网页结构化信息提取方法,其特征在于,根据预设的...

【专利技术属性】
技术研发人员:严雄伟
申请(专利权)人:武汉虹旭信息技术有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1