网页的特定内容提取方法、装置、设备和存储介质制造方法及图纸

技术编号:32023520 阅读:58 留言:0更新日期:2022-01-22 18:47
本发明专利技术实施例公开了网页的特定内容提取方法、装置、设备和存储介质。该方法包括:获取基于HTTP协议的网页;对网页,按照设定数据格式进行解析,以提取待识别内容;基于内容规则库中的数据标识,与待处理标识进行匹配,以确定匹配的待处理标识;基于内容规则库中的内容特征规则,对待处理内容进行匹配,以确定满足内容特征规则的待处理内容;根据待处理标识在内容规则库中对应的设定标识权重值,以及根据待处理内容在内容规则库中对应的设定特征权重值,计算待识别内容的结果可信度;将结果可信度满足设定内容条件的待识别内容提取为特定内容。极大地减少了人工成本,保证了对海量数据进行处理的可行性和准确性。数据进行处理的可行性和准确性。数据进行处理的可行性和准确性。

【技术实现步骤摘要】
网页的特定内容提取方法、装置、设备和存储介质


[0001]本专利技术实施例涉及数据挖掘技术,尤其涉及网页的特定内容提取方法、装置、设备和存储介质。

技术介绍

[0002]近年来,数据挖掘引起了信息产业界的极大关注,数据挖掘是指从大量数据中提取或挖掘知识的过程。超文本传输协议(Hypertext transfer protocol,HTTP)协议作为万维网的数据通信的基础的协议,承载了海量的信息,如何在HTTP协议数据中准确提取特定内容,成为了数据挖掘方面一个不可或缺的工作。
[0003]在以往的数据挖掘过程中,需要单独针对特定的网站进行人工数据分析,对应HTTP应用层协议进行深度的结构化解析,找出HTTP协议交互过程中特定的内容是如何携带的。
[0004]传统技术方法一般采用正则表达式或者模板方式提取,但是其存在的明细缺陷。首先,传统方法需要耗费大量的人力和时间成本,并且一旦网站进行了少量改动,都会对之前的分析结果造成影响。其次,传统技术方案只能解决小批量数据提取,针对海量HTTP数据的场景下准确率和召回率都比较低。因此采用人工逐个的分析方法已经无法满足业务发展需求的问题。导致大量的数据没有及时的转化为信息与知识库;

技术实现思路

[0005]本专利技术实施例提供一种网页的特定内容提取方法,以实现在海量HTTP协议网页数据中智能、快速的提取特定内容。
[0006]第一方面,本专利技术实施例提供了一种网页的特定内容提取方法,包括:
[0007]获取基于HTTP协议的网页;
[0008]对所述网页,按照设定数据格式进行解析,以提取待识别内容;其中,待识别内容包括待处理标识和待处理内容;
[0009]基于内容规则库中的数据标识,与所述待处理标识进行匹配,以确定匹配的待处理标识;
[0010]基于内容规则库中的内容特征规则,对所述待处理内容进行匹配,以确定满足内容特征规则的待处理内容;
[0011]根据所述待处理标识在所述内容规则库中对应的设定标识权重值,以及根据所述待处理内容在所述内容规则库中对应的设定特征权重值,计算所述待识别内容的结果可信度;
[0012]将所述结果可信度满足设定内容条件的待识别内容提取为特定内容。
[0013]第二方面,本专利技术实施例还提供了一种网页的特定内容提取装置,包括:
[0014]网页获取模块:用于获取基于HTTP协议的网页;
[0015]内容解析模块:用于对所述网页,按照设定数据格式进行解析,以提取待识别内
容;其中,待识别内容包括待处理标识和待处理内容;
[0016]内容匹配模块:用于基于内容规则库中的内容特征规则,对所述待处理内容进行匹配,以确定满足内容特征规则的待处理内容;
[0017]可信度计算模块:用于根据所述待处理标识在所述内容规则库中对应的设定标识权重值,以及根据所述待处理内容在所述内容规则库中对应的设定特征权重值,计算所述待识别内容的结果可信度;
[0018]内容提取模块:用于将所述结果可信度满足设定内容条件的待识别内容提取为特定内容。
[0019]第三方面,本专利技术实施例还提供了一种计算机设备,所述计算机设备包括:
[0020]一个或多个处理器;
[0021]存储器,用于存储一个或多个程序;
[0022]当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面中任一所述网页特定内容提取的方法。
[0023]第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面中任一所述网页特定内容提取方法。
[0024]本专利技术实施例通过获取基于HTTP协议的网页;对所述网页,按照设定数据格式进行解析,以提取待识别内容;其中,待识别内容包括待处理标识和待处理内容;基于内容规则库中的数据标识,与所述待处理标识进行匹配,以确定匹配的待处理标识;基于内容规则库中的内容特征规则,对所述待处理内容进行匹配,以确定满足内容特征规则的待处理内容;根据所述待处理标识在所述内容规则库中对应的设定标识权重值,以及根据所述待处理内容在所述内容规则库中对应的设定特征权重值,计算所述待识别内容的结果可信度;将所述结果可信度满足设定内容条件的待识别内容提取为特定内容,解决因互联网应用爆发式增长,采用人工逐个的分析方法已经无法满足业务发展需求而导致大量的数据没有及时的转化为信息与知识库的问题,实现针对网页进行智能化、快速提取特定内容,也保证了对HTTP数据进行处理的可行性和准确性的效果。
附图说明
[0025]图1是本专利技术实施例一提供的一种网页的特定内容提取方法的流程图;
[0026]图2为本专利技术实施例二提供的一种网页的特定内容提取装置的结构示意图;
[0027]图3为本专利技术实施例三提供的一种计算机设备的结构示意图。
具体实施方式
[0028]下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。
[0029]实施例一
[0030]图1为本专利技术实施例一提供的网页的特定内容提取的流程图,本实施例可适用于在海量网页中提取特定内容的情况,该方法可以由网页的特定内容提取装置来执行,该页面的处理装置可以由软件和/或硬件实现,可配置在计算机设备中,例如,个人电脑、笔记本
电脑,等等,该方法具体包括如下步骤:
[0031]S110、获取基于HTTP协议的网页;
[0032]在计算机设备中,操作系统包括Android(安卓)、iOS、windows等,在该操作系统中可以安装、运行可加载网页的应用,例如,浏览器、即时通讯工具、搜索应用等。
[0033]以浏览器为例,浏览器从架构上可以分为两个部分,即内核和外壳。浏览器内核是指浏览器的核心部分,可以分成两部分:渲染引擎(layout engineer或者Rendering Engine)和JS(JavaScript)引擎。渲染引擎主要负责取得网页的内容(包括HTML(HyperText Markup Language,超文本标记语言)、XML(eXtensible Markup Language,可扩展标记语言)、图像等)、整理信息(如加入CSS(Cascading Style Sheets,层叠样式表单)等),以及计算页面的显示方式,然后会输出至显示器或打印机。浏览器内核的不同对于网页的语法解释会有不同,所以渲染的效果也不相同。所有网页浏览器、电子邮件客户端以及其它需要编辑、显示网络内容的应用程序都需要内核。JS引擎则是解析Javascript语言,执行Javascript语言来实现网页的动态效果。
[0034]浏览器内核的种类有很多,目前比较常见的浏览器内核有IE浏览器使用的Trident内核,Firefox浏览本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网页的特定内容提取方法,其特征在于,包括:获取基于HTTP协议的网页;对所述网页,按照设定数据格式进行解析,以提取待识别内容;其中,待识别内容包括待处理标识和待处理内容;基于内容规则库中的数据标识,与所述待处理标识进行匹配,以确定匹配的待处理标识;基于内容规则库中的内容特征规则,对所述待处理内容进行匹配,以确定满足内容特征规则的待处理内容;根据所述待处理标识在所述内容规则库中对应的设定标识权重值,以及根据所述待处理内容在所述内容规则库中对应的设定特征权重值,计算所述待识别内容的结果可信度;将所述结果可信度满足设定内容条件的待识别内容提取为特定内容。2.根据权利要求1所述的方法,其特征在于,提取待识别内容之后,还包括:将所述待识别内容中的待处理标识存储至数据键值对的键域,将所述待识别内容中的待处理内容存储至所述数据键值对的值域。3.根据权利要求1所述的方法,其特征在于,所述设定数据格式包括下述至少一项:json、XML可扩展标记语言、key

value分布式存储数据库格式、multipart/form

data请求文件上传格式和yaml数据串行化格式。4.根据权利要求1所述的方法,其特征在于,对所述网页,按照设定数据格式进行解析,以提取待识别内容包括:对所述网页进行解析,以获取所述HTTP协议网页中,属于头标签和体标签中的内容;对获取的内容按照设定数据格式进行解析,以提取待识别内容。5.根据权利要求1所述的方法,其特征在于,所述内容特征规则包括下述至少一种:正则表达式、多模匹配条件、哈希特征和流量特征。6.根据权利要求1所述的方法,其特征在于,根据所述待处理标识在所述内容规则库中对应的设定标识权重值,以及根据所述待处理内容在所述内容规则库中对应的设定特征权重值,计算所述待识别内容的结果可信度包括:采用如下公式计算结果可信度:结果可信度=1

(1

W
k
)*(1

W
v
)其中,W
k
为所述待处理标识在...

【专利技术属性】
技术研发人员:陈富群谢永恒万月亮
申请(专利权)人:北京锐安科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1