网页内容提取方法和装置制造方法及图纸

技术编号:16188293 阅读:34 留言:0更新日期:2017-09-12 11:28
本申请公开了网页内容提取方法和装置。所述的网页内容提取方法包括:解析待提取网页以确定待提取网页包含的超文本标记语言html标签;从html标签中提取出待提取网页的html特征;将所提取出的html特征导入预先训练的图片网页识别模型;以及响应于确定待提取网页为图片网页,提取待提取网页中的图片和与图片对应的html标签。该实施方式可以基于待提取网页的类型(例如图片类型和非图片类型),来采用不同的策略提取网页内容,实现了网页内容提取的准确性、全面性的提升。

Web page content extracting method and device

The present invention discloses a web page content extraction method and device. The web content extraction method includes: extraction for parsing web pages to define the extracted Hypertext Markup Language HTML tag page contains HTML tags; from extracted HTML feature extraction for web pages; the picture page recognition model HTML features extracted by the introduction of pre training; and in response to the web to determine extraction the picture \, to extract the extract pages of pictures and images with the corresponding HTML label. The embodiment can type to be based on the extraction of web pages (such as picture type and non picture type), to adopt different strategies to extract web content, the accuracy, the content extraction of web pages in a comprehensive upgrade.

【技术实现步骤摘要】
网页内容提取方法和装置
本申请涉及计算机
,具体涉及互联网
,尤其涉及网页内容提取方法和装置。
技术介绍
对于Web数据挖掘来说,网页的正文内容提取通常作为数据挖掘前期的基础步骤。能不能高效准确地提取出网页正文内容,并很容易地推广至各个网站,决定了后续数据挖掘的效果。现有技术中,通常仅采用单一的提取算法来对网页正文内容进行提取。由于网站子页面多而且形式较为多样,网站主体可能是文字,也可能是图片甚至图文混杂,内部的网站标签也多种多样;此外,网站中既存在大量不需要提取内容的部分如首页导航页、列表页等,又存在需要提取素材的内容页。如果不加分辨地采用单一算法进行提取,很容易提取到过多噪声,无法满足网页正文内容提取的准确性和全面性两方面的要求。
技术实现思路
本申请的目的在于提出一种改进的网页内容提取方法和装置,来解决以上
技术介绍
部分提到的技术问题。第一方面,本申请提供了一种网页内容提取方法,包括:解析待提取网页以确定待提取网页包含的超文本标记语言html标签;从html标签中提取出待提取网页的html特征;将所提取出的html特征导入预先训练的图片网页识别模型;以及响应于确定待提取网页为图片网页,提取待提取网页中的图片和与图片对应的html标签。在一些实施例中,方法还包括:响应于确定待提取网页为非图片网页,将所提取出的html特征导入预先训练的素材网页识别模型;响应于确定待提取网页为素材网页,提取待提取网页中的图片和文本。在一些实施例中,从html标签中提取出待提取网页的html特征,包括:从html标签中筛选出与待提取网页的正文相对应的html正文标签;遍历待提取网页的各html正文标签以确定待提取网页的html特征。在一些实施例中,html特征包括以下至少一者:类别为图片标签的html正文标签占待提取网页的html正文标签的比例;类别为超链接标签的html正文标签占待提取网页的html正文标签的比例;类别为表单标签的html正文标签占待提取网页的html正文标签的比例;待提取网页的各html正文标签的文本密度,文本密度为该html正文标签所包含的文本长度与待提取网页的各html正文标签所包含的文本长度之和的比例;以及待提取网页的各html正文标签的文本密度的统计特征。在一些实施例中,在解析待提取网页以确定待提取网页包含的第一超文本标记语言html标签之前,方法还包括:响应于接收到网页的统一资源定位符URL,解析与网页隶属于同一网站的各网页作为待提取网页。第二方面,本申请提供了一种网页内容提取装置,包括:解析模块,配置用于解析待提取网页以确定待提取网页包含的超文本标记语言html标签;特征提取模块,配置用于从html标签中提取出待提取网页的html特征;图片网页识别模块,配置用于将所提取出的html特征导入预先训练的图片网页识别模型;以及图片内容特征提取模块,配置用于响应于确定待提取网页为图片网页,提取待提取网页中的图片和与图片对应的html标签。在一些实施例中,装置还包括:素材网页识别模块,配置用于响应于确定待提取网页为非图片网页,将所提取出的html特征导入预先训练的素材网页识别模型;素材内容特征提取模块,配置用于响应于确定待提取网页为素材网页,提取待提取网页中的图片和文本。在一些实施例中,特征提取模块进一步配置用于:从html标签中筛选出与待提取网页的正文相对应的html正文标签;以及遍历待提取网页的各html正文标签以确定待提取网页的html特征。在一些实施例中,html特征包括以下至少一者:类别为图片标签的html正文标签占待提取网页的html正文标签的比例;类别为超链接标签的html正文标签占待提取网页的html正文标签的比例;类别为表单标签的html正文标签占待提取网页的html正文标签的比例;待提取网页的各html正文标签的文本密度,文本密度为该html正文标签所包含的文本长度与待提取网页的各html正文标签所包含的文本长度之和的比例;以及待提取网页的各html正文标签的文本密度的统计特征。在一些实施例中,解析模块在解析待提取网页以确定待提取网页包含的第一超文本标记语言html标签之前,还配置用于:响应于接收到网页的统一资源定位符URL,解析与网页隶属于同一网站的各网页作为待提取网页。第三方面,本申请提供了一种电子设备,包括一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上的网页内容提取方法。第四方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上的网页内容提取方法。本申请提供的技术方案,通过解析待提取网页,确定其包含的html标签,再从html标签中提取html特征,基于html特征确定待提取网页是否为图片网页,若待提取网页为图片网页,则提取该待提取网页中的图片。从而可以基于待提取网页的类型(例如图片类型和非图片类型),来采用不同的策略提取网页内容,实现了网页内容提取的准确性、全面性的提升。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1是本申请可以应用于其中的示例性系统架构图;图2是根据本申请的网页内容提取方法的一个实施例的示意性流程图;图3是根据本申请的网页内容提取方法的另一个实施例的示意性流程图;图4是本申请各实施例的网页内容提取方法中,从html标签中提取出所提取网页的html特征的分解流程图;图5是根据本申请的网页内容提取方法的一个应用场景的示意图;图6是根据本申请的网页内容提取装置的一个实施例的结构示意图;图7是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。图1示出了可以应用本申请的网页内容提取方法或网页内容提取装置的实施例的示例性系统架构100。如图1所示,系统架构100可以包括第一服务器101、多个网站服务器102以及网络103。网络103用以在第一服务器101和各网站服务器102之间提供通信链路的介质。网络103可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。用户可以使用第一服务器101通过网络103与各网站服务器102交互,以接收或发送消息等。第一服务器101上可以安装有各种通讯应用,例如网页浏览器应用、网络爬取应用等。第一服务器101可以是提供各种服务的服务器,例如对网站服务器102提供的网页进行网页内容提取的数据挖掘服务器。数据挖掘服务器可以对爬取得到的网页页面数据进行分析等处理,从而提取出网页的正文内容。需要说明的是,本申请实施例所提供的网页内容提取方法一般由第一服务器101执行,相应地,网页内容提取装置一般设置于第一服务器101中。应该理解,图1中的第一服务器101、网络103和网站服务器102的本文档来自技高网...
网页内容提取方法和装置

【技术保护点】
一种网页内容提取方法,其特征在于,包括:解析待提取网页以确定所述待提取网页包含的html标签;从所述html标签中提取出所述待提取网页的html特征;将所提取出的html特征导入预先训练的图片网页识别模型;以及响应于确定所述待提取网页为图片网页,提取所述待提取网页中的图片和与所述图片对应的html标签。

【技术特征摘要】
1.一种网页内容提取方法,其特征在于,包括:解析待提取网页以确定所述待提取网页包含的html标签;从所述html标签中提取出所述待提取网页的html特征;将所提取出的html特征导入预先训练的图片网页识别模型;以及响应于确定所述待提取网页为图片网页,提取所述待提取网页中的图片和与所述图片对应的html标签。2.根据权利要求1所述方法,其特征在于,还包括:响应于确定所述待提取网页为非图片网页,将所提取出的html特征导入预先训练的素材网页识别模型;响应于确定所述待提取网页为素材网页,提取所述待提取网页中的图片和文本。3.根据权利要求1所述的方法,其特征在于,所述从所述html标签中提取出所述待提取网页的html特征,包括:从所述html标签中筛选出与所述待提取网页的正文相对应的html正文标签;遍历所述待提取网页的各所述html正文标签以确定所述待提取网页的html特征。4.根据权利要求3所述的方法,其特征在于,所述html特征包括以下至少一者:类别为图片标签的html正文标签占所述待提取网页的html正文标签的比例;类别为超链接标签的html正文标签占所述待提取网页的html正文标签的比例;类别为表单标签的html正文标签占所述待提取网页的html正文标签的比例;所述待提取网页的各所述html正文标签的文本密度,所述文本密度为该html正文标签所包含的文本长度与所述待提取网页的各所述html正文标签所包含的文本长度之和的比例;以及所述待提取网页的各所述html正文标签的文本密度的统计特征。5.根据权利要求1-4任意一项所述的方法,其特征在于,在所述解析待提取网页以确定所述待提取网页包含的第一html标签之前,所述方法还包括:响应于接收到网页的统一资源定位符URL,解析与所述网页隶属于同一网站的各网页作为待提取网页。6.一种网页内容提取装置,其特征在于,包括:解析模块,配置用于解析待提取网页以确定所述待提取网页包含的html标签;特征提取模块,配置用于从所述html标签中提取出所述待提取网页的html特征;图片网页识别模块,配置用于将所...

【专利技术属性】
技术研发人员:余婷婷胡飞
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1