The present invention discloses a web page content extraction method and device. The web content extraction method includes: extraction for parsing web pages to define the extracted Hypertext Markup Language HTML tag page contains HTML tags; from extracted HTML feature extraction for web pages; the picture page recognition model HTML features extracted by the introduction of pre training; and in response to the web to determine extraction the picture \, to extract the extract pages of pictures and images with the corresponding HTML label. The embodiment can type to be based on the extraction of web pages (such as picture type and non picture type), to adopt different strategies to extract web content, the accuracy, the content extraction of web pages in a comprehensive upgrade.
【技术实现步骤摘要】
网页内容提取方法和装置
本申请涉及计算机
,具体涉及互联网
,尤其涉及网页内容提取方法和装置。
技术介绍
对于Web数据挖掘来说,网页的正文内容提取通常作为数据挖掘前期的基础步骤。能不能高效准确地提取出网页正文内容,并很容易地推广至各个网站,决定了后续数据挖掘的效果。现有技术中,通常仅采用单一的提取算法来对网页正文内容进行提取。由于网站子页面多而且形式较为多样,网站主体可能是文字,也可能是图片甚至图文混杂,内部的网站标签也多种多样;此外,网站中既存在大量不需要提取内容的部分如首页导航页、列表页等,又存在需要提取素材的内容页。如果不加分辨地采用单一算法进行提取,很容易提取到过多噪声,无法满足网页正文内容提取的准确性和全面性两方面的要求。
技术实现思路
本申请的目的在于提出一种改进的网页内容提取方法和装置,来解决以上
技术介绍
部分提到的技术问题。第一方面,本申请提供了一种网页内容提取方法,包括:解析待提取网页以确定待提取网页包含的超文本标记语言html标签;从html标签中提取出待提取网页的html特征;将所提取出的html特征导入预先训练的图片网页识别模型;以及响应于确定待提取网页为图片网页,提取待提取网页中的图片和与图片对应的html标签。在一些实施例中,方法还包括:响应于确定待提取网页为非图片网页,将所提取出的html特征导入预先训练的素材网页识别模型;响应于确定待提取网页为素材网页,提取待提取网页中的图片和文本。在一些实施例中,从html标签中提取出待提取网页的html特征,包括:从html标签中筛选出与待提取网页的正文相对应的html正文标签; ...
【技术保护点】
一种网页内容提取方法,其特征在于,包括:解析待提取网页以确定所述待提取网页包含的html标签;从所述html标签中提取出所述待提取网页的html特征;将所提取出的html特征导入预先训练的图片网页识别模型;以及响应于确定所述待提取网页为图片网页,提取所述待提取网页中的图片和与所述图片对应的html标签。
【技术特征摘要】
1.一种网页内容提取方法,其特征在于,包括:解析待提取网页以确定所述待提取网页包含的html标签;从所述html标签中提取出所述待提取网页的html特征;将所提取出的html特征导入预先训练的图片网页识别模型;以及响应于确定所述待提取网页为图片网页,提取所述待提取网页中的图片和与所述图片对应的html标签。2.根据权利要求1所述方法,其特征在于,还包括:响应于确定所述待提取网页为非图片网页,将所提取出的html特征导入预先训练的素材网页识别模型;响应于确定所述待提取网页为素材网页,提取所述待提取网页中的图片和文本。3.根据权利要求1所述的方法,其特征在于,所述从所述html标签中提取出所述待提取网页的html特征,包括:从所述html标签中筛选出与所述待提取网页的正文相对应的html正文标签;遍历所述待提取网页的各所述html正文标签以确定所述待提取网页的html特征。4.根据权利要求3所述的方法,其特征在于,所述html特征包括以下至少一者:类别为图片标签的html正文标签占所述待提取网页的html正文标签的比例;类别为超链接标签的html正文标签占所述待提取网页的html正文标签的比例;类别为表单标签的html正文标签占所述待提取网页的html正文标签的比例;所述待提取网页的各所述html正文标签的文本密度,所述文本密度为该html正文标签所包含的文本长度与所述待提取网页的各所述html正文标签所包含的文本长度之和的比例;以及所述待提取网页的各所述html正文标签的文本密度的统计特征。5.根据权利要求1-4任意一项所述的方法,其特征在于,在所述解析待提取网页以确定所述待提取网页包含的第一html标签之前,所述方法还包括:响应于接收到网页的统一资源定位符URL,解析与所述网页隶属于同一网站的各网页作为待提取网页。6.一种网页内容提取装置,其特征在于,包括:解析模块,配置用于解析待提取网页以确定所述待提取网页包含的html标签;特征提取模块,配置用于从所述html标签中提取出所述待提取网页的html特征;图片网页识别模块,配置用于将所...
【专利技术属性】
技术研发人员:余婷婷,胡飞,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。